返回
朗读
暂停
+书签

视觉:
关灯
护眼
字体:
声音:
男声
女声
金风
玉露
学生
大叔
司仪
学者
素人
女主播
评书
语速:
1x
2x
3x
4x
5x

上一页 书架管理 下一页
5、咱们能不能聊聊弦外之音
于过度焦虑,作演示的研究生声音绷得紧紧的,系统也就完全失灵。

    几年以后,另外一个学生想到一个绝妙的主意:找出用户说话时会在什么地方停顿,并且设走电脑程序,让电脑在适当的时候发出“啊哈”的声音;这样,当一个人和机器说话的时候,机器每隔一会几就会发出“啊哈——”、“啊——哈”或“啊哈”。这些声音产生了极大的安抚效果(就好像机器在鼓励使用者继续对话),使用者变得比较放松,而系统的表现也突飞猛进。

    这个观念体现了两点重要的意义:第一,并非所有的发音都需要有字面上的意义,在沟通中才有价值;第二,有些声音纯粹只是对话中的礼仪。当你接电话的时候,没有以适当的间隔对来话人说“嗯”,来话人会变得很紧张,而且最终会探问:“喂,你在听吗?”“啊哈”或“嗯”的意思不是“是”、“否”或“也许”它基本上是在传达一个比特的信息:“我在这里”。并行的表达想象一下这样的情景:你和一群人围坐在一张桌子旁,同桌的人除了你以外都说法语。你只在中学粗粗修过一年蹩脚的法语、突然有个人转过头来对你说:“还要来点几酒吗?”你完全听懂了。接着,这个人把话锋一转,谈起法国的政治来了。除非你能说流利的法语,否则就跟听外星人讲话一样(而且即便你法文流利,也不一定能懂)。

    你可能会想:“还要来点儿酒吗?”是小孩都听得懂的简单法文,而政治就需要更精深的语言技巧了。不错,但这并不是两段对话的重要区别所在。

    当有人间你要不要添一点酒的时候,他可能正伸长了手臂去拿酒瓶,眼睛也正注视着你的空酒杯。也就是说,你正在解码的信息并不只是声音而已,而是并行而累赘的多重信息。而且,所有的主体和客体都处于同一时空。这种种条件同时作用的结果才使你能听懂他的意思。

    我要重申,累赘是件好事。并行信道(手势、眼神和谈话)的使用是人类沟通的核心。人类自然而然地倾向于使用并行的表达方式。假如你只会讲一点点意大利语,和意大利人通电话将会非常辛苦。但当你住进一家意大利旅馆,发现房间里没有香皂时,你不会拿起电话,而会直接下楼,走到前台值班员那里,拿出你在语言速成学校学会的所有看家本领,让他拿香皂给你,你甚至一边说一边还会做几个洗澡的动作。

    身在异地时,我们会用尽一切办法,来传达我们的意图,并且解读所有相关信号,力求索解出哪怕一丁点意思。电脑正是身处这样的异地——人类的土地上。让电脑开口要电脑说话,有两种方式:重放先前录下的声音,或合成字母、音节或(最可能的是)音素的声音。两种方式各有利弊。让电脑说话和音乐的制作一样,你可以把声音存储下来(就像CD一样),然后重播,也可以采用合成的方式,根据曲调,重制音乐(就像音乐家一样)。

    重述先前存储的说话内容,也就回到了听起来最“自然”的口、耳沟通方式,尤其是当我们存储的是一个完整的讯息时,就更显得如此。由于这个原因,大多数的电话留言都是以这种方式录制的。当你试图把录好的片段声音或个别单字拼凑起来的时候,结果就比较不如人意了,因为整体的韵律不见了。

    过去,人们不大愿意用预录的谈话来作人机界面,因为这样会消耗电脑大多的存储容量。今天,它已经不太成问题了。

    真正的问题也正是最明显的问题。你必须提前把话录下来,才能运用预录的谈话。

    假如你期望电脑说话的时候,不要把名字弄错,那么你就得先把那些名字存储起来。存储好的声音不能适用于随机的讲话。由于这个原因,人们使用了第二种方式——合成。

    语音合成器会根据一些规则,把一串文字的内容逐字念出来(就跟你念这句话时没什么两
上一页 书架管理 下一页

首页 >数字化生存简介 >数字化生存目录 > 5、咱们能不能聊聊弦外之音