admin 发表于 2025-1-8 10:37:11

Vocal ID,让人工发声设备语音不在一样

让人们丧失言语能力的方式有很多,譬如口吃或失用症,运动神经元病和脑瘫,这些都影响了参与语言表达的肌肉控制能力。此外还有创伤性脑损伤、中风、诸如乔这样的手术、多发性硬化症以及自闭症等。在美国,超过200万人需要用数字化的“适应性替代通信”(AAC)方法来帮助弥补言语缺陷。残疾慈善机构2008年的一份研究报告估计,英国有1%的人使用或需要AAC。

现代的自适应替代通信往往涉及斯蒂芬·霍金( )所使用的设备类型——一种小型的电脑或平板电脑,可以播放大量的文字。在1969年发明第一台现代文本语音通讯设备之前,肌肉发达或声音障碍的人不得不使用通过吸管吸气和呼气操作的“吸吮”式打字机。到1986年,当霍金开始使用语音设备时,AAC技术有了显著的提高。他使用的程序(称为均衡器)起初允许他通过按动开关在台式计算机上选择单词或短语,然后可以通过安装在轮椅上的小型计算机来发音。

2014年上映的霍金传记片《万物理论》 (Theof )有一个鲜明的提示,即这项技术试图修正存在的缺陷。当霍金和他的第一任妻子简第一次听到霍金的新声音时,他们惊呆了。在片刻无语之后,简怯懦地提出了一个反对意见:“这是美国口音”。一时间大家都笑了,但它说明了AAC存在的一个硬伤。我们的声音是其他人了解我们的重要渠道:你的年龄,性别,国籍,家乡,性格,情绪,同时也是自己认识自己的途径。当你的发音不再是本地口音后,你是否失去了自己的一部分?

http://www.stutter.cn/data/attachment/forum/20250108/1736303831569_0.jpg

霍金的案例是用一个人的声音塑造他们身份的最具代表性例子之一。虽然他机器人般的数字化语音(和美国口音)一开始让人感觉不舒服,但它却成了他的身份特征。霍金钟情于自己的新声音,几年后,当他有机会采用一种更流畅,更有人情味和英语口语的新声音时,他拒绝了。现在感觉听闻其声,如见其人。

“霍金的声音”并不仅仅属于霍金。自问世以来,小女孩,老年人以及各种种族和背景的人也使用了同样的声音。这是依赖AAC的用户世界中的一个奇特的特征:数以百万计的人拥有的声音类型却相当有限。虽然现在比以前有更多的变化,但能够应用的只有几十种选择,其中大部分还是成年人和男性口音。

“如果你走进一个坐满语音障碍孩子的教室里,你会听到周围的声音完全一样,”帕特尔告诉我说。十年前,她在一次语言障碍会议上遇到一个小女孩和一个50多岁的男人正在使用他们的设备进行对话。他们在用同一个成年男性的声音说话。帕特尔惊恐万分,她告诉我说:“这只会让丧失言语功能的人失去尊严。”

http://www.stutter.cn/data/attachment/forum/20250108/1736303831569_1.jpg

电影评论家罗杰·艾伯特(Roger Ebert)的下巴因癌症被移除,他在2009年发表的一篇文章中描述了这种声音多么令人沮丧:“我听起来像机器人罗比。想要有口才和语调是不可能的。“他厌倦了在谈话中被忽略,“我们能把人送上月球,为什么却不能拥有自己的发声器?“

这是帕特尔已经在着手解决的问题。2007年,她开始研究一种技术,从而能够制作出更像用户发音的定制化数字声音。到2014年,该技术已经足够成熟,帕特尔和她的团队成立了世界上第一个“语音银行”。这是一个在线平台,任何有互联网连接的人都可以通过录音朗读自己的声音,建立关于声音的语音库(Voice )。相关程序是用一个故事来编写的,用来捕捉英语中所有的音素。 (早期的语音捐献者需要上传3487个句子;现在,Vocal ID的研究总监Geoff 可以开发少于1000个句子的声音,尽管更多的录音会使得人声更加自然逼真。)

每位捐献者的录音都被编入一个声音库,可以在为客户制作新的声音时使用。该公司为客户提供“”声音,这种定制化的声音能够将客户自己的声音与捐献者所提供的词汇结合在一起。这样,一个十几岁的青少年就可以用他哥哥的捐赠声音,或者是一个来自语音库的陌生人声音,从而打造出高质量的定制化发音。 (像Joe这样的客户为了某种目的而将他们的声音储存起来,Vocal ID称之为“声音遗产”:他们记录下自己的声音,等需要的时候会收到一个关于自己声音的数字文件。)

创建一个新的数字化语音通常需要两个要素:声源和过滤器。“声源”是声带,喉和喉部肌肉等器官的结合,当我们笑,叫喊或说话时,声源会发出声音。正如Vocal ID的研究副总裁Geoff 所解释的那样,你的声源就像你的指纹,”每个声源中都有独一无二的标识”。而“过滤器”则是将这些声源发出的声音塑造成不连续的,人耳可辨别的单词,其包括了舌头,嘴唇,咽等等。

Vocal ID的工作原理是从接受者那里捕捉几秒钟的元音(声源),并将其应用于捐赠者所提供的过滤器。这种组合产生的主要是“接收者”的声音。通过调整算法,可以提供“柔和”(鼻音更重)或更“权威”(低音)或“更亮”(充满高音)的声音。

当一个新的声音完成后,它会作为插件添加到其拥有者已经使用的任何语音设备中。最近,Vocal ID在自己的应用程序中添加了一个功能,允许客户自行调整他们的声音,以获得他们想要的音色和音调。系统的设计很方便,但偶尔也会出现故障。有一次,一个十几岁的客户惊慌地呼唤帕特尔,因为她更新了上的软件,失去了自己的声音。

http://www.stutter.cn/data/attachment/forum/20250108/1736303831569_2.jpg

捐赠你的声音通常需要几天时间,这和捐肾完全不同。除了笔记本电脑和互联网连接之外,没有筛选过程,也没有设备参与。去年冬天的一个慵懒日子里,我决定在床上捐献我的声音,我把笔记本电脑向前倾斜,嘴巴向内置麦克风坚持重复:“提拉米苏好极了!提拉米苏好极了!“

浏览器上显示的Vocal ID人类语音库在看起来有点像一个视频游戏:靛蓝色的背景画出了一个卡通形象站在一行文字旁边,大声朗读。一旦你满意你的发音,点击上传句子到语音库,随后会出现现一行新的文字。屏幕底部的一栏会实时跟踪您的进度。

作为捐献者,需要阅读的句子很多,人们通常会在几天或几周的时间内完成捐赠,一次只做几个小时。为了让漫长的练习变得有趣,Vocal ID会根据捐献者的兴趣选择阅读材料:诗歌,科幻小说或科幻小说。这种捐献行为触发了我们内心深处的东西:我们都是独一无二的。这个声音也许是一个独特的个人礼物——既是物质的,也是精神上的。
页: [1]
查看完整版本: Vocal ID,让人工发声设备语音不在一样