脑机接口技术在语音合成中的应用与发展趋势
我们知道,言语是人与人之间交流的主要途径。但是有些人由于神经退行性疾病、中风和脑损伤而丧失了说话的能力。在这种情况下,尽管他们的大脑语言中枢仍然完好无损,但患者无法交流。幸运的是,神经科学家已经提出了合成语音算法,通过大脑活动来控制虚拟声道的解剖细节计算机模拟,包括嘴唇、下巴、舌头和喉部的运动,帮助人们生成听起来自然的语音。
语音合成已经成为脑机接口(BCI)的一个令人兴奋的新领域。将计算机或其他设备对人类语音的人工模拟从基本任务(如将文本信息转换为音频信息、音乐生成、支持语音的服务、导航系统和视力受损者的可访问性)提升到另一个层次,研究人员预测,丧失了说话能力的人由于脊髓损伤、闭锁综合征、肌萎缩侧索硬化症或其他瘫痪状态,他们的声音很可能会恢复。
新的研究集中在解码大脑中的电活动,借助嵌入大脑皮层的声音表现来合成语音,目的是汇集神经科学、语言学和机器学习的专业知识,帮助因瘫痪和其他形式的脑损伤而丧失说话能力的神经残疾患者。与瘫痪肢体的人可以用大脑控制机器人肢体类似,言语障碍的人可以使用大脑控制的人工声道再次说话。
语音合成技术的崛起
语音合成技术的迅速发展标志着过去的研究取得了重大突破,这些研究集中在利用大脑活动,让患者一次只拼写一个字母。这些设备允许严重言语障碍的人使用面部小动作和其他技术拼写单词。他们学会了一个字母一个字母地说出自己的想法,使用跟踪眼睛或面部肌肉运动的设备。虽然这些技术被证明是非常有用的,但人们发现它们在交流上非常耗时。
使用这种设备生成文本或合成语音非常困难,容易出错,而且速度非常慢,通常允许每分钟复制10个单词,而自然语音的速度是每分钟100-150个单词。
为了消除这些限制,研究人员开发了一种BMI,可以将大脑言语中心的活动转化为听起来自然的言语。一项由加州大学旧金山分校神经学家进行的研究,成功地利用了癫痫发作监测患者的数据,在他们的大脑表面直接植入邮票大小的电极阵列。这项实验标志着在快速发展的绘制大脑地图和设计解码大脑活动方法的最新努力。
脑机接口(BCI)在语音合成中的作用
脑机接口(BCI)有可能帮助言语障碍患者“说话”,成为神经言语修复的垫脚石。该设备使用虚拟声道监测用户的大脑活动,并将其转换为听起来自然的语音。虽然语音中心协调声道运动的方式是复杂的,但该系统通过控制大脑语音中心的活动,旨在创造一个人声音的合成版本。
电极监测大脑电压的轻微波动,计算机模型学习如何将其与语音关联起来。这种同步是通过连接大脑活动和复杂的声道模拟来实现的,这种模拟是建立在最近的研究的基础上的,这些研究的重点是通过大脑的语音中心对嘴唇、舌头和下巴的运动进行编码。
虚拟声道如何导致自然语音合成
人脑的语言中枢负责设计嘴唇、下巴、舌头和其他声道部件的动作,以产生流畅的语言。由于语音中心编码的是运动而不是声音,研究人员正试图在解码这些信号时做同样的工作。它们建立在语言原理的基础上,对产生这些声音所需的声道运动进行逆向工程,例如,将嘴唇压在一起,收紧声带,将舌尖移到口腔顶部,然后放松,等等。
声音的解剖学映射让科学家为每个参与者创建一个真实的虚拟声道。它由用户的大脑活动控制,由两种神经网络机器学习算法组成。其中一个是解码器,可以将语音过程中产生的大脑活动模式转换为虚拟声道的运动;另一个是合成器,可以将这些声道的运动转换为参与者声音的合成估计。
这些算法生成的近自然语音明显优于直接从参与者大脑活动解码的合成语音,而不包括对说话者声道的模拟。值得注意的是,在网络平台上进行的众包转录测试中,这种算法可以生成数百人都能理解的句子。
不同的语音合成系统
语音合成意味着语音波形的自动生成。它已经开发了几十年。2007年,波士顿大学的神经科学家弗兰克根瑟(Frank Guenther)开发了第一个脑机接口(BCI)演讲稿。该系统将电极植入一名患有闭锁综合征的男子的大脑,以窃听运动皮层的说话意图。它使用与舌头、嘴唇、喉部、下巴和脸颊的运动相对应的信号,以产生特定的音位,尽管这项研究没有超越元音。
语音合成的最新进展产生了具有很高清晰度的合成器,尽管音质和自然度仍然是具有挑战性的命题。语音合成的应用领域正在迅速扩展,为有交际困难的人增加了可能性。合成语音为语音障碍者提供了一个与无法理解手语的人交流的机会。这些人可以通过诸如哈姆雷特(哈姆雷特)这样的工具(语言和情感交流的有用的自动机器)通过声音传达情感,如快乐、悲伤、紧迫感或友好。
大多数新的语音合成方法都涉及到深度学习。WaveNet是一种神经网络,用于产生与人声非常相似的音频。该模型被输入语音样本以帮助预测下一个语音样本。该模型在多峰值语音生成、文本到语音和音乐音频建模方面进行了评估。用于此测试的MOS(平均意见得分)测量语音质量。
另一种语音合成模型是Tacotron,它直接从文本和音频对合成语音,这使得它非常适合新的数据集。该模型包括一个编码器、一个基于注意的解码器和一个后处理网络。Tacotron 2是一种先进的直接从文本中进行语音合成的神经网络结构,它融合了Tacotron和WaveNet的优点。
Deep Voice 1是一个使用深度神经网络开发的文本到语音系统。它通过将字形到音素的输出、音素持续时间和基频预测模型结合起来,精心合成音频。
Deep Voice 2是一种基于低维可训练说话人嵌入的多说话人神经文本语音增强方法。它从一个模型中产生不同的声音。与DeepVoice 1相比,该模型在音频质量上有了显著改进。它可以在不到半个小时的数据中为每个说话人学习数百种独特的声音。
然后有了Deep Voice 3,它引入了一个基于完全卷积注意的神经文本到语音(TTS)系统。它使用完全卷积的特征到能实现完全并行计算的谱图架构。该体系结构可以将文本特征(如字符、音素和重音)转换为不同的声码器参数。
Facebook人工智能研究开发了一种通过语音环路进行语音拟合和合成的方法。该公司的“打字思维”脑机接口(BCI)研究旨在开发一种无声语音界面,使你的文字输出速度比打字快5倍,即每分钟100字。该公司正在研究无创检测到的高质量神经信号能否准确解码成音素。在未来,它的下一步可能是将这些信号输入到一个将音素序列与单词配对的数据库中,然后使用特定语言的概率数据来预测信号最可能表示的单词(类似于自动填写Gmail)。VoiceLoop依赖于内存缓冲区而不是传统的rnn。内存在所有进程之间共享,并使用浅层、完全连接的网络进行所有计算。
展望脑机接口技术在语音合成中的未来
值得注意的是,全世界的研究人员都在忙着试验更高密度的电极阵列和更先进的机器学习算法,这些活动有望进一步改善合成语音。
目前,人们正在努力恢复严重言语障碍患者的流畅交流,同时再现人类声音的一些音乐性,这些音乐性可以表达说话者的情感和个性。
新的基于解剖的系统在解码(从大脑信号中发音)参与者大脑活动中的新句子方面具有优势,几乎与算法所训练的句子一样。在其中一个例子中,研究人员为算法提供了记录的大脑活动数据。在这个过程中,即使一个参与者只是简单地说出没有声音的句子,这个系统仍然能够在说话者的声音中生成可理解的合成仿句。
研究还发现,发声运动的神经代码在参与者之间部分重叠。此外,研究对象的声道模拟有可能对另一参与者大脑记录的神经指令作出反应。值得注意的是,这些发现表明,由于神经损伤而导致言语丧失的个体可能能够学习控制模仿语音完整的人的语音的语音假体。毫不奇怪,神经科学家正与电子工程师合作,开发一种植入物、解码器和语音合成器系统,以破译人脑信号中编码的人的预期单词,并将其转换。
自新型冠状病毒肺炎疫情爆发以来,传感器专家网一直密切关注疫情进展,根据国家及地方政府的最新调控与安排,为更好的服务相关企业,在疫情期间,传感器专家网免费发布企业相关文章,免费成为传感器专家网认证作者,请点击认证,大家同心协力,抗击疫情,为早日打赢这场防控攻坚战贡献自己的一份力量。