当前位置：首页 >> 技术中心 >> 传感技术 >> VALL-E：微软全新文字转语音模型可以在三秒钟内复制任何人的声音

VALL-E：微软全新文字转语音模型可以在三秒钟内复制任何人的声音

　　自从第一个文本到语音（TTS）模型发布以来，研究人员一直在寻找让计算机系统产生语音的方法，微软的最新模型VALL-E是在这方面的一个重要进步。VALL-E是一个基于转换器的TTS模型，只需听到三秒钟的声音样本就能生成任何声音的语音。这比以前的模型有很大的改进，以前的模型需要更长的训练时间才能生成新的声音。

　　对于计算机行业来说，VALL-E是一项惊人的技术壮举，有可能改变我们与数字媒体互动的方式。语音的音调、魅力和风格都在生成的语音中保持不变，这是在使TTS系统听起来更自然方面迈出的重要一步。

　　微软会不会基于这项技术有更多运用目前还不清楚，然而，微软已经发布了该模型的几个实例，很明显，这是TTS技术的一个重大进步。

　　您可以在这里收听范例：

　　https://mpost.io/vall-e-microsofts-new-zero-shot-text-to-speech-model-can-duplicate-everyones-voice-in-three-seconds/

上一篇:人工智能语言模型在智商测试中胜过人类

下一篇:三星找到“新增长引擎”，今年将推出人类助理机器人EX1

用户评论

发评论送积分，参与就有奖励！

发表评论

评论内容：发表评论不能请不要超过250字；发表评论请自觉遵守互联网相关政策法规。

用户名：

VALL-E：微软全新文字转语音模型可以在三秒钟内复制任何人的声音

相关文章

用户评论

发表评论

最新内容