专访字节跳动王明轩：机器翻译和人工翻译实质是两个赛道 | T前线原创精选

技术的进步，往往意味着行业的进化发现了新的方向。翻译行业也不例外。随着全球化进程不断加快，人们在进行涉外活动时都离不开跨语言的交流。机器翻译的出现极大地扩充了翻译的应用场景，固然它还远远称不上完善，但却在人类挑战巴别塔的路上跨出了坚实的一步。51CTO特邀字节跳动AI Lab机器翻译负责人王明轩，聊一聊机器翻译发展的这些年、那些事。

从基于规则，到基于统计模型，再到基于神经网络

机器翻译的发展与计算机技术、信息论、语言学等学科的发展紧密相关。进入21世纪以后，随着硬件能力的提升和算法的优化，机器翻译技术迎来了空前的跃进，并成功迈出象牙塔，走上了普惠之路。

51CTO：纵观历史，机器翻译经历了哪些重要的发展节点？

王明轩：机器翻译实质是一个非常古老的问题，机器翻译的历史可以追溯到17世纪笛卡尔、莱布尼茨等哲学家提出的「通用语言」。1946年等计算机正式诞生后，人们期望计算机能将一种语言翻译成另一种语言。美国科学家瓦伦·韦弗在《翻译备忘录》中正式定义了机器翻译的概念和思想。这一时期，在冷战背景下，美苏两国也基于搜集信息的需要，投入了大量资金用于机器翻译相关研究。

一开始大家相对较乐观，觉得这事很快就可以搞定了。第一版的翻译系统非常简单，主要是基于词典，比如把“太阳”翻译为“sun”，但这种词对词的翻译很快遇到了瓶颈，因为一词多义的现象比较多，比如“bank”，既可以是“银行”，也可以是“河岸”，具体语境中会面临很多选词的困境。结合语言学家制定的语义规则可以解决一部分歧义，但发展到后期，规则越多，冲突的地方也会越多，系统会越来越复杂，依然无法解决问题。

1966年美国公布了报告《语言与机器》，全面否定了机器翻译的可行性，并建议停止对机器翻译项目的资金支持。受此影响，机器翻译陷入低潮期。

直到90年代，IBM提出基于词对齐的翻译模型，标志着现代统计机器翻译方法的诞生。基于统计的机器翻译原理很简单，比如要在语境中判断bank应该翻译成“银行”还是“河岸”，那就进行大量的相关语料统计，会发现上下文里有“钱”相关的，那就更有可能翻译成“银行”，上下文里提到“河流”，那更可能对应的是“河岸”。如此一来，不用词典与文法规则，而是按照概率来判断具体场景下的语义。这是划时代的变化，机器翻译的质量得到了巨大的提升。很快，机器翻译开始在很多实用场景落地。

从1993到2014年基本都属于统计的时代，但虽说是基于统计，还是需要人工去定义很多特征、模板，再进一步设计细节，因而也不是非常灵活，模型的能量也不是很强大。

而后到了神经网络时代，神经网络翻译从模型上说主要包含编码器和解码器。编码器把源语言经过一系列神经网络变换后表示成一个高维向量，解码器负责把这个高维向量重新解码成目标语言。2014年Seq2Seq的提出，让神经网络翻译慢慢开始比统计机器翻译做得更好。

到2017年时，谷歌提出Transformer，模型更大、结构更灵活、并行化程度更高，这进一步提升了翻译质量。同年，AlphaGo的胜利也让大家对人工智能的信心更充分。也正是在2017年之后，机器翻译的产业化迎来了爆发期，直到现在，整体大框架没有发生太大变化，但小细节上出现了很多创新。

挑战“巴别塔”

从词典匹配，到结合语言学专家知识的规则翻译，再到基于语料库的统计机器翻译，以及目前主流的神经网络机器翻译，相比之前，机器翻译的质量有了飞跃式的提升，但依旧面临着重重挑战。

51CTO：目前机器翻译面临的主要挑战在哪里？

王明轩：挑战其实还比较多。

第一，如何做稀缺语种的机器翻译。这是机器翻译从诞生以来一直就面临的问题。语种越小，数据量越少，语料的稀缺会是长期的挑战。

第二，如何做多模态的机器翻译。近年来，我们经常需要做语音翻译、视频翻译，事实上这类翻译需要AI做一些前处理之后再做翻译。如果AI处理错了，翻译就可能出现错误。再比如，在同声传译的场景，通常是边说边翻，拿不到完整的上下文信息。这在多模态翻译中都是常见问题。

第三，最为本质的问题在于，目前的机器翻译还是基于数据驱动，并没有在理解层面做得更为深入。模型的学习依旧是依靠语言的贡献，而非真正地理解语义。这一点极大地局限了机器翻译的上限。

51CTO：火山翻译作为字节跳动旗下机器翻译品牌，如何应对语料稀疏问题？

王明轩：有两个比较直接的方法。

第一种是扩充语料，努力让稀缺语料“不再稀缺”。这种思路是，通过一些模型，尽可能从互联网上获取语料。比如冰岛语，我们能收集大量冰岛语的单语语料，在互联网上就可以去收集与单语语料相近的英文文本，我们去找这种可能对齐的语料，形成双语去对。当然我们有时也用人工标注，但更多的是靠智能的方法自行增加。

第二种是利用语言的共性。大家生活在同一个星球，虽然使用的语言不同，但其实在描述同一个世界，因此语言在高层次上是有很多共性的。我们会借助一些迁移学习或者预训练的方法来解决这类问题，比如让英语的模型去帮助法语的模型，或者让德语的模型帮助法语的模型。主要就是这两个思路。

51CTO：在多模态的机器翻译中，要减少噪声干扰的话，火山翻译采取了哪些应对策略？

王明轩：应对噪声干扰的话，首先，进行了多种模态的联合建模。我们会拿语音信号和文本信号一起去做下游的任务，这样一来，错误传递会减少很多。当前，构建多模态的统一语义在学术界也是非常火热的话题，所以我们也会吸收其他领域的很多东西。

其次，我们在文本这块也会做很多鲁棒性训练，尽量让模型在有错误输入的情况下，还能保证正确的输出，或者不扩大这种错误，相当于把自动纠错和机器翻译做到了一个模型里面。因为人其实是有这种自动纠错能力的，比如人工译员在听到错误的信息时，会进行自动纠正，所以我们在模型里面也会考虑这些信息。

51CTO：同声传译对延时的要求很高。但是如果没有结合上下文的语境或者听完完整的语义，准确率又很难保证。机器翻译如何平衡这两者之间的矛盾？

王明轩：这一点在工业界很有挑战性，因为不仅关乎延时和准确率的trade off，实际上需要优化的地方更多。

比如在某些会议场景中，翻译字幕需要展示在大屏幕上，观众接受字幕的速度也是关键问题之一，包括每次字幕展示的长度、字幕弹出的频率，都关系到如何读起来更舒服。其中有很多细节需要我们反复和产品经理沟通，深入用户调研来看整体满意度。因此，这不仅仅是准确率的问题，要把用户的实际使用体验都作为要素考虑进去，再来调整模型。

此外，延时可能是用户满意度的指标之一，但延时也并非越短越好。通常有个合适的gap反而更好。因为延时很短的话，字幕弹出的速度也会很快，用户的接受效果反而不太好。在这方面，我们也会借鉴业界的很多成熟做法，比如动态控制字幕翻译的间隔。总体而言，这是一个非常工程化、产品化的问题。

未来趋向

机器翻译仍然不是完美的，但从业者们正在努力让其变得质量更高，可用性更强，适用性更广。让我们来观察一下它的发展趋势，尤其是当机器翻译与专业译员发生“碰撞”时，翻译服务场景又会产生哪些化学反应。

51CTO：随着技术的发展，机器翻译是否会衍生出更多有趣的应用场景？

王明轩：之前我们推出的火山翻译AR眼镜就是类似的尝试。今年谷歌I/O大会上压轴发布的AR翻译眼镜也是很有意思的应用，使用者佩戴后可以实时看到对话者的译文，类比字幕效果。

这其实都反映出了一种比较朴素的理想：我们希望大家能生活在一个沟通无障碍的世界。比如：出国旅游时，戴上眼镜就可以理解任何语言的文字提示，你看到的路牌是德语的，而显示在眼镜上的是中文。日常交流时，别人跟你说话，对话信息自动变成你所理解的文字，显示在眼镜下方。这都是能更有效地获取信息的场景。

51CTO：长远来看，机器翻译将如何发展？

王明轩：应用方面，我觉得机器翻译可能会和多模态应用结合得更为紧密，比如视频内容、音频内容的翻译需求会越来越多。另外，机器翻译可能会更多地与业务出海、文化出海联系在一起。因为国内很多公司都在积极地进行海外业务的扩张，我认为这个领域会对机器翻译的发展起到很大帮助。

技术方面，我能看到的已经在发生的趋势是：一是大数据和大模型的训练。从事这一领域的人越来越多，模型越来越大，数据量也越来越大，很多人认为这种变化有可能会给机器翻译的能力带来质变。二是翻译和模态的结合。不止在翻译方面，业界很多人都在试图构建不同模态的统一语义表示，之前几年，不同模态之间界限还比较分明，大家交流相对也少。如今，模型越来越一致。未来可能出现一个模型，既能做文本翻译，也能做语音翻译，甚至能做视频翻译。

51CTO：未来，机器翻译是否有可能在特定场景中完全取代人工翻译？

王明轩：按目前这种做法肯定是取代不了人工的。不过我觉得机器翻译和人工翻译可能不属于一个赛道。

机器翻译的特点，一是速度非常快，二是可以规模化，所以它适合处理的是海量且需要及时处理的信息。举个例子，如果现在有一千万个视频要从英语翻译成法语，那么纯靠人工是不太能做到的，但是机器可以做。这一点就可以让机器在它的赛道里发挥很重要的作用，长期看来是大有裨益的，因为它开阔了整个市场，让跨语言的市场变得更大。

但是对于很精细的翻译场景，机器翻译可能就力有不逮。就像有人提到的，机器翻译能翻得了《红楼梦》吗？我认为，这就不属于机器翻译的任务范畴。小说或诗歌之类的翻译，这一类型的翻译必须要依仗专家。还有规格很高的会议同传，也肯定需要专业译员担任，而不可能是机器。但在一些重要性不是很高的会议上，机器翻译的成本优势就会展现出来。

机器翻译跟专业译员，两者隶属赛道不同，区分还是很鲜明的。不过某种程度上，两者也存在互帮互助的关系。这体现在：一方面，机器翻译需要的语料就是专业译员生产的。专业译员在工作过程中不断地生产大量的语料，这些语料能够持续帮助机器翻译去提升能力。另一方面，机器翻译也可以帮人减轻负担，处理要求没有那么高的任务。现在也有很多译员在做译后编辑，很多翻译公司让机器先做翻译，译员再做编辑，效率也能因此大幅提升。

嘉宾介绍

王明轩，字节跳动AI-Lab机器翻译团队负责人，研究方向主要为机器翻译和自然语言处理。在机器翻译领域，发表包括 ACL、EMNLP 等顶级会议论文超过40 篇，多次拿到 WMT等国际翻译评测比赛第一。同时还担任EMNLP2022赞助主席，和NeurIPS 2022、NLPCC 2022、AACL2022 等会议领域主席。

栏目介绍

“T前线”是51CTO内容中心专为技术人物开设的深度访谈栏目之一，通过邀请技术界内的业务负责人、资深架构师、资深技术专家等对当下的技术热点、技术实践和技术趋势进行深度的解读和洞察，推动前沿科技的传播与发展。

专访字节跳动王明轩：机器翻译和人工翻译实质是两个赛道 | T前线原创精选

从基于规则，到基于统计模型，再到基于神经网络

挑战“巴别塔”

未来趋向

嘉宾介绍

栏目介绍

相关文章

用户评论

发表评论

最新内容