你好!欢迎来到深圳市品慧电子有限公司!
语言
当前位置:首页 >> 技术中心 >> 传感技术 >> 智能语音的视觉结合多模式交互技术是进化发展的重要方向

智能语音的视觉结合多模式交互技术是进化发展的重要方向


智能化语音技术是促进人机语言通信,包括语音识别系统(ASR)语音合成技术(TTS)。在汽车领域,智能语音已经成为成人机交互的重要组成部分,从车内交互到车外交互,从单模交互到多模交互,从被动交互到主动交互,为汽车企业提供ATMEGA8A-PU全栈技术赋能。

在智能时代,智能语音是人机交互的关键界面,近年来,随着各行业情景需求的爆发式增长,技术突破和应用逐步推进。2022年全球智能语音产业规模将达到351.2亿美元,保持33.1%的高速增长。

据德勤统计,2022年我国智能语音市场将达到341亿元,同比增长13.4%。我国智能语音产业的整体发展环境正在积极改善。工业和信息化部信息技术发展司副司长王威伟表示,作为新一代信息技术和人工智能产业的重要组成部分,智能语音产业必将迎来更大的发展机遇。

智能化语音技术是促进人机语言通信,包括语音识别系统(ASR)语音合成技术(TTS)。智能语音技术的探索始于语音识别系统,可以追溯到20世纪50年代。随着信息技术的发展,智能语音技术已经成为人们获取和交流信息最方便、最有效的方式。

从目前的发展情况来看,语音合成技术发展最早,应用已经相当普遍。除了合成音,基本没有太大的技术问题。2012年语音识别卷积神经网络(CNN)使用后,精度大大提高,已在C端、B终端应用广泛,但效果和感觉仍有待提高。

比如语音识别的鲁棒性问题比较明显,语音识别的整个过程包括语音信号处理、静音摘除、声学特征提取、模式匹配等环节。由于语音信号的多样性和复杂性,系统只能在一定的限制下达到满意的效果。考虑到远场、方言、噪音等问题,在实际使用场景中,准确度会降低。

为了解决语音识别的鲁棒问题,公司从各个方面进行了优化。一是投资语音增强、麦克风阵列及其说话人分离等技术领域,结合后端意思,促进对前后文字的认知,进而提高识别效果;另一方面,我们优化了产品设计,例如,通过进一步的互动,语音识别变得更加准确。

在语音识别方面,视觉结合的多模式交互技术是技术进化的重要方向。据了解,科大讯飞多模式语音增强了语音与视觉相结合的多模式认知,使得高噪声场景下的语音交互超过了易用的门槛,率先在车载、会议、地铁购票、医疗登记等场景落地。此外,海天瑞声和科大讯飞分别从语音数据和算法方面推动了低资源语音识别问题的技术进步。

目前,智能语音应用领域正在迅速蔓延。据德勤统计,预计到2030年,智能语音消费和企业应用市场将分别超过700亿元和1000亿元。

在汽车领域,智能语音已经成为成人机交互的重要组成部分,从车内交互到车外交互,从单模交互到多模交互,从被动交互到主动交互,为汽车企业提供全栈技术赋能。思必驰此前表示,在中高端车型的车载设备中,具有语音交互能力的中控大屏幕可以给车主带来超清晰流畅的智能感受。

此外,与更受欢迎的传统汽车系统相比,智能网络连接成本高,中控大屏幕智能化程度有限。对于大量汽车系统的智能改造,思必驰推出了前装市场车载“智能收放机”软硬一体化方案(联网版、蓝牙版),围绕“云+管+端+手”四个维度,分别赋予全车智能改造,这将有助于在车辆应用领域拓展智能语音。

智能语音在教育和医疗领域也得到了广泛的应用。例如,在教育行业,科大讯飞全球中文学习平台已覆盖全球183个国家,吸引了300多万海外中文学习爱好者。在医疗领域,2022年疫情期间,科大讯飞电话机器人推动了全国31个省112个城市的疫情调查,累计服务超过1.1亿人;智能外呼和智能医疗助理适合孤寡老人,保障留守儿童的日常关怀。

此外,智能语音在城市和工业领域也有很好的应用前景。姚建邈院士此前强调,智能语音符合建设智慧城市的需求,可以实现各种语音的高效转换和智能解决方案,为智慧城市的进一步建设带来新的机遇。在工业领域,中国建立了一批语音技术创新国家队,包括国家智能语音创新中心,从事工业声学、多语言。AI关键共性技术研究工作,如语音芯片。

显然,随着智能语音核心技术的不断突破,以及各个企业和研究团队在各个行业的应用领域的探索,未来智能语音将在更多场景中实现产业化应用,市场规模也将随之增加。




用户评论

发评论送积分,参与就有奖励!

发表评论

评论内容:发表评论不能请不要超过250字;发表评论请自觉遵守互联网相关政策法规。

深圳市品慧电子有限公司