你好!欢迎来到深圳市品慧电子有限公司!
语言
当前位置:首页 >> 技术中心 >> 互连技术 >> 高通侯纪磊:全栈AI优化打造领先边缘性能

高通侯纪磊:全栈AI优化打造领先边缘性能


【导读】7月6日,2023世界人工智能大会——芯片主题论坛在上海举办。会上,高通全球副总裁兼高通AI研究负责人侯纪磊博士做了题为《全栈AI优化 打造领先的边缘AI性能》的演讲,介绍了终端AI的重要性和优势,高通在终端AI方面特别是生成AI方面的进展,以及对于混合AI在高效推动AI规模化落地等方面的看法。


1689680737411069.jpg


全栈式AI优化 打造高效能AI


如今,尽管大量AI的训练和推理仍在云端进行,但终端侧的人工智能正变得越来越至关重要。通过在最靠近数据源头之处处理数据,并同云端形成互补,往往能够带来在隐私、可靠性、低时延、成本、能耗、个性化等方面的显著优势。


“比如在成本方面,生成式AI通常参数体量巨大,如果在端侧部署,能够推动成本的显著降低。而在AI数字助手方面,手机、驾舱、PC等使用场景,端侧AI则能够很好地满足私密性、个性化的需求。”侯纪磊说。


据侯纪磊介绍,早在十几年前,高通便开始了AI方面的研发,其中一个重要研究方向就是高效能AI,在包括硬件、算法和软件等层面进行了大量的研发创新。


在高效硬件方面,通过对高通移动平台中CPU、GPU、NPU等不同单元进行优化,最终使得针对不同任务,能够选择合适的计算模块运行,侯纪磊认为这是高通端侧AI非常显著的特点。在算法层面,高通具有一支顶尖的深度神经网络算法团队,有很多原创性的研究成果。在软件方面,在面向深度学习的软件加速runtime以及SDK/开发框架方面,高通对于客户以及开发者都做出了很好的支持。


“因此,高通AI研究的一个非常重要的原则,就是全栈式的AI创新和优化。通过跨层的模型、硬件和软件创新加速AI应用,这种早期研发和技术发明对于引领生态系统发展至关重要,而最终将技术提供给商业团队,并通过部署过程中的收获来影响未来的研究,形成正向循环。”侯纪磊说。


量化研究处于行业最前沿


据侯纪磊介绍,高通在高效能AI研发中,一个重要的部分是整体模型效率研究,目的是在多个方向缩减AI模型,使其在硬件上高效运行。


1689680723396421.jpg


比如在量化方面,学习在保持所需精度的同时降低比特精度;在条件计算方面,学习仅基于输入执行大模型图例模型部分组件;在神经网络架构搜索方面,学习设计更小的神经网络,能够在真实硬件上媲美或超过人工设计架构;在编译方面,学习编译AI模型以实现高效的硬件执行等。


“在量化方面,高通一直在业界进行无论是从学术研究还是落地层面的推动。包括Stable Diffusion和ChatGPT等最终要在端侧实现,量化一定是非常重要的手段。在高效能的推理方面,整数的点运算是非常重要的方向。在这方面,高通在积极推动相关学术研究,包括在顶级学术会议上的发布一些论文的同时,也会定期放到开源的工具包AIMET中。通过领先的AI研究和快速商业化,推动行业向整数推理和高能效AI方向发展。”侯纪磊说。


侯纪磊还重点提及了高通在2020年的一项研究成果——AdaRound量化研究算法,包括很多先进的理念和技术。


“高通能够将Stable Diffusion引入端侧,AdaRound就是其中一个非常重要的量化手段。此外,在大语言模型来到4bit时,包括GPTQ等主流技术,实际上也是基于AdaRound演进的简化。所以在量化方面,不管是学界还是业界,高通都处于非常前沿的位置。”候纪磊说。


广泛赋能众多类型终端


在今日开幕的2023 世界人工智能大会(WAIC)上,第二代骁龙8移动平台的高通AI引擎荣获此次大会的顶级奖项:SAIL奖——卓越人工智能引领者奖。


1689680709540917.jpg


第二代骁龙8凭借面向整个平台的开创性AI智能设计赋能了非凡用户体验,树立了网联计算的新标杆。其搭载高通技术公司处理速度最快、最先进的高通 AI 引擎,通过软硬件的一系列创新,相较上一代带来4.35倍的AI性能提升和60%的能效提升,从而为越来越多的创新型AI用例和AI增强的用户体验提供强大的性能基础。


高通 AI 引擎由多个硬件和软件组件组成,用于在骁龙移动平台上为终端侧 AI 推理加速。它采用异构计算架构,包括高通 Hexagon 处理器、Adreno GPU、Kryo CPU 和传感器中枢,共同支持在终端上快速而有效的运行 AI 应用程序。其关键核心 Hexagon 处理器拥有一系列创新,如提供专用供电系统、支持微切片推理、INT4精度、Transformer 网络加速等,可结合高通 AI 软件栈和 AI Studio 提供全栈 AI 能力和优化手段,在行业内率先在终端侧支持 Stable Diffusion、ControlNet 等生成式 AI 用例,并可与云端协同打造适应大模型时代的混合 AI 处理框架,从而助力AI体验创新和生态繁荣。


此外,侯纪磊介绍了AI在5G方面的应用。在今年的世界移动通信大会(MWC)上,高通发布了骁龙X75调制解调器及射频系统,引入了第二代高通5G AI套件,包括专用张量加速器。同时,据侯纪磊介绍,高通AI团队也与无线团队一直保持非常紧密的深入合作,从而能够保证将研究成果更快推向商用。比如通过AI技术进行毫米波波束管理,扩毫米波通信的覆盖范围;通过AI辅助GPS定位,提升定位的精准度等。


“目前,高通已经形成了在边缘侧的布局和规模化的优势。搭载骁龙和高通平台的用户终端数量已经达到数十亿台。每年有数亿台搭载骁龙和高通平台的终端进入市场。我们的AI能力赋能一系列广泛的产品,包括手机、汽车、XR、PC和物联网设备。”侯纪磊说。


持续推进支持百亿参数大模型


去年年底,由ChatGPT引发的生成式AI浪潮席卷全球,而在生成式AI方面,高通于数年前便开始着手布局。


侯纪磊认为,生成式AI将影响各类终端上的应用场景。比如XR方面,基于简单提示,创造沉浸式的3D虚拟世界;汽车方面,拥有先进驾驶辅助系统/自动驾驶,通过预测不同行为主体的轨迹和行为,帮助改进驾驶策略;在手机方面,成为真正的数字助手;在PC端,通过撰写电子邮件,创建演示文稿和编写代码,变革生产力;在物联网方面,有助于提升顾客和员工体验,比如提供库存和商店货架排列推荐等。


今年的MWC上,高通的第二代骁龙8移动平台已经可以支持参数超过10亿的AI模型运行,并进行了全球首次端侧运行超过10亿参数模型的演示。对于端侧能够有效支持的模型规模,侯纪磊认为,在广泛的用例中有很多基于10亿参数为单位,从10亿到100亿便能够涵盖相当多数的生成式AI,并能够提供非常好的效果。据侯纪磊介绍,未来几个月内,高通有望支持参数超过 100 亿的模型在终端侧运行,明年将能够支持参数超过200亿的模型。此外通过全栈式的AI优化,未来也将进一步缩短大模型的推理时间。


侯纪磊指出,云经济难以支持生成式AI的规模化发展。如基于传统方法和生成式AI的网络搜索,单次查询成本将是传统的10倍,如果再叠加众多的生成式AI应用以及数十亿的用户基数,这将在云端带来显著的负担。因此,推动端侧和云端互补的混合AI,将是未来推动生成式AI落地的显著趋势。


“未来场景中有中心云、边缘云、有终端侧,AI处理中心在一定程度上可以向边缘发展,因此混合AI是未来能够支持生成式AI、大语言模型等实现全球化、规模化发展的重要手段。这个过程中,在包括无线连接、高效计算、分布式AI等方面,高通都能够通过与业界的合作带来更多创新。”侯纪磊说。


1689680694890489.jpg


侯纪磊指出,对于混合AI的部署,当终端侧具备强大生成式AI能力的时候,可以作为一个“锚点”。比如帮助工程师生成代码,高通的愿景是未来一两年内,在100-200亿参数的范围内,能够使得大量工程师在端侧进行代码撰写。端侧AI作为智能“锚点”发挥指挥或协调的作用,可以将合格的代码交给开发者,不理想的生成代码指令再交给云端进一步处理,从而带给用户无缝体验。


1689680681373261.jpg


“终端侧AI具有诸多优势,是让AI无处不在的关键。混合AI是AI的未来,而我们的终端侧AI领导力将支持生成式AI规模化扩展。”侯纪磊最后强调。


作者:集微网,来源:雪球



免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理。


推荐阅读:


纳芯微容隔技术,从容应对电源难题

固体放电管雷击应用优势

真实环境中的GNSS/GPS干扰和欺骗测试

不同壳温下SOA曲线的计算方法

这款高效、快速瞬态响应的直通升压控制器,你可能用得到

相关文章

    用户评论

    发评论送积分,参与就有奖励!

    发表评论

    评论内容:发表评论不能请不要超过250字;发表评论请自觉遵守互联网相关政策法规。

    深圳市品慧电子有限公司