北京智联安安之平:蜂窝IoT芯片处理器指令集/微架构的九大需求
C114讯? 6月22日消息(林想)在今天召开的2022年科技周暨移动信息产业创新大会上的拥抱RISC-V分论坛上,北京智联安科技有限公司副总经理安之平详述了蜂窝IoT芯片处理器指令集/微架构的九大需求。
需求一:面向蜂窝通信加速的DSP指令。越来越多的IoT芯片厂商放弃纯硬件方案,改为采用软件+硬件缓和方式,催生了对DSP加速指令的需求。除法指令、位操作指令、特殊的加速指令(FFT、卷积、均方根等)。未看到有明确的对浮点指令尤其是双精度浮点指令的需求。
需求二:对单指令流多数据流(SIMD)的支持。SIMD非常适用于基带通信中的I/O 数据多点并行处理,4-8路SIMD,相应增加16位MAC的数量。
需求三:高效的、长度适中的流水线。6-8级流水。更深的流水线会带来更大的处理延迟和功耗。600Mhz@28nm即可满足具备一定硬加速的中高速IoT基带处理。800Mhz@28nm即可满足一般OpenMCU应用。支持动态分支预测缓存,这一点对电池供电的设备非常重要。
需求四:本地L1 Data Memory。通信中的实时数据流经过L1 data cache的意义没那么大。与L1 cache并联的L1 uncacheable data memory更为高效。既能降低数据处理延迟、也能减少数据在CPU和接口之间的搬运次数。但需要深度的优化,确保地址和数据上的路径延迟足够小,以使128KB或者256KB大小的data memory能够和CPU保持1:1同频,而不是1:N方案。
需求五:更高效的取指单元。128位或256位指令预取总线。4路或以上的指令cache,至少32B/line。能够大幅提升XIP@FLASH的效率。确保软件能够实现VoLTE、QVGA拍照(扫码)的ISP、TTS算法的实现等较复杂的任务。
需求六:128位或更高的数据宽度。未看到当前蜂窝IoT芯片需要64位数据流水线机构,但更宽的数据总线接口是另一回事。适当增加处理器接口的位数,能够降低处理器访问L2 cache或L2 SRAM的次数,进而减少总线拥塞。128位或256位数据接口宽度已经在某些中低端DSP处理器上采用,但RISC架构处理器相对少见。
需求七:AXI3总线接口协议。老的AHB接口总线由于是request-grant方式,已经落后于现代通信芯片的性能要求,因此很多老款MCU系列面临升级。AXI3总线支持更多的outstanding requests,目前看到的需求一般大于6。除采用纯软件方案的高端多核通信芯片外,目前未看到有队AXI4 cache一致性接口的需求,因而AXI3能够满足大多数蜂窝IoT芯片的应用。
需求八:为MCU模式设计的更优能耗比。蜂窝芯片的OpenMCU模式为用户二次开发而准备。该模式下射频收发机和基带子系统掉电,处理器和少量L1 memory运行在较低频率(16MHz或32KHz)。对处理器内核(不含memory)的动态功耗要求为不超过10uA/Mhz@28nm.
需求九:Debug/Trace。蜂窝协议栈深度和复杂度极高,需要强有力的处理器内核测试手段。侵入式和非侵入式。传统软件Log已不能满足需求,需要简单应用的硬件Trace功能。Debug/Trace罗技应基于AP级别处理器进行裁剪优化,使展内核总面积的比例地域3-5%。