边缘人工智能芯片的公司仍在挑战"卷"的限制
在这一概念下,EdgeCortix推出了动态神经加速器(DNA),这是一重构的特定领域加速器设计,用于低功耗的实时人工智能推理应用,可部署在FPGA或自主开发的ASIC芯片上。SAKURA是一种基于该设计的高能效边缘人工智能协会处理器。
边缘计算自始至终都是行业苦思冥想的问题。与云计算的集中结构不同,边缘计算的分布式结构消除了共同做大事的可能性。而且,并不是说在边缘端部署体积仍然不可小觑的计算服务器就能满足边缘计算的所有要求,尤其是在边缘人工智能需求持续上升的时候。
据IDC统计,到2025年,全球互联网设备将达到416亿台,边缘传感器收集的数据将达到79.4ZB。在如此巨大的数量下,边缘人工智能提出了高性能、低功耗的要求,挑战确实不亚于手机SOC的发展。即便如此,人工智能芯片公司仍在挑战“卷”的限制。
边缘AI加速器由软件定义
平时关注RISC-V趋势的朋友应该听说,3月中旬,IP厂商Alphawave花了2亿美元收购SiFive的OpenFive。然而,同样在3月份,在收购之前,专注于高速连接SoCIP的OpenFive宣布与AI初创公司EdgeCortix合作,共同打造下一代边缘AI加速器。
在软件定义的人工智能加速中,最灵活的是通用CPU,但在能耗方面,有些相形见绌。与相对专用的GPU相比,性能和能效有一定的差距。然而,虽然GPU的能效高于GPU,但在边缘端几百瓦的功耗太夸张了。因此,虽然特定领域的人工智能加速器牺牲了一定的灵活性,但它实现了最高的能效比,因此受到边缘人工智能的重视。
在这一概念下,EdgeCortix推出了动态神经加速器(DNA),这是一重构的特定领域加速器设计,用于低功耗的实时人工智能推理应用,可部署在FPGA或自主开发的ASIC芯片上。
SAKURA是一种基于该设计的高能效边缘人工智能协会处理器。与一些人工智能芯片不同,SAKURA没有选择5nm等先进技术,而是选择了12nm的成熟技术。在800mHz的频率下,SAKURA可以达到40TOPS的计算能力,在多芯片组合下可以达到200TOPS,配备AP1604AWG-7芯片的PCIE板卡的典型功耗只有10W到15W。
只谈性能,不谈规模是没有意义的。人工智能芯片制造商最喜欢比较英伟达的主要GPU。不,Edgecortix还选择了英伟达AGXXavierGPU进行比较,这是同一台积电12nm工艺。可见,AGXXavier的面积几乎是SAKURA的四倍,计算能力仍低于后者25%。两者的能耗相差不大,但SAKURA在PPA上显然更好。
然而,这并不是对实际场景的比较。我们仍然以深度学习模型的测试结果为例。由于软件定义的特点,SAKURA的异构计算单元可以有效地利用单芯多核和多芯的扩展。EdgeCortix对YOLOV3实时物体检测算法进行了比较,在相同规模的数据下,SAKURA的推理耗时可达到AGXXavier的16分之一。
这并不意味着SAKURA一定是边缘人工智能的最优解决方案。在许多比较中,大多数测试结果只有因为SAKURA优化了低BatchSize和INT8。更重要的是,SAKURA的目标是英伟达AGXXavier、AGXOrin和高通CloudAI100的边缘人工智能芯片。
模拟与AI
不久前,作者介绍了AI初创公司Aspinity的AML100边缘AI芯片,主要处理传感器输出的模拟数据,以降低功耗。最近,Aspinity透露了更多这个芯片的细节,并更新了一些数据。传统的数据Alwayson方案在智能手机、智能手表和智能家居产品中都很流行,主要是低功耗,甚至低到几十uW。那么,这种模拟人工智能芯片有什么优势呢?
传统的超低功耗芯片片提到功耗时,它们实际上是自己的功耗,甚至是待机时的功耗,从传感器和ADC到芯片的功耗,以及整个系统的功耗都不那么容易被忽视。例如,传统的Alwayson数字处理器架构系统在检测语音事件时,总功耗约为3700uW,数字处理器的功耗仍占导地位。
在AML100组成的Alwayson系统中,传感器的功耗保持不变,而AML100可以达到40uW以下的功耗。此时,由于AML100从模拟端接管了预处理和机器学习的任务,ADC和数字处理器的功耗接近0uW,因此总功耗小于140uW,整个系统的功耗降低了95%以上。
毕竟,AML100仍然是一种用于事件唤醒的边缘人工智能芯片,用于破窗安全监控、语音唤醒等Alwayson应用。那么,它能为一般的边缘人工智能应用程序派上用场吗?
事实上,也有一些功能。AML100的定位本质上是模拟层面的预处理,可以有效降低数据集的大小,使交给MCU或云的数据最多可以减少100倍。对于大多数边缘应用程序来说,减少处理数据几乎等于延长电池寿命。