SiMa.ai以“软件优先”概念开发全新边缘AI处理器
“我们这一代的主要技术挑战之一是边缘计算:如何处理计算密集型 AI 任务并在资源受限的嵌入式产品上执行它们。在这种追求中,当设计人员试图同时平衡低功耗、低成本和高性能时,硬件和软件从根本上是不一致的。
”
一种新的“软件优先”SoC设计理念旨在实现前所未有的边缘人工智能计算。
我们这一代的主要技术挑战之一是边缘计算:如何处理计算密集型 AI 任务并在资源受限的嵌入式产品上执行它们。在这种追求中,当设计人员试图同时平衡低功耗、低成本和高性能时,硬件和软件从根本上是不一致的。
机器学习硬件初创公司 SiMa.ai 现在正试图通过设计“软件优先”的硬件来应对这一挑战,以实现前所未有的边缘 AI 性能。本周,SiMa.ai 发布了他们的新 MLSoC 平台,这是一个以 ML 为中心的 SoC,旨在让边缘 AI 比以往任何时候都更加直观和灵活。
在本文中,我们将讨论边缘 AI 的现状以及 SiMa.ai 的新平台希望如何解决它的一些缺点。
边缘人工智能的现状
在将 AI 带到边缘(也称为 TinyML)时,该过程通常以硬件为中心。
一般来说,边缘人工智能面临的挑战是设备资源非常有限,RAM、处理能力和电池寿命有限。正因为如此,TinyML 设计过程通常围绕着将机器学习模型定制到设备的大多数预先确定的硬件功能上。
量化感知训练流程图。图片由 Novac 等提供
为此,软件流程包括采用给定的机器学习模型,在所需数据集上对其进行训练,然后将其缩小以适应边缘设备的约束。这种模型缩放通常是通过量化过程来完成的,量化过程是降低模型权重和参数的精度以减少内存消耗的过程。
通过这种方式,TinyML 工程师可以采用大型机器学习模型,该模型旨在部署在更强大的设备上,并将其缩小以适应边缘设备。
正如 SiMa.ai 所看到的,这个工作流程的问题在于模型实际上并不是为边缘设计的,而是为大型模型而设计的。这在性能和灵活性方面受到限制,因为模型从未真正针对硬件进行过优化,反之亦然。
SiMa 的新 SoC 解决方案
为了解决这个问题,SiMa.ai 最近发布了他们的 MLSoC 平台,这是一个“软件优先”的边缘 AI SoC。
MLSoC 平台基于 16nm 工艺构建,是一种异构计算片上系统 (SoC),集成了许多用于 AI 加速的专用硬件模块。在这些硬件中,模块包括 SiMa.ai 的专有机器学习加速器 (MLA)。该公司表示,它以 10 TOPS/W 的速度为神经网络计算提供50 TOPS性能。
SoC 的应用处理单元 (APU) 由四个 1.15 GHz Arm Cortex-A65 双线程处理器组成的集群。还有一个视频编码器和解码器模块以及一个计算机视觉单元 (CVU),它由一个四核 Synopsys ARC EV74 嵌入式视觉处理器组成。这些模块由 4 MB 片上存储器以及 32 位 LPDDR4 DRAM 接口支持。更多信息可以在 MLSoC 产品简介中找到。
MLSoC 的结构框图。图片由 SiMa.ai 提供
然而,除了硬件之外,SiMa.ai 声称其 MLSoC 平台是独一无二的,因为它是与其 ML 软件工具链共同设计的。具体来说,该公司声称其方法包括精心定义的中间表示以及新颖的编译器优化技术,以支持广泛的框架和网络。
这些框架包括 TensorFlow、PyTorch 和 ONNX 等最受欢迎的框架,同时还声称支持 120 多个网络模型。通过使用 MLSoC 软件工具链,工程师可以开发专门用于 MLSoC SoC 的 ML 模型,从而实现更高的设计灵活性、效率和性能。
TinyML 的重构方法?
总体而言,该公司声称,与同类竞争对手相比,他们的 MLSoC 平台(现已交付给客户)可以在计算机视觉方面提供 10 倍的性能/功耗解决方案。为了支持这一点,他们声称在1的 ResNet-50 v1 上具有 500 FPS/W 的一流 DNN 推理效率。
凭借其独特的软件/硬件兼容性方法,SiMa.ai 希望重新构想业界对 TinyML 的方法,并借此解锁前所未有的性能和效率。