深入分析IBM最新的230亿晶体管AIU芯片
IBM 新发布的人工智能单元 (AIU) 是其首个片上系统设计。AIU 是一种专用集成电路 (ASIC),旨在训练和运行需要大规模并行计算的深度学习模型。AIU 比深度学习发展前几年为传统软件应用程序设计的现有 CPU 快得多。IBM 未提供 AIU 的发布日期
IBM Research AI 硬件中心在五年内开发了新的 AIU 芯片。该中心专注于开发下一代芯片和人工智能系统,以每年将人工智能硬件效率提高 2.5 倍,并能够在 2029 年以比 2019 年快一千倍的速度训练和运行人工智能模型。
打开 AIU 的包装
根据IBM 博客,“我们完整的片上系统具有 32 个处理内核并包含 230 亿个晶体管——与我们的 z16 芯片中的数量大致相同。IBM AIU 还被设计为像显卡一样易于使用。它可以插入任何带有 PCIe 插槽的计算机或服务器。”
深度学习模型传统上依赖于 CPU 和 GPU 协处理器的组合来训练和运行模型。GPU 最初是为渲染图形图像而开发的,但后来该技术发现了在人工智能中使用的优势。
IBM AIU 不是图形处理器。它专为加速深度学习模型使用的矩阵和向量计算而设计和优化。AIU 可以解决计算复杂的问题,并以远远超过 CPU 能力的速度执行数据分析。
人工智能和深度学习的发展
深度学习的增长给可用计算能力带来了资源压力。人工智能和深度学习模型在所有行业中呈指数级增长,适用于广泛的应用。
除了增长之外,另一个问题是模型大小。深度学习模型非常庞大,有数十亿甚至数万亿的参数。不幸的是,根据 IBM 的说法,硬件效率已经落后于深度学习的指数级增长。
近似计算
从历史上看,计算依赖于高精度 64 位和 32 位浮点运算。IBM 认为并不总是需要这种精确度。它有一个降低传统计算精度的术语——“近似计算”。在其博客中,IBM 解释了使用近似计算的基本原理:
“对于常见的深度学习任务,我们是否需要这种准确度?我们的大脑是否需要高分辨率图像来识别家庭成员或猫?当我们输入一个文本线程进行搜索时,我们是否需要第 50,002 个最有用的回复与第 50,003 个最有用的回复的相对排名的精度?答案是,包括这些示例在内的许多任务都可以通过近似计算来完成。”
近似计算在新 AIU 芯片的设计中发挥了至关重要的作用。IBM 研究人员设计 AIU 芯片的精度低于 CPU 所需的精度。较低的精度对于在新的 AIU 硬件加速器中实现高计算密度至关重要。IBM 使用混合 8 位浮点 (HFP8) 计算,而不是通常用于 AI 训练的 32 位浮点或 16 位浮点算术。较低精度的计算使芯片的运行速度比 FP16 计算快 2 倍,同时提供类似的训练结果。
似乎存在相互冲突的设计目标,但这种冲突对 IBM 来说没有问题。虽然低精度计算对于获得更高的密度和更快的计算是必要的,但深度学习 (DL) 模型的精度必须与高精度计算保持一致。
IBM 设计了用于简化 AI 工作流程的芯片。IBM 表示:“由于大多数 AI 计算都涉及矩阵和向量乘法,因此我们的芯片架构具有比多用途 CPU 更简单的布局。IBM 将 AIU 设计为将数据直接从一个计算引擎发送到另一个计算引擎,从而节省大量能源。”
表现
IBM 的公告包含很少的有关该芯片的技术信息。不过,我们可以通过回顾 IBM在 2021 年国际固态电路会议(ISSCC)上展示其早期 7nm 芯片设计的性能结果时的初始原型演示来对其性能有所了解。
IBM 用于会议演示的原型不是 32 个内核,而是一个实验性的 4 核 7nm AI 芯片,支持 fp16 和混合 fp8 格式,用于训练和推理 DL 模型。它还支持用于扩展推理的 int4 和 int2 格式。2021 年 Lindley Group通讯中包含了原型芯片性能的摘要,该通讯报道了 IBM 当年的演示:
在峰值速度下,使用 HFP 8,7nm 设计实现了每秒每瓦特 (TF/W) 1.9 teraflops。
TOPS 衡量加速器在一秒钟内可以解决多少数学问题。它提供了一种方法来比较不同加速器在给定推理任务上的执行情况。使用INT4进行推理,实验芯片达到16.5 TOPS/W,优于高通低功耗Cloud AI模组。
分析师笔记
虽然很少有规格并且没有发布定价,但广泛的价格估计将在 1500 美元到 2000 美元之间。以适当的价格表现,AIU应该能够迅速在市场上确立其地位。
由于缺乏信息,无法仅根据 AI 处理核心直接比较 AIU 和 GPU。
AIU 中使用的低精度 AIU 技术基于早期的 IBM 研究,该研究开创了用于深度学习训练的第一个 16 位降低精度系统、第一个 8 位训练技术和最先进的 2 位推断结果。
据 IBM Research 称,AIU 芯片在其 Telum 芯片中使用了 AI 加速器的缩放版本。
Telum 使用 7nm 晶体管,但 AIU 将使用更快的 5nm 晶体管。
如果 AIU 在明年的 MLPerf 基准测试中及时发布,那么看看 AIU 如何与其他技术相媲美将会很有趣。