AI芯片,FP8是大势所趋
? ? 3 月,英伟达推出了其 GH100,这是第一款基于全新“Hopper”架构的 GPU,它同时针对 HPC 和 AI 工作负载,并且对于后者而言更重要的是,它支持 8 位 FP8 浮点处理格式。两个月后,竞争对手英特尔推出了其第二代 AI 训练芯片Gaudi2,该芯片也采用 FP8 格式。
? ? FP8 格式之所以重要的原因有很多,其中最重要的是,到目前为止,AI 推理之间存在一种分裂,以整数格式(通常为 INT8,但有时为 INT4)以低精度完成,与 AI 训练以 FP16、FP32 或 FP64 精度完成,HPC 以 FP32 或 FP64 精度完成。Nvidia 和 Intel 都认为 FP8 不仅可以用于推理,在某些情况下还可以用于 AI 训练,从而从根本上提高其加速器的有效吞吐量。
? ? 这很重要,因为在浮点格式和整数格式之间来回切换是一件令人头疼的事情,而让所有内容都停留在浮点中要容易得多。此外,在未来的某个时候,如果推理转移到 8 位 FP8 甚至可能是 4 位 FP4 格式,这意味着专用于整数处理器的宝贵芯片空间可以被释放并用于其他用途。
? ? 在后摩尔定律的世界里,每一个晶体管都是非常重要,每一个时钟周期都值得珍惜。在处理速度的进步与过去一样快的时候,公司正在寻找更有效的方法来运行 AI 作业。组织需要弄清楚如何利用当前可用的能力来提高处理能力——尤其是 训练能力。较低精度的数据格式会有所帮助。
? ? 人工智能芯片制造商正在看到这些优势。6 月,Graphcore 发布了一项长达30 页的研究,该研究不仅展示了低精度浮点格式相对于类似大小的缩放整数的卓越性能,而且还展示了降低训练计划中功耗的长期好处,包括快速增长的模型尺寸。
? ? 研究人员写道:“低精度数字格式可能是大型机器学习模型的关键组成部分,它提供了最先进的准确性,同时减少了对环境的影响。” “特别是,通过使用 8 位浮点算术,相对于 float-16 算术,能量效率可以提高多达 4 倍,相对于 float-32 算术可以提高多达 16 倍。”
? ? 现在 Graphcore 正在鼓动 IEEE 采用供应商为 AI 设计的 FP8 格式作为其他所有人都可以使用的标准。该公司本周进行了宣传,Graphcore 联合创始人兼首席技术官 Simon Knowles 表示,“8 位浮点的出现为 AI 计算提供了巨大的性能和效率优势。这也是行业确定单一开放标准的机会,而不是引入竞争格式的混乱组合。”
? ? AMD 和高通也支持 Graphcore 的计划,Qualomm 产品管理高级总监 John Kehrli 表示,该提议“已成为 8 位浮点计算的一种引人注目的格式,为推理和计算提供了显著的性能和效率提升。可以帮助降低云和边缘的训练和推理成本。”
? ? AMD 预计将在即将推出的 Instinct MI300A APU中支持 FP8 格式,它将 AMD GPU 和 Epyc 7004 处理器塞进一个封装中。我们预计也会有普通的 MI300 独立 GPU,并且它们也将支持 FP8 数据和处理。
? ? 它还将使包括 SambaNova、Cerebras 和 Groq 在内的一系列 AI 芯片制造商受益。
? ? Graphcore 认为,使用较低精度和混合精度的格式(例如同时使用 16 位和 32 位)在 AI 中很常见,并且在摩尔定律和登纳德缩放速度放缓之际在准确性和效率之间取得了良好的平衡。
? ? FP8 让 AI 行业有机会接受“AI-native”标准以及跨系统的推理和训练互操作性。在 IEEE 正式制定标准之前,Graphcore 还将向业内其他人提供其规范。
? ? “随着深度学习应用程序复杂性的不断增加,机器学习系统的可扩展性也变得不可或缺,”Graphcore 研究人员在他们的论文中写道。“大型分布式模型的训练带来了许多挑战,依赖于有效使用不同节点之间共享的可用计算、内存和网络资源,并受到可用功率预算的限制。在这种情况下,使用有效的数字格式至关重要,因为在处理单元之间交换数据时,它可以提高计算效率和通信效率,从而提高功率效率。
? ? 一段时间以来,芯片制造商一直在评估低精度格式的使用。2019 年, IBM 研究院推出了一款基于 7 纳米 EUV 技术的四核 AI 芯片,支持 FP16 和混合 FP8 格式的训练和推理。
? ? “这种新的混合训练方法在更广泛的深度学习模型中完全保留了模型的准确性,”IBM Research 专家在一篇博文中写道。“混合 FP8 位格式还克服了之前在 MobileNet (Vision) 和 Transformer (NLP) 等模型上的训练精度损失,这些模型更容易受到量化信息丢失的影响。为了克服这一挑战,Hybrid FP8 方案在前向路径中采用了一种新颖的 FP8 位格式以实现更高分辨率,而在后向路径中采用另一种 FP8 位格式用于更大范围的梯度。”
? ? 两年后,IBM向2021 年 ISSCC 活动展示了一款支持 16 位和 8 位训练以及 4 位和 2 位推理的测试芯片。
? ? IBM 研究人员当时写道:“人工智能模型的复杂性和采用率正在迅速扩大,现在被用于药物发现、遗留 IT 应用程序的现代化以及为新应用程序编写代码。” “但人工智能模型复杂性的快速发展也增加了技术的能源消耗,一个大问题是在不增加碳足迹的情况下创建复杂的人工智能模型。从历史上看,该领域只是简单地接受了,如果计算需求很大,那么为其提供燃料所需的功率也将如此。”
? ? 现在,所有人聚集在一起,并有望创建一个标准。