800亿晶体管开启新一轮堆料大战
1947年12月23日,世界上第一个晶体管诞生。晶体管的出现就好像宇宙的第一次爆炸。如同大爆炸带来的万千星球,75年间世界上晶体管的数量不断增长。
从一个晶体管到在一片芯片上集成800亿个晶体管,当芯片以摩尔预测的那样成倍增长,“堆料”成为各个大厂实现性能差异化的必选之路。
那么百亿级晶体管给产品性能带来了多少提升?随着摩尔定律的开始放缓,“堆料”的难度越来越高,芯片公司又该如何突破极限?
高性能处理器的”堆料”大战
3月22日,英伟达介绍了新Hopper?GPU?架构与H100 GPU。这款被称为核弹级更新的新品将容纳800亿个晶体管,成为当下性能最强大的GPU。在发布会上,英伟达CEO黄仁勋表示,20块H100 GPU就可以承托全球互联网的流量。
H100支持的第四代NVLink接口可以提供高128GB/s的带宽,是A100的1.5倍;而在PCIe 5.0下也可以达到128GB/s的速度,是PCIe 4.0的2倍。
内存方面,H100还将默认支持80GB的HBM3内存,带宽为3 TB/s,比A100的HBM2E 快 1.5 倍。性能方面,H100可提供高达FP64/FP32 60TFlops,FP162000TFlops,TF32 1000TFlops,都三倍于A100,FP8 4000TFlops,六倍于A100。
炸场的不只是新一代GPU,还有英伟达的数据中心CPU?Grace。Grace是两个Grace CPU封装的,总计144个CPU内核(基于ARMv9指令集),缓存容量396MB,支持LPDDR5X ECC内存,通过每秒 900 GB 的 NVLink 芯片到芯片互连将 144 个计算核心彼此连通,内存带宽则为每秒 1 TB。
Grace CPU Superchip 使用 Arm v9并且该芯片使用 Neoverse N2 设计。Neoverse N2 平台是 Arm 首个支持新发布的 Arm v9 扩展的IP,其性能比V1 平台高出 40%。N2 Perseus平台采用5nm设计,支持PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0 和 CXL 2.0。而功率消耗上看,Grace CPU Superchip的两个CPU和板载内存都消耗500W的峰值功率。
而就在3月9日,苹果在春季发布会上也推出了让人眼前一亮的超级新品M1 Ultra,这款芯片包括20个CPU内核,其中16个是注重性能的Firestorm核心,4个注重效率的Icestorm核心。新的SoC由1140亿个晶体管组成,可配置高达128GB的高带宽、低延迟统一内存,可通过20核CPU、64核GPU和32核神经引擎访问,比使用带有Afterburner的28核Mac Pro快5.6倍。
“堆料”=性能?
英特尔1971年发布4004处理器,拥有2250个晶体管;1979年8088投入生产,包含29000个晶体管的芯片;
1986年MIPS计算机系统公司发布第一个商业化的RISC体系结构包含11万个晶体管;
数字设备公司(DEC)于1994年发布Alpha 21164包含930万个晶体管;
在2006年英特尔发布了Core Duo包装了2.91亿个晶体管,同时开启多核时代;
2014年IBM的Power8包含了12个核心,有96个线程装有42亿个晶体管;
......
而我们回看世界上第一款商用微处理器,英特尔4004,这款51年前诞生的产品在3mm*4mm的面积上集成了2300个晶体管,采用五层设计、10微米制程。而这款处理器的最初的主频是108KHz,最高时脉有740KHz,能执行4位元运算,支援8位元指令集及12位元位址集,使用10.8微秒和21.6微秒运行周期。
晶体管数量的增加让性能提升了多少呢?包含2300个晶体管的英特尔4004在使用10.8微秒运行周期时,可以每秒运算9万次。作为对比,包含800亿晶体管的H100最高可支持每秒4000万亿次的浮点计算。我们可以看到晶体管数量与性能明显的正相关,这也是为何所有领先的芯片公司都在晶体管数量上下足功夫。
然而当每一场新开的发布会都在刷新大众对晶体管数量的认知的同时,“堆料”的光环逐渐褪去。一部分人认为,对于领先的芯片设计商,“堆料”显得简单粗暴。对于个人用户,很难100%地利用所有晶体管带来的性能提升。更多时候,“堆料”对于芯片厂商的意义是保持市场地位。以热衷堆料的苹果为例,苹果在最新的手机处理器上集成了150亿个晶体管,采用6核CPU、4/5核GPU,让CPU性能领先竞争对手50%,4/5核CPU性能实现30%/50%的领先。但对于使用iPhone?12的用户来说,这些数字似乎意义有限。
可以看到,芯片性能的发展史也是晶体管数量的变迁史。但随着晶体管数量的增长,摩尔定律的放缓已经肉眼可见。对于顶尖大厂来说,找寻增加晶体管数量之外的“卷法”也成为了当务之急。
“堆料”极限如何突破?
Chiplet技术
小芯片(Chiplet)技术被视为延缓半导体摩尔定律的解方,它的概念其实很简单就是硅片级别重用。将一个芯片组成的处理器划分为多个芯片,分别是:数据存储、计算、信号处理、数据流管理等功能,然后再将它们连接在一起形成一个小芯片的芯片网络。
Marvell创始人周秀文博士在ISSCC2015大会上提出了提出Mochi架构的概念,他认为Mochi可成为诸多应用的基础架构。而AMD在2019年通过采用Chiplet技术,应用于在Ryzen和EPYC处理器。使用7nm的Zen2 CPU内核的CPU性能比前代产品提高了15%。
除了Chiplet技术可以将大型7nm设计的成本降低高达25%;在5nm及更先进的制程的设计中,节省的成本更大。
芯原股份创始人、董事长兼总裁戴伟民曾表示,对于产业来说,在标准与生态层次上,Chiplet建立了新的可互操作的组件、互连协议和软件生态系统;对于芯片设计来说,降低了大规模芯片设计的门槛。
英特尔、AMD、Arm、台积电和三星等众多行业巨头推出了新的通用小芯片互连高速 (UCIe) 联盟,其目标是通过开放的芯片间互连标准化小芯片之间的互连设计。从而降低成本并培育更广泛的经过验证的小芯片生态系统。
最后,UCIe 标准旨在与其他连接标准(如 USB、PCIe 和 NVMe)一样普遍,同时为小芯片连接提供卓越的功率和性能指标。值得注意的是,所有三个领先的代工厂都将采用这项技术,以及 x86 和 Arm 生态系统。这是随着摩尔定律的减弱,芯片制造商正在共同努力解决越来越困难的缩放。
在英伟达的新品上,支持UCIe的NVlink连接技术就起到重要的作用。两个 Grace CPU 通过 Nvidia 新的 NVLink 芯片到芯片 (C2C) 接口进行通信。这种互连技术支持低延迟内存一致性,允许连接的设备同时在同一个内存池上工作。NVLink-C2C可提供高达 25 倍的能效和 90 倍的面积效率,支持高达 900 GB/s 或更高的吞吐量。同时通过支持多种类型的联机,Grace可实现从 PCB 的互连到硅中介层和晶圆级的互连。
互连技术除了提高芯片性能,还可以降低成本和并支持在单个封装中使用不同类型的工艺节点。
先进封装
当实际芯片的密度仍以每3年约2倍的速度增长,摩尔定律的放缓已经肉眼可见。这种放缓的部分原因是由于 SRAM 缩放、功率传输和热密度的消亡,但这些问题大多与数据的输入和输出有关。
芯片上数据的输入和输出(IO)是计算的命脉。将内存放在芯片上有助于通过减少通信开销来减少IO需求。小芯片技术虽然能满足一部分需求,但它不是孤立的解决方案。随着每个晶体管的成本的上升,设计成本飙升,由于需要更多IO来与其他芯片接口,但IO的限制让部分芯片无法拆分,因此芯片尺寸仍在达到峰值。
先进封装就成为了解决这方面问题的方法。苹果的M1 Ultra就通过2.5D先进封装实现性能超越。UltraFusion是苹果将两个M1 Max裸片链接的方法。通过将两个M1 Max裸片封装到一起,苹果使他们可以使用的硬件数量翻了一番。两倍的CPU内核、两倍的GPU内核、两倍的神经引擎内核、两倍的LPDDR5内存通道以及两倍的外围设备I/O。
英特尔则选择在单个基板中可以有许多嵌入式桥接,根据需要在多个裸片之间提供极高的 I/O 和良好控制的电气互连路径,即EMIB封装实现芯片性能的提升。
可以看到封装、架构种种因素在性能提升上的重要性越来越高。
“堆料”是大厂逃不过的内卷?
虽然业界对“堆料”的褒贬不一,但现实仍是,可以不止于堆料,但不能不堆料。而堆料也不仅仅是形容在处理器上增加晶体管,广义上讲堆料还包括各种硬件厂商,如主板厂、手机厂为了寻求差异化,也在产品上增加大量的顶尖配件。
随着汽车智能化程度的提高,汽车厂商也在用”堆料”来吸引客户。Aquila蔚来超感系统配备了33个高性能感知硬件,包括1个超远距高精度激光雷达、7颗800万像素高清摄像头、4颗300万像素高感光环视专用摄像头、1个增强主驾感知、5个毫米波雷达、12个超声波传感器、2个高精度定位单元和V2X车路协同。
如果是自动驾驶是智能汽车厂商们的终极目标,显然这一配置并不足够。更何况自动驾驶需要的不止是汽车厂商们的突破,对交通系统、城市网联等方面都有着很高的要求。但汽车厂商们还是在为产品增加非必要的配件。
换句话说,“堆料”就像是各硬件厂商的一场内卷。既然逃不过,就只能加入。
不过就算是内卷,也有不同的卷法。汽车行业中,特斯拉就选择通过优化传感器组合、控制传感器数量,算法改进等各种手段,充分发挥单个传感器的最佳性能,而非单纯的增加配件。
如果说“堆料”是一场竞争始终无法避免,可以确定的是最终决定胜负的“料”一定不止一面。