芯片越来越小,散热越来越重要,目前有哪些芯片散热技术值得关注?
一些过热的晶体管可能不会对可靠性产生很大影响,但数十亿个晶体管产生的热量会影响可靠性。对于 AI/ML/DL 设计尤其如此,高利用率会增加散热,但热密度会影响每个先进的节点芯片和封装,这些芯片和封装用于智能手机、服务器芯片、AR/VR 和许多其他高性能设备。对于所有这些,DRAM布局和性能现在是首要的设计考虑因素。
无论架构多么新颖,大多数基于 DRAM 的内存仍面临因过热而导致性能下降的风险。易失性内存的刷新要求(作为标准指标,大约每 64 毫秒一次)加剧了风险。“当温度提高到 85°C 以上时,就需要更频繁地刷新电容器上的电荷,设备就将转向更频繁的刷新周期,这就是为什么当设备变得越来越热,电荷从这些电容器中泄漏得更快的原因。不幸的是,刷新该电荷的操作也是电流密集型操作,它会在 DRAM 内部产生热量。天气越热,你就越需要更新它,但你会继续让它变得更热,整个事情就会分崩离析。”
除了DRAM,热量管理对于越来越多的芯片变得至关重要,它是越来越多的相互关联的因素之一,必须在整个开发流程中加以考虑,封装行业也在寻找方法解决散热问题。选择最佳封装并在其中集成芯片对性能至关重要。组件、硅、TSV、铜柱等都具有不同的热膨胀系数 (TCE),这会影响组装良率和长期可靠性。
带有 CPU 和 HBM 的流行倒装芯片 BGA 封装目前约为 2500mm 2。一个大芯片可能变成四五个小芯片,总的来说,这一趋势会持续发展下去,因为必须拥有所有 I/O,这样这些芯片才能相互通信。所以可以分散热量。对于应用程序,这可能会对您有所一些帮助。但其中一些补偿是因为你现在有 I/O 在芯片之间驱动,而过去你在硅片中需要一个内部总线来进行通信。
最终,这变成了一个系统挑战,一系列复杂的权衡只能在系统级别处理。可以通过先进的封装实现很多新事物,但现在设计要复杂得多,当一切都如此紧密地结合在一起时,交互会变多。必须检查流量。必须检查配电。这使得设计这样的系统变得非常困难。
事实上,有些设备非常复杂,很难轻易更换组件以便为特定领域的应用程序定制这些设备。这就是为什么许多高级封装产品适用于大批量或价格弹性的组件,例如服务器芯片。对具有增强散热性能的制造工艺的材料需求一直在强劲增长。
液冷技术成为最佳选项
日前,英伟达发布了率先采用直接芯片(Direct-to-Chip)冷却技术的数据中心 PCIe GPU,为可持续发展贡献了自己的力量。
Equinix 正在验证 A100 80GB PCIe 液冷 GPU 在其数据中心的应用,这也是该公司为实现可持续性冷却和热量捕获的综合性方案中的一部分。GPU 现已进入试用阶段,预计将于今年夏季正式发布。
Equinix 是一家全球服务提供商,旗下管理的数据中心超过 240 个,致力于在业内率先实现气候中和。
Equinix 通过优化电源使用效率 (PUE),以期减少对环境的影响。PUE 是一种行业指标,用于衡量数据中心使用的能源有多少直接用于计算任务。
数据中心运营商正试图将 PUE 降至接近 1.0 的理想水平。Equinix 设施目前的平均PUE为 1.48,而其旗下新数据中心的 PUE 最低可低于 1.2。
在单独的测试中,Equinix 和 NVIDIA 均发现:采用液冷技术的数据中心工作负载可与风冷设施持平,同时消耗的能源减少了约 30%。NVIDIA 估计,液冷数据中心的 PUE 可能达到 1.15,远低于风冷的 PUE 1.6。
在空间相同的条件下,液冷数据中心可以实现双倍的计算量。这是由于 A100 GPU 仅使用一个 PCIe 插槽,而风冷 A100 GPU 需使用两个 PCIe 插槽。
“这是我们实验室中引入的首款液冷 GPU,我们倍感兴奋,因为客户迫切希望通过可持续的方式来利用 AI。”Equinix 边缘基础设施主管 Zac Smith说道。
数据中心运营商旨在淘汰用于冷却数据中心内部气体的冷水机组,因其每年会蒸发数百万加仑的水量。而借助液冷技术,系统仅需对封闭系统中的少量液体进行循环利用,并能够着重于主要的发热点。
至少有十几家系统制造商计划于今年晚些时候在其产品中使用液冷 GPU,包括华硕(ASUS)、永擎电子(ASRock Rack)、富士康工业互联网(Foxconn Industrial Internet)、技嘉科技(GIGABYTE)、新华三(H3C)、浪潮(Inspur)、英业达(Inventec)、宁畅(Nettrix)、云达科技(QCT)、 超微(Supermicro)、 纬颖科技(Wiwynn)和超聚变(xFusion)。
液冷技术的使用范围并不局限于数据中心,汽车和其他系统也需要利用该项技术来冷却封闭空间内的高性能系统。
硅同位素导热性比传统硅好150%
随着科技进步,许多电子产品尺寸越做越小,但由于电流一通过就产生热,所以过热成为电子设备缩小尺寸的一大阻碍。科学家发现,从硅的同位素所制成的纳米线,比普通硅的导热性还好150%,未来有望应用在计算机芯片,使其温度大幅降低。
当电子系统运行时,电流产生大量的热,累计久了就会损坏组件,因此科技业也开始发展冷却技术,但随着电子产品越来越小,有效散热更加困难。
研究人员发现,硅的同位素“硅-28”(Si-28),有助于制造出冷却性能超乎预期的计算机芯片。至少有92%的硅以硅-28的形式存在,另外5%为硅-29(Si-29),剩下为硅-30(Si-30)。虽然这些同位素具有相同的电子功能,但以往研究发现,硅-29和硅-30中的“杂质”会中断热量流动。
至于用硅-28所制成的散装组件,可提高10%热传导性,但并不值得付出额外成本制作。研究人员之后使用硅-28制成的纳米线,发现导热性意外地好,原本预计可改善20%效果,想不到性能竟比天然硅制成的纳米线好150%。
原因是纳米线外部形成一层二氧化硅(silicon dioxide),抚平了散热时的粗糙表面,线内部因为没有其他同位素的问题,热量能顺利地通过纳米线的核心。
这有助于新的计算机芯片研发,让这些芯片更有效地将热量发送出去,不过从其他同位素中分离出硅-28相当困难且昂贵,但相信未来在这方面也能取得进展。
封装行业正在采用新技术应对芯片散热问题
工程师们正在寻找新的方法来在封装模块构建之前对封装可靠性进行热分析。例如,西门子提供了一个基于双 ASIC 的模块的示例,该模块包含一个扇出再分布层 (RDL),该扇出再分配层 (RDL) 安装在 BGA 封装中的多层有机基板顶部。它使用了两种模型,一种用于基于 RDL 的 WLP,另一种用于多层有机基板 BGA。这些封装模型是参数化的,包括在引入 EDA 信息之前的衬底层堆叠和 BGA,并支持早期材料评估和芯片放置选择。接下来,导入 EDA 数据,对于每个模型,材料图可以对所有层中的铜分布进行详细的热描述。
量化热阻
如何通过硅芯片、电路板、胶水、TIM 或封装盖传递是众所周知的。存在标准方法来跟踪每个界面处的温度和电阻值,它们是温差和功率的函数。
“热路径由三个关键值来量化——从器件结到环境的热阻、从结到外壳(封装顶部)的热阻以及从结到电路板的热阻,”
详细的热模拟是探索材料和配置选项的最便宜的方法。“运行芯片的模拟通常会识别一个或多个热点,因此我们可以在热点下方的基板中添加铜以帮助散热或更换盖子材料并添加散热器等。对于多个芯片封装,我们可以更改配置或考虑采用新方法来防止热串扰。有几种方法可以优化高可靠性和热性能,”
在模拟之后,包装公司执行实验设计 (DOE) 以达到最终的包装配置。但由于使用专门设计的测试车辆的 DOE 步骤耗时且成本更高,因此首先利用仿真。
选择 TIM
在封装中,超过 90% 的热量通过封装从芯片顶部散发到散热器,通常是带有垂直鳍片的阳极氧化铝基。具有高导热性的热界面材料 (TIM) 放置在芯片和封装之间,以帮助传递热量。用于 CPU 的下一代 TIM 包括金属薄板合金(如铟和锡)和银烧结锡,其传导功率分别为 60W/mK 和 50W/mK。
随着公司从大型 SoC 过渡到小芯片模块,需要更多种类的具有不同特性和厚度的 TIM。
Amkor 研发高级总监 YoungDo Kweon 在最近的一次演讲中表示,对于高密度系统,芯片和封装之间的 TIM 的热阻对封装模块的整体热阻具有更大的影响。“功率趋势正在急剧增加,尤其是在逻辑方面,因此我们关心保持低结温以确保可靠的半导体运行,”Kweon 说。他补充说,虽然 TIM 供应商为其材料提供热阻值,但从芯片到封装的热阻,在实践中,受组装过程本身的影响,包括芯片和 TIM 之间的键合质量以及接触区域。他指出,在受控环境中使用实际装配工具和粘合材料进行测试对于了解实际热性能和为客户资格选择最佳 TIM 至关重要。
孔洞是一个特殊的问题。“材料在封装中的表现方式是一个相当大的挑战。你已经掌握了粘合剂或胶水的材料特性,材料实际润湿表面的方式会影响材料呈现的整体热阻,即接触电阻,”西门子的 Parry 说。“而且这在很大程度上取决于材料如何流入表面上非常小的缺陷。如果缺陷没有被胶水填充,它代表了对热流的额外阻力。”
以不同的方式处理热量
芯片制造商正在扩大解决热量限制的范围。“如果你减小芯片的尺寸,它可能是四分之一的面积,但封装可能是一样的。是德科技内存解决方案项目经理 Randy White 表示,由于外部封装的键合线进入芯片,因此可能存在一些信号完整性差异。“电线更长,电感更大,所以有电气部分。如果将芯片的面积减半,它会更快。如何在足够小的空间内消散这么多的能量?这是另一个必须研究的关键参数。”
这导致了对前沿键合研究的大量投资,至少目前,重点似乎是混合键合。“如果我有这两个芯片,并且它们之间几乎没有凸起,那么这些芯片之间就会有气隙,”Rambus 的 Woo 说。“这不是将热量上下移动的最佳导热方式。可能会用一些东西来填充气隙,但即便如此,它还是不如直接硅接触好。因此,混合直接键合是人们正在做的一件事。”
但混合键合成本高昂,并且可能仍仅限于高性能处理器类型的应用,台积电是目前仅有的提供该技术的公司之一。尽管如此,将光子学结合到 CMOS 芯片或硅上 GaN 的前景仍然巨大。
而且华为也采取了芯片封装的方法为芯片降温。2021年,华为技术有限公司之前公开了“芯片封装组件、电子设备及芯片封装组件的制作方法”专利,公开号为 CN113707623A。
企查查专利摘要显示,本申请公开了一种芯片封装组件、电子设备及芯片封装组件的制作方法。
芯片封装组件包括封装基板、芯片和散热部,封装基板包括上导电层、下导电层和连接在上导电层和下导电层之间的导电部;芯片包括相背设置的正面电极和背面电极,芯片内嵌在封装基板内,导电部包围芯片,正面电极与下导电层连接,背面电极与上导电层连接;散热部连接于上导电层远离芯片的表面;上导电层、下导电层和导电部均具导热性能。
本申请通过设置芯片与封装基板的上导电层以及下导电层连接,从而芯片产生的热量可进行双向传导散热,并在上导电层上设置散热部,使得芯片封装组件能够达到更优的散热效果。
当前,电子设备越来越轻薄,芯片封装组件的集成度越来越高,存在着较为严重的散热问题,芯片无法得到有效散热的话,会有一定的安全隐患,华为这项专利可以较好的解决部分散热问题。