创业30年,英伟达的第四次高光时刻
芯东西(公众号:aichip001)
作者 | ?心缘
编辑 | ?漠影
英伟达的激荡30年,有四大高光时刻。
第一次高光,是1999年世界上第一颗图形处理器(GPU)GeForce 256诞生,为终结显卡混战、奠定英伟达GPU霸主地位埋下伏笔。
第二次高光,是2006年革命性的统一编程软件CUDA发布,为多年后英伟达成为“AI计算之王”铺设了坚实的生态根基。
第三次高光,是2012年英伟达GPU助攻深度学习算法夺魁国际计算机视觉顶级赛事ImageNet竞赛,正式掀起人工智能(AI)第三次浪潮。
第四次高光,是2017年英伟达专为数据中心和高性能计算打造的Tesla V100 GPU,凭借凶残性能一统云端,从此笑傲数据中心计算江湖。
接连踩准游戏图显和人工智能两大风口,英伟达的营收和市值开始狂飙突进,其股价6年暴涨70倍,成为科技圈象征财富自由的“股市神话”。
2020年夏天,英伟达迎来历史时刻——数据中心业务季度营收首次超过游戏业务,成为英伟达第一大收入来源。2021年10月,英伟达市值超过台积电,首度登顶全球市值最高芯片公司,峰值一度超过8000亿美元量级。
不过,英伟达的爆发式成长,在今年短暂地按下暂停键。
随着疫情红利退潮,全球半导体产业开始面临需求衰减、库存待消的周期性困境,这在近期的财报季得到明显体现,多家芯片巨头发出预警。
英伟达也不例外。受宏观经济环境不景气、消费电子市场需求滑坡等因素的影响,英伟达近期预告的Q2财报业绩中,游戏业务同比、环比均骤降33%,致使其整体营收逊于预期。
但这份看似滞缓的财报预告,恰恰证明了英伟达创始人兼CEO黄仁勋的先见之明。
相比于陷入疲态的游戏业务,英伟达数据中心业务正发展迅猛,其最新季度营收已经接近游戏业务的两倍,同比增幅高达61%。
▲英伟达游戏及数据中心业务营收变化(芯东西制表)
这意味着,数据中心业务已取代游戏业务,成为撑起英伟达未来的一大主心骨。
财报波动只能反映短期的市场风向。无论是警告芯片行业将进入下行周期的分析师,还是刚披露最新季度财报的各路半导体巨头,无不认同数据中心、智能驾驶等新兴市场将长远地催生旺盛的芯片需求。
在这些新兴市场,英伟达拥有相当高的话语权,再加上借势元宇宙热潮,其产品在数据中心领域大受追捧。从人工智能、数据分析到数据科学,英伟达正通过持之以恒的技术创新,展示出颠覆数字世界的力量。
而这一切,都源自黄仁勋极具远见的前瞻性决策。对此,英伟达中国区工程和解决方案高级总监赖俊杰博士深有感触。
近日,在做客芯东西高端访谈栏目《芯焦点》对话中,赖俊杰与芯东西总编辑张国仁深入对话,深入阐释了英伟达如何在不同的时点,用技术塑造自身产业地位的背后逻辑,尤其在数据中心市场,让“加速计算专家”的形象越来越深入人心,并在营收上超过to C业务背后,是如何步步为营构筑全栈技术和生态优势的。
一、纵向加速:全栈布局,英伟达的杀手锏
数据中心芯片战场硝烟弥漫,但英伟达始终屹立不倒。
在今年3月举行的英伟达GTC大会上,黄仁勋在演讲中谈到英伟达构建了四层技术栈:硬件、系统软件、软件平台、应用框架。
其中每一层,都紧密围绕着数据中心的刚需。芯片是算力基础,但要充分发挥其性能,必须构建完备的系统软件底层库。上层的三类平台及各种应用,更是为不同行业客户的诉求量身定制。
客户需要更高的AI算力需求,于是英伟达打造了更强的芯片、服务器和AI超级计算机;客户需要更好用的软件系统,来快速实现AI模型的训练和部署,于是英伟达构建了从底层系统软件、驱动软件、平台到上层的应用框架;客户需要在构建模拟真实场景的数字虚拟世界,于是英伟达打造了将计算机图形学与AI结合的NVIDIA Omniverse实时设计协作和模拟平台。
更有甚者,英伟达把主流AI算法模型做了个遍,并几乎通通开源。企业假如对某个AI算法缺乏积累,可以直接免费下载英伟达现成的先进模型,稍做调整就能落地应用。英伟达的NVIDIA AI Enterprise软件,足足将AI模型开发时间从80周缩至8周。
这样的全栈布局,已经成为英伟达在数据中心企业级市场的杀手锏。
你很难想出还有哪家企业,拥有如此完备成熟的硬件产品矩阵、如此广泛的AI计算开发者生态,又在软件模型研发方面积累雄厚。
追溯其根由,黄仁勋的棋局布得着实步步高明,令人拍手称妙。
当数据中心浪潮还未铺天盖地、人工智能训练还是小众领域,黄仁勋已经投入重金,研发通用计算GPU和统一编程软件CUDA,为英伟达谋一个远超游戏业务的更大生意——计算平台。
在那时,让GPU可编程,是个听起来不知道有什么用,又会让产品成本几乎翻倍的技术改变。没有客户愿意为此买单,但预判到单一功能图形处理器不是长远之计的黄仁勋,还是毅然决定,在英伟达所有产品线上都应用CUDA。
“Jensen(黄仁勋)作为创始人,在我们公司有非常权威的影响力,特别是人工智能这样一些事情上。”赖俊杰回顾说,为了这一愿景,早期黄仁勋快速调动了英伟达上上下下非常多的资源。
▲芯东西总编辑张国仁(左)与英伟达中国区工程和解决方案高级总监赖俊杰博士(右)对话
那绝对是难熬的五年,恰逢金融危机爆发、游戏业务增长停滞,英伟达的利润被近乎摧毁,股价也大幅下跌。
但最终结果,是黄仁勋赌赢了,正是他超前的决策、打造计算平台的愿景,让英伟达赢在了人工智能落地热潮的起点——2012年,深度学习算法的强悍计算表现轰动学术圈,作为高算力且易用的生产力工具,GPU+CUDA迅速风靡计算机科学界,成为人工智能开发的“标配”。
大量的芯片从业者这才恍然惊觉,急忙追随这位芯圈“预言家”的脚步,给自家芯片构建可编程计算的能力和软件栈。
16年前CUDA的问世,让从游戏开发者到超级计算开发者都可以编程使用英伟达的GPU产品;现在,英伟达继续沿着降低开发门槛的思路,通过持续迭代AI模型、软件及平台,让更多非专业AI开发者也能轻易投身于智能化升级的大潮中。
如今“全栈”已是所有瞄准云端数据中心市场的芯片公司的共识,即只有深入到应用中、理解应用的计算模式,才能给最终用户提供足够的价值。
不同的是,他们还在探索的路上,而更早起步的英伟达已经坐拥先发优势,其产品经过大量的资源投入和市场历练,不断积累各种不同的行业应用认知和迭代优化,并对英伟达的营收形成了正向的反馈。
过去五年,英伟达数据中心营收复合年均增长率为53%。截至今年5月,英伟达2023财年Q1财报显示,其数据中心业务销售收入达到创纪录的37.5亿美元,同比增长83%,已成英伟达收入占比最大、成长性最高的第一大业务。
当然,全栈的基础,是基于出色架构设计而打造的高性能芯片,如果抛开芯片本身,只强调全栈或者在软件方面的投入,那是空中楼阁。
二、横向扩展:算网通吃,三芯合体
彪悍的芯片性能,无需做过多解释。
两年前,NVIDIA A100 Tensor Core GPU作为英伟达面向AI加速和高性能计算打造的“算力猛兽”横空出世,成为横扫云端数据中心基础设施的“顶流”硬件。
光是不断出现在各路AI计算论文及PPT展示的实测性能对比图,足见A100一直被业界奉为AI训练加速硬件的标杆。但正如前文所述,英伟达想做的,显然不止是一颗芯片那么简单。
在今年国际权威AI基准测试平台MLPerf公布的最新结果中,A100继续保持了高光战绩,是唯一参与全部8项基准测试的AI加速器,并在其中6项测试中计算速度第一。
实现这一成绩,靠得不仅仅是芯片理论峰值,而是系统级的比拼,即计算能力、内存带宽、互连结构、软件优化等综合作用的结果。
在硬件层面,A100本身提供的高浮点计算能力、高内存带宽等性能,能让AI计算更快,但要想让整个系统都快,关键在于突破网络通信瓶颈。
对此,英伟达的布局也非常完整,既有GPU之间、GPU与CPU之间的NVLink互连技术,也有Infiniband、高速以太网等,能支持大规模集群中跨节点的高速数据传输。
在软件层面,英伟达在cuDNN等算子加速库、nccl等集体通信库方面做了很多工作,不给高性能的A100 GPU拖后腿。
“就像咱们经常在很多地方会举的木桶理论。”赖俊杰打了个比方,由多块木板构成的木桶,决定其盛水量的关键因素,不是最长的木板,而是最短的木板。类似的,数据中心要实现更好的整体实力,每个软硬件基础设施都不能有短板。
因此,数据中心设计者必须更宏观地考虑整个系统中的软硬件搭配,来更好地支持AI应用落地。
英伟达同样在补齐硬件短板。
2019年前,GPU还是英伟达芯片版图中的唯一主角。三年间,英伟达接连发布自研DPU和CPU,将GPU从“唯一”变成了“三分之一”。
今年英伟达还亮出了一个将自研CPU和GPU拼装到一起的互连“大招”NVLink-C2C,把数据传输速度相较连接传统CPU提升15倍。考虑到现在GPU显存大小受到工艺和成本的约束,这种将CPU和GPU粘在一起的做法,相当于间接扩展了GPU能访问到的高速存储,对于一些高性能计算或对GPU显存容量要求高的应用场景尤其适用。
至此,坐拥三大算力支柱的英伟达,已经成为数据中心企业级市场中的一位“全能型战士”。
英伟达也试图将GPU+CUDA的成功经验复制到DPU等更多硬件上,即通过编程语言定义硬件,包括推广针对DPU的DOCA、针对量子计算QPU的QODA软件开发架构等。
三、成为数据中心的加速计算专家
对于数据中心客户来说,英伟达的软硬件技术组合就像“堆积木”,可以按需选购,难点在于怎么选,才能匹配综合效用最大化的算力,以及实现更高的性价比。
赖俊杰说,在数据中心企业级市场,英伟达扮演的核心角色可以用一个词概之——加速计算专家。
“我们比较擅长去做性能的分析、优化。”他分享道,为扮演好这个的角色,英伟达除了提供丰富的产品矩阵,还在帮助数据中心企业级客户挖掘需求和提供技术搭配的建议。
在英伟达,赖俊杰主要负责带领团队对接中国区的核心大客户技术需求。他告诉芯东西,提供多层面的服务支持,是他们日常工作非常重要的一部分。
团队中,不同角色的同事分工合作,来跟客户坐在一起,帮客户梳理分析最重要的工作负载特征,寻找计算的热点,完成移植到GPU上的工作,并帮客户调整优化整个应用的链路性能。
对于企业普遍关心的成本问题,黄仁勋的经典名言给出了答案:“买得越多,省得越多。”
乍一听可能会感觉矛盾,毕竟在芯片圈,GPU以高功耗而闻名。赖博士解释说,这同样是从系统的角度来算账,通过软硬件协同,最终整体能以更低的硬件成本,支撑起更多的业务应用。
当然,更直观的选购指南,是提供参考模板。
在数据中心,英伟达团队会配合OEM厂商,收集用户的普遍需求,比如一个服务器里需要放几块卡等问题,根据这些需求将产品定型为几个主要的类别,不同的类别会针对不同的应用场景。
近年来,英伟达在训练先进AI算法模型等方面开展了大量工作,并在此过程中积累了许多对于系统、硬件的需求。基于这些需求及客户反馈,他们将经验汇总,提出了从服务器级别到整个数据中心级别的一些参考架构实现。
根据市场情报公司Liftr Insights调查,2021年Q1英伟达在云端数据中心AI加速芯片市场的市占率高达78%,近年来基本稳定在80%附近;另据全球超算评估组织Top500.Org数据,2021年下半年,英伟达在全球超算中心的市场占率超过90%。
英伟达原本就在GPU性能和高度粘性的CUDA开发者生态上占据优势,又在客户服务方面思虑周全,也就不难理解云端训练端为何至今未出现一个能与其正面争锋的存在了。
四、落子未来:从AI大模型、工业元宇宙,到再造一个地球
作为国家新型基础设施建设的重要组成部分,大数据中心、人工智能的战略地位举足轻重,国内智算中心建设大潮的大幕已然拉开。
现在智能语音、图像识别等技术愈发成熟,逐渐转化出语音客服、推荐系统、医疗机器人等越来越多的行业应用价值。大模型、数字孪生、自主机器、虚拟化身等需求亦在工业界蓬勃而生。
“作为数据中心设计者,必然要思考一个问题,如何能够更好地支撑起这样的应用?”赖俊杰说。
一方面,大模型正发展成AI基础研究和产业化落地的一大趋势,其庞大的算力需求、分布式计算问题,以及如何用相对更低的整体成本去完成大模型的推理部署,都带给数据中心新的挑战。
另一方面,工业数字孪生等应用场景开始将3D渲染能力跟AI结合,推进数实融合、构建工业元宇宙和推动数字化转型的过程,必然会产生大量数据,如何高效利用这些数据,成为越来越多数据中心企业级应用所关注的话题。
与以往一样,英伟达早早地预见了这些趋势,并针对数据中心客户可能的需求,对其软硬件产品进行相应的优化。
比如A100 GPU的继任者——即将在今年下半年上市的H100 GPU,被英伟达称作“实现了有史以来最快的代际飞跃”,其中尤其值得一提的新特性,便是引入Transformer Engine,用以加速基于Transformer的大模型训练。
▲Hopper架构H100 GPU的主要升级
Transformer是当前自然语言处理领域最重要的模型结构之一,是一众大模型的基础,在数据中心工作负载中的地位日臻重要。赖俊杰说,H100 GPU一宣布,其数据中心客户就表现出浓厚兴趣。
基于4608块H100 GPU,英伟达还打造了Eos超级计算机,预计将提供18.4Exaflops的AI算力,为英伟达内部在气候科学、数字生物学和AI方面的研究工作展开支持。据称它在面向AI特定用途时,最大处理速度比当前的超算第一名还要快。
这是英伟达「未来十年实现Million-X百万倍性能飞跃」愿景的一部分,即通过加速计算、大规模扩展和AI的结合,实现百万倍计算加速,推动科学和工业计算的发展,尤其是助力解决药物研发、宇宙模拟、数字孪生等重大挑战。
其中特别有意思的一个项目是创建数字孪生地球,NVIDIA计划建立AI超级计算及Earth-2,来应对气候变化危机。
做整个地球的数字孪生,是个极富挑战的问题,其目的是构建一个气候模型,来推演全球不同区域几十年的气候变化,从而提前制定好应对极端天气变化的最佳策略。
今天,我们做气候模拟的分辨率大约为10~100公里。而要模拟全球从海洋、海冰、地表、地下水到大气和云层的整个水循环过程,需要几米的分辨率,以及比目前可用算力高出数百万到数十亿倍的算力。
为此,英伟达计划全力投入大量资源,将它所积累的各种先进技术,包括GPU加速计算、深度学习、内嵌物理信息的神经网络突破以及AI超级计算机等全部投入其中,为实现超分辨率气候建模所需的10亿倍量级提供支撑。
“Jensen(黄仁勋)作为英伟达的创始人,他在带领整个公司往前走的时候,还是有一些情怀。”赖俊杰说,“无论是做Earth-2数字地球孪生,还是在医疗行业的大举投入,这项动作的初衷,都是希望利用英伟达的能力和资源,做一些对整个人类群体有益的事情。”
结语:风物长宜放眼量
天时,既有英伟达主导而成先发优势,也有深度学习浪潮爆发的偶然时代机遇。
从21世纪初,英伟达就开始将GPU从单一图形处理功能向通用计算方向改造,不断迭代软硬件和推进社区建设。如今其生态壁垒之深厚,已经不是其他芯片公司喊喊口号就能轻易追赶的。
当然,如果不是2012年,深度学习之父Geoffrey Hinton团队通过ImageNet挑战赛展示出人工智能的惊人计算能力,那么英伟达在数据中心企业级市场的崛起,也许会再晚数年。
地利,是随着云计算、移动互联网、智能驾驶、元宇宙等产业加速发展,企业对计算能力的旺盛需求,正推动全球范围内数据中心建设如火如荼的开展,准备就绪的英伟达得以充分施展抱负,在数据中心企业级市场中大展宏图。
人和,是这一切布局的源头,是英伟达核心人物黄仁勋看世界的远见。无论是转向通用计算平台还是到提前全面布局人工智能,如果不是黄仁勋在早期快速调动公司上上下下的资源来做大规模投入,今天的人工智能和数据中心可能会是另一番景象。
一路走来,英伟达没有故步自封,而是持续拥抱新事物、新技术。无论是重新定义GPU,还是学习竞争对手的思路,抑或是不断尝试理解重要的领域应用对于计算系统的需求,其富有远见的判断力和持续自我重塑的执行力,都在不断延长英伟达的生命周期。
结果正如我们所看到的,英伟达已经构建起坚固的护城河——全栈计算能力。尽管前方充满了未知与风险,但这家芯片巨头显然早已下定决心,瞄准数据中心这条道路,并坚定地走下去。
最后,回到数据中心架构层面,很多计算问题远远不止一颗芯片这么简单,有时需要很多不同类型的芯片、不同的网络结构高效协同,并配合大量的软件工程师工作,才能最终将整体应用性能做到足够显著的提升。在先进技术探索之路上,每迈出的新一步,都值得我们保持敬畏。
春江水暖鸭先知,已然身处数据中心加速计算中心的英伟达,在黄仁勋敏锐的战略洞察指导下,仍在全力以赴投入研发创新,去支撑学术界和工业界解决那些最难的问题,创造更深远的价值。