图形处理器GPU行业研究:破晓而生,踏浪前行
GPU:核心计算底座
GPU,指 Graphics Processing Unit,图形处理器,进行图形和图像相关运算工作的微 处理器。在该产品基础上,衍生出 GPGPU,即 General Purpose Graphics Processing Unit,其在图形处理器 GPU 的基础上进行改造,使之可以进行部分科学计算和 AI 计算 等的处理器。GPU 概念自 20 世纪 70 年代末提出,其角色变换从最早分担 CPU 压 力的附属硬件,到由于能承担大规模运算而逐渐被人们重视。
本文引用地址:http://www.eepw.com.cn/article/202209/438315.htm摩尔定律放缓无法匹配爆发式算力需求,GPU 兴起
历史上,由于摩尔定律的存在,使得 CPU 处理器的性能可以满足应用软件不断升级的 需求。但近几年随着半导体技术改进达到物理极限,电路复杂度逐渐提升。2016 年 3 月 24 日,英特尔宣布正式停用“Tick-Tock”处理器研发模式,未来研发周期将从两年周 期向三年期转变。至此,摩尔定律对英特尔几近失效。 随着互联网用户和各类网络应用的快速增长,数据体量的急剧膨胀,数据中心对计算的 需求也在迅猛上涨。诸如深度学习在线预测、直播中的视频转码、图片压缩解压缩以及 HTTPS 加密等各类应用对计算的需求已远远超出了传统 CPU 处理器的能力所及。 一方面处理器性能再无法按照摩尔定律进行增长,另一方面数据增长对计算性能要求超 过了按“摩尔定律”增长的速度。CPU 处理器本身无法满足计算性能需求,导致需求和 性能之间出现了缺口。解决方法是通过硬件加速,采用专用协处理器的异构计算方式来 提升处理性能,而 GPU 凭借其相对通用灵活和适应并行计算等特性成为主要选择。
GPU 在并行运算层面具备一定优势
当前主要兴起的计算芯片分别为 GPU、ASIC、FPGA 等,其中 GPU 最初专用于图形 处理制作,后逐渐应用于计算。其内部包含大量的运算单元核心,尽管单个核心缓存较 小,逻辑功能简单,仅能执行有限类型的逻辑运算操作,但其多核心架构天然适合执行 复杂的数学和几何计算,且科学计算领域通用性较高,相比 CPU,综合性能更好。当前 缺点在于功耗过高,效率不足。
GPU 是核心计算资源底座。虽然提供各类计算资源的芯片种类众多,但 GPU 依然是市 场的最为主要的支撑点。以在 AI 市场的应用为例,IDC 研究发现,2021 年上半年中国 人工智能芯片中,GPU 依然是实现数据中心加速的首选,占有 90% 以上的市场份额, 而 ASIC、FPGA、NPU 等其他非 GPU 芯片也在各个行业和领域被越来越多地采用, 整体市场份额接近 10%。
历史复盘:当前 GPU 进入高速发展期
前 GPU 时代,图形处理器初具雏形:1981 年世界上第一台个人电脑 IBM5150 由 IBM 公司发布,其搭配黑白显示适配器与彩色图形适配器,是最早的图形显示控制器。20 世 纪 80 年代初期,出现了以 GE 芯片为标志的图形处理器,GE 芯片的具备四位向量的浮 点运算功能,可以实现图形渲染过程中的矩阵,裁剪,投影等运算,其出现标志着计算 机图形学进入以图形处理器为主导的阶段。后续随着 GE 等图形处理器功能不断完善, 图形处理功能逐渐由 CPU 向 GPU(前身)转移。
GeForce 256 横空出世,GPU 正式诞生:20 世纪 90 年代,NVIDIA 进入个人电脑 3D 市场,并于 1999 年推出具有标志意义的图形处理器 GeForce 256,真正意义上的 GPU 第一次出现。相较过往图形处理器,第二代 GPU GeForce 256 将 T&L 硬件(用于处理 图形的整体角度旋转与光晕阴影等三维效果)从 CPU 中分离出来并整合进 GPU 中,使 得 GPU 可以独立进行三维顶点的空间坐标变换,将 CPU 从繁重的光照计算中解脱出 来。即便是低端 CPU,搭配了支持硬件 T&L 的显卡也可以流畅地玩游戏,这使得英伟 达在市场竞争中能以产品价格获得较大优势,市占率持续提升。 顶点编程确立 GPU 编程思路:经过 2000 年的显卡厂商洗牌后,S3、SIS 等厂商无力 与英伟达和 ATI 竞争,逐渐淡出了显卡市场,拥有产品高速迭代能力的 ATI 成为继 3Dfx 后唯一有实力和英伟达竞争的厂商。2002 年第三代 GPU 芯片陆续推出(如英伟达的 GeForce 4Ti 与 ATI 的 8500),其均具备顶点编程能力,可以通过赋予特定算法在工作 中改变三维模型的外形。顶点编程能力的出现确立了GPU芯片的编程思路,使后续GPU 芯片用于其他计算领域成为可能。但本时期 GPU 尚不支持像素级编程能力(片段编程 能力),其编程自由度尚不完备。
GPU 用于通用计算,GPGPU 概念出现:2003 年 SIGGRAPH 大会上首次提出将 GPU 运用于通用运算,为 GPGPU 的出现打下基础。其后 3 年,通过用统一的流处理器取代 GPU 中原有的不同着色单元的设计释放了 GPU 的计算能力,第四代 GPU 均具有顶点 编程和片段编程能力,完全可编程的 GPU 正式诞生。由于 GPU 的并行处理能力强于 CPU,因此 GPU 可以在同一时间处理大量顶点数据,使其在人体 CT、地质勘探、气象 数据、流体力学等科学可视化计算处理上具备较大优势,足以满足各项实时性任务。后 续伴随线性代数、物理仿真和光线跟踪等各类算法向 GPU 芯片移植,GPU 由专用图形 显示向通用计算逐渐转型。 架构持续迭代,AI 计算关注度渐起:2010 年英伟达发布了全新 GPU 架构 Fermi,其是 支持 CUDA 的第三代 GPU 架构(第一代与第二代分别是 G80 架构与 GT200 架构)。 彼时英伟达在 Fermi 架构的设计上并未对 AI 计算场景做特定设置,但 GPU 芯片在 AI 计算领域相较 CPU 芯片已拥有了较大优势(GTX580 峰值算力较 i7-920 峰值算力高出 一个数量级)。随后在 2012、2014 年陆续发布的 Kepler 架构、Maxwell 架构中,尽管 英伟达并未在硬件层面对 AI 计算做特定优化,但在软件层面却引入了深度神经网络加 速库 cuDNN v1.0,使英伟达 GPU 的 AI 计算性能与易用性得到提升。
Pascal 架构发布,AI 计算专精版本到来:Pascal 架构在 2016 年 3 月被推出,是英伟 达面向 AI 计算场景发布的第一版架构。其硬件结构中加入了诸如 FP16(半精度浮点数 计算)、NVLink(总线通信协议,用于可用于单 CPU 配置多 GPU)、HBM(提升访存 带宽)、INT8 格式支持(支持推理场景)等技术,而软件层面也发布了面向推理加速场 景的 TensorRT 与开源通信函数库 NCCL,Pascal 架构在 AI 计算领域的前瞻性布局使 得英伟达后续架构在竞争中具有着较大优势。 细分场景不断追赶,GPU 迎来高速发展期:继 Pascal 架构后,面对 Google TPU 在 AI 计算层面带来的压力,英伟达先后更新了 Volta(2017)、Turing(2018)、Ampere(2020) 架构。AI 计算领域的技术代差在 Volta 架构通过引入第一代 Tensor Core 在训练场景进 行了拉平,随后 Turing 架构的第二代 Tensor Core 在推理场景上进行了拉平,直到 Ampere 时代,NV 才算再次巩固了自己在 AI 计算领域的龙头地位。双方激烈竞争下, GPU 迎来高速发展期。
多点开花,GPU 市场高速成长
我们认为,当前全社会对算力需求将长期保持提升态势,而 GPU 作为支撑众多科技领 域发展的底层核心,是数据计算的核心底座,在商业计算、人工智能等诸多板块均有着 较为广泛的使用,是科技行业的重要支撑。
GPU 的市场空间广阔,正稳健增长。依据 T4 的统计数据,2020 年全球 GPU 市场规模 价值 200 亿美元,预计 2021 年将增长 15%,从 2015 年到 2025 年平均每年增长 13%, 从 80 亿美元扩大到 350 亿美元。而依据 Allied Market Research 预测,2019 年全球 GPU 市场规模为 197.5 亿美元,预计到 2027 年将达到 2008.5 亿美元,2020 年至 2027 年的复合年增长率为 33.6%,对比来看 Allied Market Research 对 GPU 市场空 间更为乐观。
从下游应用来看,GPU 需求仍在快速增长期。游戏领域是 GPU 应用的传统应用领域, 参考 GPU 全球龙头英伟达的营收数据,其游戏领域业务收入由 2019 年的 55.18 亿元 增长至 2021 年的 124.62 亿元,近三年符合增长率 31.20%,整体趋势保持稳定增长, 为英伟达占比最高的业务。另一方面,伴随人工智能算法的不断普及和应用,以及对商 业计算和大数据处理的算力需求的不断增长,全球范围内数据中心对计算加速硬件的需 求不断上升。英伟达数据中心业务收入由 2019 年的 29.83 亿美元增长至 2021 年的 106.13 亿美元,近三年复合增长率高达 52.66%,增速远超其他板块业务。NVIDIA 数 据中心业务收入的快速增长体现了下游数据中心市场对于泛人工智能类芯片(以 GPU 为主)的旺盛需求。
国内需求不断涌现,计算类 GPU 市场高速增长。依据前瞻产业研究院数据,2020 年预 计国内人工智能芯片市场规模约为 178 亿元,且市场规模随下游应用领域的拓展而高速 增长。人工智能芯片由 GPU、ASIC、FPGA 与 NPU 构成,其中 GPU 以科学计算型为 主,其凭借着在性能、能耗比与编程灵活性等领域的综合优势,在人工智能芯片中占据主要地位。据 IDC 数据显示,2021 年中国加速服务器市场中 GPU 约占人工智能芯片 的 88.4%,测算可得 2021 年计算型 GPU 市场规模约为 222 亿元。
多方需求驱动 GPU 市场持续增长。从载体层面分类,GPU 在 PC 端与服务器端均可搭 载,其中 PC 端多用于游戏影音娱乐,而服务器端则多用于科学计算。伴随对海量数据 的处理需求逐渐增大,具备矩阵运算能力的 GPU 需求高速上行。同时,受益于多核并 行计算的基础架构,GPU 已在机器学习和自动驾驶等领域有了较大规模的使用。
服务器层面,相对占比维度,据 IDC 数据显示,2018 年全年中国 GPU 服务器市场规 模约为 13.05 亿美金(约合人民币 90.05 亿元),同比增长 131.2%。同时 IDC 预测, 到 2023 年中国 GPU 服务器市场规模将达到 43.2 亿美金(约合人民币 298 亿元),未 来 5 年整体市场年复合增长率(CAGR)为 27.1%。GPU 服务器增速高于国内 X86 服 务器出货量增速,当前国内服务器中 GPU 服务器占比迅速抬升。
全球格局:国际巨头垄断,国产厂商起步追赶
竞争格局:国际巨头三强垄断
全球 GPU 市场中,基本被 Nvidia、Intel 和 AMD 三家垄断。据 JPR 统计,全球 PC GPU 在 2022 年 Q2 出货量达到 8400 万台,同比下降 34%,预计 2022-2026GPU 复 合增长率为 3.8%,在未来五年内 dGPU 在 PC 中渗透率增长至 30%。从市场格局来看, Nvidia、Intel 和 AMD 三家在 2022 年 Q2 市场占有率分别为 18%、62%和 20%,Intel 凭借其集成显卡在桌面端的优势占据最大的市场份额。
独显市场中,Nvidia 占据领先地位。不同于整体市场,在独显市场中,Nvidia 与 AMD 双雄垄断市场,其 2022 年 Q2 市占率分别约为 80%和 20%,可以看到近年来 Nvidia 不 断巩固自己的优势,其独立显卡市占率整体呈现上升趋势。
英伟达:GPU 王国缔造者,AI 时代先行军
英伟达是一家专注于 GPU 半导体设计的企业。公司成立于 1993 年,由黄仁勋联合 Sun Microsystem 公司两位年轻工程师共同创立,1999 年英伟达推出 GeForce 256 芯片, 并首次定义了 GPU 的概念;随后创新性的提出 CUDA 架构,让此前只做 3D 渲染的 GPU 实现通用计算功能;进入 2010 年代后,英伟达在 AI 行业发展初期市场皆不看好 的情况下,前瞻性预见了 GPU 在 AI 市场的应用并全力以赴开展相关布局;当前,公司 以数据中心、游戏、汽车、专业视觉四大类芯片为收入基础,完成了硬件、系统软件、 软件平台、应用框架全栈生态的建设。
追溯公司历史,英伟达以技术创新为基,持续推动 GPU 行业的发展,可以称得上是 GPU 时代奠基人。我们认为,英伟达公司发展史可简单划分为四个阶段:
(1)蓄力阶段:1993 年黄仁勋联合 Sun Microsystem 公司两位年轻工程师共同创立 英伟达,早期致力于图形芯片的研发。但当时市场上有 20 多家图形芯片公司,三年后 这个数字飙升至 70 家,英伟达在其中并不突出。直到 1997 年英伟达决定放弃部分已 有的专利,转而全面支持 Direct X(微软标准),1997 年公司推出 RIVA 128,这是公 司第一款真正意义上取得成功的产品。
(2)崛起阶段:1999 年公司推出 GeForce 256 并定义 GPU 芯片,这是世界上第一款 功能齐全,可从真正意义上替代 CPU 渲染图形的芯片,并首次定义了 GPU 的概念,由 此英伟达走上了重塑显卡行业的道路。2000 年,公司收购了显卡先驱企业 3Dfx,再次 巩固自身行业地位,在显卡行业与 ATi 公司形成双寡头垄断的格局。
(3)制霸阶段:2006 年英伟达创新性推出 CUDA 架构。CUDA 全称 Compute Unified Device Architecture,是英伟达基于自有 GPU 的一个并行计算平台和编程模型。CUDA 带来两方面巨大影响,于 GPU 行业而言,CUDA 使得只做 3D 渲染的 GPU 得以实现 通用计算功能,GPU 的应用领域得以从游戏(图形渲染)向外扩展至高性能计算、自 动驾驶等多个领域;而对于英伟达公司本身来说,其在早期大力推广 CUDA,并对 CUDA 进行了编程语言扩展,如 CUDA C/C++,CUDA Fortran 语言等,使得开发人员能够轻易地对 GPU 进行编程,目前 CUDA 是最主流的两个 GPU 编程库之一,奠定了英伟达 GPU 生态得以成型的基础。而在英伟达大力推广统一平台 CUDA、不断进行 GPU 架构 迭代的同时,其最大的竞争对手 ATi 在被 AMD 收购后受其 CPU 业务拖累,发展受到限 制,英伟达在 GPU 领域的竞争地位在这一阶段进一步得到巩固。
(4)腾飞阶段:押注 AI,数据中心业务开启第二成长曲线。2012 年 Alex Krizhevsky 利用 GPU 进行深度学习,通过几天训练在 ImageNet 竞赛中获得冠军,其将深度卷积 神经网络 AlexNet 的准确率提高了 10.8%,震撼了学术界,从此开启 GPU 应用于深度 学习的大门,毫无意外,其使用的正是 NVIDIA GTX 580 GPU 芯片和 CUDA 计算模型。 此后,英伟达 GPU 和 CUDA 模型成为深度学习(尤其是训练环节)的首选芯片,而英 伟达也顺势推出海量专用于 AI 的芯片及配套产品,从显卡硬件公司华丽转型成为人工 智能公司。在人工智能的推动下,公司数据中心业务 2014~2022 财年复合增速达到 64.39%,其占收入比例也由 2014 年的不足 5%提升至 2022 财年的 40%。
而总览英伟达历史,即使公司在不同时期存在不同发展重点,但贯穿始终的,是其卓越 的创新能力、强大的芯片设计能力和稳定的决策执行能力。事实上,英伟达平均每两年 推出一代芯片架构、每半年推出一款新的产品,多年以来坚持不辍,从 2009 年的 Fermi 架构到当前的 Hopper 架构,公司产品性能稳步提升,并始终引领 GPU 芯片技术发展。
截至目前,英伟达 GPU 芯片已形成覆盖数据中心、游戏、专业视觉和学术研究四大场 景的芯片产品阵列,其中消费级 GPU 和数据中心 GPU 是最核心场景。
与此同时,在英伟达领跑 GPU 市场的过程中,生态的建设也是不可缺少的一环。具体 来看,我们认为英伟达生态的建立,主要应当归功于以下两方面原因: (1)通过统一的计算平台 CUDA,构建开发者生态。CUDA 的存在使得开发者使用 GPU 进行通用计算的难度大幅降低,使得开发者可以相对简单有效地对英伟达 GPU 芯片进 行编程。2006 年 CUDA 推出后,英伟达承担巨大成本压力,坚持使其成为所有 GPU 芯 片的统一计算平台,而其竞争对手 AMD 经过重重考虑选择应用开源计算框架 OpenCL, 其开源属性决定其在效率上落后于 CUDA。经过多年培育,目前英伟达基于 CUDA 平 台已培育近 180 万开发者,2020 年新增超过 50 个 SDK,GPU 开发者生态正在蓬勃发 展。
毋庸置疑,CUDA 是迄今为止最发达、最广泛的生态系统,也是深度学习库最有力的支 持。随着人工智能领域的蓬勃发展,GPU 和 CUDA 被从业者视为标配,使用 GPU 做 加速计算已成为行业主流。虽然英伟达 GPU 本身硬件平台的算力卓越,但其强大的 CUDA 软件生态才是推升 GPU 计算生态普及的关键力量,其帮助英伟达成为 AI 产业 目前最大受益者,GPU 生态效应使得英伟达处于领先地位。
(2)与此同时,英伟达自身也在不遗余力的进行配套软硬件研发,持续丰富各类 GPU 应用场景。目前英伟达构建了四层技术栈:硬件、系统软件、软件平台、应用框架,同 时针对不同场景(如医疗、智能机器人等)都有相关硬件和软件平台的开发,英伟达自 身就是 GPU 应用生态的核心开发者。
AMD:兼具 CPU+GPU,卓越性能引领算力时代
AMD 是一家专门为计算机、通信和消费电子行业设计和制造各种创新的微处理器(CPU、 GPU、APU、主板芯片组、电视卡芯片等)、闪存和低功率处理器解决方案的公司。公 司成立于 1969 年,由曾工作于仙童半导体的销售高管 Jerry Sanders 创立,成立之初 生产逻辑芯片,后定位为高性价比的第二供应商,与英特尔深度合作 X86 处理器,后英 特尔为巩固自身优势斩断合作关系,两者竞争加剧。2006 年 7 月 24 日,AMD 正式收 购 ATI,成为一家同时拥有 CPU 和 GPU 生产技术的半导体公司,GPU 版图由此展开。 公司自成立以来收入波动较大,近五年开始实现持续高增。公司2021年营业收入164.34 亿元,同比大幅增长 68.33%,2016-2021 年 CAGR 30.92%。公司营业收入可分为数 据中心、客户端、游戏和嵌入式解决方案业务收入,其中数据中心和游戏业务收入增速 最高,分别为 119.23%和 104.19%。
细究 AMD 的 GPU 发展史,可将其分为两大阶段。第一阶段是收购前的 ATI 时代,随 时代技术发展而进步,不断推出 Radeon 系列,凭借性能与英伟达直面对抗;第二阶段 是收购后的 AMD 时代,凭借高性价比战略在中端市场占据一席之地。
第一阶段,被收购前的互相追赶。1985 年 ATI 由加拿大华人何国源与另外两位华人 Lee Ka Lau, Benny Lau 一起创办成立,主攻图形显示芯片的研发。1985-1995 年,PC 图 形技术仍处于 2D 时代,ATI 看到了图形技术发展迅速, 1987 年推出 EGA Wonder 显 卡系列,在技术和功能上相比 IBM 同期图形适配器都有很大提升,是可应用于市场上任 何一种图形界面、软件和显示器的单卡,成为当时 ATI 主要的零售产品。1995 年,随 着 3D 图形显示技术的发展,众多图形厂商都纷纷推出旗下的第一代 3D 显示卡,例如 NVIDIA 的 NV1、Matrox 的 Mlennium 以及 Mystique、PowerVR 的 PCX1、S3 的 Virge3D 等等,ATI 也推出 3D Rage 进军 3D 市场。1999 年,英伟达推出 GeForce 256 重新定 义 GPU 芯片,并于 2000 年收购昔日王者 3Dfx 重塑行业格局,ATI 发布 Radeon 256 正式迎击。2000-2006 年期间,ATI 于英伟达呈现双寡头垄断格局, ATI 不断提升自身 性能与英伟达直面竞争。但同时,ATI 在产品的高成本投入加上市场的不良反应让财务 状况出现问题,最终于 2006 年被 AMD 收购。
第二阶段,有的放矢,凭借高性价比牢牢占据一席之地。根据 2022 年 5 月,德国 3Dcenter 网站对市场上主流 GPU 的测评数据来看,在 1080p 分辨率中,AMD Radeon RX 6950 XT 的性能指数是 2230%,性能得分最强,但售价仅为 1240-1400 欧元,性价比指数为 70%,大幅超过 GeForce RTX 3090 Ti 的 41%。从整体来看,AMD 目前市场主流显卡 的性价比得分超过 100%个数明显超过英伟达,具有较强的性价比优势。
AMD 生态相对劣势,但已推出 ROCm 生态。ROCm 是一个开放式软件平台,为追求 高灵活性和高性能而构建,针对加速式计算且不限定编程语言,让机器学习和高性能计 算社区的参与者能够借助各种开源计算语言、编译器、库和重新设计的工具来加快代码 开发,适合大规模计算和支持多 GPU 计算,其创立目标是建立可替代 CUDA 的生态。
庞大需求+国产替代,国产厂商迎来时代机遇
总量与份额双击,国产厂商迎来发展黄金期
中美摩擦不断,国产替代紧迫性和重要性进一步提升。2022 年 8 月 9 日,美国总统拜 登签署《2022 年美国芯片与科学法案》,旨在为美国半导体的研究和生产提供约 520 亿美元的政府补贴,来对抗中国及控制半导体产业链。8 月 31 日,英伟达发布公告,美 国政府对向中国和俄罗斯出口的 A100 和即将推出的 H100 芯片实施了新的许可要求。 据路透社消息,AMD MI250 芯片亦受到影响。高端 GPU 限制产品基本都是具备“64 位浮点数字”(FP64)双精度算力的高性能显卡,主要应用于 AI、数据分析和 HPC 应 用场景。此次受限虽然只针对高端 GPU 型号,但依然为我国厂商敲响了警钟,国产 GPU 落地有望加速推进。
庞大的需求+逐渐成熟的产业预示着广阔的发展空间。在元宇宙、人工智能、云游戏、 自动驾驶等新场景和需求爆发式增长的背景下,我们判断中国 GPU 市场将快速增长, 相比于 PC 市场,新增市场空间或更大。相比于 PC 等传统 IT 应用场景,中国在人工智 能、自动驾驶领域与美国等强国处于同一竞争水平,且中国庞大市场有望为相应细分领 域带来更快的成长。另一方面,从国家安全角度,国产 GPU 势在必行,对于国产 GPU 厂商而言是时代机遇。
国内厂商奋力追赶,迎来时代黄金机遇
部分优质国产 GPU 企业已逐步展现出发展潜力。我国部分国产厂商经历了从特殊行业 到党政市场的应用迭代升级,正逐步向民用等商业市场布局拓展,如景嘉微在经过 JM5 系列和 JM7 系列应用升级,当前 JM9 系列已完成流片、封装阶段工作及初步测试工作。 海光信息自 2018 年布局 GPU 行业以来,产品迭代进展迅速,2021 年首款 DCU 产品 深算一号便已实现规模化出货,同时深算二号的研发也保持顺利。
壁仞科技
公司主营业务为高端通用智能计算芯片。壁仞科技创立于 2019 年,公司致力于开发原 创性的通用计算体系,建立高效的软硬件平台,同时在智能计算领域提供一体化的解决 方案。从发展路径上,公司将首先聚焦云端通用智能计算,逐步在人工智能训练和推理、 图形渲染等多个领域赶超现有解决方案,实现国产高端通用智能计算芯片的突破。2022 年 3 月,公司首款通用 GPU 芯片 BR100 成功点亮,后于 2022 年 8 月正式发布,创下 全球算力的新纪录。
公司的产品体系主要涵盖 BR100 系列通用 GPU 芯片、BIRENSUPA 软件开发平台以 及开发者云三大板块。其中,BR100 系列通用 GPU 芯片是公司的核心产品,目前主要 包括 BR100、BR104 两款芯片。BR100 系列针对人工智能(AI)训练、推理,及科学 计算等更广泛的通用计算场景开发,主要部署在大型数据中心,依托“壁立仞”原创架 构,可提供高能效、高通用性的加速计算算力。
BR100 系列在性能、安全等方面具备多项核心优势。公司致力于打造性能先进、竞争力 强的 GPU 芯片,并为此采取了大量技术措施,具体包括:支持 7nm 制程,并创新性应 用 Chiplet 与 2.5D CoWoS 封装技术,兼顾高良率与高性能;支持 PCIe 5.0 接口技术 与 CXL 通信协议,双向带宽最高达 128 GB/s 等。2022 年公司正式推出壁砺?100,其 峰值算力达到国际厂商在售旗舰的 3 倍以上,超越了国际厂商同类的在售旗舰产品,竞 争优势十分显著。同时,在安全方面,BR100 系列最高支持 8 个独立实例,每个实例物 理隔离并配备独立的硬件资源,可独立运行。
摩尔线程
摩尔线程是一家以 GPU 芯片设计为主的集成电路高科技公司。公司诞生于 2020 年 10 月,专注于研发设计全功能 GPU 芯片及相关产品,支持 3D 高速图形渲染、AI 训练推 理加速、超高清视频编解码和高性能科学计算等多种组合工作负载,兼顾算力与算效, 为中国科技生态合作伙伴提供强大的计算加速能力。在“元计算”赋能下一代互联网的 愿景下,公司将持续创新面向元计算应用的新一代 GPU,构建融合视觉计算、3D 图形 计算、科学计算及 AI 计算的综合计算平台,建立基于云原生 GPU 计算的生态系统,助 力驱动数字经济发展。 公司的产品体系主要包括:MTT S60、MTT S2000、MTT S100 等硬件产品;MT Smart Media Engine、MT GPU Management Center、MT DirectStream、MT OCR 等软件产 品;以及 MUSA 统一系统架构、DIGITALME 数字人解决方案、元计算应用解决方案等 其他产品。
MTT S60 具备先进的硬件规格。MTT S60 显卡由基于 MUSA 架构的 GPU 苏堤核心晶 片制成,采用 12nm 制程,包含 2048 个 MUSA 核心,单精度算力最高可达 6TFlops, 配置 8GB 显存,基于 MUSA 软件运行库和驱动程序等软件工具。在先进硬件规格的支 撑下,MTT S60 显卡能够在不同应用场景中展现多重优势:丰富图形 API、4K/8K 超高 清显示、领先的硬件视频编解码能力、通用 AI 功能支持等。
基于 MUSA 先进架构,MTT S2000 致力于打造数据中心绿色多维算力。MTT S2000 采 用 12nm 制程,使用 4096 个 MUSA 核心,最大配置 32GB 显存,单精度算力最高可达 到 12TFlops,支持 H.264、H.265、AV1 多路高清视频编解码,以及广泛的 AI 模型算 法加速。同时,MTT S2000 还采用了被动散热、单槽设计,以满足数据中心高密度 GPU 配置方式。截至目前,MTT S2000 已经能够兼容 X86、ARM 等 CPU 架构以及主流 Linux 操作系统发行版,并与浪潮、新华三、联想、清华同方等多家服务器合作伙伴建立了合 作关系,产品生态持续完善。作为公司面向数据中心领域的 GPU 芯片,除了生态外, MTT S2000 还具备全功能 GPU、丰富的图形 API 支持、绿色计算等优势。基于多维算 力、生态完善等优势,MTT S2000 有望助力公司赋能 PC 云桌面、安卓云游戏、音视频 云处理、云端 Unreal/Unity 应用渲染和 AI 推理计算等多类应用场景。
海思昇腾
海思半导体成立于 2004 年,是全球领先的 Fabless 半导体与器件设计公司,旗下芯片 共有五大系列,分别是用于智能设备的麒麟系列;用于数据中心的鲲鹏系列服务器 CPU; 用于人工智能的场景 AI 芯片组昇腾系列 SoC;用于通信连接的芯片(基站芯片天罡、 终端芯片巴龙);以及其他专用芯片(视频监控、机顶盒芯片、智能电视、运动相机、 物联网等芯片)。
海思半导体是华为全资子公司,核心管理团队皆有深厚的华为背景。公司董事长徐直军 先生博士毕业于南京理工大学,早在 1993 年就加入了华为,历任华为无线产品线总裁、 战略与 Marketing 总裁、产品与解决方案总裁、产品投资评审委员会主任、公司轮值 CEO、 战略与发展委员会主任等。公司总经理徐文伟先生 1991 年加入了华为,历任华为国际 产品行销及营销总裁、欧洲片区总裁、战略与 Marketing 总裁、销售与服务总裁、片区 联席会议总裁、企业业务 BG CEO、公司战略 Marketing 总裁、IRB 主任、战略研究院 院长等。
公司针对人工智能领域应用场景,推出了昇腾系列芯片,主要产品有昇腾 310 与昇腾 910 两款 NPU。昇腾 310 芯片于 2017 年发布,是一款高能效、灵活可编程的人工智能 处理器,芯片在典型配置下可以输出 16TOPS@INT8, 8TOPS@FP16,功耗仅为 8W。 昇腾 310 芯片采用自研华为达芬奇架构,集成丰富的计算单元, 提高 AI 计算完备度和 效率,进而扩展该芯片的适用性。芯片实现了全 AI 业务流程加速,大幅提高 AI 全系统的 性能,有效降低部署成本。 昇腾(HUAWEI Ascend) 910 于 2018 年推出,是业界算力最强的 AI 处理器,芯片基于 自研华为达芬奇架构 3D Cube 技术,实现业界最佳 AI 性能与能效。芯片架构灵活伸缩, 支持云边端全栈全场景应用。在算力方面,昇腾 910 完全达到设计规格,半精度(FP16) 算力达到 320 TFLOPS,整数精度(INT8)算力达到 640 TOPS,功耗 310W。
百度昆仑
昆仑芯科技是一家 AI 芯片公司,前身是百度智能芯片及架构部,在实际业务场景中深 耕 AI 加速领域已十余年,是一家在体系结构、芯片实现、软件系统和场景应用均有深 厚积累的 AI 芯片企业。 昆仑芯科技研发实力雄厚,团队成员拥有全球顶尖学术背景, 多数成员来自百度、高通、Marvell、Tesla 等行业头部公司,并提出了 100%自研的、 面向通用人工智能计算的核心架构 XPU,研究成果也在 Hotchips、ISSCC 等国际顶级 学术会议中成功发表。
2011 年,为了深度学习运算的需要,百度开始基于 FPGA 研发 AI 加速器,并于同年开 始使用 GPU。在过去几年中,百度对 FPGA 和 GPU 都进行了大规模部署。在大规模 AI 运算的实践探索中,百度推出昆仑芯片。
昆仑芯科技的主要产品有昆仑一代芯片、二代芯片以及基于两代芯片开发的加速卡 K 系 列与 R 系列。昆仑第一代云端通用人工智能计算处理器发布于 2020 年,采用了公司十 年积累自研的 XPU-K 架构,芯片采用了 14nm 制程工艺,算力可以输出 256 TOPS@INT8,64 TFLOPS@FP16,可用于云数据中心和智能边缘,支持全 AI 算法, 落地已超过两万片。
昆仑第二代云端通用人工智能计算处理器发布于 2021 年,采用通用性和性能显著提升 的 XPU-R 架构,制程工艺从 14nm 升级到 7nm,算力可以输出 256 TOPS@INT8,128 TFLOPS@FP16。相比之下功能更加完备,支持硬件虚拟化,芯片间互联和视频编解码。
第二代芯片的 XPU-R 架构使二代芯片性能比 1 代提升 2-3 倍,全品类人工智能算法上 都达到了当前业界领先水平的 1.5-2 倍。第二代芯片支持硬件的虚拟化,可实现计算单 元和存储单元的物理隔离,优化了加速芯片的利用率。在保证延时和吞吐量的情况下支 持推理和训练等混合工作负载。此外,二代芯片还支持高性能分布式 AI 系统、芯片间 K-Link 互联支持训练和推理中模型并行和数据并行策略的通讯要求。