拿什么追赶英伟达、AMD?“AI芯片大战”最新进展
导
读
AI芯片+AI服务器,受益于AIGC+类GPT等应用的鲶鱼效应,带来约百倍算力需求。原有英伟达等供给有限(根据IDC咨询,预测2025年AI服务器市场空间仅仅318亿美元,预计21-25年CAGR仅仅19.5%),因此国产AI芯片在逻辑上有爆发弹性,此外AI服务器也有成长空间。
人工智能芯片主要分为“训练(Training)”芯片和“推理(Inference)”芯片。从技术架构来看,AI芯片主要分为图形处理器(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、中央处理器(CPU)四大类。其中,GPU是较为成熟的通用型人工智能芯片,FPGA和ASIC则是针对人工智能需求特征的半定制和全定制芯片,GPU、FPGA、ASIC作为加速芯片协助CPU进行大规模计算。 三类芯片用于深度学习时各有优缺点: (1)通用性:GPU>FPGA>ASIC,通用性越低,代表其适合支持的算法类型越少。 (2)性能功耗比:GPU<FPGA<ASIC,性能功耗比越高越好,意味着相同功耗下运算次数越多,训练相同算法所需要的时间越短。 目前AI芯片主要被国际厂商垄断,根据Counterpoint、IDC数据,Intel和AMD共计占2022年全球数据中心CPU市场收入的92.45%,Nvidia占2021年中国加速卡市场份额的80%以上。 在不同的应用场景之下,已经形成了不同的AI芯片竞争格局。 在云和数据中心AI芯片市场,“训练”和“推理”两个环节都是英伟达GPU一家独大,几乎占据90%以上份额,包括AWS、微软Azure、谷歌云、阿里云、华为云、腾讯云在内的大部分公有云厂商上线的AI加速计算公有云服务绝大部分都是基于英伟达Tesla系列GPU。 云端训练用的几乎全部是英伟达GPU,公有云厂商中仅谷歌云一家除了提供以英伟达GPU为主的云计算加速服务之外,还推出了基于自研AI芯片TPU的深度学习训练服务; 云端推理目前出现了基于GPU、FPGA、ASIC三种不同芯片云计算服务,但是市场份额仍然以英伟达GPU为主,其中AWS、阿里云、腾讯云、华为云等公有云厂商均推出了FPGA加速计算云服务,另外AWS推出了基于自研AI芯片Inferentia的ASIC加速计算服务,华为云推出了基于自研AI芯片昇腾310的ASIC加速计算服务。 在设备端和边缘计算“推理”市场,各类型芯片各自为阵,尚无绝对优势地位的芯片厂商出现——手机市场以高通、华为、苹果原主控芯片厂商为主,自动驾驶、安防IPC领域英伟达暂时领先。 (1)国产CPU加速追赶 全球服务器CPU市场目前被Intel和AMD所垄断,国产CPU在性能方面与国际领先水平仍有差距。根据Counterpoint数据,在2022年全球数据中心CPU市场中,Intel以70.77%的市场份额排名第一,AMD以19.84%的份额紧随其后,剩余厂商仅占据9.39%的市场份额,整体上处于垄断局面;目前国内CPU厂商主有海光信息、海思、飞腾、龙芯中科、申威等。通过产品对比发现,目前国产服务器CPU性能已接近Intel中端产品水平。 值得一提的是,龙芯CPU从指令集、IP核、芯片模块等完全自主设计,目前基于LoongArch(龙架构)的第四范式Sage AIOS平台已完成与龙芯3C5000系列芯片的深度适配。通过软硬件协同调优,逻辑回归、决策树模型、深度稀疏神经网络等机器学习算法在龙芯3C5000系列上的性能,接近某国外主流CPU的水平。 龙芯中科设计推出轨道交通专用无风扇ECU,整机采用龙芯3号CPU,板贴4G DDR4内存颗粒,最大支持8G。支持3*VGA+1*LVDS显示接口,最大支持4路独立显示。支持14个COM,6个USB,2个RJ45千兆网口,24路DIO。支持DC 9-36V宽压输入。该设备可广泛应用于轨道交通、轻轨和高铁行业各种自助售检票系统、屏蔽门等场景。 龙芯3号工控机 ▋产品特点 1. 采用龙芯3号低功耗版; 2. 采用全铝型材无风扇机箱设计; 3. 板贴4G DDR4内存颗粒,最大可支持8G; 4. MiniITX 板型设计; 5. 独立双显/独立四显可选,最大支持4路独立显示:1*LVDS+3*VGA; 6. 支持4*USB2.0/2*USB3.0/14*COM/2*LAN/2*SATA/1*MSATA/12*DI/12*DO; 7. 支持DC 9-36V宽压输入; 8. 支持专用设备版/Loongnix/UOS/麒麟等操作系统; 9. 支持上电启动/网络唤醒/定时开机; ▋方案应用 自动/半自动售票机框图 龙芯中科推出交通行业专用边缘计算设备,基于龙芯3A5000 CPU,采用无风扇被动散热设计,板载多路USB, COM, DIO 等接口,支持WIFI,可适应多种应用场景。其中12路3模式可选换串口RS232/422/485,现场适用性更广;每个串口和每种模式均采用2.5KV光电隔离保护,提高串口应用可靠性;24路2.5KV光隔离DIO,提高开关控制的可靠性。软件方面完美支持K8S, .Net6.0, Java8/11/17等常用基础组件,大大提升系统构建的灵活性和兼容性。 龙芯3A5000 ▋产品特点 1. 龙芯3A5000 CPU, 主频2.3-2.5GHz,四核; 2. 2*DDR4 3200MHz UDIMM内存,最大64GB; 3. 1*VGA 和1*HDMI 独立双显示; 4. 2*SATA,1*M.2 2280 NVMe存储; 5. 4*USB3.0/2*USB2.0/2*LAN,/1*M.2 2230 E-Key支持WiFi&BT模块/Audio out和Mic; 6. 12*DI/12*DO/12*COM; 7. DC 9-36V宽压供电,带反接、过流、过压保护; 8. 无风扇被动散热设计,采用超大铝挤型材+双铜管导热+高导热率硅脂散热设计方案; 9. 工作温度:-20~60℃,IP51防护等级; 10. 适配Loongnix、统信、麒麟、OpenEuler系统; ETC车道收费系统框图 ETC门架收费系统框图 申请样片,方案技术资料,请扫二维码。 全球GPU芯片市场主要由海外厂商占据垄断地位,国产厂商加速布局。全球GPU市场被英伟达、英特尔和AMD三强垄断,英伟达凭借其自身CUDA生态在AI及高性能计算占据绝对主导地位;国内市场中,景嘉微在图形渲染GPU领域持续深耕,另外天数智芯、壁仞科技、登临科技等一批主打AI及高性能计算的GPGPU初创企业正加速涌入。 (3)FPGA/ASIC国产替代正当时 FPGA全球市场呈现“两大两小”格局,Altera与Xilinx市占率共计超80%,Lattice和Microsemi市占率共计超10%;整体来看,安路科技、紫光同创等厂商处于国际中端水平,仍需进一步突破。工艺制程方面,当前国产厂商先进制程集中在28nm,落后于国际16nm水平;在等效LUT数量上,国产厂商旗舰产品处于200K水平,仅为XILINX高端产品的25%左右。 ASIC不同于CPU、GPU、FPGA,目前全球ASIC市场并未形成明显的头部厂商,国产厂商快速发展;通过产品对比发现,目前国产厂商集中采用7nm工艺制程,与国外ASIC厂商相同;算力方面,海思的昇腾910在BF16浮点算力和INT8定点算力方面超越Googel最新一代产品TPUv4,遂原科技和寒武纪的产品在整体性能上也与Googel比肩。未来国产厂商有望在ASIC领域继续保持技术优势,突破国外厂商在AI芯片的垄断格局。 END
1.云和数据中心AI芯片市场
(1)云端训练
(2)云端推理
2.设备端和边缘计算“推理”市场
龙芯中科CPU方案推荐
▋方案应用