阿里云回归云计算本质,CIPU搭配“神龙”、“盘古”、“洛神”,让数据中心更加“绿色”
电子发烧友网报道(文/吴子鹏)6月13日,在2022阿里云峰会上,阿里云智能总裁、阿里巴巴达摩院院长张建锋表示,阿里云今年最重要策略是“Back to Basic”,回到云计算的本质,坚持技术长征。
阿里云智能总裁、阿里巴巴达摩院院长张建锋
图源:阿里云
围绕这一核心主题,张建锋详细介绍阿里云新一代云数据中心处理器CIPU,以及与其相关联的飞天操作系统、神龙计算层架构等等。
图源:阿里云
专为云数据中心打造的CIPU
从CIPU的名字来看,大家都有一种很熟悉的感觉,因为它和处理器CPU仅仅只有一个字母“I”的差别。但实际上,CIPU和CPU有明显的不同,CIPU是Cloud Infrastructure Processing Units的简称,中文释义为云基础设施处理器,是为新型云数据中心设计的专用处理器。
当然,CIPU和CPU也有一层深层的关系,CIPU在云数据中心领域是CPU的替代者,成为新的算力引擎。
我们先看一下CIPU提出的背景,传统数据中心以CPU为核心进行打造,经过历年来的不断优化,这种方式已经触及到了天花板,在性能、功耗和时延等方面有着明显的瓶颈限制。与此同时,数据中心在需求端的明显变化进一步放大了这一短板,数据密集型的计算需求不断涌现,低时延和高带宽都是必要的参数配置,而满足这些需求的前提是更加低碳环保。
此外,目前全球都在规模性部署超大型数据中心。根据市场调研公司Synergy Research Group的数据分析,目前全球拥有314个超大型数据中心,未来3年的时间内将增加到1000个。张建锋指出,基于CPU为中心的架构无法解决超大规模的复杂管理问题。
作为CPU在云数据中心领域的继任者,张建锋介绍称CIPU主要有以下几点重要特性:
?网络:对高带宽物理网络进行硬件加速,通过建设大规模的eRDMA分布式高性能网络,实现RDMA技术的普惠化;
?存储:对存算分离架构的块存储接入进行硬件加速,提供超高性能的云盘;
?计算:快速接入不同类型资源的神龙计算平台,带来算力的“0”损耗,以及硬件级安全的加固隔离。
上面更多是质变的描述,我们看一下量变的情况。根据张建锋的介绍,CIPU在主流通用计算场景下,Nginx性能提升了89%,Redis性能提升了68%、MySQL提升了60%;大数据和AI 场景下,AI深度学习场景训练性能提升30%,Spark计算性能提升30%。
在存储方面,CIPU存储时延最低可至30us(PLX),IOPS高达300万,存储带宽可达200 Gbps,全面超越市面上所有云产品。
在网路传输方面,CIPU基础带宽从100G升级至200G,VPC的PPS转发性能从2000万提升至4000万,网络时延从22us降低至16us,RDMA协议下更可低至5.5us。
阿里云CIPU性能参数,图源:阿里云
更需要特别指出的是,CIPU并不是一个独立的高性能硬件,而是一个硬件基础,它可对计算资源进行云化加速,并可部署飞天操作系统对云资源进行管控。和阿里云当前的飞天架构和神龙架构结合,都能够迸发出1+1大于2的效果。
阿里云的软硬件一体化布局
当前,全球数据中心的发展已经步入新阶段,数据中心的构建和对算力的需求都发生了巨大的变化,传统通用处理器已经越来越难以满足这些情况变化。我们看到,不仅仅是阿里云,各个大型数据中心运营商都在致力于自研专用处理器,配合自家的架构体系,以求在功耗、时延和性能等方面打造最佳的平衡。
近几年阿里云在软硬件方面持续投入,收获颇丰,并逐渐实现自家软硬件的深度融合。
回顾2021阿里云峰会,阿里云宣布,飞天操作系统正在全面兼容X86、ARM、RISC-V等多种芯片架构,实现“一云多芯”。按照阿里云的描述,“一云多芯”的实现让阿里云成为全球支持CPU种类最多的云厂商。
随后2021阿里云栖大会上,阿里云又发布首款通用芯片倚天710,采用最新ARMv9架构,多达128核,主频最高3.2GHz,可同时兼顾性能和功耗,适配云的不同应用场景。2022年4月,基于倚天710的公共云 ECS实例已上线邀测。硬件方面,阿里云还在去年发布了自研的磐久服务器。
而为了能够最大化释放这些硬件的潜能,阿里云在云数据中心部署各个关键节点都发布了自研的基础架构和核心平台。为解决服务器长久以来的虚拟化性能损耗的问题,阿里云在计算层推出了自研的神龙架构,神龙与CIPU结合,可将虚拟化转移到专用硬件中进行加速,可将物理机的高性能与虚拟机的灵活性融为一体,虚拟化损耗几乎为零,并带来更强劲的性能表现;为提升存储传输速度、安全防护和容灾能力等,阿里云在存储层推出了自研的盘古架构,是阿里云底层的统一存储架构,采用了分布式系统先进的容错架构和柔性平台设计,具备弹性伸缩、自动负载均衡等能力,大幅提高了存储系统的可靠性和安全性,可支持块存储、对象存储、表格存储、文件存储、离线大数据处理等多种存储模式;为了实现“让网络更简单”的理念,阿里云推出自研的洛神核心技术平台,支撑起百万级的用户业务部署,让更多能够人体验到云计算带来的高效便捷服务,2021云栖大会上,阿里云更新推出了洛神云网络3.0新平台架构。
在软硬件如此多元化和大范围的投入,阿里云的目的是在提供更好算力支持的情况下,打造更加绿色的数据中心。根据Supermicro发布的《数据中心与环境2021绿色数据中心现状分析报告》,目前全球数据中心已占全球发电总量近3%,预计到2030年将快速增加到8%,也有可能接近一成。
张建锋表示,阿里云是国内最早实践绿色数据中心的厂商之一,目前阿里云自建的数据中心都已达到国家绿色数据中心标准,全年平均PUE小于1.3。