阿里云王志坤:倚天ECS实例为解决算力挑战提供新思路[阿里云]
在2023云栖大会上,阿里云宣布基于倚天710的倚天ECS实例算力再进化,内存频率由4400MHz提升到4800MHz,性能更加强劲。同时,倚天710与全新的CIPU架构协同,可提供更高性能和更低成本的算力服务。据介绍,倚天ECS实例已服务数千企业客户,覆盖电商、生命科学、交通物流及游戏等领域,整体算力性价比提升超30%。与此同时,阿里云还打造了一体化迁移平台EasyYitian,具备软件兼容性扫描、环境兼容性分析、跨架构编译构建等能力,可为企业迁移提供全链路支持,帮助企业快速将业务和应用迁移到倚天实例。阿里云弹性计算产品线资深总监王志坤博士在【云服务器 & 计算服务】专场中带来了题为《ECS倚天实例助力云上业务创新提速》的主题演讲,分享了过去一年中,阿里云倚天ECS实例的探索与最佳实践。王志坤表示:“基于「倚天710自研芯片+CIPU云原生基础设施处理器」组合的倚天ECS实例为解决算力挑战提供新的思路,最重要的转变是使得过去从单物理机视角转换成了资源池化的视角,以CIPU为中心重新思考解决很多过去看起来很棘手的问题,很好地平衡了稳定性、成本等方面的问题,从而使得客户在享受高性能的同时也享受到高稳定性。”以下是王志坤在云栖大会上的演讲内容整理:阿里云弹性计算产品线资深总监 王志坤基于阿里云自研倚天710芯片的计算实例g8y,在过去短短一年多的时间里面,已经服务了数千家的客户。这个背后有着很多的思考与探索,借云栖大会的场合和大家一起探讨。算力需求爆发对基础设施带来挑战首先,云计算和大数据时代的到来,使得视频处理技术得到全方面普及和应用,同时也对算力提出了越来越高的要求。即便是AI大模型,对所有模型语料处理的前置过程也离不开算力的需求。因此,我们发现云端的算力对于很多客户的应用,同过去相比有显著的需求差异。如果放到10年之前,会发现很多的客户自己在线下IDC CPU的负载利用率并不高,但是如今从云上看,CPU利用率可能达到50%,甚至大数据应用场景下为80%,这是很高的数据体现,对于做系统的人是很大的挑战。第二点,在系统层面,不光是离线系统,很多在线系统对于性能的稳定性和弹性要求同样很高,这也就是我们准备打造云端算力组合时不得不面对的挑战。第三点,毋庸置疑,就是成本方面的挑战。我们在过去很多业务中发现,整个数据中心里面成本、功耗占比高。而在今天面对各项业务挑战时,阿里云是从整个云的操作系统的底层,即芯片、操作系统、编译器、应用这些链路来重新来思考问题。传统算力的演进已经无法满足日益复杂的业务需求,无论是处理器性能、租户间稳定性,还是功耗成本的问题都需要重新思考。首先,看处理器的性能。通过观测整个后端负载,过去的处理器架构我们发现不是最优的选择。如大家熟知的X86体系架构,从20年前开始为了进一步提升利用率,提出一种概念叫做超线程,实际上在底层的物理的执行单元还是只有一套ALU。但为了让更多的业务系统来提升它的执行效率,超线程理念在相当长的一段时间里面,这套是很有效的,但到了目前计算密集型的云处理时代,再次看它的作用,则需要重新来审视这个话题。第二,租户间稳定性。多租户资源共享是云的典型特征,保证云上多租户之间业务高效执行是重中之重。我们通过客户关心的成本问题会发现前几年很多客户在线下用32核的CPU,这两年发现128核、256核,甚至更多核都会出现。随着核密度的增加,虽然可以降低单核成本,但对于核密度增加之后的稳定性,对爆炸半径的控制是失控的。作为一家云的厂商来看如何能够保证这几者之间的平衡,也是重中之重。第三,功耗问题。核密度增加和频率提升对数据中心功耗也提出了更高的挑战,低功耗方案迫在眉睫。云原生处理器为解决算力挑战提供新的思路作为云的操作系统,并不是简单地把服务器从线下搬到云上。对于IO密集型处理作业,CPU并不擅长,可以发现在传统IDC有很多早期IO协处理器,其中智能网卡、存储加速卡的出现就是为了offload CPU负载。但是在云上,有另外的一条路径,就是CIPU架构,而且其中最重要的转变是使得过去从单机视角转换成了资源池化的视角,使得能够以CIPU为中心重新来思考到底在云上,应该采取什么样的体系架构才能够更好地服务客户,更好地解决问题。因此,从云的视角来重新审视云端算力资源供给,主要的考量包括如下的三个方面:第一,算力输出稳定。充分考虑现有处理器超线程之间算力争抢、降频的问题,通过物理核设计理念、缓存Qos等特性,提供更加稳定的算力输出能力。第二点,软硬协同。云是在重塑整个算力的基础设施。当基于CIPU的架构来看时,把CIPU所擅长的事情,Offload到它合适的算力单元。这里面的软硬协同,是指把很多的IO能力卸载到CIPU上去做,同时也使得 CPU 的算力单元更加专注于它擅长的事情。第三点,垂直场景加速。像视频、AI、大数据等场景,早期很多的类似业务上云是当时时代下软件的产物,但是发现很多原生的算力无法发挥出来,因此在必须在设计芯片的前期开始就需要考虑他们的优化的问题。从2019年开始,阿里云弹性计算团队和芯片研发团队共同规划研发阿里巴巴CPU算力芯片。在2021 年的云栖大会上,正式发布了基于完全自研的 Arm v9 架构的倚天710芯片。在当时来看,已经采用了最先进的5纳米工艺,超过600亿个晶体管。不管是从它的主频还是算力在当时都是最高的。同时它也是业界最早采用像DDR5和 PCle 5.0硬件能力使得性能表现更加优异,同时它的能效比很优,降低了客户使用成本。ECS倚天实例大规模应用,算力再进化2022年2月,基于倚天弹性计算的产品实例正式对外进行邀测。经过大半年的时间,在2022年云栖大会上,ECS倚天实例正式商业化。在宣布倚天商业化的同时,已经经历了阿里巴巴电商、双十一等流量洪峰的考验,包括邀测的内外部头部客户业务。当从CPU为中心的设计思路走到了以CIPU为中心设计新的处理架构的时候,就能够解决很多过去看起来很棘手的问题。我们发现很多商业CPU的核密度很高,以典型的客户在线下的两路服务器来看,384个vCPU以及更高的核数即将出现。如果存在整机、主板、内存等任意部件问题,整个的爆炸半径是很大的。在云上基于CIPU架构,创新地使用了双单路的设计,很好地平衡了稳定性、成本等方面的问题,从而使得客户在享受高性能的同时也享受到高稳定性。倚天ECS实例不仅具备良好的CPU算力,同时具备优异网络和存储IO能力。倚天CPU的能耗比优势明显,因此倚天ECS产品的商业化定价优势也很明显。相比较于7代的主售实例产品,有将近30%的价格降低。有很多客户是从官网上发现了这么一款性能优异、价格适宜的产品,主动选择了倚天ECS实例。依托优异的算力以及端到端自研带来的成本红利,倚天ECS实例在大数据、视频编解码、高性能计算、AI推理等核心场景中的性价比提升50%以上。从2022年云栖大会发布之后的一年时间里,仍然在不断优化性能。一方面,从最开始上线初期整个CPU主频只有2.75GHz,经过硬件团队和芯片团队的不断优化,现在主频已经到了3.0GHz,而且是很稳定的输出。其次是内存频率,从4400MHz提升至4800MHz,再结合CIPU在存储、网络加速特性,倚天ECS实例算力提升20%。同时,阿里云不管是从虚拟化、操作系统、编译器乃至于硬件的优化,都有端到端研发团队的加持。作为云原生算力,我们不是为了弥补倚天和X86的短板,而是为了找到长板。长板就是典型的算力密集型场景。以现在常用短视频为例,在视频编码的场景倚天ECS整体的性价比提升了80%;大数据场景会有70%以上的提升;高性能计算场景性价比提升达到50%以上;AI推理的场景,随着GPU资源越来越紧俏,会有更多的客户会关心如何用CPU来做推理。倚天实例相比较于其他的X86实例,性价比提升40%以上。左图左边是传统的X86 HT超线程架构,右边是倚天Arm物理核架构,倚天物理核不仅独享ALU算力单元,而且它的L1、L2甚至L3的cache都比x86大,,这就能够保证在高负载算力密集的场景里性能得到持续稳定的输出。右图是以视频编解码为例,横坐标是编解码的路数,纵坐标是每物理核贡献的FPS值。绿色曲线代表X86架构的7代实例,蓝色曲线代表倚天实例。随着编解码路数增加,CPU负载变大。CPU负载低时,X86实例可以跑在睿频上,因此性能优于倚天实例。但是当转码路数超过3甚至更大时,X86实例存在明显的性能衰减。而倚天ECS实例的输出是很平稳的。这就验证了从整个系统的设计到实际的应用是很契合的,也说明倚天的目标就是为了客户在云端打造高稳定及高性价比的算力,这也表明过去的1-2年的时间里,芯片、CIPU、物理机等硬件团队,操作系统、编译器、虚拟化等软件团队,都在不断地端到端优化倚天ECS实例的性能。从虚拟化层面看,不光在原有的像基于Arm架构的虚拟化支持,包括深入到缓存的cache预取等页表的优化,都会很好地来帮助最终的应用提升性能。技术可能并不是倚天上独有的,但正是由于有很强的软件操作系统团队,使得能力能够快速地运用到倚天ECS实例之上,从而为客户带来性能的提升。再比如编译器、以及Arm SVE2向量指令集的加持,在大数据场景中相比较于开源的编译器性能可以提升30%以上。同时,还有面向科学计算场景的算法库的支持等。这些都是在过去的 1-2年的时间里,面向当前主流应用场景做的优化,具体如下图。随着过去一年多时间和客户共同探索倚天ECS实例,在视频编解码场景中已经具有很好的高稳算力、输出以及优化能力;同时在大数据场景、高性能计算、科学计算以及游戏等场景中都有优异的表现。值得一提的是,我们发现一些游戏客户也在首选倚天ECS实例。倚天ECS实例的三大典型场景及加速能力
以视频编解码为例,有很多的视频编解码的加速卡,为什么还要用CPU来做。如果询问软件研发团队,他们会告诉大家说因为灵活性、画质的不断提升的要求。视频加速卡适合于画质等参数相对固定的场景,但是我们发现还是有很多头部的视频客户仍然用大量的CPU做视频编辑码。那么,对于视频编解码的客户来看他最关心的是什么?第一,成本方面。对于视频公司,带宽成本超过50%以上。它追求的目标就是在于画质不受损情况下如何来降低它的码率。这个是很多头部的视频公司,以及很多做会议系统公司保留强大的视频编解码的算法团队的原因。因为要不断优化这方面的成本。第二,计算成本,直白一点就是在相同的算力单元下如何来提升支持的编码路数。第三,如今大家对于实时性,互动性的要求越来越高。在过去几年,我们还在谈1080,而如今已经在谈4k、8k等,而且对视频的要求更高清、更实时、更互动。但是没有现成可获得的硬件的编解码的芯片,他们很难去迅速迭代,都是使用CPU做软件编解码。而倚天ECS实例正是依托底层指令集的优化能力,对于客户最终的网络成本节约是很显著的,平均来看能够降低接近20%带宽。总结来说,正是由于倚天芯片算力在高负荷的情况下不降频,同时可以进行高稳定的输出,支持更高的路数,才使得越来越多的头部视频客户选择倚天ECS实例。同时,正是由于CPU的灵活性,研发团队可以不断地尝试从8比特向10比特以及12比特等递进,以支持更新的技术赋能客户业务。倚天实例无论在直播还是点播,不管是X264还是X265,都会有80%左右的性价比的提升。当前,国内的头部在线教育客户正在使用倚天ECS实例构建视频业务。对于在线教育的业务来讲,视频业务有明显的波峰波谷特征,所以其对IT资源有高算力、低成本、高弹性三大强需求,基于云端的倚天ECS实例能够很好地满足。当客户视频转录模块和视频后处理模块使用了倚天ECS实例以及优化能力之后,性能提升了接近 30%,整个性价比提升了50%,取得了很好的业务效果。
随着数据的爆炸式增长,大数据技术的应用场景和需求也越来越多样化和复杂化,对算力的要求也越来越高。在大数据技术的发展过程中,算力是其核心之一,对于数据的处理、分析和推断都需要极大的算力支持。数据的海量爆发增长对数据存储成本挑战巨大,需要更加优异的技术方案以解决数据存储成本高的问题;离线计算任务重,并发处理高,如何保证高负载下稳定的算力输出对算力资源提出挑战。目前,数据湖方案,湖仓一体的方案离不开前端分析,同时在大数据里面,它的数据存储成本和视频还不太一样。视频可能是网络传输的成本,对它来讲很敏感。但是在大数据的场景中,数据的存储成本也是很大的制约它整体成本优化的瓶颈点。他们自然而然也会用各种优化算法来不断降低它的压缩。使用基于倚天优化的ZSTD压缩工具,压缩性能提升30%,压缩率提高36%。同时,大数据场景在高负载压力下,会要求更大的缓存带宽和更低的缓存延时。结合阿里云最新的CIPU架构,能够提供超低时延的eRDMA网络和高性能ESSD云盘。大数据作为网络IO和磁盘压力较大的场景,比如数据的shuffle和HDFS文件读写,都可以提供稳定、高性能保障。结合以上,倚天在大数据典型组件Spark、Hive、Flink、ES等性能对比x86实例提升20%以上。以上图客户为例,过去是在线下数据中心构建了一套大数据分析系统。基于倚天ECS实例+数据湖的解决方案,可以帮助客户平均提升30%以上的性能。这里还可以着重提一下,实际性能对比是减少了一半的核数的情况下。正是由于倚天的优异物理核性能,使得在vCPU资源缩小一半的情况下,性能提升了30%,这个对客户来讲是很有价值的一件事情。
HPC高性能计算是典型的计算密集型场景。高性能计算不光是对于算力有需求,对网络同样也有需求。很多客户在线下使用的不管是超算中心还是自建,都会用很高昂的像IB的RDMA网络。在倚天ECS实例上,不光提供云端的超高性能、高稳定算力,还有高可扩展、低延时的eRDMA网络,配合 2×100G的网络,用户可以很便捷地使用普惠弹性网络能力。同时,面向科学计算的场景,与Arm联合优化的APL数学库对于常见的像幂函数等运算提供更高效的支持。依托阿里云自研编译器以及PARM性能分析工具,可以很好地帮助高性能计算客户在云上更加便捷的使用算力,在生物制药场景典型软件性能提升10%以上。这都是相较于主流的X86的算力对比,还没有考虑价格,因为价格是平均优惠接近30%,因此倚天实例性价比优势明显。在生物制药软件VASP场景里,性价比提升接近60%;在气象软件场景中SRF,性价比提升了近20%。在科学计算型的场景里,倚天由于孜孜不断优化,也可以拿到更高的性能和性价比。本次云栖大会上,正式推出了基于倚天CPU的HPC优化实例。基于倚天的 HPC优化实例和前面介绍的倚天实例有什么区别?从客户的 license 场景角度出发,会发现很多的商业软件的 license 和核数强相关的,为满足软件license需求,我们采用全内存整机售卖方式,即每个规格均售卖最大内存。倚天hpc实例在vasp场景下对比x86通用实例性价比提升90%。以广州智药客户为例,在整个算力层面,正是由于使用了倚天ECS实例,在蛋白质结构预测场景相比较于客户主流的通用实例有2.3倍的性价比提升,vina场景提升两倍以上。所以,不管是在生态的支持度,还是在加速能力,倚天ECS实例都会有很显著的优势。最后给大家介绍游戏场景的最佳实践。很多客户会优先会把离线系统使用倚天ECS实例,通过倚天ECS实例的高性价比来帮他降本。《守塔不能停》这个游戏客户主动发现了倚天ECS实例的优势并选择了倚天ECS实例,完成了从平台服务到游戏服、战斗服全量迁移到倚天ECS实例上,并取得了1.2倍以上的性能收益。一站式迁移服务与开箱即用的性能优化工具倚天ECS实例在整个的推广过程中,我们觉得重要的是一款产品能不能被客户接受,需要关注它的自动化和智能化。倚天ECS实例打造了一站式的迁移服务,围绕着客户经常会问的问题,代码到底要不要迁移,迁移完了之后,X86往Arm上到底要不要改造,然后改造完了之后,性能到底要不要优化,以及在这个过程中能提供什么样的支持和帮助。
我们服务众多内外部客户沉淀的迁移、适配经验通过工具化、产品化能力输出,方便用户业务快速适配倚天实例。EasyYitian是一体化端到到迁移工具,支持包括C、java、go在内的主流开发语言,可以将用户提交的业务软件进行自动分析,并输出分析报告,提效用户业务适配;底层采用龙蜥社区的开源智能调优工具KeenTune(轻豚)为倚天实例提供调优专家知识库和 AI 参数调优的协同调优的能力,在内核、编译、基础服务、应用等领域为云场景业务的典型负载定制最佳运行环境。
很多时候困扰业务和技术团队,是参数到底该怎么调优,在倚天ECS实例产品之上,推出了Booster能力,从名字可以发现所谓的booster就是指会针对客户常用的软件,一站式地帮客户来做参数的设置和调优,做到开箱即用,降低客户使用倚天ECS实例的门槛。
作为新生事物,我们打造了倚天社区。我们相信只有更多的开发者、伙伴和客户一起进来,不断地帮助完善生态,才能打磨更好的产品服务企业与开发者。所以,我们正式推出了倚天社区,所有使用倚天ECS产品的客户和开发者可以在社区里提出问题、找到问题解决方案,包括迁移、兼容、性能调优等各方面的内容,都会有很详尽的相关的文章。总结倚天从做这颗芯片开始,它就不是孤立的简单的CPU算力的迭代,它更多的是融合了我们对于云的基础设施、算力层面的体系化的思考,并加持了阿里云最新架构CIPU能力的融合。倚天和CIPU双剑合璧,使得在性能,稳定性,包括IO能力方面都相比较于过去有了质的飞跃。阿里云、软硬件研发团队、Arm还有合作伙伴持续不断的完善倚天生态。最后,欢迎大家使用我们更多的产品,提出宝贵的意见。