阿里云CPU破局之战

2015年1月,在业界一片议论纷纷却又摸不着头脑的猜疑声中,亚马逊公司以3.7亿美元的惊人价格买下了一家以色列芯片设计公司——Annapurna Labs。

当时,Annapurna Labs成立仅4年,尚未对外发布任何一款芯片产品,甚至对自己的研发进程也一直讳莫如深。业界只知道它们正在试图研发一种新型芯片,试图让低功率的计算服务器和存储服务器快速地运行数据。

没人知道这家公司究竟要干什么,也没人知道亚马逊为什么要买它。

两年之后的亚马逊年度大会re:invent 2017上,当亚马逊首次正式向世界推出自研云服务器芯片项目Nitro、当那片印有Annapurna logo的芯片出现在世人面前时,人们才恍然大悟。

把视野拉回到国内,中国云计算公司在自研芯片这条路上已走进世界前列。在2022云栖大会上,阿里云宣布自研芯片倚天710已大规模应用,算力性价比大幅提升超30%,未来两年阿里云20%的新增算力将使用自研CPU。

自研芯片,已是云厂商的必由之路。

一、从价格战到技术战

2015年,海外云计算市场的“价格战”已经近白热状态。

在云计算发展初期,各家所能提供的大多都是基于上游硬件资源的IaaS服务,不同云厂商之间的产品差别不大。

管理经济学告诉我们,当产品出现同质化,价格战无可避免。

在海外,亚马逊(AWS)、谷歌、微软纷纷入局,以价格战跑马圈地,抢夺更高的市场份额。AWS更是一度以每年降价12次的惊人节奏迅速扩张,市场竞争日益激烈。

国内也不例外,自2015年起,阿里、腾讯等国内巨头纷纷加速扩张,市场多番鏖战。

但企业想要健康发展,最终只能回归技术,回归研发,以性能更强,体验更好的差异化产品打动用户。

2018年,阿里宣布全资收购中国大陆唯一的自主嵌入式CPU IP Core公司——中天微,并在随后宣布将达摩院芯片研发团队与中天微团队合并,成立平头哥半导体。

2019年,阿里云首款自研服务器AI芯片含光800正式面世。

历史总是相似的。

近年间,以AI机器学习、大规模视频处理、大规模数据处理等为首的高负载云计算应用日益增多,其场景运算强度大、高并发、应用复杂,对云计算厂商的服务质量提出了前所未有的极高要求,并倒逼服务器芯片加速发展。

尤其是在“云原生”的概念提出后——传统IT时代的云计算更多是为了适配当前的IT架构,进而适配各类应用。可在云原生时代里,多款应用本身就是“长在云上”的——如何根据这些云原生应用的需求打造更适宜其生长的土壤,成了云厂商技术变革的头等大事。

“云土壤”的改造既涉及软件、架构、操作系统,又涉及网络、服务器、计算板卡,更会涉及最为核心的算力来源——芯片。

第三方芯片公司固然也在跟随技术进步不断推出新产品,然而,作为最熟悉自身业务的人,云计算厂商最知道自己的业务有什么差异化的需求,什么样的芯片才能做到特定性能效率的最大化。

正如阿里云弹性计算产品线负责人张献涛所言,“云计算做到一定规模的时候,你发现(自研芯片)非做不可。”

当然,云计算中涉及的芯片种类繁多,各家侧重点也有所不同。

比如,阿里的含光800、谷歌的TPU、以及芯片厂商英特尔的Habana Gaudi 2、英伟达的H100等,都是侧重于人工智能应用的计算芯片。此外,近年间还有DPU、IPU、CIPU等新型数据中心处理器。

云计算芯片市场的老玩家——CPU自然也不会缺席。

近20年来,云服务器CPU市场长年被英特尔的x86架构统治,其市场份额甚至一度超过90%。

CPU架构设计难度大、生态壁垒高,一直是芯片产业的集大成之作。

然而,哪里有垄断,哪里就有挑战者。从2008年开始,ARM就持续对服务器芯片市场发动了进攻,惠普、AMD、博通、高通等芯片设计公司都曾陆续推出相关产品,可惜大多折戟。 

然而,市场并未因一时的失利而失去信心。2018年,ARM发布ARM Neoverse计算平台,瞄准了云计算服务器、HPC、AI与机器学习加速这几大场景。

随后几年里,AWS推出Graviton系列服务器CPU;Ampere Computing推出80核Ampere Altra和128核Ampere Altra Max服务器CPU;国内厂商飞腾推出多款服务器CPU。 

作为国内云计算产业的领头玩家,阿里云也在2021年的云栖大会上推出了首款自研云原生处理器CPU——倚天710。

这是阿里第一颗“为云而生”的CPU,容纳了高达600亿个晶体管。它基于ARM v9架构打造,拥有128核,并在全球权威CPU基准测试集SPECint 2017上拿到了440分的超高成绩,超出业界标杆20%。

而在今年的2022云栖大会现场,阿里云智能总裁张建锋更是进一步宣布,经过一年的业务验证后,倚天710已经完成大规模部署,不仅支撑了阿里巴巴内部核心电商业务,还开始对汇量科技等科学研究、智能手机和互联网等多家企业提供服务。

据张建锋介绍,基于倚天710的云计算实例在数据库、大数据、视频编解码、AI推理等核心场景中的性价比提升30%以上,单位算力功耗(耗电量)降低了60%以上。

二、拿双11“练手”:“奢侈”的成长史

倚天710去年完成流片,今年就已完成大规模部署,并能够对外提供服务,其速度之快,在动辄以3-5年为迭代周期的芯片行业可谓惊人。

这是所有云厂商自研芯片都具备的优势——不用等待漫长的反馈周期。 

据张献涛介绍,在传统的云计算厂商与第三方芯片供应商合作的过程中,一个新的性能需求不仅要经过双方的多番沟通验证,还要少则三四年、多则六七年才能变成现实。

“高端领域的技术日新月异,四年可能已经天翻地覆了。”张献涛感叹道。

由于英特尔等第三方芯片供应商的产品往往是通用的,需要适用于不同的用户的不同场景,其因此需要在不同的条件下反复测试。

但对于云厂商自研的芯片来说,只要确保这块芯片在自家数据中心里稳定运行即可,无须让它适配市面上的其他企业。

而且,自家研发的芯片还有一项令人艳羡不已的“奢侈”享受。

据张献涛回忆,倚天710在去年流片回来后不久,就迎来了阿里一年一度的“双11”大促。

“双11”这场全民购物狂欢,也是阿里IT一年一度的攻坚之战,其流量、强度、并发度都是全球顶尖级别的难度。

刚刚从襁褓中诞生的倚天710,就这样被硬生生地推到了“双11”前线,由芯片工程师团队利用“双11”丰富的数据库、存储、AI计算等高强度场景进行全面“地狱级”压力测试,有如武侠小说里七八个不世出的绝顶高手将毕生所学全部传授给一个刚刚会走路的小孩,这小孩的成长速度绝不可与常人同日而语。

传统来说,客户对芯片样片进行部署、测试、收集、反馈的周期长达半年甚至一年,芯片厂需要再根据客户反馈进行重新的设计与改版。

而对于既是客户,又是供应商的云计算厂商而言,这往往就是发起一个跨部门会议的事情。

当前,阿里云上已经有百万台服务器,支撑了各行各业不同的应用场景,其复杂、丰富程度成为倚天710的绝佳养料,能够让芯片团队在最短时间内得到最全面的反馈数据。

“我们在今年春节前就已经知道这颗芯片是靠谱的。前期的场景压测给了我们很大的信心。”张献涛说。

三、从1到100,生态破局之战

正如上文所言,CPU设计难度大、生态壁垒高,一直是芯片产业的集大成之作。

“设计难度大”比较好理解,但实际上,“生态壁垒高”才是困住CPU的真正阻碍。

通俗来讲,就是做一个CPU出来,没有那么难;让大家都能用好这个CPU,很难。

就像安卓的软件不能在iOS平台运行,一直以来,应用、操作系统、芯片架构都是高度绑定的。在电脑、手机等消费电子领域,更换芯片架构是“伤筋动骨”的大手术,需要芯片厂商、系统厂商、应用开发者的多方面紧密协作,难度很高。

然而在云计算领域,自研芯片让问题变得简单了一些。

早在2007年,阿里就开始启动了“飞天”云操作系统的自研。随后,阿里云又陆续推出了解决虚拟化性能损耗问题的“神龙”架构服务器、“盘古”分布式存储系统、基于软硬一体的“洛神”云网络系统、“磐久”液冷集装箱、开源服务器操作系统“龙蜥”、云原生数据库PolarDB、AI统一平台灵杰…… 

而在芯片领域,阿里云也陆续推出了云基础设施处理器CIPU、云计算AI推理芯片“含光”系列、RISC-V处理器“玄铁”系列、RFID芯片“羽阵”系列、服务器CPU“倚天”系列……

这些阿里的自研技术产品,从软件到硬件,几乎覆盖了云计算的整个链路环节,让阿里将改换芯片架构的“伤筋动骨”环节所遇到的阻力尽可能最小化。

对于用户而言,从普通实例迁移到倚天710云实例上的应用,则更是做到了“零代码”迁移。用户仅需要做简单的重新部署/编译,便能轻松实现近乎无感的平滑迁移。

但是,用户为什么要花费这些时间和精力去迁移到一个全新的架构里呢?

因为自研芯片所带来的性能提升与成本下降极其显著。

张建锋透露,当前,倚天710云实例已在多家互联网科技公司大规模应用,覆盖了材料研发、广告推理、语音推理、电商交易等多个领域。

其视频编码应用性能提升80%、数据库性能提升30%、AI推理性能提高了70%。最可贵的是,其算力性价比提升了超过超30%,单位算力功耗降低了60%——真可谓“加量不加价”了。

比如,汇量科技的广告推理精排业务性能和内网带宽上均实现了提升,综合性价比提升40%以上。

汇量科技首席人工智能官朱小强就曾表示,随着在线推理模型的不断升级,汇量科技对CPU性能和内网带宽要求更高,倚天710实例很好地满足了公司业务升级的新需求,做到了降本增效。 

在2022云栖大会上,张建锋进一步宣布,未来两年,阿里云有20%的新增算力将来自阿里云的自研芯片。

四、一云多芯,重塑云计算产业

早在去年,阿里云就宣布了其“一云多芯”的核心战略——以飞天操作系统为核心,全面向下兼容x86、ARM、RISC-V等多种芯片架构,以及倚天、AMD、Ampere等多种CPU,并将其封装成直接面向用户的标准算力,既解决了CPU不兼容导致的云和软件开发问题,又让更多种类的芯片进入云计算生态。

今年6月,阿里云正式发布了CIPU(Cloud infrastructure Processing Units)。这是一套阿里云历时7年所打造的云数据中心专用处理器,未来将替代CPU成为云计算的管理、加速计算、存储和网络资源中心。

在本次云栖大会上,阿里云首次展现了“飞天+CIPU+CPU”的组合成果。据阿里透露,这一组合性能表现普遍优于业内同类产品,性价比可提升30%以上。

这不仅是阿里在CIPU、倚天710等芯片上取得的成果,更是过去十几年间年,阿里云在自研操作系统、数据库、存储、网络和芯片等软硬件技术上取得的协同成果。

冰冻三尺,非一日之寒。阿里巴巴集团CFO武卫曾在全球投资者大会上透露,这几年,阿里在技术和研发上的投入每年都超过1000亿人民币。 

当前,从软件到硬件,从操作系统到计算架构,从上层应用到底层架构,以人工智能、虚拟现实等为代表的新兴行业应用正倒逼云计算厂商不断加大技术自研力度,力图在如今的重要节点,抓住新一代云计算技术标准定义,得到重塑云计算产业的话语权。

如今,阿里云的野心已不仅仅是推出一款芯片、一个架构,更是秉承着“一云多芯”的战略指导,彻底改革传统的以CPU为中心的云计算体系,凭借着“飞天+CIPU+丰富算力来源”的新架构,将云计算产业推向新时代,从云效率最大化出发,重构数据中心,构建软硬一体的“新一代云计算体系”。

张建锋在云栖大会上表示,当前以云计算为核心的新型计算体系,正在带来三大变革: 

1、云重构了整个IT硬件体系,数据中心、芯片、服务器等产业链发生深刻变化;

2、软件研发范式发生深刻变革,Serverless、低代码、AI大模型开源等趋势,大幅提升软件生产效率;

3、云和端加速融合,算力从端转移上云,未来万物皆是计算机。

在这个全新的云计算时代里,芯片、操作系统、上层应用的原生融合已是大势所趋。倚天710的推出与成功大规模部署应用,既是这条技术变革道路之上的里程碑,又仅仅只是万里长征的一个开始。

原文链接:https://36kr.com/p/1985616583902211

本文地址:https://www.cknow.cn/archives/3345

以上内容源自互联网,由百科助手整理汇总,其目的在于收集传播生活技巧,行业技能,本网站不对其真实性、可靠性承担任何法律责任。特此声明!

如发现本站文章存在版权问题,烦请提供版权疑问、侵权链接、联系方式等信息发邮件至candieraddenipc92@gmail.com,我们将及时沟通与处理。