从以云为美到美美与共:阿里云底层自研技术大爆发背后的长期主义

长期主义,是未来写给今天的信笺。

从亚马逊1997年在纳斯达克上市起,贝佐斯每年给股东写一封信。第一封信中,贝佐斯写道:“一切都围绕长期价值展开(It's All About Long-Term),我们会继续面向长期做出决策。”这段话,被很多人奉为长期主义的滥觞。

无独有偶。价值投资的开创者巴菲特从1956年开始,也每年给股东写信。那些关于能力圈、护城河的箴言,在很厚的雪、很长的坡上践行——“如果你不打算持有一家公司十年以上,最好连10分钟都不要碰它”。

今年5月底的阿里云峰会上,阿里云智能总裁张建锋重点阐释了“做深基础、做厚中台、做强生态、做好服务”四大核心战略,其中颇受关注的“做深基础”,可谓排名最前、投入最多、期望最高、挑战最大。厚积薄发的演进路径,无疑彰显着长期主义的精髓。

转眼来到丹桂飘香的杭州之秋,10月19~22日举办的云栖大会刚好12周岁。在主题为“云深处、新世界”的演讲中,张建锋认为以云为核心的新型计算体系结构正在形成,云网端技术的深度融合将构建全新的数字世界。尤为引人注目的是,阿里云发布了一系列与新体系、“新世界”相关的底层自研核心技术和产品,持续多年的深厚积累终于迎来收获果实的时间窗。

从云替代传统IT到云重新定义IT

信笺密码:前瞻眼光犹如长期主义的灯塔,核心技术则是通往彼岸的方舟。

传统IT领域,无论是Win-Tel架构还是IOE体系,在相当长时间里都坚不可摧。国内厂商要在既有的赛道上寻求核心技术突破口,几乎是不可能完成的任务。

云的兴起孕育出全新的增量赛道,为新晋者提供了同一起跑线上的机会。2008年阿里率先提出“去IOE”时,业界看好的人屈指可数。如今回头再看,彼时恰是IT基础设施云化的起点。此去经年,主机被X86设备取代,传统数据库被开源数据库替换,SAN结构高端存储受到云存储冲击,不过是寻常景象。

前瞻眼光犹如长期主义的灯塔,核心技术则是通往彼岸的方舟。2009年成立的阿里云天生背负着变革的使命:站在云计算的制高点,深度切入核心技术研发,成为其奠定领先者地位的必由之路。

作为国内最早自研的云计算操作系统,飞天是阿里云底层核心技术的排头兵。它将阿里云遍布全球的百万级服务器连成一台超级计算机,以在线公共服务的方式,为用户提供规模化、通用性且具有普惠特征的算力。

经过多年发展,飞天的核心服务包括弹性计算、云存储、云网络等,单集群可达10万台规模、毫秒级响应和EB级存储空间,各个子系统都具备自动部署、扩容升级、故障迁移的能力,经受住了双11、12306春运购票等极限并发场景的挑战。

针对服务器长久以来的虚拟化性能损耗痛点,阿里云自主研发神龙架构,把虚拟化转移到专用硬件中加速,将物理机的高性能与虚拟机的灵活性融为一体,虚拟化损耗几乎为零,性能比传统物理机更强劲。

据《IT创事记》了解,最初神龙架构的研发主要为解决阿里集团内部上云的问题,而不拘泥于自身和眼前的思路,使其可以惠及更广泛的用户。2021云栖大会上,阿里云推出第四代神龙架构。这是飞天操作系统新一代虚拟化技术,搭载全球首个超大规模RDMA高性能加速网络,网络延迟整体降低80%以上,云计算首次进入5微秒时延时代。

盘古是阿里云自研的分布式存储系统,采用先进的容错架构和柔性平台设计,具备弹性伸缩、自动负载均衡等能力,显著提高存储系统的可靠性和安全性。在云存储技术演化过程中,盘古引领行业从毫秒向微秒迈进,推动面向数据中心ZNS SSD国际标准的发展。

洛神云网络是飞天云操作系统的核心技术平台,从1.0时代发布国内首个VPC,到2.0时代打造“三位一体”创新型云网络架构,其一直没有停止创新的步伐。云栖大会上亮相的洛神云网络3.0新平台,旨在构筑“应用-云-边-端”一体的云网络基础设施,让中心云到本地云、边缘云都有一致性的云网络体验,并通过物联网云连接器和智能接入网关推动万物上云。

从建设云底座到构筑数字新世界

信笺密码:遇到硬仗迎难而上,是长期主义者的重要禀赋,时间的玫瑰终将绽放。

从某种意义上讲,飞天操作系统是阿里云“做深基础”战略的核心引擎。在完成IT基础设施云化的初期目标后,飞天进一步兼容X86、ARM、RISC-V等多种芯片架构,实现"一云多芯",向下延伸定义硬件。

通用CPU因架构复杂,对性能和功耗要求极高,是硬件领域最难跨越的大山之一。而遇到硬仗迎难而上,正是长期主义者的重要禀赋。在本次云栖大会上,平头哥发布采用5nm工艺的自研云芯片倚天710,堪称史上最强ARM服务器芯片,性能超过业界标杆20%,能效比提升50%以上。

从2019年发布AI芯片含光800到如今倚天710问世,在造芯的长征路上,平头哥迈出了从专用芯片到通用芯片的关键一步,为阿里云深化“一云多芯”策略奠定了坚实基础。

通用芯片打开一扇门,阿里云顺势推出首款全栈自研磐久系列服务器,将率先服务于2021天猫双11,未来会逐步对外输出。为了让服务器发挥更好的性能和稳定性,开源的龙蜥服务器操作系统也正式发布——支持X86、ARM等主流芯片架构,兼容CentOS生态,可一键迁移,并提供全栈国密能力。

龙蜥在阿里巴巴内部“十年磨一剑”,经过云原生化和大规模实战检验,已具备兼济天下的能力。去年5月,阿里云、统信、飞腾、海光等厂商成立龙蜥开源社区OpenAnolis,通过开放、平等的模式与全球开发者共建中立、多元的软硬件生态体系。未来,阿里云还将投入20亿元专项资金,联合100家生态合作伙伴建设龙蜥生态,并承诺提供至少十年免费技术支持。

芯片、操作系统、数据库并称三大核心IT技术,阿里云对数字新世界基础设施的重塑,绕不开对数据库的改造。自2009年起,阿里逐步用自研数据库取代Oracle等进口产品,但由于数据库种类繁多,更新换代殊为不易。

经过三年多的自主研发,云原生数据库PolarDB于2018年4月正式商用。此后,阿里云在数据库的开发上不断提速,除智能化的企业级云数据服务RDS外,还自研以PolarDB、AnalyticDB、Lindorm为核心,面向在线交易处理、分析与多模、HTAP、物联网等不同场景的云数据库产品矩阵,满足客户多元化的需求。

值得关注的是,PolarDB在今年的云栖大会上重磅升级,实现计算、存储和内存资源的三层解耦,首次达成内存池化,并上线多主架构。与此同时,与阿里云公共云数据库管理平台一脉相承的DBstack产品也浮出水面,让云原生数据库技术进入专有云、混合云等新的市场空间。

从云底座向数字新世界基础设施跃迁,云、网、端深度融合,还会催生云电脑、元宇宙、自动驾驶等新物种。例如:很多工程师已在使用阿里“无影”进行编程,因为数据都在云端,不再担心核心代码泄露,也不必购置高配硬件,就能随时随地使用无限算力,处理各种复杂计算需求。

从云原生到与AI、绿色能源协同创造未来

信笺密码:先躬身自用,再惠及众生,符合长期主义者的责任担当。

传统IT软件被云原生技术取代,是云底座进化到崭新阶段的重要标志。过去,开源软件只是大型商业软件的补充;但云计算进入深水区后,来自开源社区的云原生创新层出不穷,标准化、低代码化的优势日益凸显。

基于钉钉的低代码开发即是典型的开源模式,相关应用8个月增长了86万。如此“爆发”正是因为打破了应用开发的封闭环境,让开发者从企业专业IT人员逐步走向个人,开发成本不到原来的十分之一。

先躬身自用,再惠及众生,符合长期主义者的责任担当。阿里自身落地了全球最大规模的云原生实践,目前业务100%跑在公共云上,且实现应用100%云原生化;同时,阿里云也是云原生最突出的贡献者,主导开源项目超2700个。云栖大会上,平头哥还宣布开源玄铁RISC-V系列处理器,并开放系列工具及系统软件,全栈开源的力度前所未有。

云的外延和内涵不断拓展,必然会与眼下最热门、影响最深远的技术产生交集,其中的佼佼者当属人工智能和绿色能源。

鲜为人知的是,阿里实际上是国内最大的人工智能公司。阿里AI每天被调用超1万亿次,为了将其整体能力向外输出,阿里云发布阿里灵杰,涵盖深度学习平台PAI、大数据计算平台MaxCompute、流式计算引擎Apache Flink和多模态大模型M6等,将阿里统一的AI底层平台对外开放,方便企业和开发者“开箱即用”。

在双碳目标的牵引下,绿色是检验数据中心的黄金标准。云计算本身就是绿色技术,通过聚集计算资源、转移工作负载,云的资源利用率是企业自建机房的5~10倍,并能更好利用风能、太阳能等清洁能源。

阿里云是国内最早实践绿色数据中心的厂商之一,其自建的数据中心全年平均PUE小于1.3,位于河源的数据中心最快明年将100%使用清洁能源。针对数据中心的节能减排,阿里云在云栖大会推出IDC专用的能源与碳管理系统,有效提升数据中心的碳排放管理,引导企业向绿色数据中心转移业务,助力社会减碳。

据阿里巴巴集团董事会主席兼首席执行官张勇透露,阿里近年来每年在技术和研发上的投入都超过1000亿元,其布局的每个前沿技术领域,背后都有全球顶级人才的支持。这是数字新世界长期的创造力之源,也是阿里云从以云为美迈向美美与共的核心驱动。

张建锋认为,未来十年,云计算依然会高速增长,作为市场领导者,阿里云最大的挑战是如何用创新定义未来,引领数字化转型进程——软硬件一体化、钉钉平台、无影新架构等都是阿里云面向未来定义的成果,更多的惊喜还在路上。

发表评论

邮箱地址不会被公开。 必填项已用*标注

This site uses Akismet to reduce spam. Learn how your comment data is processed.