OpenRack3.0背后的云数据中心开放进化

2019年6月28日15:53:00 发表评论 10 浏览

6月25日,OCP China Day(开放计算中国日)在北京举行,大会由OCP基金会和OCP铂金成员浪潮联合主办,近1000名工程师和从业者参加了此次大会。

OpenRack3.0背后的云数据中心开放进化

OCP China Day开放计算中国日现场

OCP是全球的最大硬件开放社区,核心会员超过200家,包括Google、微软、Intel、IBM、浪潮等,超过7000家企业曾参与社区的活动。2011年Facebook发起成立了该社区,旨在重构数据中心硬件设计,通过开放开源的方式,构筑创新技术生态。社区成立后,发展速度超出了所有人预料,2018年,OCP非董事会成员采购额同比增长率超过120%,达到25.6亿美元,到2022年预计将超过107亿美元。

目前,所有的都全部或者部分采用了OCP的开放技术,整机柜服务器、存储服务器、机架式高密度服务器等一大批时代的创新技术和产品都是在OCP社区的直接推动下发展起来的。OCP的发展历程也是整个数据中心产业的云计算变革过程。

5G催生云数据中心2.0

本次OCP China Day活动主要聚焦于边缘计算、AI以及云数据中心三大议题。随着5G 的应用,此前以云计算、移动互联、为代表的信息技术变革开始迎来新起点,5G时代不仅是AI、边缘计算的时代,也是物联网的时代,也是更大带宽、更大规模互联的时代,云数据中心需要承载更大规模的访问量和数据量,从而进一步加快规模化、现代化升级。

如果说现在的云数据中心是1.0版本,那么5G时代的云数据中心则是2.0版本。通过水冷、48V供电,克服物理限制,进一步提高数据中心功率密度;软件定义技术全面应用,硬件标准化,固件开源统一化,IT基础架构实现真正的统一、融合、开放;Redfish新管理架构替代当前的IPMI,同时与openBMC相结合,形成新一代的数据中心管理技术生态。

从OpenRack3.0看下一代整机柜服务器

截止至2019年1月,全球超大规模数据中心的数量已经达到430个,同比增长11%,预计年底可以达到500个。按照每个数据中心 10万台的容量计算,已建成超大规模数据中心可容纳4300万台服务器,而根据IDC数据,2018年全球服务器总出货量仅为1175万台。

这些大规模和超大规模数据中心一直在不断的提高设备密度,直接导致以整机柜为主的不同形态的多节点服务器,在过去的10年中,全球市场的出货量份额从0起步上升至20%。OCP的OpenRack2.0和ODCC的天蝎2.5是目前整机柜服务器的两个主要的公开技术标准,已经部署的服务器大多遵循上述两个标准。但是这两个标准在供电和散热方面遇到了物理限制的硬墙,难以继续提高密度。所以,OCP和ODCC都在开发下一代标准3.0,这一代标准普遍实现了12-48V高压供电、15-33KW高功率支持以及液冷散热的支持。

大会上,Facebook技术负责人Steve Mills系统讲解了最新的OpenRack 3.0整机柜服务器规范,新规范在供电、散热等方面提升以外,还将高度从41OU增加到44OU,最大重量从1400Kg提高到1600kg;支持21英寸和19英寸两种规格的节点,节点高度单位同时支持OU和标准U;内部结构也进行了调整,可以让用户部署专门异构加速器、存储等扩展模块,由于该规范涉及到液冷和48V供电等尚未规模应用的技术,很多细节仍然待定,所以,该标准仍未正式发布,处于公开征询意见的阶段。

OpenRack3.0背后的云数据中心开放进化

Steve Mills, Facebook Technical Lead

OpenRack 3.0以外的努力

OCP的开放标准往往来源于成熟的应用实践,成员企业的领先实践经过一系列复杂、严谨和完全透明公开的流程后,才会成为社区标准,这样的严格流程保证了OCP标准的实用性和权威性,也带来了一个问题——OCP的标准滞后于实际应用的发展,比如异构加速器的标准OAM今年才发布,而英伟达的GPU技术在十几年前就出现了,GPU用于AI领域也有快10年时间。

OCP、ODCC社区成员在技术和方案层面的快速创新,弥补了标准升级缓慢带来的问题。OCP成员的创新IP或者技术规范只要经过被社区接受,就可以在社区平台上发布。本次活动上,腾讯联合浪潮将T-flex2.0规范贡献给了OCP社区,该规范此前已经被ODCC社区所接受,基于I/O池化技术,通过服务器不同模块的解耦重组,实现服务器的模块化迭代和灵活组合,可以实现异构加速、冷存储、HPC集群等各类不同的应用方案,也就是超大规模数据中心可以基于该规范对统一服务器架构,降低采购运维的复杂度,降低整体成本。

数据中心的效率不仅要依靠硬件层面的创新,也要依靠管理技术的提高。Intel在大会上介绍了两项数据中心管理技术。大部分云平台一旦进入管理的广播模式(也就是管理节点向资源节点发送各种调度指令),所有资源节点都会将管理命令优先处理,从而导致当前排队的的业务进程停止,业务会出现短暂的中断,Intel将管理中断功能放到了PRM层面,这样可以有效的缩短业务中断时间。另外,数据中心的冷却系统会根据负载水平进行调节,但是大规模数据中心的反馈复杂、延时非常高,导致冷却调节明显慢于负载的变化,Intel在管理系统中加入了AI支持的预测窗口,冷却系统调节不必依赖反馈,冷却策略更为精准。

IT基础架构的开放重构

微软SONiC是近几年来最成功的数据中心开源项目,Mellanox、DELTA等公司的400G以太交换机都支持SONiC,中国ODCC社区的凤凰项目也完全采用了SONiC,微软已经构建起了开源交换机操作系统SONiC、白盒交换机融为一体的产业生态。

阿里巴巴在活动上分享了SONiC的应用实践,阿里巴巴采用了SONiC搭建了一个超大规模的生产网络,连接数十万服务器,数百万虚拟机和数千万终端,实现了高带宽和低延迟,让阿里巴巴具备了承受“双十一”网络狂潮的能力,而且阿里巴巴基于SONiC做了大量的个性化开发,很好的推动了阿里巴巴实际业务的创新。

OpenRack3.0背后的云数据中心开放进化

阿里巴巴高级专家刘永锋

SONiC等SDN技术重构了数据中心网络,Ceph等SDS技术重构数据中心存储,OpenStack等云计算技术重构了数据中心服务器,开源的定义软件与标准化的硬件正在成为新一代IT基础架构的标准化选择。

Open Firmware,固件层面的开放

OCP另一个社区项目Open Firmware近年来发展很快,该社区的宗旨是发展敏捷、开放、标准的固件设计规范来适应新一代云计算基础架构发展需求。固件是指设备内部保存的设备底层代码,类似于“驱动程序”,操作系统必须通过固件才能驱动服务器的部件运行。通过固件的开放化,数据中心可以开发深度的数据中心统一管理方案,实现固件的远程统一升级等高级操作,从而简化数据中心的运维复杂度,甚至实现数据中心的自治。

项目组正在开发开源套件,这些套件仅包括最基本的平台代码来识别白盒硬件,同时也在联合社区成员发展可构建和引导的白盒硬件系统,形成软硬一体化的Open Firmware生态。

OpenRMC,完成下一代管理技术的框架

社区的另一个由浪潮牵头成立的项目组OpenRMC,正在致力于OpenBMC与Redfish的融合,形成下一代数据中心管理的统一框架,这是一个Linux、DMTF与OCP三个社区的联合项目。

OpenRack3.0背后的云数据中心开放进化

浪潮高级技术总监郭洪昌

BMC(Baseboard Management Controller)是监控服务器状态并提供带外管理服务的嵌入式管理单元,各主要服务器供应商BMC软件栈均是闭源的,彼此兼容性差,影响了数据中心设备的统一管理。因此,2015年,Facebook发起了OpenBMC开源项目,此后该项目转入Linux基金会。

RedFish是下一代数据中心管理标准,由OMTF标准组织制定,来替代当前的IPMI。IPMI功能较少,扩展性差,只适用于中小规模的数据中心管理。Redfish扩展性好,功能丰富,针对不同供应商的种类多样的基础设施提供规范化易集成的管理接口,除了服务器外,Redfish也在逐渐扩展对存储、网络方面的支持,可以满足超大规模数据中心的高级管理需求。

OCP的OpenRMC小组已经开发了业内第一个符合Redfish规范的OpenBMC版本,进一步提升了OpenBMC的模块化、规范化程度,并且在加快推出正式的社区标准。未来OpenRMC有望与Open Firmware融合,形成一整套深入固件层的数据中心管理架构规范。

统一、开放、融合,是技术也是产业

此次OCP China Day活动展示技术内容,构成了一个完整的下一代云数据中心技术框架——新升级的新形态Open Rack 3.0,从固件到数据中心多个层面的开放融合、更丰富的管理。这些技术会随着5G、AI的应用,而逐步替代原来的技术,完成整个技术生态的升级换代。

另外,值得一提的是,OCP、ODCC以及其他软硬件开放社区,正在实际需求的带动下,深度交流合作,甚至于模糊边界。在此次大会上,主题演讲的内容不仅来自OCP各个技术组,也来自ODCC社区,百度分享了天蝎服务器的实践经验。

相关阅读:

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: