本文作者:zgluosi

浪潮信息赵帅:未来一切计算皆AI,构建开放算力模组规范至关重要

浪潮信息赵帅:未来一切计算皆AI,构建开放算力模组规范至关重要摘要: 【TechWeb】8月12日消息,2024开放计算中国峰会上,开放算力模组(OCM)规范正式启动立项,首批成员包括中国电子技术标准化研究院、浪潮信息、Intel、AMD、百度、小红...

【TechWeb】8月12日消息,2024开放计算中国峰会上,开放算力模组(OCM)规范正式启动立项,首批成员包括中国电子技术标准化研究院、浪潮信息、Intel、AMD、百度、小红书、联想、超聚变等,旨在打造国内首个服务器计算模组设计规范,构建CPU统一算力底座。

开放计算模组规范(OCM) 规范的正式启动,旨在建立基于处理器的标准化算力模组单元,通过统一不同处理器算力单元对外高速互连、管理协议、供电接口等,实现不同架构处理器芯片兼容,构建CPU的统一的算力底座,以解决CPU生态挑战问题,方便客户根据人工智能、云计算、大数据等多样化应用场景,灵活、快速匹配最适合的算力平台,推动算力产业高质量快速发展。

为何要构建“OCM”规范?

在谈及“OCM”规范发起的初衷时,浪潮信息服务器产品线总经理赵帅表示,现在,无论是手机、电脑、边缘设备、CPU服务器、加速服务器都具有了AI计算的能力,也都在承载着多样化的AI应用。AI算力已经深入到千行百业,渗透进每一个计算设备里,面向人工智能的算力范式不断革新。通用算力也要具有AI计算的能力,可以说“未来一切计算皆AI”。

在智算时代背景下,CPU算力单元应用越来越丰富,除了大数据、关键计算、科学计算外,也要承担AI应用的重要任务,这是CPU算力单元的重大机遇。

与此同时,随着应用范式的多样化,CPU呈现了多元化发展方向。目前x86、ARM、RISC-V等不同架构的CPU处理器百花齐放,仅在中国,目前就有10多种CPU处理器,不同CPU协议标准不统一,系统功耗、总线速率、电流密度不断提升,导致硬件开发、固件适配、部件测试资源等时间激增,给算力系统设计带来巨大挑战。

赵帅强调:“需要构建一个CPU的统一算力底座,解决CPU计算的效率问题。”

“OCM”规范的思路就是把原来一个紧耦合式的服务器架构拆散,以CPU和内存作为最小的算力单元,标准化高速和低速的互连接口。这样,未来不同的算力平台,只更换计算的模组,就可以实现从芯片到算力快速的落地应用。

通过这种标准化的算力模组,让算力可以快速抵达用户,让用户可以快速地利用最先进的算力。

“OCM”规范的价值和意义

浪潮信息服务器产品部产品规划经理罗剑认为,随着OCM规范的启动,对算力上游厂商、终端用户、系统集成商都大有裨益。

对于上游厂商来说,这个规范可以让他们在做处理器的同时,把这个算力模块做出来,新的平台可以快速地在系统上面去做集成。

对于终端用户来说,这种标准化可以实现对多元算力的统一管理、统一运维,管理复杂性极大降低了。

对于系统集成商来说,算力标准化后,就可以在不同的系统里应用统一的算力模块,类似于硬盘一样,一个系统里面可以支持多家的硬盘,一样的道理,未来一个系统里面就可以支持多元算力平台。

事实上,这不是浪潮信息首次参与发起相关行业规范。此前,浪潮信息就参与和支持了针对超大规模深度学习训练的AI加速卡的“开放加速规范OAM”。

“OAM”构建了一个统一的加速芯片底座,解决了单个服务器内多元AI加速卡形态和接口不统一,高速互连效率低,研发周期长等问题,促进了加速算力单元接口的统一和生态的完善。

目前开放计算规范OAM已成为全球最多高端AI加速芯片遵循的统一设计标准,全球20多家芯片企业支持开放加速规范,为AI芯片企业节省研发时间6个月以上,为整体产业研发投入节省数十亿元,极大地降低了AI算力产业创新的难度,加速高质量AI算力普惠发展。

浪潮信息最新一代基于OAM规范的AI服务器NF5698G7支持多种基于OAM规范的开放加速芯片,并为用户构建了一个千卡液冷集群,支持超千亿参数量的AI大模型训练。

目前,OAM规范还在持续迭代,未来基于OAM2.0规范的AI加速卡将支持1024张加速卡的卡间互联,突破大模型互联瓶颈。

谈到刚刚启动的OCM规范,赵帅表示:“开放计算对于智算时代有非常重要的意义和价值,要用开放应对多元算力的挑战。OCM是国内首个服务器模组设计规范,希望更多的行业伙伴以及更多的用户参与进来,真正让多元的统一算力模组尽快地走进每一个用户的机房当中。”

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享

发表评论

快捷回复:

评论列表 (暂无评论,7人围观)参与讨论

还没有评论,来说两句吧...