MLPerf AI存储基准测试,中国速度领跑

近日,MLCommons协会发布最新MLPerf™ Storage v1.0 AI存储基准测试成绩。

测试结果颇有些意外,却又在情理之中:以浪潮信息为首的三家中国存储厂商位列MLPerf™ Storage多项细分评测最佳,中国速度在全球AI存储权威测试中实现领跑。这既是中国数据存储产业整体实力近年来稳步提升的客观反映,也是AI时代中国存储厂商产品与技术创新能力的集中体现。

随着AI技术与AI应用不断进入到千行百业,各大行业围绕AI、数据要素等发展新质生产力已成为确定性趋势。可以预见,算力与存力齐头并进的局面也将全面打开,而中国存储厂商在AI存储领域的持续创新,有望推动存算协同效应持续优化,让AI技术在千行百业中遍地开花。

MLPerf测试:存储性能的一把新标尺

一直以来,性能都是衡量存储系统的重要指标之一。

过去,SPC测试(Storage Performance Council,存储性能委员会测试)是存储系统性能的权威评测;如今,随着AI大模型获得越来越多应用,关键在于对于大规模海量数据的高效处理,这不仅仅需要强大的AI算力,亦离不开存储系统在性能、可靠性等方面的有力支撑。那么,如何衡量存储在AI场景中的性能、可靠性等能力?

为此,MLPerf™应运而生。MLPerf™ 是影响力最广的国际AI性能基准评测,由图灵奖得主大卫•帕特森(David Patterson)联合顶尖学术机构发起成立,并于2023年推出MLPerf™ Storage基准性能测试,该测试通过准确建模ML工作负载所产生的I/O模式来帮助解决存算平衡问题,为不同存储系统和不同加速器类型的混合和匹配提供灵活性,为ML/AI模型开发者选择存储解决方案提供权威的参考依据。

据悉,MLPerf™ Storage基准性能测试推出两年时间里,已历多个版本迭代,并获得全球多家厂存储厂商的积极参与和支持。以本次测试为例,评测围绕医学影像分割、图像分类、宇宙学参数预测三大AI存储应用场景,采用主流的3D-Unet、ResNet50、CosmoFlow三类模型,在GPU利用率高达90%或70%的条件下,以带宽和支持的模拟 GPU (模拟加速器)数量为关键性能指标,评估单客户端或集群模式下存储系统的性能表现。

可以说,MLPerf™ Storage基准测试正迅速成长为衡量存储在AI场景中性能产品力的一把标尺。浪潮信息存储产品线副总经理刘希猛介绍,ML commons协会已有超过160个会员,MLPerf™ Storage基准测试建立之初就以架构中立、公平性和可重复性为宗旨,从测试的设计端尽量确保客观、公正地反映存储系统在AI场景中的的性能。

再仔细分析MLPerf™ Storage基准测试,其数据格式、测试套件框架、测试逻辑和流程均高度适配真实AI场景,任何存储厂商均能在相同的、公正的平台上测试自身软、硬件的产品性能,从而快速评估自身产品的能力。

例如,MLPerf™ Storage基准测试为保证测试公正性,通过运行一个分布式训练测试程序,模拟GPU计算过程,最大程度还原AI服务器对存储系统的访问,在满足计算资源利用率和IO时间相同的条件下,比较存储在同样时间里加载和处理数据的利用率,以此来测试存储系统能够支撑的最大GPU数量和性能表现。

“像3D-UNet测试不允许提前在主机上缓存数据,数据需要从存储节点读取,能够更加全面、科学体现存储系统在大规模AI集群中的性能表现。”浪潮信息分布式存储方案架构师Lance Sun介绍道。

事实上,全球有十三家重量级存储厂商参与本次评测,以浪潮信息为代表的三家中国存储厂商表现优异。其中,浪潮信息更是主动选择封闭赛道,严格遵循既定配置和代码规范,其分布式存储平台AS13000G7在3D-UNet和CosmoFlow两个模型共计8项测试中斩获5项最佳成绩,展现出极强的产品竞争力。

中国速度领跑

为什么中国存储厂商能在MLPerf™ Storage性能基准测试中领跑?

事实上,这更像是中国存储产业不断积累和持续成长的必然结果。十年前的SPC测试开始,中国存储产品逐渐登陆SPC性能榜单之中,那时候中国存储厂商渴望在国际权威舞台中证明自己,后来甚至屡次上演霸榜的好戏,“不服?跑个分!”成为中国存储厂商的常规操作。

随着AI大模型的兴起,AI场景的大量涌现,对于存储系统的性能、多协议、可靠性、数据管理等带来深远影响。与SPC那套成熟的测试机制相比,以MLPerf™ Storage为代表的聚焦AI场景的存储基准测试刚刚起步,尚处于高速发展的阶段。此时,中国存储厂从早期就积极参与其中,更像产业新标准、新规则制定的参与者,是趋势理解、技术能力、场景洞察等能力的综合体现。

例如,在本次MLPerf™ Storage基准评测中,浪潮信息率先在Cosmoflow场景中发现问题,即哪怕将数据集放在内存之中,GPU的利用率依然达不到90%。因此,浪潮信息第一时间与MLCommons进行沟通,反馈测试套件、平台标准的缺陷,并与英伟达等公司一起讨论、论证,最终制定出Cosmoflow场景GPU70%利用率的标准。

另外,像浪潮信息能够在3D-UNet和CosmoFlow两个模型共计8项测试中斩获5项最佳,离不开其较早涉足大模型训练、推理等场景的深度实践,对于AI场景中软硬协同有着深刻理解,并且从整体架构到软硬件各个技术栈进行多个层面的针对性创新,从而在MLPerf™ Storage基准评测中实现领跑。

例如,在架构层面,浪潮信息采用自研分布式软件栈,通过全新数控分离架构,数据面和控制面完全解耦,实现120 GB/s的单存储节点超高性能,单存储节点支撑5台8卡计算节点规模,同时计算集群GPU利用率90%以上;在软件层面,浪潮信息通过多路并发透传技术,有效减少I/O操作中频繁的上下文切换,降低单次I/O时延50%,并确保高并发下的时延稳定性;在软硬协同层面,浪潮信息通过内核亲和力调度,I/O请求动态调整,增强文件系统与计算节点亲和性,确保负载均衡,将数据移动与多核CPU之间的访问效率提升400%。

刘希猛介绍,针对AI场景的实践,浪潮信息的存储产品有两个核心策略:其一是以客户需求为导向,从实际AI场景应用出发来打造定制化的存储产品;其二,通过成熟的AI场景解决方案能力来精准平衡客户需求、资源分配与成本控制,为AI场景构建坚实的数据支撑平台。

MLperf后续:存算协同将深入人心

毫无疑问,AI大模型彻底改变了基础设施的规模与复杂性。

如今,随着AI大模型加速走向各大垂直行业,千卡、万卡集群也在不断涌现,并且多元算力也加速成为主流配置。可以说,在算力侧的巨大变化,无疑会进一步全面提高对存储侧在性能、可靠性、容量、功耗和管理的要求。

因此,存算协同在未来必然会获得更多用户的关注。MLPerf™ Storage基准性能测试无疑开了个好头,真正从基准测试的维度来衡量存算协同能力,也值得厂商、用户等更多关注。

在Lance Sun看来,MLPerf™ Storage基准性能测试刚刚开展两年,但在产业界已产生了重要影响,值得持续关注和参与。首先,未来一定会有包括更多中国厂商参与到MLPerf™ Storage基准性能测试中来;其次,未来像向量数据库、能耗等一些新的规则有望引入,测试标准和规范会得到持续迭代、完善,让基准性能测试更加科学准确。

综合观察,在数实融合和发展新质生产力的驱动下,千行百业加速拥抱人工智能已是大势所趋。随着AI大模型技术自身的快速发展,对于算力、存力等基础设施带来巨大变革。如何最大化发挥基础设施的价值,让存算协同的重要性迅速提升,也驱动着中国存储产业加速成长与持续创新。MLPerf™ Storage基准性能测试拉开AI存储赛道比拼的新序幕,以浪潮信息为代表的中国存储厂商有望在这条赛道中跑出中国速度、引领存储新变革。

分享到: 更多

为您推荐

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注