ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

阿里云存储年度大升级:AI智算时代的高效存储新选择!

时间:2025-02-20 17:34:08来源:ITBEAR编辑:快讯团队

在近期举办的“回顾·向新:AI浪潮下的数据存储进化”年度盛会中,阿里云深度剖析了过去一年在AI存储领域的突破性进展,并详细阐述了其在AI应用及高可用底层架构方面的双轨战略。会上,阿里云推出的CPFS智算版存储方案,专为模型训练场景量身打造,实现了全链路性能的大幅跃升,提供了高达20TB级别的吞吐量和3亿IOPS的最大性能,成为AI时代下大模型训练任务的首选高性价比存储解决方案。

CPFS存储方案再度突破读写性能极限,为大模型训练按下加速键。面对大型模型训练中海量计算资源的挑战,尤其是当计算需求达到10万GPU级别时,存储系统的性能和稳定性显得尤为重要。CPFS作为阿里云的高性能文件存储解决方案,凭借20TB级别的吞吐量和3亿IOPS的极限性能,显著提升了GPU环境下的训练效率。

CPFS还借助400Gb/s网卡及RDMA通信技术,实现了单客户端吞吐量的飞跃,达到25GB/s,从而支持更大规模、更频繁的Checkpoint读写操作。同时,CPFS提供了burst I/O稳定有效吞吐和低延时,单机具备15GB/s的可线性扩展分布式读缓存能力,并支持100GB/s高带宽与OSS的数据流动,全链路性能的提升为LLM训练带来了显著的速度加成。

CPFS存储能力全面升级,为企业加速AI发展注入强劲动力。阿里云对象存储OSS同样在AI领域实现了多项能力更新,目前已有超过2万个数据湖基于OSS构建,其中AI数据湖占据多数。本年度,OSS推出了OSS Connector for AI/ML,相较于传统挂载方式,在加载25.6万张图片数据时性能提升了14倍。

OSSFS 1.91.3版本针对推理模型文件的加载进行了优化,9.3GB大文件的加载速度提升3.6倍,10万个文件的list性能提升6倍。在服务端,OSS新增了资源池QoS能力,支持多个Bucket共享池化性能,并可针对单个Bucket和请求者RAM账号进行QoS设置,有效实现了资源利用率的提升。同时,OSS加速器产品能力也得到了优化,起步容量降低了99%,吞吐密度提升了50%,最大性能提升至100GBps,实现了2.5倍的性能提升。

在安全性方面,CPFS持续强化稳定安全和数据保护能力,通过Cloud Backup进行备份,有效应对单AZ故障、数据误删及勒索病毒等风险。新增的日志审计功能确保了安全访问的可追溯性,提供的目录级配额简化了数据管理,实现了安全挂载和IO鉴权,确保端到端的数据隔离。通过Access Point,数据访问权限管理变得更加便捷。

为了满足企业云上资源的多样化数据管理需求,阿里云存储还提供了一系列数据灾备方案,包括企业灾备管理服务数据灾备中心BDRC、SAAS化灾备服务云备份以及丰富的IAAS层数据灾备能力,全面助力企业搭建和管理高可用架构。

在AI时代,阿里云的存储解决方案正助力各行各业加速智能化进程。在基础大模型领域,CPFS为月暗提供了数Tbps级别的吞吐量和毫秒级的读写延时,满足了模型checkpoint、多模态数据集和训练日志等场景下对极致性能的需求,显著提升了模型的训练效率。在小鹏汽车的智算模型训练场景中,结合“扶摇”智算集群的优化,存储产品使得自动驾驶模型训练效率提升了170倍,存储吞吐效率提升了40倍,极大地加速了技术研发进程。对于拥有3.2亿月活跃用户的小红书而言,阿里云OSS提供了超过20Tbps的吞吐能力,保障了海量用户生成内容的处理速度,并通过多存储类型组合方案实现了成本与性能的最佳平衡。

更多热门内容