亚马逊AWS近日宣布,其内部团队研发的AI训练芯片Trainium2已正式进入广泛应用阶段,并随之推出了搭载该芯片的Trn2实例。AWS还揭晓了Trn2 UltraServer大型AI训练系统,以及更为先进的3nm制程Trainium3芯片。
Trainium2芯片作为AWS的新星,每个Trn2实例内置了16颗这样的芯片。通过超高速、高带宽、低延迟的NeuronLink互联技术,Trn2实例能够提供高达20.8 petaflops的峰值算力,这对于训练和处理数以亿计参数的模型来说,无疑是一个强大的助力。
AWS声称,与当前基于GPU的EC2 P5e和P5en实例相比,Trn2实例在性价比上提升了30-40%,为用户带来了更为经济的AI训练解决方案。
而Trn2 UltraServer则进一步扩大了算力的边界。通过NeuronLink技术,4台Trn2服务器被巧妙地聚合在一起,形成了包含64颗Trainium2芯片的超级系统,其算力峰值可达83.2 petaflops。这一强大的算力,足以满足当前全球最大规模模型的训练和部署需求。
不仅如此,AWS还展示了Trn2 UltraServer的实体机架,其规模之大、算力之强,令人叹为观止。
AWS还与投资的AI模型企业Anthropic携手,共同打造名为Project Rainier的EC2 UltraCluster巨型计算集群。这个集群将包含大量的Trn2 UltraServer,总计拥有数十万颗Trainium2芯片,其算力之强,有望成为全球公开的最大AI计算集群。
据透露,这个巨型计算集群的算力,将是Anthropic目前用于训练最先进Claude模型所需算力的5倍以上,这无疑将极大地推动AI技术的发展。
AWS还透露了其下一代AI训练芯片Trainium3的信息。作为AWS首款采用3nm制程的芯片产品,Trainium3的性能将远超现有的Trainium2。基于Trainium3的UltraServer性能预计可达Trn2 UltraServer的4倍,而首批基于Trainium3的实例也将在2025年底正式推出。