ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

华为云Tokens服务全面接入384超节点 以“大杂烩”优势打造先进算力

时间:2025-08-28 09:16:56来源:互联网编辑:茹茹

2025年8月27日,在第四届828 B2B企业节开幕式上,华为云宣布其Tokens服务全面接入CloudMatrix384超节点,通过xDeepServe架构创新,单芯片最高可实现2400TPS、50msTPOT的超高吞吐、低时延的性能,超过业界水平。

发挥大杂烩优势,系统能力打造先进算力

过去18个月,中国AI算力需求呈现指数级增长。数据显示,2024年初中国日均Token的消耗量为1000亿,截至今年6月底,日均Token消耗量已突破30万亿,1年半的时间增长了300多倍,反映了我国人工智能应用规模快速增长,也对算力基础设施的需求提出了更大的挑战。

在以往按卡时计费的基础上,今年3月,华为云正式推出了基于MaaS的Tokens服务。针对不同应用、不同场景的性能和时延要求,还提供了在线版、进线版、离线版乃至尊享版等多种服务规格,为大模型、Agent智能体等AI工具提供了更为灵活、便捷、低成本的先进算力。

而这一次,华为云的Tokens服务正式接入CloudMatrix384,并通过384原生的xDeepServe框架再次实现了吞吐量的突破,从年初的1920TPS提升至2400TPS,TPOT仅为50ms。

图片1.jpg

大算力的构建不是单点突破,而是一个从硬件到软件、从算子到存储、从推理框架到超节点的全栈创新,充分依托了华为的“大杂烩”能力。

首先,CloudMatrix384 超节点以全新的计算架构创新,突破性能瓶颈,构筑稳固澎湃的算力根基; CANN昇腾硬件使能,优化算子与高效通信策略,让云端的算力能够以最高效的方式被调用和组合;EMS弹性内存存储打破AI内存墙,突破性地实现“以存强算”, 彻底释放了每一颗芯片的算力;xDeepServe 分布式推理框架则以极致分离架构Transfomerless让超节点释放出更高效算力。

“拆掉”Transformer,xDeepServe全面激发算力潜能

作为CloudMatrix384 超节点的原生服务,xDeepServe以Transformerless 的极致分离架构,把MoE大模型拆成可独立伸缩的 Attention、FFN、Expert三个微模块,相当于在一台CloudMatrix384上把“大模型”拆成“积木”,并分派到不同的NPU上同步处理任务。之后,再用基于内存语义的微秒级XCCL通信库与FlowServe 自研推理引擎把它们重新拼成一个超高吞吐的LLM服务平台,即Tokens的“超高速流水线”。通过xDeepServe不断调优,最终实现了从非超节点单卡吞吐600tokens/s至超节点单卡吞吐2400tokens/s的提升。

作为硬件加速计算的中间层,CANN包含多个算子库和和XCCL这种高性能通信库等组件,共同支撑AI模型的高效运行。其中,XCCL作为专为超节点上的大语言模型(LLM)服务而量身打造的高性能通信库,能够充分发挥CloudMatrix384扩展后的UB互联架构(UB fabric)的全部潜力,为 Transformerless的全面分离奠定了带宽与时延双重硬底座。

而作为被重构的“去中心”式分布式引擎,FlowServe把CloudMatrix384 切成完全自治的 DP 小组,每个小组自带 Tokenizer、执行器、RTC 缓存与网络栈,完全自给自足,做到千卡并发也不“拥堵”。

目前,xDeepServe已实现MA分离,而下一步,将把Attention、MoE、Decode全部改成自由流动的数据流,并把同样的拼图方法复制到多台超节点,让推理吞吐像铺轨一样线性延伸,最终或将视线吞吐量的更大突破,让每块 NPU 都高效运作,芯片永不排队,推理永不塞车。

聚焦主流大模型,不断提升模型性能

目前,华为云MaaS服务已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify、扣子等主流Agent平台。

华为云积累了大量模型性能优化、效果调优的技术和能力,从而实现“源于开源,高于开源”,让更多大模型可以在昇腾云上跑得更快更好。以文生图大模型来说,在轻微损失画质的情况下,通过Int8量化、旋转位置编码融合算子等方式,在在华为云MaaS平台实现了2倍于业界主流平台的出图速度,最大尺寸支持2K×2K。而在文生视频大模型上,不仅通过量化方式来提速,还通过通算并行等方式,降低延迟与显存占用,大幅提升视频生成速度,相较于友商实现了3.5倍的性能提升。华为云Tokens服务在性能、模型适配、效果调优方面的基础,也让更多企业能够快速开发和构建AI Agent。

而在应用层,华为云已与超过100家伙伴携手深入行业场景,共建丰富的Agent,在调研分析、内容创作、智慧办公、智能运维等领域解决产业难题,让企业更便捷地拥抱AI创新,加速智能化。

如基于MaaS平台推出的今日人才数智员工解决方案,集成了先进的自然语言处理、机器学习和深度学习技术,能实现与用户的智能交互和任务处理,显著提升服务效率与客户满意度;而北京方寸无忧科技开发的无忧智慧公文解决方案可以提升公文处理效能,实现政企办公智能化转型。

以Token为动力的智能社会已经到来,而华为云将以系统级创新能力和全新的Tokens服务构筑先进算力,助力各行各业加速落地AI。

更多热门内容
小菜园用“笨功夫”开出近700家直营店
诞生于消费升级的时代,小菜园却以“高性价比”面世。当一系列消费升级的品牌被“迎头痛击”后,小菜园却迎来了属于自己的“红利时代”。短短12年的时间,开出近700家直营门店,在今年上半年小菜园的营收净利也大增。在餐饮竞争严重内卷之际,小菜园是怎么做到逆势增长

2025-08-28

首都信息红顺公积金方案入选工信部名单
近日,首都信息“基于云计算住房公积金业务管理解决方案”荣获由工业和信息化部网络安全发展中心(工业和信息化部信息中心)、信息中心技术创新应用协作组颁发的“2024年信息技术应用创新解决方案”。2024年信息技术应用创新解决方案征集,由工信部网络安全产业发展中心

2025-08-27

开学季装机,Ultra 5 230F搭配技嘉B860M电竞雕打造高性价比学习娱乐平台
随着9月开学季来临,为应对大学装机的需求大增,尤其是针对预算有限但追求性能平衡的学生群体,英特尔专为中国市场打造的酷睿Ultra 5 230F处理器,搭配技嘉B860M AORUS PRO WIFI 7电竞雕主板的组合,以低功耗、强扩展性和亲民价格成为理想之选。Ultra 5 230F处理器:低

2025-08-27

红顺干部人事管理数智平台 提升组织工作效能的“中枢系统”
新时期组织工作注重运用互联网技术、数字技术和信息化方式来提高工作效能。首都信息自主研发的红顺干部人事管理数智平台,主要面向各级机关和企事业单位的组织人事部门,以中组部干部和公务员信息库数据标准为基础,结合丰富行业经验,依托标准化数据底座、自动化业务流

2025-08-27

中国银联发布最新AI成果,解决AI“落地难”
在金融科技浪潮下,AI技术已成为金融机构转型的核心驱动力,智能客服、信贷审批、风险管理等场景的AI应用遍地开花。但现实是,开源大模型在实际应用中暴露出准确性不足、推理效率低下、业务适配性差等问题,多数金融机构陷入 “投入高、见效慢” 的AI落地困境,如何让AI

2025-08-27

向凌云教授系列研究成果为国务院“人工智能+”行动提供坚实支撑
今日(2025年8月26日),国务院正式印发《国务院关于深入实施“人工智能+”行动的意见》(国发〔2025〕11号),标志着我国人工智能政策迈入系统深化阶段。该文件倡导构建“人机协同、跨界融合、共创分享的智能经济和智能社会新形态”,强调推动  AI 与经济社会各领域广泛

2025-08-27

什么手机最好用?荣耀Magic V Flip2给出完美答案
很多人在换机时都会问,“什么手机最好用”?所谓“好用”,不仅仅是外观漂亮,更要在日常体验、性能、影像和智慧功能上全面领先。特别是对于女性用户和想要送女朋友的消费者而言,一款既时尚又实用的手机,才是真正的优质之选。什么手机最好用?高定外观带来精致体验衡

2025-08-27

九号“安全出行守护行动”深入新乡 警企联办百场公益活动共筑安全防线
夏日炎炎,电动车成为新乡市民出行的重要选择,但非法改装、头盔未系紧、电池充电隐患等问题,也让出行安全存在风险。8月,九号公司携手新乡市交警四大队,在悦时代广场举办了“夏日护航·安全‘九’伴”安全科普公益活动。据了解这是九号公司联动河南交警百场安全公益

2025-08-27

汪喵灵灵创始人亚宠展发声:AI技术破局小宠医疗资源困境
2025年亚洲宠物展览会“亚洲小宠生态论坛”近日成功举办,宠物AI医疗大模型汪喵灵灵创始人Luke受邀出席,并就小宠行业需求、服务壁垒与生态创新等议题发表前沿见解。此次论坛聚焦小宠与异宠服务的现状与未来,汪喵灵灵系统阐述了其宠物AI健康大模型在弥补行业资源缺口、

2025-08-27

利亚德NP公司与俄勒冈州立大学达成长期战略合作,共拓科技新境
近日,利亚德全资子公司NaturalPoint(简称NP公司,因拥有自主研发的OptiTrack系统而知名)与俄勒冈州立大学(R1级别研究型大学,是卡内基高等教育机构分类法赋予研究活动水平最高院校的分类)工程研究院建立长期合作关系,双方将通过产学研协同创新模式,结合最前沿的科技

2025-08-27