ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

阿里云Aegaeon系统亮相:token级调度让213块GPU完成1192块工作

时间:2025-10-22 09:15:00来源:快讯编辑:快讯

阿里云与北京大学联合研发的GPU池化系统Aegaeon,在计算机系统领域顶会SOSP上引发行业震动。该系统通过创新性的资源调度技术,成功将英伟达GPU需求量降低82%,这项突破性成果背后,是对云计算资源利用效率的深度重构。

研究团队在阿里云Model Studio平台的运营中发现,17.7%的GPU资源被分配给仅处理1.35%请求的冷门模型,而这类长尾模型在779个统计样本中占比高达94.1%,平均每秒请求量不足0.2次。传统"一对一"的GPU分配模式导致两种极端现象:冷门模型GPU长期闲置,热门模型在突发流量时又因资源预留不足出现过载。

Aegaeon系统突破性地引入token级动态调度机制,在生成每个token时实时判断是否需要切换模型。这种"见缝插针"式的资源分配方式,使单个GPU可同时服务7个不同模型。通过组件复用技术减少80%的初始化开销,显式内存管理消除碎片化问题,配合细粒度KV缓存同步机制,将模型切换时间从数十秒压缩至1秒以内。

在16块H800 GPU组成的测试集群中,系统成功支撑了从60亿到720亿参数规模的模型服务。与ServerlessLLM、MuxServe等现有系统相比,Aegaeon的请求到达率提升2-2.5倍,有效吞吐量实现1.5至9倍增长。更关键的是,这套系统已在阿里云百炼平台完成三个月生产环境验证。

实际部署数据显示,系统服务47个不同规模模型(含28个18亿-70亿参数小模型和19个320亿-720亿参数大模型)期间,GPU利用率从13.3%-33.9%提升至48.1%,且未出现任何服务等级目标(SLO)违规或中断情况。这种资源利用效率的跃升,相当于在相同计算能力下可处理9倍于前的业务量。

更多热门内容
阿里夸克“C计划”推进AI业务布局 全新对话形态或对标字节豆包
报道称,该计划与对话式 AI 应用布局相关,且近日将有首个新成果落地。1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证,并在此声明不承担信息可能产生的任何责任、任何后果。 …

2025-10-22

亚马逊推进自动化进程:预计2033年前或减少超60万美国蓝领岗位
根据周二的最新爆料,亚马逊高管们去年曾向董事会汇报称,尽管预计到2033年产品销量将翻倍,但他们希望通过机器人自动化技术,让公司避免继续增加美国员工的数量。 内部文件显示,亚马逊在什里夫波特部署了上千台机…

2025-10-22

前Oculus团队再出发:Sesame AI智能眼镜或开启对话交互新纪元
这一成果展示了Sesame技术的独特性,其对话层不仅将大型语言模型的输出转换为音频,还能直接生成语音,捕捉真实对话的节奏、情感和表现力。这些在VR和AR领域经验丰富的团队成员,无疑为Sesame在技术和市场拓…

2025-10-22

亚马逊加速自动化布局:2033年前或减少60万美国蓝领岗位
根据周二的最新爆料,亚马逊高管们去年曾向董事会汇报称,尽管预计到2033年产品销量将翻倍,但他们希望通过机器人自动化技术,让公司避免继续增加美国员工的数量。 内部文件显示,亚马逊在什里夫波特部署了上千台机…

2025-10-22

人类智商断层致科研成果搁置?历史镜鉴下看知识传承与发展
当时生命时代才刚刚起步,人们还处在对生物的宏观认知的水平,而孟德尔已经开始研究这种宏观现象背后的微观本质原因(他的研究,基本上就是在基因的层次上了,他提出了遗传因子这种伟大的内容,被认为是基因最早的定义)。…

2025-10-22