ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

阿里开源首个原生语言世界模型Qwen-AgentWorld,为AI智能体训练开辟新路径

时间:2026-06-24 23:08:45来源:快讯编辑:快讯

阿里最新推出的原生语言世界模型Qwen-AgentWorld,为AI智能体研发领域带来突破性进展。这款具备35B-A3B与397B-A17B双参数规模的模型,首次实现了在单一架构中同时覆盖文本类与GUI类七大交互环境,包括MCP、Search、Terminal、SWE等文本环境,以及Web、OS、Android三类图形界面环境。

与传统训练方式不同,该模型创新性地将环境建模贯穿于CPT→SFT→RL的全训练流程。研究团队通过分析超千万条真实交互轨迹发现,这种训练范式使模型能够直接在预训练阶段理解环境动态,而非依赖后期专项训练。在GUI环境处理上,模型采用可渲染代码(如无障碍树XML、HTML)替代像素级处理,通过纯文本建模实现视觉环境模拟,这种技术路径既降低了计算复杂度,又保持了跨领域迁移能力。

在性能评估方面,配套发布的AgentWorldBench评测基准显示,397B-A17B版本在整体模拟质量上超越GPT-5.4、Claude Opus 4.8等前沿模型,特别是在Terminal和SWE领域的代码执行状态模拟中表现突出。35B-A3B版本通过三阶段训练流水线,整体得分提升8.66分,成功超越Claude Sonnet 4.6。该基准采用开放式评分体系,从格式规范、事实准确性、逻辑一致性等五个维度进行综合评估。

模型在复杂推理任务中展现出独特优势。研究团队通过分析129条思维链发现三种典型推理模式:在自我修正方面,模型平均每轮产生10.4次"Wait!"触发的纠错行为;搜索任务中通过摘要控制防止信息泄露;在预测curl命令输出时,模型构建了包含服务器状态、端口监听、管道传输等6个步骤的完整因果链。这些能力使模型在处理需要长上下文记忆和领域知识的任务时表现尤为出色。

技术实现层面,该模型通过解耦环境模拟器与智能体训练过程,在保持真实环境交互可靠性的同时,提供了超越物理限制的可扩展性。在OS环境模拟测试中,模型准确预测了从菜单栏启动打印任务的完整操作路径;网站交互测试中,成功模拟了"添加用户"按钮的点击反馈。这些案例验证了模型在跨领域知识迁移方面的有效性,为构建通用智能体奠定了技术基础。

目前,Qwen-AgentWorld-35B-A3B模型权重及AgentWorldBench评测基准已通过GitHub、ModelScope和Hugging Face平台开源。这种开放策略不仅降低了智能体研发门槛,更通过提供标准化评估工具,推动了整个领域的技术进步。研究团队强调,语言世界建模不是要取代真实环境交互,而是通过提供可控的模拟环境,帮助智能体突破物理世界的训练限制。

更多热门内容
字节发力AI编程:直面挑战短板,构建工程化治理新体系
洪定坤称,字节跳动内部AI代码贡献率比过去一年翻了6倍。但他不认为当前字节的AIcoding已经做得足够好了,相反,他提出了多个目前实践中发现的问题:AI 生成代码的速度是人类的10倍以上,但团队的实际效能…

2026-06-24

网络安全迎AI新挑战,周鸿祎携“倚天屠龙”及“磐石之盾”守护中国网安
周鸿祎认为,Mythos之所以引发震动,根本原因在于它能自主发现漏洞、分析漏洞甚至构造网络攻击“武器”,相当于AI时代的“网络核武器”,已经形成新的战略威慑。但Mythos的到来让攻防态势变成了敌快我慢、敌…

2026-06-24

周鸿祎ISC大会发声:AI时代网络安全迎变局,中国需筑牢自主防线
周鸿祎认为,Mythos之所以引发震动,根本原因在于它能自主发现漏洞、分析漏洞甚至构造网络攻击“武器”,相当于AI时代的“网络核武器”,已经形成新的战略威慑。但Mythos的到来让攻防态势变成了敌快我慢、敌…

2026-06-24

AI基建之争:马斯克押注太空未来,孙正义深耕地面当下
按照这一思路,未来的数据中心不再受地面土地、电力和冷却条件限制,而是借助轨道太阳能和星间激光链路,构建新的计算网络。随着发射成本下降、在轨维护能力提升以及卫星通信网络成熟,轨道算力可能先在离线训练、太空任务等…

2026-06-24

网易有道Confucius4-TTS开源上线,14语种无口音克隆引领语音合成新潮流
近日,该引擎凭借全球首个不依赖参考文本即可实现14语种无口音跨语种语音克隆的开创性突破引发行业高度关注,为数字人、跨境传播、智能教育等产业提供国产化、低成本语音克隆功能。技术博主@dsd2077在实测使用日语…

2026-06-24

华为云获权威认证,政企AI云服务规范化,IDC及算力基础设施迎发展机遇
华为云通过信通院认证标志着AI云服务从“可用”走向“可信”,三条逻辑线支撑板块关注:政企AI云服务市场加速规范化,IDC和算力基础设施受益于行业景气度提升,中立云和CDN服务商在AI推理时代获得差异化发展机…

2026-06-24

合合信息携手亚马逊云科技:多模态文档智能体助力合同审批全流程自动化
大会期间,合合信息TextIn旗下产品INTSIG DocFlow与亚马逊云科技联合发布了跨部门自适应联动的多模态文档智能体(以下简称“智能体”),该智能体可自动完成文档解析、关键信息提取、规则审核与审批联动…

2026-06-24

周鸿祎:AI重构安全行业底层逻辑,传统安全与智能体融合新探索
换言之,未来的安全行业将面临一场底层逻辑的重构,周鸿祎表示,三六零的传统安全业务已全部用AI进行赋能,核心聚焦于两大自动化能力:漏洞挖掘与网络防御。能否给智能体套上安全可控的“缰绳”,决定了企业乃至行业在A…

2026-06-24

amazfit Balance 3与Ultra登场:以智慧训练生态,引领科学运动新潮流
这些功能不仅为 HYROX 运动员提供专业支持,同时也进一步强化了 amazfit的混合训练系统理念——将力量、耐力、恢复与系统化训练有机融合。 amazfit 是比你更了解自己的忠实守护者,它将恢复纳入训…

2026-06-24

苹果首款折叠屏iPhone或7月量产9月发布,铰链问题已解,发布节奏生变
供应链消息称,苹果已经敲定折叠屏 iPhone 的显示屏、外壳和结构件等主要规格,产品也已进入量产准备阶段。 折叠屏 iPhone将采用三星显示供应的折叠式 OLED 面板,并配备铰链模组、盖板玻璃和结构…

2026-06-24