ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

阿里开源首个原生语言世界模型Qwen-AgentWorld,赋能智能体跨领域交互新突破

时间:2026-06-24 23:52:45来源:快讯编辑:快讯

阿里近日宣布推出全新原生语言世界模型Qwen-AgentWorld,这是首个专为AI智能体研发设计的语言世界模型,提供35B-A3B和397B-A17B两种参数规模版本。与传统模型不同,Qwen-AgentWorld的核心目标并非降低训练成本或替代真实交互环境,而是通过内部环境模拟增强通用智能体的决策能力,使其在执行动作前能够预判环境反馈。

该模型的创新性体现在训练流程设计上。研究团队从预训练阶段就将环境建模纳入核心目标,贯穿CPT(持续预训练)、SFT(监督微调)和RL(强化学习)全流程。此前通用大模型通常在完成基础训练后,才通过后训练阶段补充环境理解能力,而Qwen-AgentWorld通过端到端训练,使模型天然具备环境感知与预测能力。更引人注目的是,单一模型即可同时支持文本类(MCP、Search、Terminal、SWE)和GUI类(Web、OS、Android)共7类交互环境,实现跨领域知识迁移。例如在模拟手机系统时,模型能准确预测点击删除图标后的界面变化;在电脑系统模拟中,可完整呈现从菜单栏选择"文件-打印"的操作路径。

为系统评估模型性能,研究团队同步推出AgentWorldBench评测基准。该基准基于5个前沿模型在9个成熟评测集的真实交互数据构建,采用开放式评分标准,从格式规范、事实准确性、逻辑一致性、环境真实性和输出质量五个维度综合评估。测试结果显示,397B-A17B版本以58.71分的综合得分超越GPT-5.4(58.25分)、Claude Opus 4.8和Gemini 3.1 Pro等主流模型,尤其在Terminal代码执行和SWE工具调用场景中表现突出。35B-A3B版本通过三阶段训练流水线优化后,得分提升8.66分,超越Claude Sonnet 4.6,且在文本和GUI两类场景中均保持优势。

在深度分析129条思维链数据时,研究人员发现模型涌现出三种独特推理模式。其一是自我修正机制,模型通过"Wait!"信号触发中断,主动修正事实错误或视角偏差,在测试中平均每轮出现10.4次自我纠错。其二是信息泄露防护,在搜索场景中,模型能识别查询与答案的无关性,避免泄露目标信息。其三是多步因果推理,例如预测"curl -s localhost:3000 | python3 -m json.tool"命令时,模型能分解出服务器未启动、端口无监听、curl失败等6个中间步骤。这些能力使模型在处理复杂任务时展现出接近人类的问题拆解能力。

目前,阿里已开源35B-A3B模型权重和AgentWorldBench评测基准,开发者可通过GitHub、ModelScope和Hugging Face平台获取资源。这项研究突破了传统智能体训练对真实环境的依赖,通过语言建模构建可控的虚拟交互空间,为通用智能体发展开辟了新路径。特别是在跨领域任务处理中,模型展现出的知识迁移能力,预示着未来AI智能体将具备更强的环境适应性和任务泛化能力。

更多热门内容
小米YU7 GT创全球首个纽北自动驾驶圈速纪录,高性能配置展现硬核实力
创造纪录的小米YU7 GT配备Track Package套件,其中包括半热熔轮胎、拆除后排座椅、防滚架、赛车座椅等等专属配置。作为了解,此前由车手任周灿驾驶车辆创造的纽北SUV圈速纪录为7分34秒931。辅助…

2026-06-24

顺丰控股携手云南健康管理公司,共拓无人机领域新蓝海
云翼无人机(云南)有限责任公司注册资本1000万人民币 投资时间网、标点财经 天眼查App显示,近日,云翼无人机(云南)有限责任公司成立,法定代表人为赵之光,注册资本1000万人民币,经营范围包括智能无人…

2026-06-24

智元精灵G2轮式人形机器人6天直播,验证3C质检柔性自动化新路径
6月这次直播,机器人实现了质检全工段全覆盖,从单点辅助到全流程自主作业,彻底跨入“部署态”——不再是为验证技术可行性而设计的短期项目,而是真正嵌入生产节拍、承担订单交付压力、接受长周期稳定性考验的常态化生产力…

2026-06-24

周鸿祎:AI重构安全行业,传统安全退场,智能体安全成新战场
换言之,未来的安全行业将面临一场底层逻辑的重构,周鸿祎表示,三六零的传统安全业务已全部用AI进行赋能,核心聚焦于两大自动化能力:漏洞挖掘与网络防御。能否给智能体套上安全可控的“缰绳”,决定了企业乃至行业在A…

2026-06-24

从网友热议到量产又下架:小米YU7深海蓝配色背后的市场博弈与平衡
近日,小米YU7的配色调整引起了广泛关注。这款车型最初因深海蓝配色引发热议,并最终促成官方“复活”该颜色并纳入量产计划,成为汽车行业少见的“用户共创”案例。2024年6月,一位网友在社交平台发布了一张图片并配…

2026-06-24

小米汽车强势入局!SU7与YU7续航实力出圈,重塑新能源市场格局
最新发布的SU7Pro和YU7系列车型的续航数据与实测表现,不仅展示了小米的技术实力,也引发了市场对传统豪华品牌的重新审视。通过OTA升级持续优化电池管理算法,使得车辆性能可以随着技术的迭代不断提升,这种“软…

2026-06-24

雷军谈新能源汽车竞争:小米汽车以“笨功夫”打磨细节,平衡技术需求寻突破
新能源汽车市场竞争激烈雷军指出,企业需同时关注技术与用户需求,以找到最佳契合点。小米汽车的“笨功夫”研发模式小米三年测试170余款车型,展现了对产品品质的执着追求。细节打磨与用户体验强调用户体验是技术沉淀的起…

2026-06-24