ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

阿里发布首个原生语言世界模型Qwen-AgentWorld,开启智能体环境模拟新篇章

时间:2026-06-25 00:54:18来源:快讯编辑:快讯

阿里近日在人工智能领域取得重要进展,正式推出首个原生语言世界模型(LWM)Qwen-AgentWorld。该模型专为AI智能体研发设计,提供35B-A3B与397B-A17B两种参数规模版本,旨在通过内部环境模拟增强智能体的决策能力,而非替代真实交互场景。

与传统训练方式不同,Qwen-AgentWorld在预训练阶段即引入环境建模目标,贯穿CPT→SFT→RL全流程。此前通用模型通常在训练后期才加入环境理解模块,而新模型通过早期整合实现更高效的能力迁移。其核心突破在于单模型覆盖文本类(MCP、Search、Terminal、SWE)与GUI类(Web、OS、Android)共七大交互环境,支持跨领域知识共享。例如在模拟手机系统时,模型能准确预测点击删除图标后的界面变化;在电脑系统模拟中,可完整呈现从菜单栏选择"文件-打印"的操作路径。

研究团队同步发布配套评测基准AgentWorldBench,该基准基于5个前沿模型在9个成熟评测集上的真实交互数据构建,采用开放式评分体系从格式、事实性、一致性等五个维度评估模型表现。测试结果显示,397B-A17B版本以58.71分的综合得分超越GPT-5.4(58.25分)、Claude Opus 4.8及Gemini 3.1 Pro,在代码执行(Terminal)和工具调用(SWE)领域优势尤为显著。35B-A3B版本通过三阶段训练流水线提升8.66分,性能超越Claude Sonnet 4.6。

深入分析129条文本类交互数据后,研究人员发现模型涌现出三种独特推理模式:在自我修正方面,模型通过"Wait!"信号触发中止,平均每轮交互修正10.4次错误;信息防护机制可防止搜索场景中的答案泄露,当查询与预设答案无关时自动屏蔽敏感信息;多步因果推理能力体现在复杂命令模拟中,如预测"curl -s localhost:3000 | python3 -m json.tool"需构建包含服务器状态、端口监听等6个环节的推理链。

该模型已通过GitHub、ModelScope和Hugging Face平台开源,包含模型权重与评估基准。研究团队强调,语言世界建模并非要取代真实环境交互,而是通过可控性、可扩展性及内化预测能力,为智能体训练提供互补路径。这种技术路线有望突破现有智能体在复杂场景中的能力边界,为构建更强大的通用AI系统奠定基础。

更多热门内容
十亿赌约成品牌枷锁?雷军反思:流量狂欢难掩科技企业长远布局之困
反观格力长期绑定家电制造标签,赌局强化国民家电龙头认知,赛道聚焦统一;而小米多元生态布局被单一营收赌局束缚,舆论长期拿家电营收评判企业实力,忽视芯片、汽车等高研发投入业务的长期价值。小米后续持续深耕自研芯片…

2026-06-25

联想算力生态大会:英伟达等巨头齐聚,问天超节点方案引领AI算力新突破
智东西6月24日报道,今天下午,联想集团在自家算力生态大会上正式发布了联想问天超节点解决方案,联想万全异构智算方案升级至5.0大版本,其重点通过集群训推加速、芯模编译优化两个关键技术升级,提升了方案的场景自…

2026-06-25