阿里发布首个原生语言世界模型Qwen-AgentWorld，开启智能体环境模拟新篇章-业界动态-ITBear科技资讯

阿里近日在人工智能领域取得重要进展，正式推出首个原生语言世界模型（LWM）Qwen-AgentWorld。该模型专为AI智能体研发设计，提供35B-A3B与397B-A17B两种参数规模版本，旨在通过内部环境模拟增强智能体的决策能力，而非替代真实交互场景。

与传统训练方式不同，Qwen-AgentWorld在预训练阶段即引入环境建模目标，贯穿CPT→SFT→RL全流程。此前通用模型通常在训练后期才加入环境理解模块，而新模型通过早期整合实现更高效的能力迁移。其核心突破在于单模型覆盖文本类（MCP、Search、Terminal、SWE）与GUI类（Web、OS、Android）共七大交互环境，支持跨领域知识共享。例如在模拟手机系统时，模型能准确预测点击删除图标后的界面变化；在电脑系统模拟中，可完整呈现从菜单栏选择"文件-打印"的操作路径。

研究团队同步发布配套评测基准AgentWorldBench，该基准基于5个前沿模型在9个成熟评测集上的真实交互数据构建，采用开放式评分体系从格式、事实性、一致性等五个维度评估模型表现。测试结果显示，397B-A17B版本以58.71分的综合得分超越GPT-5.4（58.25分）、Claude Opus 4.8及Gemini 3.1 Pro，在代码执行（Terminal）和工具调用（SWE）领域优势尤为显著。35B-A3B版本通过三阶段训练流水线提升8.66分，性能超越Claude Sonnet 4.6。

深入分析129条文本类交互数据后，研究人员发现模型涌现出三种独特推理模式：在自我修正方面，模型通过"Wait!"信号触发中止，平均每轮交互修正10.4次错误；信息防护机制可防止搜索场景中的答案泄露，当查询与预设答案无关时自动屏蔽敏感信息；多步因果推理能力体现在复杂命令模拟中，如预测"curl -s localhost:3000 | python3 -m json.tool"需构建包含服务器状态、端口监听等6个环节的推理链。

该模型已通过GitHub、ModelScope和Hugging Face平台开源，包含模型权重与评估基准。研究团队强调，语言世界建模并非要取代真实环境交互，而是通过可控性、可扩展性及内化预测能力，为智能体训练提供互补路径。这种技术路线有望突破现有智能体在复杂场景中的能力边界，为构建更强大的通用AI系统奠定基础。

十亿赌约成品牌枷锁？雷军反思：流量狂欢难掩科技企业长远布局之困

反观格力长期绑定家电制造标签，赌局强化国民家电龙头认知，赛道聚焦统一；而小米多元生态布局被单一营收赌局束缚，舆论长期拿家电营收评判企业实力，忽视芯片、汽车等高研发投入业务的长期价值。小米后续持续深耕自研芯片…

2026-06-25