ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

Meta FAIR推出首个代码世界模型CWM:模拟执行、自我调试,代码能力再进阶

时间:2025-09-25 10:01:37来源:互联网编辑:快讯

meta FAIR实验室近日宣布推出全球首个系统性引入世界模型概念的代码生成语言模型——CWM(Code World Model)。这款参数量达320亿、支持131k tokens长上下文的密集语言模型,在代码生成与推理领域实现了关键突破,标志着代码大模型从静态文本预测向动态执行理解的范式转变。

与传统代码生成模型不同,CWM首次将"代码世界建模"理念融入训练框架。通过追踪代码执行过程中变量状态的动态演变,该模型能够模拟程序运行轨迹,理解函数调用的副作用,甚至预测潜在执行错误。研究团队形象地将其类比为"神经调试器",可在标记空间中实时追踪程序状态变化,如同为代码运行配备可视化调试工具。

在核心能力构建上,CWM实现了三大技术升级:其一,动态执行模拟能力可逐行解析代码对程序状态的影响,支持循环展开、边界条件测试等复杂场景;其二,自我修复机制能自动生成测试用例,通过多路径尝试修复代码缺陷,形成"编写-测试-修正"的完整闭环;其三,推理规划模块可针对复杂问题拆解步骤、规划函数结构,并通过执行预测验证解决方案,展现出多轮逻辑推导能力。

基准测试数据显示,CWM在多个权威评测中表现优异:SWE-bench Verified得分65.8%,超越所有同规模开源模型,接近GPT-4水平;LiveCodeBench v5编程任务准确率达68.6%;数学推理方面,AIME 2024模拟题得分76.0%,Math-500测试达96.6%;终端操作任务Terminal-Bench得分26.3%,优于Gemini 2.5 Pro。这些成绩验证了动态执行建模对提升代码生成可靠性的显著价值。

技术架构上,模型采用64层decoder-only Transformer结构,局部与全局注意力机制交替设计,在保持长上下文处理能力的同时优化计算效率。训练过程运用FlashAttention-3加速、FSDP+TP并行策略及fp8低精度计算,严格遵循前沿AI安全框架,确保模型不会对高敏感领域构成风险。

研究团队同步开源了预训练模型、监督微调版本及完整训练权重,提供三个检查点供学术界使用。但特别指出,该模型专为代码理解与复杂推理研究设计,未进行RLHF对齐优化,因此不适合对话场景或商业应用,仅面向非商业研究用途。

针对外界关于"语言模型路线"的质疑,meta首席AI科学家LeCun回应称,CWM的创新聚焦于编程领域的动态执行理解,与通用人工智能发展路径形成互补。研究核心贡献者Gabriel Synnaeve强调,团队通过跨学科协作验证了世界建模对提升代码生成可靠性的有效性,这项突破为构建自动化编程助手奠定了技术基础。

当前版本的世界建模数据主要覆盖Python语言,研究团队正探索多语言扩展方案。通过开源模型代码与训练细节,meta期望推动代码生成领域向可解释、可调试、可规划的方向发展,同时引发学术界对"模型世界理解能力边界"的深入探讨。

更多热门内容
研华携手国讯芯微推出Thor平台控制器,推动机器人智能化新突破
此次合作不仅是硬件与软件层面的深度协同,更标志着工业控制领域向“感知—决策—执行”一体化自主智能迈出了坚实一步: 赋能产业升级,解锁应用新场景:双方合作的产品将极大推动AI从“云端”走向“边缘”,深入复杂现…

2025-09-25

钉钉CTO朱鸿:AI时代人辅助AI,钉钉助力企业打造专属模型开启共生新篇
面向千行百业,钉钉希望能够成为行业模型和企业智能体工厂,让每一家企业都能低成本、高效率地构建和应用自己的专属大模型。 “我们首创了‘AI按效果付费’模式——先用后付,效果说话,让企业敢用、能用、用得起AI,也…

2025-09-25

​9月24日阿里巴巴重大发布:与英伟达合作、推新品,吴泳铭畅谈AI未来​
据了解,Qwen3-Coder是通义千问的AI编程大模型,拥有多个尺寸,编程能力登顶全球开源模型阵营。此次发布的Qwen3-Max作为压轴出场的模型,大幅提升了编码和智能体能力,在多项权威基准测试中稳居全球顶…

2025-09-25

阿里巴巴9月24日动作频出:宣布合作、推新品,吴泳铭畅谈AI未来愿景
据了解,Qwen3-Coder是通义千问的AI编程大模型,拥有多个尺寸,编程能力登顶全球开源模型阵营。此次发布的Qwen3-Max作为压轴出场的模型,大幅提升了编码和智能体能力,在多项权威基准测试中稳居全球顶…

2025-09-25