ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

智源EMU3.5突破多模态瓶颈,开启AI新纪元与第三种Scaling范式之路

时间:2025-11-01 09:30:39来源:互联网编辑:快讯

人工智能领域迎来重要突破,智源研究院近日正式推出“悟界 EMU3.5”多模态世界大模型。这一成果被视为行业迈向新阶段的关键标志,尤其在大语言模型文本能力发展趋缓、寻求新突破的背景下,多模态技术成为备受瞩目的方向。

多模态技术发展面临的核心难题,是如何有效融合文本、图像、视频等不同类型的数据。目前行业内存在两条主要技术路径:一条是DiT架构,在文生图、文生视频等生成任务中表现优异;另一条是以智源Emu系列为代表的“原生多模态”架构,试图从基础层面构建统一处理所有模态的模型。

EMU3.5的发布被认为开启了人工智能从“语言学习”向“多模态世界学习”转变的新纪元。该模型在技术路径上延续了Emu系列的原生多模态理念,采用统一的自回归架构,将文本、图像、视频等数据统一转化为Token进行预测。这种设计在理论上实现了模态统一,但过去面临推理效率低下的问题——生成图像时需逐个Token输出,速度远慢于并行生成的Diffusion模型。

为解决这一瓶颈,研发团队提出“DiDA(离散扩散自适应)”技术。这项创新允许自回归模型在推理阶段并行预测大规模Token,显著提升生成效率。据测试,在保持性能不变的前提下,图像生成速度提升近20倍,首次使自回归架构达到与顶尖闭源扩散模型相当的水平。这一突破为原生多模态路线的实际应用扫清了关键障碍。

效率问题解决后,规模化发展成为可能。EMU3.5通过大幅增加模型参数和训练数据验证了多模态领域的“规模定律”:参数规模从80亿跃升至340亿,训练视频数据时长从15年增至790年。基于这一实践,研发团队提出“第三种Scaling范式”,其核心优势包括:统一的自回归架构为规模化提供基础;可复用现有语言模型训练基础设施;首次在多模态领域引入大规模强化学习技术。

该模型的技术升级不仅体现在规模扩张,更在于核心范式的转变——从“预测下一个Token”升级为“预测下一个状态”。这一转变要求模型理解事物背后的因果关系和物理规律,而非简单续写数据。例如,当输入“叠衣服”指令时,模型能生成包含完整步骤的机器人操作序列;在图案推理任务中,模型需先理解规律才能生成正确结果;面对建筑正面图转换俯视图的需求,模型需构建三维空间关系模型。

这种“预测状态”的能力为具身智能发展提供了新路径。当前机器人训练面临真实数据匮乏的困境,而EMU3.5可通过模拟物理世界生成高质量训练数据。测试显示,在未见过的新场景中,搭载该模型的机器人任务成功率从0%提升至70%,表明其具备理解、规划和泛化的核心智能,可担任具身智能的“大脑”角色。

更多热门内容
科大讯飞携手两家企业 共同成立注册资本百万的合肥聆瀚科技
天眼查App显示,近日,合肥聆瀚科技有限公司成立,法定代表人为孙淑芳,注册资本100万人民币,经营范围含工程和技术研究和试验发展、计算机系统服务、数据处理服务、软件开发、计算机软硬件及辅助设备批发、计算机软硬…

2025-11-01

AI赋能网络跃迁:AI WAN如何重塑智能时代互联网新底座?
中国工程院院士邬贺铨在致辞中明确指出,互联网自身也需走向“新质化”,即在IPv6与IPv6+基础上持续演进,构建可靠、高效、安全、智能、绿色的网络技术体系,以适应智能化、数字化、绿色化的新时代需求。他强调,未…

2025-11-01

库克官宣!苹果AI战略大转向,Siri将迎全新蜕变与生态大变革
有更多爆料显示,苹果与谷歌的合作可能不止于传闻,双方或将联手为Siri开发先进的AI搜索功能。谷歌CEO桑达尔·皮查伊去年也曾确认,正在为iPhone开发由Gemini支持的相关功能。 有传闻显示,苹果可能…

2025-11-01

昇视唯盛获亿元融资,以“三合一”技术抢占无人化焊接市场先机
在智能焊接机器人系列中,公司推出了覆盖多场景的解决方案:HGXD机器人能无需模型导入、一键自主焊接复杂工件,提升产线效率30%-50%;IBWS定制系统通过视觉自适应技术,专攻汽车零部件等非标小件,提升精度2…

2025-11-01