智源EMU3.5突破多模态瓶颈，开启AI新纪元与第三种Scaling范式之路-人工智能-ITBear科技资讯

人工智能领域迎来重要突破，智源研究院近日正式推出“悟界 EMU3.5”多模态世界大模型。这一成果被视为行业迈向新阶段的关键标志，尤其在大语言模型文本能力发展趋缓、寻求新突破的背景下，多模态技术成为备受瞩目的方向。

多模态技术发展面临的核心难题，是如何有效融合文本、图像、视频等不同类型的数据。目前行业内存在两条主要技术路径：一条是DiT架构，在文生图、文生视频等生成任务中表现优异；另一条是以智源Emu系列为代表的“原生多模态”架构，试图从基础层面构建统一处理所有模态的模型。

EMU3.5的发布被认为开启了人工智能从“语言学习”向“多模态世界学习”转变的新纪元。该模型在技术路径上延续了Emu系列的原生多模态理念，采用统一的自回归架构，将文本、图像、视频等数据统一转化为Token进行预测。这种设计在理论上实现了模态统一，但过去面临推理效率低下的问题——生成图像时需逐个Token输出，速度远慢于并行生成的Diffusion模型。

为解决这一瓶颈，研发团队提出“DiDA（离散扩散自适应）”技术。这项创新允许自回归模型在推理阶段并行预测大规模Token，显著提升生成效率。据测试，在保持性能不变的前提下，图像生成速度提升近20倍，首次使自回归架构达到与顶尖闭源扩散模型相当的水平。这一突破为原生多模态路线的实际应用扫清了关键障碍。

效率问题解决后，规模化发展成为可能。EMU3.5通过大幅增加模型参数和训练数据验证了多模态领域的“规模定律”：参数规模从80亿跃升至340亿，训练视频数据时长从15年增至790年。基于这一实践，研发团队提出“第三种Scaling范式”，其核心优势包括：统一的自回归架构为规模化提供基础；可复用现有语言模型训练基础设施；首次在多模态领域引入大规模强化学习技术。

该模型的技术升级不仅体现在规模扩张，更在于核心范式的转变——从“预测下一个Token”升级为“预测下一个状态”。这一转变要求模型理解事物背后的因果关系和物理规律，而非简单续写数据。例如，当输入“叠衣服”指令时，模型能生成包含完整步骤的机器人操作序列；在图案推理任务中，模型需先理解规律才能生成正确结果；面对建筑正面图转换俯视图的需求，模型需构建三维空间关系模型。

这种“预测状态”的能力为具身智能发展提供了新路径。当前机器人训练面临真实数据匮乏的困境，而EMU3.5可通过模拟物理世界生成高质量训练数据。测试显示，在未见过的新场景中，搭载该模型的机器人任务成功率从0%提升至70%，表明其具备理解、规划和泛化的核心智能，可担任具身智能的“大脑”角色。

AI浪潮下谷歌构建全生态闭环：从芯片到应用，内部循环驱动业绩飙升

2025-11-01

OpenAI的“疯狂豪赌”：万亿美元投入下，盈利梦渐行渐远？

2025-11-01

多伦科技牵手影智科技，强强联合开启机器人与智能产业新征程

2025-11-01

科大讯飞携手两家企业共同成立注册资本百万的合肥聆瀚科技

天眼查App显示，近日，合肥聆瀚科技有限公司成立，法定代表人为孙淑芳，注册资本100万人民币，经营范围含工程和技术研究和试验发展、计算机系统服务、数据处理服务、软件开发、计算机软硬件及辅助设备批发、计算机软硬…

2025-11-01

AI赋能网络跃迁：AI WAN如何重塑智能时代互联网新底座？

中国工程院院士邬贺铨在致辞中明确指出，互联网自身也需走向“新质化”，即在IPv6与IPv6+基础上持续演进，构建可靠、高效、安全、智能、绿色的网络技术体系，以适应智能化、数字化、绿色化的新时代需求。他强调，未…

2025-11-01

库克官宣！苹果AI战略大转向，Siri将迎全新蜕变与生态大变革

有更多爆料显示，苹果与谷歌的合作可能不止于传闻，双方或将联手为Siri开发先进的AI搜索功能。谷歌CEO桑达尔·皮查伊去年也曾确认，正在为iPhone开发由Gemini支持的相关功能。有传闻显示，苹果可能…

2025-11-01

昇视唯盛获亿元融资，以“三合一”技术抢占无人化焊接市场先机

在智能焊接机器人系列中，公司推出了覆盖多场景的解决方案：HGXD机器人能无需模型导入、一键自主焊接复杂工件，提升产线效率30%-50%；IBWS定制系统通过视觉自适应技术，专攻汽车零部件等非标小件，提升精度2…

2025-11-01

硅谷科技巨头青睐有加，中国大模型凭何魅力引领全球AI新潮流？

2025-11-01

对话天翼交通巨有诚：AI赋能自动驾驶，探索车路云一体化新路径

2025-11-01

爱奇艺龚宇：AI将重塑影视业，成本或降创作者倍增，产业格局迎巨变

2025-11-01