ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

智源发布Emu3:图像文本视频大一统,多模态世界新突破!

时间:2024-10-22 15:34:03来源:ITBEAR编辑:瑞雪

【ITBEAR】智源研究院近期推出了全新的原生多模态世界模型——Emu3,该模型在文本、图像及视频的理解与生成领域实现了显著突破。Emu3的创新之处在于,它仅需基于下一个token的预测,便能高效处理三种模态数据,无需依赖扩散模型或组合方法。

在图像生成方面,Emu3的性能超越了SD-1.5与SDXL模型;在视觉语言理解上,它则优于LlaVA-1.6;而在视频生成领域,Emu3的表现同样出色,超过了OpenSora 1.2。Emu3还具备强大的视觉tokenizer功能,能将视频和图像转换为离散token,与文本tokenizer输出的token共同送入模型处理。

研究表明,通过将复杂的多模态设计简化为token本身,Emu3在大规模训练和推理中展现出了巨大的潜力。目前,Emu3的关键技术和模型已经开源,项目页面也已正式上线。

对于研究人员而言,Emu3提供了一个统一的研究范式,值得深入探索。

更多热门内容
张雪峰怒斥商标遭恶意抢注:竟要百万赎回?
2024-10-22 14:46:32 作者:姚立伟 知名教育行业人士张雪峰近日发表了一篇措辞激烈的帖子,他在个人社交账号上愤怒地表示,自己的商标被恶意抢注。他表示:“我宁愿成为知识产权界的一个反面典型,也…

2024-10-22

法拉第未来FF新动作:FX5/FX6车型明年底下线,增程纯电任选
2024-10-2214:46:50作者:姚立伟近日,法拉第未来宣布了旗下第二品牌FaradayX的两款车型FX5/FX6的详细信息。这两款车型将提供增程式AIEV和纯电AIEV两种动力配置。根据计划,这些车…

2024-10-22

极氪MIX明晚上市,9大座椅模式一键切换引期待!
极氪MIX将于明天19点举行上市发布会,将同步开启交付。其采用无B柱设计,内部空间非常开阔,搭载行业首创的270°电动无级选装座椅,预设9种座椅模式,支持一键切换。前排中央扶手箱(移动中岛)也可调整位置。极氪…

2024-10-22

9月燃油车销量榜:大众领跑,自主品牌仅一席之地
朗逸自动挡入门版价格已降至7万多,而速腾则凭借1.5T的强劲动力和相对亲民的价格,9月份销量达到了2.3万辆。RAV4作为水桶车的代表,虽然后排空间和动力表现相对一般,但凭借丰田的口碑和亲民的价格,依然保持了…

2024-10-22