ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

Happy Horse 1.0开源:多模态融合极简设计,七语唇形同步高效生成视频

时间:2026-04-09 06:59:46来源:互联网编辑:快讯

近日,一款名为Happy Horse 1.0的AI视频生成模型正式开源,凭借其创新的视频与音频同步生成技术,迅速在AI领域引发关注。该模型突破了传统开源视频生成工具的分步处理模式,将视频与音频的生成流程深度整合,实现了从文本或图像输入到带声音成片输出的一站式服务。

传统开源视频模型通常采用"分步走"策略:先生成无声视频,再通过独立音频模型配音,最后用工具进行口型对齐。这种模式不仅耗时较长,且各环节误差会逐步累积。Happy Horse 1.0则通过统一的Transformer架构,将视频像素与音频波形数据作为同一序列处理,在单次前向推理中同步完成口型匹配、环境音效和脚步声等细节生成,彻底消除了后期拼接需求。其核心创新在于将文本、图像、视频、音频四种模态的token统一编码,通过自注意力机制实现跨模态对齐。

该模型采用150亿参数的纯自注意力Transformer架构,刻意摒弃了交叉注意力机制和独立音频分支。其40层网络呈现"三明治"结构:首尾各4层使用模态专属投影层处理输入输出,中间32层共享参数完成跨模态推理。这种设计使参数效率提升40%,同时通过可学习的sigmoid门控机制稳定多模态训练梯度,有效解决了音频损失与视频损失反向传播时的冲突问题。

在效率优化方面,开发团队引入DMD-2蒸馏技术将去噪步骤从常规的25-50步压缩至8步,并取消无分类器引导(CFG)模块,直接减少近半计算量。配合MagiCompiler全图编译运行时技术,在单张H100显卡上生成1080p视频仅需38秒,256p预览版本更可在2秒内完成。这种效率提升使其在同类模型中具有显著竞争优势。

语言支持方面,Happy Horse 1.0实现了英语、普通话、粤语、日语、韩语、德语、法语七种语言的原生唇形同步。其训练过程直接将语音时序、语调特征与视频画面联合优化,避免了传统方法中后期贴片的生硬感。用户可通过官网体验文本生成视频和图片生成视频两种模式,不同模型对生成时长存在差异化限制。

技术文档显示,该模型在架构设计上追求极致简洁,没有设置专门的条件控制网络,而是通过统一的去噪流程让模型自主学习模态间关系。这种设计哲学既降低了实现复杂度,也为后续扩展更多模态留下了接口空间。目前开源版本已包含完整训练代码和预训练权重,开发者可基于现有框架进行二次开发。

更多热门内容
6月“天象剧场”精彩纷呈:金木相合、飞龙在天等奇景轮番登场
金木相合、火星合月、水星东大距、月伴金木轮番上演,金星邂逅蜂巢星团、“飞龙在天”、北斗高悬也将登场,一起来观赏吧。6月20日,它将运行至巨蟹座中著名的深空天体蜂巢星团附近,并在日落后不久与其一起现身西方天空。…

2026-05-31

NASA将于6月9日公布“阿尔忒弥斯3号”新进展及登月宇航员乘组名单
IT之家 5 月 31 日消息,美国国家航空航天局(NASA)本周(5 月 26 日)在官网发文称,将于美东时间 6 月 9 日上午 11点(北京时间 6 月 9 日 23 点)公布“阿尔忒弥斯 3 号”(…

2026-05-31

5月31日“蓝月亮”与年度最小满月同现夜空,上回同赏还是在2020年
中国天文学会会员、天津市天文学会理事杨婧表示,“蓝月亮”现象平均每2年多就会出现一次,下一次出现是在2029年1月。 “蓝月亮”与年度最小满月同时上演比较罕见,上一次出现要追溯到2020年,也为这轮明月增添了…

2026-05-31

星火空间“进化一号”来袭:国内首款全球最大电循环液体运载火箭将启新程
IT之家 5 月 31日消息,国内首家专注于电循环液体运载火箭航天运输系统创建及运营的科技公司“星火空间”今日发文称,目前正在研发的“进化一号”电循环液体运载火箭,是我国第一款电循环液体运载火箭。 据介绍,…

2026-05-31