苹果联合人大发布VSSFlow模型：视频AI同步生成配音-手机快报-ITBear比尔科技

2 月 10 日消息，科技媒体 9to5Mac 昨日（2 月 9 日）发布博文，报道称苹果公司携手中国人民大学（简称人大），推出 VSSFlow 新型 AI 模型，突破了传统音频生成技术的瓶颈，仅需单一系统即可从无声视频中同时生成逼真的环境音效与人类语音。

该模型的核心能力在于“化静为动”，能够直接处理无声视频数据，在单一系统的框架下，同步生成与画面高度匹配的环境音效以及精准的语音对话。该成果不仅解决了过去音频生成模型功能单一的问题，更在生成质量上达到了行业领先水平。

援引博文介绍，在 VSSFlow 问世之前，行业内的模型往往存在严重的偏科现象：视频转声音模型（V2S）难以生成清晰的语音，而文本转语音模型（TTS）又无法处理复杂的环境噪音。

传统的解决方案通常是将两者分阶段训练，这不仅增加了系统的复杂性，还常因任务冲突导致性能下降。VSSFlow 则另辟蹊径，采用了 10 层架构设计并引入“流匹配”技术，让模型自主学习如何从随机噪声中，重构出目标声音信号。

研究团队在训练过程中发现了一个令人惊喜的现象：联合训练不仅没有导致任务干扰，反而产生了“互助效应”。即语音数据的训练提升了音效生成的质量，而音效数据的加入也优化了语音的表现。

团队为了实现这一效果，向模型投喂了混合数据，包括配有环境音的视频、配有字幕的说话视频以及纯文本转语音数据，并利用合成样本微调模型，让其学会同时输出背景音与人声。

在实际运行中，VSSFlow 以每秒 10 帧的频率从视频中提取视觉线索来塑造环境音效，同时依据文本脚本精确引导语音生成。

测试数据显示，该模型在多项关键指标上均优于专门针对单一任务设计的竞品模型。研究团队目前已在 GitHub 上开源了 VSSFlow 的代码，并正在推进模型权重公开及在线推理演示的开发工作。

2026-03-23

2026-03-23

2026-03-23

2026-03-23

2026-03-23

2026-03-23

三大系列发展方向不变，均以性能+电竞为主，而自研了风驰游戏内核、电竞网络芯片、灵犀触控芯片等方面，进一步提升游戏体验。新机已预热后置双摄，先是5000万像素的主摄，拥有1/1.56英寸的大底加持，等效焦距可…

2026-03-23

IT之家 3 月 22 日消息，本月早些时候，在苹果为期一周的新品发布活动中，不少人都期待除了 iPad Air、MacBook Neo以及其他新款 MacBook 之外，苹果还能更新旗下最平价的 iPad…

2026-03-23

作为中国移动2000年在2G向2.5G过渡时期推出的移动数据业务品牌，移动梦网意为“Mobile+Internet”，曾囊括短信、彩信、手机上网（WAP）、手机游戏等多元服务。有分析称，此次业务下线并非…

2026-03-23

2026-03-23