阿里巴巴通义实验室近期宣布了一项重大开源成果——音频生成模型ThinkSound。该模型标志着首次将CoT(Chain-of-Thought,思维链)技术应用于音频生成领域,使得人工智能能够模拟专业音效师的思考过程,精准捕捉视觉细节,并生成与视频画面高度同步的高保真音频。
ThinkSound的代码与模型已在多个平台,包括Github、HuggingFace以及魔搭社区上公开,开发者可以免费获取并体验这一创新技术。这一举措无疑将极大地推动音频生成技术的普及与发展。
视频生成音频(V2A)技术一直是多媒体编辑和视频内容创作领域的关键技术之一。然而,现有技术仍面临诸多挑战,尤其是难以准确捕捉视频中的动态细节和时序关系,导致生成的音频往往缺乏与关键视觉事件的精确对应,难以满足专业创意场景中对时序和语义连贯性的高要求。
为了突破这一技术瓶颈,通义实验室创新性地将思维链推理引入多模态大模型,使模型能够模仿人类音效师的多阶段创作流程。通过对视觉事件与相应声音之间深度关联的精准建模,模型能够先分析视觉动态、再推断声学属性,并按照时间顺序合成与环境相符的音效。通义实验室还构建了首个带思维链标注的音频数据集AudioCoT,该数据集融合了超过2500小时的多源异构数据,为模型的训练提供了强有力的支持。
在开源的VGGSound测试集上,ThinkSound展现出了卓越的性能。其核心指标相比现有主流方法如MMAudio、V2A-Mappe、V-AURA等,均实现了15%以上的提升。特别是在openl3空间中的Fréchet距离(FD)指标上,ThinkSound的表现接近真实音频分布,相似度提高了20%以上。同时,在代表模型对声音事件类别和特征判别精准度的KLPaSST和KLPaNNs两项指标上,ThinkSound也均取得了同类模型中的最佳成绩。
不仅如此,在MovieGen Audio Bench测试集上,ThinkSound的表现也大幅领先meta推出的音频生成模型Movie Gen Audio。这一成绩进一步证明了ThinkSound在影视音效、音频后期、游戏与虚拟现实音效生成等领域的广泛应用潜力。
通义实验室在音频生成领域已有多项成果。除了ThinkSound外,还推出了语音生成大模型Cosyvoice和端到端音频多模态大模型MinMo等,这些模型共同构成了覆盖语音合成、音频生成、音频理解等场景的全面解决方案。