英伟达MIT联手，Audio-SDS技术革新音频生成领域-业界动态-ITBear科技资讯

近期，英伟达携手麻省理工学院，共同推出了一项名为Audio-SDS的创新技术，该技术将Score Distillation Sampling（SDS）技术首次应用于音频生成领域，为音频创作带来了革命性的突破。

长久以来，音频扩散模型在音频生成领域展现出了卓越的性能，但在调整具有明确语义和可解释性的参数方面，一直存在着一定的局限性。Audio-SDS技术的出现，正是为了解决这一问题。它融合了预训练模型的强大生成能力与参数化音频表示手段，为用户提供了更为灵活和高效的音频编辑工具。

Audio-SDS技术无需依赖大规模特定任务的数据集，即可广泛应用于多种音频处理任务。无论是FM合成器参数校准、物理冲击音效合成，还是音源分离等关键场景，Audio-SDS都能表现出色。用户只需根据高级文本提示，就能轻松调整FM合成参数、冲击音模拟器设置或分离掩码，从而实现对音频内容的直观和高效编辑。

为了验证Audio-SDS技术的有效性，研究团队采用了基于解码器的SDS架构、多步去噪机制及多尺度频谱图分析等技术进行了实验。实验结果显示，Audio-SDS在主观听感测试以及多项客观评价指标上，如CLAP分数和信号失真比SDR，均展现出了卓越的性能。

Audio-SDS技术的一大亮点在于其通用性。通过一个统一的预训练模型，Audio-SDS能够支持多种音频任务，避免了对大量任务专属数据集的依赖。这为用户提供了更为便捷和高效的音频生成与编辑解决方案。然而，研究者也坦诚地指出，Audio-SDS在模型覆盖范围、潜在编码伪影以及优化稳定性等方面，仍有待进一步的改进和优化。

Audio-SDS技术的推出，无疑为音频生成领域注入了新的活力。它不仅为用户提供了更为灵活和高效的音频编辑工具，更为未来音频内容的创作提供了无限可能。随着技术的不断进步和完善，我们有理由相信，Audio-SDS将在音频创作领域发挥越来越重要的作用。