ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

Meta推出SAM Audio:全球首创多模态交互,精准定位分离任意目标声音

时间:2025-12-18 18:45:34来源:互联网编辑:快讯

meta公司近日在音频技术领域取得重大进展,正式发布全球首个多模态音频分离模型——SAM Audio。这项创新技术通过模拟人类感知声音的天然方式,实现了对复杂音频的精准解析与交互式提取。用户现在能够像“用眼睛聆听”般,从混合音频或视频中分离出特定目标声音,无论是点击画面中的乐器、输入文字描述声源,还是标记时间片段,均可一键完成操作。

该模型的核心突破在于其自研的感知编码器视听引擎(PE-AV),这一被称为模型“听觉中枢”的技术,源于meta今年4月开源的计算机视觉模型meta Perception Encoder的扩展。通过将高级视觉理解能力与音频信号深度融合,PE-AV首次实现了跨模态的声音定位与分离,为音频处理开辟了全新路径。例如,用户只需点击视频中的吉他手,系统即可瞬间提取纯净的吉他声;输入“狗吠”关键词,便能自动过滤播客中的犬类噪音;甚至通过标记时间区间,可精准剔除特定时段的干扰音。

SAM Audio提供了三种直观交互模式,支持单独或组合使用。文本提示功能允许用户通过语义描述(如“人声演唱”“汽车喇叭”)直接提取对应声源;视觉提示则通过点击视频画面中的发声物体(如说话者、敲击键盘的手)实现音频分离;时间片段提示作为行业首创功能,用户可标记目标声音出现的时间范围(如“2分30秒至3分15秒”),系统将自动处理整段录音中的同类声音。meta将这一功能类比为科幻作品中的“超梦”技术,强调其精准性与灵活性。

为推动技术标准化,meta同步开源了两项关键工具:SAM Audio-Bench作为首个基于真实场景的音频分离评测基准,为行业提供了统一的评估标准;SAM Audio Judge则是全球首个专用于音频分离质量的自动评估模型,能够量化分析分离结果的纯净度与完整性。这两项工具的开源,将加速音频处理技术的迭代与落地应用。

PE-AV引擎的潜力不仅限于音频分离领域。作为meta多模态AI生态的基础组件,该技术将赋能旗下字幕生成、视频理解与智能剪辑等系统,提升跨模态内容处理的效率与准确性。其开源特性更意味着开发者可基于此构建多样化的“视听联觉”应用,例如自动消噪的会议记录工具、沉浸式AR音频交互系统,或针对听力障碍人群的无障碍辅助设备。

在视频内容呈指数级增长的当下,SAM Audio的推出标志着音频处理正式迈入“可交互、可编辑、可理解”的新阶段。过去,用户只能被动接收混合声音;如今,通过meta的技术,人们首次获得了“选择性聆听”的能力——这一变革或许仅是多模态AI重塑人类感官体验的起点。

体验地址:
https://ai.meta.com/samaudio/
https://github.com/facebookresearch/sam-audio

更多热门内容
从儿童到老人,陪伴机器人如何以科技之力重塑情感消费新生态?
字节跳动推出的“显眼包”AI毛绒玩具,虽最初是中秋礼盒赠品,却因出色的情感交互能力,在二手平台炒至300-1000元;珞博智能Fuzozo自今年6月正式线上发售至今销量已突破12万台,成为目前销量最高的AI陪…

2026-01-12

Meta推出XR语言学习应用Spatial Lingo:AI赋能打造沉浸式入门新体验
该应用的人工智能系统具备双重核心能力:一方面聚焦物体检测以构建词汇库,另一方面搭载3D辅助模块为用户提供指导。 Spatial Lingo并未宣称可实现用户的英语流利掌握,其本质是一款演示应用,内置多项具备…

2026-01-12

机器人轴承怎么选?从品牌到性价比,一文解锁靠谱供应商选择攻略
在选择机器人轴承供应商时,品牌和口碑是不可忽视的因素。一些国际知名品牌在机器人轴承领域拥有多年的研发和生产经验,其产品广泛应用于各类机器人中,深受用户信赖。在机器人领域,海峰海林轴承也凭借其优质的产品和服务…

2026-01-12

MIT天才博士毕业即投身新锐公司 聚焦大模型预训练 年薪或达300万起
2024年2-5月期间,他作为英伟达实习生,研究方向是为长上下文大语言模型推理加速。他和团队提出了DuoAttention,结合检索与流式注意力头,实现高效推理。 这篇论文的价值在于,构建了一整套高效大模…

2026-01-12

马斯克预言:未来3-7年AI将颠覆职场,白领岗位或首当其冲面临变革
他表示,未来3-7年将非常难熬,因为人类难以同时适应剧变与繁荣。只要是涉及数字的,比如只需敲击键盘和移动鼠标,电脑完全可以做到,AI当然能做到……过渡期将会很颠簸,因为人类不喜欢这种剧变,我们将面临剧烈的变革…

2026-01-12

马斯克等大佬齐发声:中国在AI竞赛中凭电力优势或领先美国
马斯克认为,“中国在AI竞赛中的决定性优势在于其扩大电力生成规模的能力。”“由于人工智能需要巨大的电力,可靠且充足的电力供应很可能成为决定这场竞赛结果的关键因素,尤其是因为电力基础设施的瓶颈问题解决起来可能…

2026-01-12

从游戏引擎到数字孪生:跨界极客与科技巨头如何重塑地图的未来
过去的地图是“拍照片”,记录哪里有什么;现在的“世界模型”则是“造大脑”,它试图理解整个城市运行的逻辑:红绿灯的变换规律、早晚高峰的人潮走向、无数司机和外卖员之间的微观博弈。 我们曾以为地图是世界的影子,但现…

2026-01-12

谷歌苹果顶尖华人科学家携手创业,以视觉推理为刃开辟AGI新赛道
【新智元导读】谷歌 Gemini 数据联合负责人 Andrew Dai 联手苹果首席研究科学家 Yinfei Yang,隐身创办 AI 新秀Elorian。 这两位分别来自谷歌和苹果的技术老兵,正在试图解…

2026-01-12

CSRankings计科榜单出炉:南大人工智能登顶 哈工大强势跻身前三引关注
而哈工大排第三着实有点让人意外,要知道大家普遍认为哈工大的计算机科学学科的实力是不如清北和华五的,而且CSRankings榜单在2018年,哈工大还在第18位,这几年时间,迅速发展已经排到了第三名。 看来笔…

2026-01-12

马斯克再放新招:X平台算法开源更新,xAI斥巨资打造数据中心
马斯克称,本次开源将覆盖“所有用于决定向用户推荐自然内容和广告内容的代码”,并强调这只是第一步。针对这一问题,马斯克在去年10月确认,公司在“For You”(推荐)算法中发现了一个“重大漏洞”,并承诺进行…

2026-01-12