ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

声网开源TEN VAD与Turn Detection,赋能Voice Agent对话更自然流畅

时间:2025-05-20 14:35:19来源:ITBEAR编辑:快讯团队

声网与RTE开发者社区携手,近期宣布了两项重要成果:TEN VAD与TEN Turn Detection模型的开源。这两款模型是声网基于其超过十年的实时语音技术研究,以及超低延迟技术积累所打造的,旨在大幅提升AI Agent的交互体验,使其更加自然流畅。作为开源项目,全球开发者均可自由使用、修改和贡献代码,它们也将作为开源对话式AI生态体系TEN的核心组件,持续进行优化迭代。

TEN VAD,一款轻量级、高性能的语音活动检测模型,凭借其超低延迟、低功耗和高准确率的特点,在语音输入大语言模型前的预处理阶段发挥着重要作用。它能够精确识别音频中的人声,并有效过滤掉背景噪音和静音段,不仅提升了语音识别(STT)的准确性,还显著降低了处理成本。与WebRTC Pitch VAD和Silero VAD相比,TEN VAD在公开测试集上展现出了更优越的表现,特别是在延迟方面,TEN VAD能够快速检测语音与非语音的切换,避免了因延迟导致的交互不畅。

TEN VAD已在Hugging Face和GitHub上开源,并配备了人工精标的数据集,方便开发者进行模型推理和评估。实际应用中,一个真实用户案例显示,使用TEN VAD后,音频传输数据量减少了62%,语音服务成本大幅降低。

另一款模型,TEN Turn Detection,则专注于解决人机对话中的一大难题:判断用户何时停止说话。在真实交流中,AI需要准确区分用户的“中途停顿”与“表达完毕”,以避免插话打断或回应迟缓。TEN Turn Detection支持全双工语音交互,允许用户和AI同时说话,使对话更加自然。该模型通过分析语言模式,判断说话者的状态,从而智能决定AI是“说”还是“听”,支持中英文,可供所有Voice Agent开发者使用。

在多场景测试数据集上,TEN Turn Detection与其他同类开源模型相比,表现出了优越的性能。当TEN VAD与TEN Turn Detection结合使用时,可以打造出更自然、反应更迅速、成本更低的Voice Agent。这两款模型都基于声网深厚的实时语音研究经验,拥有超低延迟、低功耗和高准确率的特点,且完全开源,采用Apache 2.0许可证。

使用这两款模型,AI Agent能够正确处理“打断”、“停顿”、“回应”等人类式交互,极大提升用户体验。同时,由于VAD能够准确识别语音帧,有效减少语音识别调用量,实测结果显示,两者合用能大幅降低总系统成本。这两款模型还可以作为TEN framework的插件模块使用,对于已经使用TEN framework的开发者,支持无缝集成;对于正在选型AI Agent框架的团队,TEN无疑是具备最佳VAD和轮次检测能力的选择之一。

为了快速体验这两款模型,开发者可以登录Hugging Face,打开TEN Agent Demo,进行模型测试和评估。这一开源举措,不仅为开发者提供了高质量的语音处理工具,也推动了对话式AI技术的进一步发展。

更多热门内容
冒险再启程!快手团综《带你趣户外2025》官宣定档
热血冒险,步履不停。近日,由快手平台出品的首档户外互动竞技直播团综《带你趣户外》正式宣布回归定档。据悉,今年再度启航的《带你趣户外2025》将邀请快手主播加盟,开启《带你趣巴厘岛》与《带你趣香港》的冒险新篇章,分别于6月21日与7月5日分别开播。节目中,快手

2025-06-23

快手618购物节:全域经营驱动行业增长,成交破亿商品数同比增长475%
全域经营带动快手618购物节实现突破性增长。6月19日,快手电商发布2025快手618购物节收官战报,货架场持续高速增长,泛货架商品卡GMV同比增长超53%,搜索GMV同比增长超143%,快手商城大牌大补频道百万GMV单品数同比增长超124%,内容场消费繁荣,挂车短视频GMV同比增长超

2025-06-23

掀翻传统推荐!OneRec端到端模型如何同时"吞噬"效果与成本双难题
AI大模型(LLM)掀起的生成式革命,正重塑各行各业,连我们每天刷到的推荐系统也不例外。传统推荐系统像一条多环节的“流水线”(级联架构),容易导致算力浪费、目标冲突,制约了发展。要突破瓶颈,关键在于用LLM技术进行“一体化”重构,实现效果提升和成本降低。快手技术

2025-06-23