ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

英伟达新ASR模型:1秒转录60分钟音频,字错率低至6.05%

时间:2025-05-07 20:32:13来源:ITBEAR编辑:快讯团队

英伟达近期震撼发布了其最新的自动语音识别(ASR)开源力作——Parakeet TDT 0.6B模型。这款模型在处理效率上实现了前所未有的飞跃,仅需短短1秒,便能轻松应对长达60分钟的音频文件,其速度较当前主流开源ASR模型快了整整50倍。

在Hugging Face的Open ASR Leaderboard排行榜上,Parakeet TDT 0.6B同样展现出了卓越的性能,其字错率(WER)低至6.05%,在开源模型领域独树一帜。这一成绩,无疑为实时转录、语音分析、呼叫中心智能化以及音频内容索引等众多企业级应用带来了强有力的技术支撑。

Parakeet TDT 0.6B基于先进的Transformer架构,采用了包含6亿参数的编码-解码结构,并通过高质量转录数据的精细微调,进一步提升了模型的识别精度。该模型还针对英伟达硬件进行了深度优化,利用量化和融合内核技术,显著提高了推理效率。Parakeet TDT 0.6B还支持TDT(Transducer Decoder Transformer)架构,为用户提供了更加灵活多样的应用选择。

除了速度和精度的双重保障,Parakeet TDT 0.6B还内置了多项创新功能,进一步拓宽了其应用场景。例如,该模型能够准确地将歌曲内容转录为歌词,这一功能在音乐索引和媒体平台领域具有巨大的应用潜力。同时,Parakeet TDT 0.6B还支持数字和时间戳的格式化处理,使得会议记录、法律转录和医疗记录等文本内容更加清晰可读。标点恢复功能的加入,更是为下游自然语言处理(NLP)应用的表现增添了强劲动力。

更多热门内容
Figure人形机器人F.03实现行走,CEO盛赞为最先进硬件并广招贤才
新榜讯 近日,人形机器人公司 Figure 的首席执行官布雷特·阿德科克(Brett Adcock)于社交平台发文宣称,F.03 已正式迈开行走步伐,还称“此为自己所见过的最为先进的硬件”。紧接着,阿德科克再…

2025-05-26

红杉中国引领AI新风向,发布xbench基准测试助力AI真实场景应用
新榜讯 5 月 26 日,红杉中国重磅宣布推出全新的 AI 基准测试 xbench,同时发布相关论文《xbench: TrackingAgents Productivity, Scaling with Pr…

2025-05-26

大厂Agent产品加速迭代,AI产业商业化进程再提速
新榜讯 中信建投发布研报称,近期各大厂纷纷密集更新 Agent 产品。在海外厂商方面,微软致力于通过本地与云端协同来构建 Agent网络;谷歌依托现有生态推出 2C Agent 3P 战略;Athropic…

2025-05-26