ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

英伟达新ASR模型:1秒转录60分钟音频,字错率低至6.05%

时间:2025-05-07 20:32:13来源:ITBEAR编辑:快讯团队

英伟达近期震撼发布了其最新的自动语音识别(ASR)开源力作——Parakeet TDT 0.6B模型。这款模型在处理效率上实现了前所未有的飞跃,仅需短短1秒,便能轻松应对长达60分钟的音频文件,其速度较当前主流开源ASR模型快了整整50倍。

在Hugging Face的Open ASR Leaderboard排行榜上,Parakeet TDT 0.6B同样展现出了卓越的性能,其字错率(WER)低至6.05%,在开源模型领域独树一帜。这一成绩,无疑为实时转录、语音分析、呼叫中心智能化以及音频内容索引等众多企业级应用带来了强有力的技术支撑。

Parakeet TDT 0.6B基于先进的Transformer架构,采用了包含6亿参数的编码-解码结构,并通过高质量转录数据的精细微调,进一步提升了模型的识别精度。该模型还针对英伟达硬件进行了深度优化,利用量化和融合内核技术,显著提高了推理效率。Parakeet TDT 0.6B还支持TDT(Transducer Decoder Transformer)架构,为用户提供了更加灵活多样的应用选择。

除了速度和精度的双重保障,Parakeet TDT 0.6B还内置了多项创新功能,进一步拓宽了其应用场景。例如,该模型能够准确地将歌曲内容转录为歌词,这一功能在音乐索引和媒体平台领域具有巨大的应用潜力。同时,Parakeet TDT 0.6B还支持数字和时间戳的格式化处理,使得会议记录、法律转录和医疗记录等文本内容更加清晰可读。标点恢复功能的加入,更是为下游自然语言处理(NLP)应用的表现增添了强劲动力。

更多热门内容
泡泡玛特遭创始股东清仓21亿,蜂巧资本:陪伴14年,万分不舍
“泡泡玛特股份被创始股东高位清仓”登上微博热搜。数据显示,蜂巧资本近期累计套现超21亿元。在2024年泡泡玛特股价持续上升之际,蜂巧资本创始合伙人屠铮多次减持泡泡玛特。 5月7日晚间,蜂巧资本在其公众号上发文…

2025-05-08