ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

剑桥清华等高校联合:用扩散大语言模型为语音识别装上“双向智慧脑”

时间:2025-10-10 04:48:48来源:互联网编辑:快讯

人工智能语音识别领域迎来重大突破,由国际顶尖科研团队开发的Whisper-LLaDA系统通过引入扩散大语言模型技术,在LibriSpeech基准测试中实现12.3%的词错误率降低。这项发表于ArXiv平台(编号arXiv:2509.16622v1)的研究,标志着语音识别技术从单向处理向双向理解的范式转变。

传统语音识别系统如同严格遵循字序的翻译员,必须从左至右逐词处理。而新型Whisper-LLaDA系统则具备"双向思考"能力,其工作原理类似填字游戏玩家——既参考横向线索也兼顾纵向提示。研究团队将OpenAI的Whisper语音编码器与80亿参数的LLaDA扩散模型相结合,构建出首个具备全局语境感知能力的语音识别系统。

系统核心创新在于其独特的训练方式。研究人员首先展示完整语句,随后随机遮蔽部分词汇形成"填空题",迫使模型通过上下文推断缺失内容。这种训练机制使模型能够同时利用前后文信息,在测试中展现出超越传统方法的语境解析能力。例如在"I saw her duck"这类存在歧义的语句中,系统可准确判断"duck"的词性。

工程实现方面,研究团队采用三项关键技术:通过Q-Former组件将0.33秒语音片段转换为4096维特征向量;运用LoRA微调技术仅调整8700万个参数(占总参数10.9%);采用语速扰动技术模拟0.9-1.1倍速语音输入。这些设计使系统在保持高效的同时,具备处理不同语速和口音的能力。

系统提供直接识别与精细修正两种工作模式。直接模式中,模型通过多轮迭代逐步填充128个标记位的空白模板,每轮保留置信度最高的预测结果。精细修正模式则包含三种策略:随机遮罩30%词汇进行重预测、优先修正低置信度词汇、以及将语句分割为子块进行半自回归处理。实验显示,90%随机遮罩策略可使词错误率从5.63%降至4.94%。

解码策略方面,完全并行模式通过64步迭代在test-clean数据集达到2.82%的错误率,实时因子0.185较传统方法提升1.3倍。半自回归模式采用4个子块、每子块32步的配置,在test-other数据集实现4.96%的错误率,超越传统LLaMA系统。这种灵活的策略配置使系统可适应不同场景的需求。

基准测试数据显示,Whisper-LLaDA在test-clean数据集的直接识别错误率为3.89%(纯文本版本),加入语音特征后显著改善。精细修正实验中,半自回归策略在test-other数据集实现12.3%的相对改进。值得注意的是,纯文本模型在test-other数据集的错误率达6.91%,印证了语音特征对准确识别的关键作用。

技术挑战的解决彰显工程智慧。针对扩散模型计算量大的问题,研究团队采用早停机制和步数控制,当检测到结束标记时自动终止预测。模态对齐方面,Q-Former组件使用4个查询向量提取关键语音特征,实现音频与文本的有效融合。训练稳定性通过权重衰减和学习率调度等技术得到保障。

与传统方法对比显示,新系统在特定配置下超越部分基线模型,尤其在处理长距离依赖的语音内容时表现突出。其并行处理能力使系统在16步解码时,实时因子低至0.073-0.080,速度较传统方法提升3倍以上。但研究也指出,系统在直接识别模式下的准确性仍有提升空间,且需在更大规模数据集验证泛化能力。

实际应用层面,该技术为语音助手、实时转录和多语言处理开辟新路径。在医疗记录等高精度场景,双向理解能力可减少关键信息误识;实时转录服务可通过调整解码参数平衡速度与准确度;多语言处理中,全局语境感知可能突破传统方法的语法限制。移动设备部署方面,LoRA技术使80亿参数模型的存储需求大幅降低。

当前研究主要聚焦英语语音识别,未来计划扩展至多语言场景。研究团队将探索更智能的遮罩策略、多模态信息融合(如加入唇语识别),并优化注意力机制以提升效率。理论层面,扩散模型在语音处理中的收敛性保证、解码策略的理论性质等基础问题,将成为后续研究的重点方向。

更多热门内容
百年科学接力:12位诺奖得主铺就AI之路,从神经元到ChatGPT的智慧传承
1906年,两位科学家在诺贝尔奖台上“互怼”:高尔基认为神经系统是一张连续的网,卡哈尔坚称它由独立的神经元组成。几十年后,电子显微镜证实卡哈尔正确——AI的神经网络算法,自此有了第一块拼图。这场科学马拉松,整…

2025-10-10

阿里通义千问迈出新步伐:组建团队探索智能体从虚拟走向物理世界
10月9日,据《科创板日报》报道,阿里通义千问大模型负责人林俊旸在社交媒体上发文表示,已建立机器人和具身智能的小型团队。 在2025年9月底举办的云栖大会上,通义大模型实现“七连发”,在模型智能水平、Age…

2025-10-10

AI落地“最后一公里”难?阿里云4R标准服务为企业架起通途
一号位们雄心勃勃,技术团队加班加点,投入不菲,几个月后的汇报会上,却常常是尴尬的沉默:"模型是跑通了,但准确率只有70%","系统能用,但业务部门说不实用"。 杭州,云栖大会,中小企业AI应用规模化发展论坛、…

2025-10-10