剑桥清华等高校联合：用扩散大语言模型为语音识别装上“双向智慧脑”-人工智能-ITBear科技资讯

人工智能语音识别领域迎来重大突破，由国际顶尖科研团队开发的Whisper-LLaDA系统通过引入扩散大语言模型技术，在LibriSpeech基准测试中实现12.3%的词错误率降低。这项发表于ArXiv平台（编号arXiv:2509.16622v1）的研究，标志着语音识别技术从单向处理向双向理解的范式转变。

传统语音识别系统如同严格遵循字序的翻译员，必须从左至右逐词处理。而新型Whisper-LLaDA系统则具备"双向思考"能力，其工作原理类似填字游戏玩家——既参考横向线索也兼顾纵向提示。研究团队将OpenAI的Whisper语音编码器与80亿参数的LLaDA扩散模型相结合，构建出首个具备全局语境感知能力的语音识别系统。

系统核心创新在于其独特的训练方式。研究人员首先展示完整语句，随后随机遮蔽部分词汇形成"填空题"，迫使模型通过上下文推断缺失内容。这种训练机制使模型能够同时利用前后文信息，在测试中展现出超越传统方法的语境解析能力。例如在"I saw her duck"这类存在歧义的语句中，系统可准确判断"duck"的词性。

工程实现方面，研究团队采用三项关键技术：通过Q-Former组件将0.33秒语音片段转换为4096维特征向量；运用LoRA微调技术仅调整8700万个参数（占总参数10.9%）；采用语速扰动技术模拟0.9-1.1倍速语音输入。这些设计使系统在保持高效的同时，具备处理不同语速和口音的能力。

系统提供直接识别与精细修正两种工作模式。直接模式中，模型通过多轮迭代逐步填充128个标记位的空白模板，每轮保留置信度最高的预测结果。精细修正模式则包含三种策略：随机遮罩30%词汇进行重预测、优先修正低置信度词汇、以及将语句分割为子块进行半自回归处理。实验显示，90%随机遮罩策略可使词错误率从5.63%降至4.94%。

解码策略方面，完全并行模式通过64步迭代在test-clean数据集达到2.82%的错误率，实时因子0.185较传统方法提升1.3倍。半自回归模式采用4个子块、每子块32步的配置，在test-other数据集实现4.96%的错误率，超越传统LLaMA系统。这种灵活的策略配置使系统可适应不同场景的需求。

基准测试数据显示，Whisper-LLaDA在test-clean数据集的直接识别错误率为3.89%（纯文本版本），加入语音特征后显著改善。精细修正实验中，半自回归策略在test-other数据集实现12.3%的相对改进。值得注意的是，纯文本模型在test-other数据集的错误率达6.91%，印证了语音特征对准确识别的关键作用。

技术挑战的解决彰显工程智慧。针对扩散模型计算量大的问题，研究团队采用早停机制和步数控制，当检测到结束标记时自动终止预测。模态对齐方面，Q-Former组件使用4个查询向量提取关键语音特征，实现音频与文本的有效融合。训练稳定性通过权重衰减和学习率调度等技术得到保障。

与传统方法对比显示，新系统在特定配置下超越部分基线模型，尤其在处理长距离依赖的语音内容时表现突出。其并行处理能力使系统在16步解码时，实时因子低至0.073-0.080，速度较传统方法提升3倍以上。但研究也指出，系统在直接识别模式下的准确性仍有提升空间，且需在更大规模数据集验证泛化能力。

实际应用层面，该技术为语音助手、实时转录和多语言处理开辟新路径。在医疗记录等高精度场景，双向理解能力可减少关键信息误识；实时转录服务可通过调整解码参数平衡速度与准确度；多语言处理中，全局语境感知可能突破传统方法的语法限制。移动设备部署方面，LoRA技术使80亿参数模型的存储需求大幅降低。

当前研究主要聚焦英语语音识别，未来计划扩展至多语言场景。研究团队将探索更智能的遮罩策略、多模态信息融合（如加入唇语识别），并优化注意力机制以提升效率。理论层面，扩散模型在语音处理中的收敛性保证、解码策略的理论性质等基础问题，将成为后续研究的重点方向。

中科院BaseReward：为多模态AI打造“全能评委”，破解评估难题

2025-10-10

复旦大学团队创新：让机器人学会“主动提问”，开启人机交互新篇章

2025-10-10

苹果Manzano多模态AI模型：融合理解与创作，开启智能新篇章

2025-10-10

伊斯坦布尔Newmind AI团队：为土耳其语AI打造专属“谎言过滤器”

2025-10-10

法国团队推出“推理核心”：为AI搭建逻辑基石，助力智能迈向新高度

2025-10-10

英特尔技术之旅预览至强6+“Clearwater Forest”：18A工艺打造，2026年将登场

2025-10-10

阿里巴巴Qwen团队打造Qwen3-Omni：多模态全能助手，对话如真人般流畅自然

2025-10-10

百年科学接力：12位诺奖得主铺就AI之路，从神经元到ChatGPT的智慧传承

1906年，两位科学家在诺贝尔奖台上“互怼”：高尔基认为神经系统是一张连续的网，卡哈尔坚称它由独立的神经元组成。几十年后，电子显微镜证实卡哈尔正确——AI的神经网络算法，自此有了第一块拼图。这场科学马拉松，整…

2025-10-10

阿里通义千问迈出新步伐：组建团队探索智能体从虚拟走向物理世界

10月9日，据《科创板日报》报道，阿里通义千问大模型负责人林俊旸在社交媒体上发文表示，已建立机器人和具身智能的小型团队。在2025年9月底举办的云栖大会上，通义大模型实现“七连发”，在模型智能水平、Age…

2025-10-10

AI落地“最后一公里”难？阿里云4R标准服务为企业架起通途

一号位们雄心勃勃，技术团队加班加点，投入不菲，几个月后的汇报会上，却常常是尴尬的沉默："模型是跑通了，但准确率只有70%"，"系统能用，但业务部门说不实用"。杭州，云栖大会，中小企业AI应用规模化发展论坛、…

2025-10-10