ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

Interspeech 2026丨江苏省语言计算及应用重点实验室多项成果入选

时间:2026-06-29 16:52:45来源:互联网编辑:茹茹

近日,Interspeech 2026 公布录用结果,江苏省语言计算及应用重点实验室共有 4 篇论文被会议接收。Interspeech 由国际语音通信协会 ISCA 主办,长期被视为语音研究领域最具国际影响力的学术会议之一,本届会议主题为 Speaking Together,其录用成果集中反映了语音语言技术前沿的发展方向。

江苏省语言计算及应用重点实验室(以下简称“实验室”)由思必驰科技股份有限公司牵头,联合上海交通大学、苏州大学共建,是江苏省在通用人工智能领域布局的重要战略科技力量。实验室以思必驰的产业平台为依托,汇聚上海交大、苏大的顶尖科研资源,形成“产学研用”深度融合的创新共同体,聚焦语言计算核心技术,贯通基础理论、关键算法、产业落地的全链条创新。

本次收录成果聚焦听觉感知、语言认知、大模型及智能体、全链路对话系统柔性定制等关键方向,持续增强了思必驰在复杂场景语音识别可靠性语音大模型高效适配面向部署工程化交付的核心能力,支撑思必驰智慧出行座舱交互、智慧办公会议转写、智慧物联远场对话的体验升级,并提升面向多行业客户的标准化交付效率与可扩展能力。下面介绍本次收录的代表性成果:

面向可靠性的语音识别评估与弃权机制

该成果面向会议转写、车载指令等高安全场景中错误识别被高置信度掩盖的痛点,直接支撑识别结果可信、可控的客户价值。

RAS: a Reliability Oriented Metric for Automatic Speech Recognition

语音识别系统在噪声与语义歧义条件下,常生成看似置信度较高、实则错误的转录,给用户与下游应用带来误导,而传统词错误率指标只衡量准确率,难以刻画结果的可靠性。该工作提出具备弃权感知能力的转录框架,使识别模型能够在不确定片段上显式选择弃权,并提出可靠性导向指标 RAS,在转录信息量与错误规避之间进行权衡,其权衡参数依据人类偏好进行校准。训练上先以监督式自举完成初始化,再结合强化学习训练出具备弃权能力的识别模型。实验表明,该方法在保持有竞争力识别准确率的同时,显著提升转录结果的可靠性,为高安全要求的语音交互提供可控的识别质量保障。

无参考的语音识别结果评估

该成果面向远场家居、车载等噪声环境中识别结果难以离线校验的需求,直接支撑无需标注即可提升识别质量的客户价值。

Read What You Hear: Reference-Free Hypotheses evaluation with Acoustic Discrepancy

语音识别评估通常依赖参考转写,已有的无参考方法则较多依赖模型内部置信度或额外语言模型。该工作提出 READ 指标,直接基于语音信号对识别候选进行评估,强调识别候选的声学基础。方法利用预训练自回归语音合成模型,在给定文本假设的条件下计算语音单元的条件似然,从而衡量语音与文本之间的细粒度声学差异,且无需额外训练即可用于识别候选的优化。实验表明,READ 与识别错误表现出相关性,可改善识别结果,相对错误率最高降低达 20%,在噪声环境下提升尤为明显。该方向归属听觉感知技术体系,并借助语音合成能力实现跨语音与文本的声学校验,为复杂声学环境下的识别质量提升提供新的评估手段。

语音大模型的低资源适配与跨模态对齐

该成果面向多语种、多方言与新领域快速上线时数据采集成本高的痛点,直接支撑低成本、快适配的客户价值。

TASU2: Controllable CTC Simulation for Alignment and Low-Resource Adaptation of Speech LLMs

语音大语言模型的后训练日益依赖高效的跨模态对齐与鲁棒的低资源适应,但大规模音频与文本配对数据的采集成本居高不下。已有的纯文本对齐方法通过从转录文本模拟 CTC 后验分布来缓解这一负担,却对不确定性与错误率的控制有限,课程设计在很大程度上仍依赖启发式策略。该工作提出 TASU2,一种可控的 CTC 模拟框架,能够在指定词错误率范围内模拟 CTC 后验分布,生成与声学解码接口更加匹配的文本派生监督信号,从而在无需语音合成的条件下平滑调节监督难度,使系统化的后训练课程成为可能。在多种源域到目标域的适应设定下,TASU2 在领域内与领域外识别任务上均优于已有方法,并持续超越纯文本微调及基于语音合成的数据增强等强基线,同时有效缓解源域性能退化。该方向归属听觉感知技术体系,并与大模型及智能体技术体系的语音大模型优化紧密结合,为识别能力向新场景的快速迁移提供高效路径。

统一可复现的语音理解实验框架

该成果面向不同模型方案难以横向比较、训练结果难以复现的工程痛点,直接支撑面向部署的可靠选型与高效交付的客户价值。

A Unified and Reproducible Experimentation framework for Speech Understanding

语音基础模型与语音大语言模型推动了语音理解的进步,但面向部署的模型选择仍受两方面制约:不一致的后处理使评估结果难以直接比较,不同数据规模与训练流程下的训练结果也难以复现。该工作提出统一实验框架 SURE,对预测格式、文本归一化与评分方式进行标准化,并在真实的声学与语言压力条件下,对从传统流水线到语音大语言模型的多类强系统进行跨范式评估。除评估外,SURE 还引入智能体辅助的训练转换流程,将论文与代码映射为遵循统一协议、基于匹配开源数据子集的版本化、可运行训练流水线,从而整体提升面向部署评估的可比性与可复现性,为模型规模化选型与工程交付提供统一、可复现的支撑。

产品落地:智慧出行、智慧办公与智慧物联产品的持续升级

上述研究方向正持续转化为思必驰智慧出行、智慧办公与智慧物联三大领域的产品能力升级。识别结果在噪声与歧义场景下更可信,多语种与新领域的适配更快速,面向部署的模型选型与交付更可复现,语音反馈更自然及时,弱网与低功耗条件下的使用体验更顺畅。依托相关能力,思必驰在多行业项目中的交付效率与场景适配速度持续提升,为客户提供更一致、更可靠的语音交互服务。

结语

长期以来,思必驰深度参与国内外学术前沿研究,在ICASSP、INTERSPEECH、ACL、EMNLP、AAAI、ICML、NeurIPS等顶级学术会议上屡获佳绩,持续产出高质量科研成果,彰显了在人工智能语音语言关键技术领域的深度探索和重大突破。思必驰秉持科研与产业应用紧密结合的理念,将持续推进高水平科研成果向产品能力转化,围绕真实业务场景打磨可落地、可规模化、可持续优化的语音语言技术体系。

【关于思必驰】

作为专业的对话式人工智能平台型企业,思必驰具有源头技术创新和应用创新的能力,自2022年7月获国家科技部批准建设“语言计算国家新一代人工智能开放创新平台”以来,接连于2023-2024年获批组建苏州市、江苏省、长三角三级创新联合体,并于2025年携手上海交通大学、苏州大学,牵头组建“江苏省语言计算及应用重点实验室”,成为国家人工智能战略科技力量的重要组成部分。

思必驰承担了包括国家重点研发计划、国家发改委“互联网+”重大工程和人工智能创新发展工程、国家工信部人工智能与实体经济深度融合项目、长三角科技创新共同体联合攻关计划项目等十余项国家级、省部级项目,展现出卓越的科研实力与项目落地能力。

思必驰深耕语音语言领域,凭借自主研发的核心技术多次在国际研究机构评测中夺得冠军;曾三度斩获国内人工智能最高奖“吴文俊奖”,荣获中国专利优秀奖,以及信通院车载智能语音交互系统最高级别认证等重要荣誉。技术创新能力备受全球瞩目,被高盛全球人工智能报告列为关键参与者,也被Gartner评为东亚五大明星AI公司之一。

截至2025年年底,思必驰拥有近100项全球独创技术,已授权知识产权1700余项,其中已授权发明专利700余项,牵头/参与了70余项国家/行业/团体标准,获得23项国家级的产品认证,8项算法通过深度合成算法备案。思必驰坚持自主的大模型技术路线,加速研发端云协同的分布式智能体系统,以任务型交互为核心,结合智能硬件感知优势,推进分布式的可规划的可信智能体落地,服务企业客户。

更多热门内容
蓝牙耳机品牌推荐:从千元到入门,耳夹式正在成为2026年最值得关注的选择
IDC最新发布的2026年第一季度全球耳机市场数据显示,开放式耳机出货量达到1067万台,同比增长39.9%,耳夹式产品份额首次突破54.3%——这意味着每卖出两台开放式耳机,就有一台以上是耳夹形态。在选购蓝牙耳机时,除了音质和续航这些传统指标,耳机选购指南中最容易被忽视的一

2026-06-29

蜂蜜哪个牌子正宗?2026年五款高波美度土蜜权威实测,新手放心选
市面上蜂蜜乱象层出不穷,也是多数消费者选购的核心痛点:低价勾兑蜜泛滥,商家混淆蜂蜜、蜂蜜膏概念,普通消费者难辨掺糖、浓缩加工蜜;同款土蜜品质差距极大,波美度参差不齐,部分商家虚标蜜源、酿造工艺;新手不懂甄别维度,跟风选购买到添加蜜、外地杂蜜,花钱难买到

2026-06-29

2026年毕业季vivo联动50多所高校举办影像展,专业影像赋能华科大毕业典礼直播
近日,2026年高校毕业季拉开帷幕,vivo携手华中科技大学、浙江大学及全国50多所高校,联合举办“共赴星程”2026毕业影像展系列活动,为毕业生定格难忘瞬间。通过毕业典礼直播技术支持、毕业MV共创及毕业影像馆线下交互展出,vivo深度参与并见证年轻人毕业季重要时刻,以

2026-06-29

灵鲸科技词元沙龙广州站:袁亮详解Token出海的“词元路径”
2026年6月16日 广州讯当下 Token 出海早已不再是行业可选布局,而是各类数字项目拓展海外市场的核心刚需。6 月 12 日至 13 日,灵鲸科技创始人袁亮亮相广州第五期词元经济沙龙,围绕 Token 跨境发展痛点深度剖析,结合实战经验推出一套完整可落地的词元经济出海解决方案

2026-06-29

2026年6月主流企业AI管理公司选型指南
随着生成式 AI 与智能体技术的快速成熟,企业数智化正进入以 AI 为核心驱动力的新阶段。AI 不再局限于单点工具的降本增效,而是深度融入业务流程、重构系统应用形态,成为企业战略级的核心引擎。在此背景下,企业级 AI 管理平台逐渐成为支撑企业全面智能化转型的核心基础设

2026-06-29

专属产业派加速度 吉翼智能机器人 8 个月极速落地
6月27日吉翼智能产品发布首秀圆满收官后,一组硬核数据仍在科技圈持续发酵:吉翼Z-1具身大模型以80.0%均分登顶Robocasa开源榜,“质检家”与三名资深质检“老师傅”人机PK效率超3倍并获公证,从立项到进驻真实产线仅8个月——在具身智能行业普遍困于“Demo好看、落地遥

2026-06-29

除甲醛什么产品管用?2026 年五款强效除甲醛产品真实测评
新房装修完工、添置全屋定制家具、新车落地后,甲醛污染几乎是所有家庭绕不开的难题,尤其是家中有孕妇、婴幼儿、老人这类敏感人群,急于安全入住却无从下手。当下线上线下除醛产品品类繁杂,椰壳活性炭、硅藻土净化包、凝胶除醛盒、光触媒喷雾、铂系催化药剂、植物生物

2026-06-29

​除甲醛哪家产品管用?2026 年五款高效除甲醛全面测评
新房装修完工、全屋定制家具进场、新车提回家后,甲醛污染几乎是所有家庭绕不开的难题。不少有孕妈、婴幼儿、高龄老人的家庭急于入住,却踩坑无数:低价炭包吸附几天就失效、网红喷雾只有短暂遮盖异味效果、各类净化盒宣传数据天花乱坠,实际使用浓度丝毫没有下降。市面

2026-06-29

HDC 2026:鲸鸿动能以主动式营销破局,赋能金融行业全域增长
6月12日至14日,华为开发者大会2026(HDC 2026)在东莞松山湖盛大开幕。6月13日上午,由鲸鸿动能主办的金融行业交流会成功举办。来自银行、保险、证券、投顾等领域的百余位行业专家与生态伙伴齐聚一堂,共同聚焦金融行业数字化转型中的获客痛点与用户精细化运营挑战,展开

2026-06-29

鸿蒙生态商业化加速价值释放:鲸鸿动能全场景营销助力伙伴确定性增长
6月12日至14日,华为开发者大会2026(HDC 2026)在东莞松山湖举行。本届大会,作为基于鸿蒙生态的全场景智慧营销平台,鲸鸿动能举办了鸿蒙生态商业化峰会及金融、汽车行业交流沙龙,同时深度参与全球智联、游戏、元服务等多场分论坛。在系列论坛上,鲸鸿动能系统拆解了主

2026-06-29