ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

腾讯云ASR基于大模型全新升级:首创多语言、多方言混合识别引擎

时间:2024-01-04 16:37:51来源:互联网编辑:快讯团队

近日,腾讯云语音识别(Automatic Speech Recognition,ASR)方案基于大模型能力全新升级,依托业界领先的自研语音识别技术和海量的语音行业大数据优势,可为不同行业、不同需求的客户提供高质量的语音识别服务,精准、高效助力千行百业持续创造应用价值、繁荣产业生态。

腾讯云ASR是将语音转化成文字的PaaS产品,依托微信智聆实验室自研技术,有效提高复杂场景的识别准确性,极大地改善复杂音频和低信噪比音频识别的效果。通过业界首创的高性能引擎,能够实现23种方言的语音识别,让用户无需事先定义方言,即可让模型进行自动化适应。突破现有ASR引擎的场景局限,腾讯云ASR在线下销售、下沉市场等不同场景都能够灵活、广泛地进行使用。

目前,腾讯云ASR已经在微信、王者荣耀等腾讯内部产品以及外部不同行业持续落地,覆盖录音质检、会议实时转写、语音输入法等多个场景,产品单日调用量达到百亿次,单月服务的内外部企业客户数达到数千个。

自研多模态融合、蒸馏算法,带来更准确的语音识别性能

语音识别(ASR)是AI最早的应用场景之一,业界不少方案目前仅能针对简单场景进行精准识别,一旦音频环境复杂,或者多人交错说话、声音重叠,识别准确率就会大打折扣。为了助力解决上述语音识别应用难题,腾讯云ASR自研多模态融合算法、蒸馏和半监督算法等,强化上下文理解能力,大幅减少语音数据的标记工作,更好地提升复杂识别环境的准确率。

通过自研多模态融合算法,腾讯云在模型预训练阶段加入文本大语言模型(LLM),增加上下文预测的准确率,对部分通过纯音频识别无法正确识别的场景有了更好的提升作用,在各行业数据集中(尤其是低信噪比数据集)取得更佳效果。同时采用无监督学习,使得模型中加入大量未经标注的低资源数据,在垂类行业音频和方言音频上取得了重大突破。

同时,腾讯云还自研蒸馏和半监督算法,利用有监督数据,可以让ASR的小参数模型同时学习真值数据和知识蒸馏的数据,利用蒸馏算法,让小模型学习更多数据的相似性,从而提升各自的性能水平。

业界首创高性能引擎,支持多语言和多方言的混合识别

随着智能汽车普及、短视频配音、企业出海等趋势的兴起,多语种、多方言的语音识别需求逐渐加大。如何应对不同口音、语言的准确识别,也成为腾讯云发力ASR大模型创新的焦点。

腾讯云通过采用自研的高新技术,打造多项业界首创的高性能引擎,进一步增强ASR混合识别能力。依托业界首创的支持多种语言和多方言的混合识别引擎,腾讯云成功构建了中文方言大模型能力。提升23个方言语种的平均识别准确率(平均提升指标在7%以上),识别过程无需事先定义方言种类,实现对“普通话+方言”识别场景的自动化适应,为不同语种用户提供更全面的服务,有效满足了跨省市的语音识别需求。

混合识别引擎之外,腾讯云ASR还支持热词增强版、ASR情绪识别等多项业界首创功能,极大地改善复杂音频和低信噪比音频识别的效果,提升高达20%。通过高准确率、业界首创的语音识别功能创新,腾讯云ASR解决市场上ASR引擎需求问题的同时,成功构建适配多个领域的语音识别大模型,进一步扩展了其在不同场景的应用范围。

灵活、广泛适配多种应用场景,成本可控、性价比更高

将智能客服通话录音转化成文本,可能出现违规用语、危险用语;多数厂商需要依赖有监督数据进行模型的优化,因此在部分对识别要求较高的场景上,客户无法寻求到更合适的解决方案。面对语音识别要求越来越高的现状,如何让客户获取到识别率更好、覆盖面更广、性价比更高的语音识别服务,成为腾讯云ASR努力的目标。

腾讯云语音识别方案不仅能够更好地解决现有ASR引擎在高并发、高可用性方面的局限,在智能客服、语音输入法、下沉市场等多种应用场景,展现出了强大的灵活性和广泛性,使得各行业、各种特征迥异的音频都能获得相对高性能和更准确地转写服务。

例如在智能客服场景,百应科技通过腾讯云ASR强化电话外呼、智能外呼场景的录音文件识别、实时语音识别,大幅提升呼叫中心工作质量管控能力,完成人力难以完成的超大规模呼叫中心的电话录音质检问题;在语音输入法场景,KK键盘依托腾讯云ASR进一步提升产品的趣味性,满足了客户语弹聊天、游戏键盘、趣聊等核心功能的设计,有效提升了产品的留存和转化,以及品牌商业价值。

当前,腾讯云ASR已经落地在客服质检、外呼中心、智能家居、游戏直播、会议转写、语音输入法、法庭、房地产、教育等多个行业,积累了丰富的行业词库和标杆案例。未来,腾讯云将继续推动语音识别能力创新升级,帮助更多应用场景将大模型的技术力价值转化生产力价值,助力产业发展。

更多热门内容
爱采购 《你好!厂长》第十期母亲节献映:看二胎妈妈闫婷,如何书写双面人生
“妈妈,你的梦想是什么?”这是一个简单却深刻的问题。当社会习惯性地将母亲的付出视为理所当然,她们是否还能有机会,去成为自己人生的主角?今年母亲节,爱采购希望用一个真实的故事,换一个不一样的答案。5月11日,由爱采购推出的行业观察栏目《你好!厂长》第十期于全网正式

2025-05-11

2025年京东618活动时间将从5月13日开始持续到6月18日,满减规则是?
近日,京东宣布将从5月13日晚8点至5月28日开启心动购物季活动,并计划于5月31日晚8点开启京东618活动。不仅现货开卖,推出“满200减20神券”、“跨店满减”、“官方立减”等促销玩法,还首次整合国家补贴与京东外卖百亿补贴等资源“补上加补”,给消费者带来一整个夏季

2025-05-10

1分钟了解国家补贴,2025年手机家电国补领取入口方法、结束时间和问题汇总
最近想买手机平板、空调彩电冰箱洗衣机电脑等家电的可千万别错过2025年的国家补贴!这波政策能帮你省下真金白银,最高能省2000元!目前京东线上购买一样可以领取国补后购买,今天手把手教你国补怎么领、怎么用,手把手教你把实惠领到手!2025京东手机国补领取方法:手机京东

2025-05-10

覆盖九成以上车型!网易云音乐上海车展亮眼表现引关注
2025年5月2日,为期10天的上海国际汽车工业展览会圆满落幕。亿欧智库发布《2025上海国际汽车工业展览会展后洞察报告》,对本次车展成果进行全景展示。报告显示,网易云音乐车载版覆盖九成以上车企及相关车型,成为热门车载音频品牌。据了解,网易云音乐凭借领先的AI歌曲

2025-05-10

萝卜快跑在港新进展:自动驾驶测试区域再扩大
日前,香港特别行政区运输署发布消息称,已根据《道路交通(自动驾驶车辆)规例》更新自动驾驶车辆试行牌照并扩大萝卜快跑自动驾驶车辆在香港的测试区域。运输署发言人称,萝卜快跑自2024年12月起在北大屿山进行道路测试至今,在不同道路场景中表现稳定,已达到高度自动化

2025-05-10

花瓣地图5.0全新升级,开启全球探索智慧出行新体验
2025年4月30日,全新升级的花瓣地图5.0版本在应用市场上线,华为手机用户升级HarmonyOS 5可在“应用市场”App进行更新。花瓣地图将以更智能、更沉浸的方式,开启全球探索智慧出行新体验,为旅程带来更多安心和底气,轻松玩转全世界。兴趣地图分层分级界面呈现,随心探索

2025-05-09

整整141亿营收!九号电动车凭啥拿下600万台销量王座?
九号公司最新捷报,2024年总营收达141.96亿元。国内外品牌战线持续发展,推出了魔术师K系列、机械师MMAX2系列等爆款,截止2025年3月10日,九号公司电动两轮车累计出货量达600万台,持续在全球范围大放异彩。

2025-05-09

营收突破140亿!九号电动车拿下600万台销量王座
九号公司最新捷报,2024年总营收达141.96亿元。国内外品牌战线持续发展,推出了魔术师K系列、机械师MMAX2系列等爆款,截止2025年3月10日,九号公司电动两轮车累计出货量达600万台,持续在全球范围大放异彩。

2025-05-09

更灵活、更超值的3D营销内容在线展示,积木易搭视创云展平台「功能套餐」新升级!
1、视创云展平台功能套餐升级,用户选择平台服务功能更灵活近日,积木易搭旗下的3D数字化营销展示服务平台——视创云展进行了平台功能套餐升级。本次套餐升级将平台资源服务升级为[个人版]、[专业版]与[企业版],三大版本收费标准不同,功能权限也不同。同时,将平台功

2025-05-09

来酷科技的AI行动:新模式、新硬件、新品牌
5月7日上海世博中心,在2025年联想创新科技大会(Tech World)的科技风暴中,作为集团控股的智慧零售与智能制造代表企业的来酷科技,以“AI智慧零售场景+产品孵化+新消费品牌”三重角色惊艳亮相——既完美承接集团AI战略在零售端的落地,又同步孵化出智能眼镜新物种与年轻

2025-05-09