ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

当你的童年男神学会了多种语言无缝切换

时间:2022-05-26 15:19:02来源:互联网编辑:星辉

字节跳动 AI Lab 语音与音频团队已能提供超过「17种语言」、「13种方言」、「100+不同风格」媲美真人的音色,其音频生成能力也通过火山引擎逐步面向市场开放。

经常在抖音上看视频或者使用过剪映创作短视频的朋友,一定对下方视频里的声音非常熟悉:

01.jpg

听完了不同音色、不同语言的配音, 再来见识一下中、英、日三种语言无缝切换的海绵:

02.jpg

无论是丰富的多语言配音,还是跨语言合成,这些令人惊艳的声音效果都来自于语音合成技术。近期,为上述能力提供技术支持的字节跳动 AI Lab Speech & Audio Team 智能语音与音频团队(后文简称 SA团队 )已经将最新升级的多语言、跨语言合成技术落地,用户可以在视频创作工具剪映、CapCut平台使用这些功能。企业用户也可以通过火山引擎使用到同款音频技术。

「听得懂」、「说得好」、「会的多」的音色是这样生成的

在跟随CapCut深入不同国家地区本地化的过程中,字节跳动SA团队为其提供当地使用语言的合成能力。想要提供符合当地文化、满足当地创作内容偏好且丰富多样的音色,对语种数量、音色丰富度、语言地道性、风格表现力、生产速度等都提出了极大的挑战。

传统TTS(语音合成)的制作过程是,选择一位能说地道语言的发音人录制大量高质量语音数据,通过有该语言专业背景的团队进行标注处理,最后通过合成技术训练出对应音色,实现上线运用。然而在目标为多语种合成的前提下,传统的语音合成方式面临以下问题:

● 数据获取难:不同国家的文化法律对深度合成技术限制不同,且除中美日等配音行业较为发达的国家地区外,经过专业培养的优质发音人较为稀缺,可选发音人资源受限。

● 专业要求高:录制的音频数据需要懂该语言的专业人士进行数据标注处理,部分小语种专业人才获取难度极高。

● 训练难度大:传统技术框架下,很难细粒度建模不同语言、不同风格的韵律效果,使得合成声音的表现力难以达到创作者的更高预期。

● 消耗成本高:相比中文,多语言生产无论是从发音人,专业人士配置、过程生产都会产生更高的成本。

为了解决这四大难题,字节跳动SA团队提出了多语言、跨语言合成方案,低成本高效批量地生产出「听的懂」、「说的好」、「会的多」的音色。

● 「听的懂」指发音准确、清晰,可懂度高。

● 「说的好」指口音地道,符合Native speaker习惯。

● 「会的多」指单语发音人可以具备多种语言、口音能力。

这一方案主要在细粒度韵律建模和跨语言迁移两个方向进行突破:

细粒度韵律建模,打造不同语言、口音、风格的音色矩阵

不同的语言、方言、风格都具备自身的韵律特点,有不同的语速、语调、重音模式等语音变化信息,这种细粒度的韵律特征显著地影响着发音准确性和地道性,尤其是对于像英语这样的重音语言(pitch-accent language),而传统的端到端神经网络框架很难隐式建模和控制这种细粒度的韵律特征变化。

为了解决细粒度韵律建模的问题,字节跳动SA团队研发了音素级别细粒度韵律建模的AM架构(Fine-grained prosody modeling in neural speech synthesis using ToBIrepresentation,Yuxiang Zou,etc,Interspeech 2021),通过引入了音素级别ToBI韵律特征(包括pitch accent、phrase accent和boundary tone),结合音素级的pitch、energy构成的variance adaptor,可以分别实现音节、短语、和句子级别语调、重音模式变化。相比于传统的隐式韵律特征学习,该方案可以实现更加准确、地道的语音,达成单语言「听的懂」、「说的好」的目标。

640.png

跨语言迁移,突破资源瓶颈,实现同一声音演绎多国语言

虽然基于细粒度的韵律建模可以实现更加准确、地道的语音合成效果,但这依旧要求发音人本身要具备相应的语言能力,还要满足一定数据量,极大的限制了TTS扩量能力,难以满足业务拓展的速度,以及对视频创作热点、爆款音色的快速跟进。

那么如何让发音人突破这个限制 ?实现「会的多」的目标是提升语音合成产能的关键。

字节跳动SA团队将迁移学习技术应用到了语音合成当中,结合无监督表征学习技术,研发了跨语言迁移的声学模型框架,主要解决特征空间解耦和分布映射的问题,通过SCLN和无监督表征,达到说话人、韵律、风格等特征解耦,将不同语种映射到同一个发音空间。通过跨语言迁移技术,可以实现让一个非母语发音人,具备达到native speaker程度的说话能力,实现跨语言「说的好」、「会的多」的目标。

640 (1).png

同时为了提高标注效率,研究人员还研发了相应的自动切分工具和标注工具,自动标注流程的建立,使数据标注不再成为瓶颈。

640 (2).png

通过技术的不断探索与迭代、主动适应不同国家地区的用户需求,SA团队已能提供超过「17种语言」、「13种方言」、「100+不同风格」媲美真人的音色,并且在「跨语言迁移」效果上取得突破,成功应用到视频配音场景,为剪映、CapCut国内外各地区的创作者们提供了更优质的本地化配音能力,在多个国家和地区获得用户的广泛好评。

来看看真实用户们的声音:

640 (3).png
640 (4).png
640 (5).png

翻译:CapCut的文本朗读功能好厉害,「坊ちゃん」 (萌娃)真的是可爱娃娃的声音,好自然… 帅大叔的声音也有了吗?twitter@mikisandayo_

640 (6).png

翻译:CapCut新出的文本朗读音色通用性很强,而且超级卡哇伊!大家喜欢哪个声音呢~

03.jpg

随着技术能力在业务上得到不断的验证,用户真实的声音越来越大。SA 团队的音频生成能力也通过火山引擎逐步面向市场开放,为多个行业伙伴提供领先的音频技术。包括为互娱用户提供丰富的配音玩法,激发创造力;为小说用户提供沉浸式听书体验,打造精品AI主播;为智能交互企业、硬件厂商打造助手音色实现降本增效等等;并在视频剪辑、有声书、汽车、电商等行业均达成了行业头部客户合作,成功实现了能力在各行各业中的应用与拓展。

关于字节跳动AILab智能语音与音频团队

字节跳动 AI Lab Speech & Audio 智能语音与音频团队,致力于为公司各个业务提供音频理解、音频合成、对话交互、音乐检索和智能教学等多种 AI 能力与方案。自 2017 年成立以来,团队专注于研发行业领先的 AI 智能语音技术,不断探索 AI 与业务场景的结合,以实现更大的用户价值。为今日头条、抖音、剪映、西瓜视频、番茄小说、飞书办公套件、大力智能教育台灯等字节跳动旗下的明星级产品提供了各类 AI 解决方案。截至目前,已服务了上百个业务合作伙伴。伴随字节跳动业务的快速发展,SA团队的语音识别和语音合成覆盖了多种语言和方言。未来,SA团队希望发展 70+ 语言和 20+ 方言,用于满足内容创作与交流平台的需求。团队已有 17 篇论文入选 AI 顶级会议,其中音频生成方向接受了 8 篇论文。(来源:火山引擎 )

作者:张兴


更多热门内容
国补手机哪些适合大学生:联想razr60与edge 60精选
开学季来临,换新手机是许多大学生的刚需。作为学生党,既追求时尚外观和实用功能,又对价格敏感,有国补又能叠加学生优惠的手机无疑是双赢的选择。即使预算不多也可拿下主流直屏手机,还可考虑时尚潮流的折叠屏,比如联想moto razr 60系列。以下就给学生朋友们分享折叠

2025-08-21

国补加持下的平板电脑推荐:从百元助学到旗舰AI
在当前国补政策的红利下,平板电脑市场的价格变动使得消费者迎来了难得的入手良机。联想作为国内平板市场的主流品牌,旗下多款产品均纳入国补范围,从百元级助学神器到旗舰级AI生产力工具,形成了完整的价格梯度覆盖。这里我将分享其中六款热门的平板型号,从性能解析、

2025-08-21

2025国补尾巴,笔记本电脑值得推荐的三大系列
2025 年笔记本国补政策进入最后三个月冲刺期,截至12月31日,购买联想指定机型可享双重福利:直接补贴最高2000元+学生认证额外9折,综合优惠力度创年内新高。本次聚焦拯救者、小新、YOGA三大系列八款核心机型,按游戏电竞、移动办公、创意设计三大场景分类推荐,结合国

2025-08-21

从“手动挡”进入“AI智能挡”:亚数TrustAsia 开启证书管理「服务化」新时代
在数字化转型加速推进的当下,TLS/SSL证书作为网络安全体系的关键基础设施,通过实现端到端加密传输、身份验证,为保障企业关键业务数据安全和构建可信网络环境发挥着至关重要的作用。随着密码学技术向抗量子计算范式演进,行业对加密敏捷性(Cryptographic Agility)要求

2025-08-21

科隆游戏展:纯血进化 ROGXBOX掌机X正式发布
核心亮点:l 全新软件生态体验:ROG联手XBOX共同打造,融合XBOX全新前端、奥创智控中心SE、Windows开放式体验优势,便携式游戏体验全面跃升l 握持体验大升级:全新手柄设计优化人体工学曲线,引入XBOX标志性的脉冲扳机,媲美专业XBOX手柄舒适握持l 次世代性能:首发搭载

2025-08-21

不止能干活!新能源汽车排行爆款上汽大通大拿V1重新定义轻客角色
说实话,要不是亲身体验过,我真不会相信我们家开得最多的车,竟然是一台轻客。以前一直觉得轻客就是干活用的,拉货、送快递那类,和家用根本不搭边。但生活总有些现实需求:家里有人做小本生意,有孩子要接送,还有老爸喜欢自驾游。原来的小轿车早就不够用了,换来换去

2025-08-21

声态+AI |2026中国国际音频产业大会(GAS)明年3月举办
随着生成式AI的快速发展声音已成为人机交互、虚拟现实和情感体验的核心纽带GAS 2026将共同探讨AI如何重塑音频创作、传输与消费的全链条2026中国国际音频产业大会(GAS 2026)时间:2026年3月25—26日地点:上海张江科学会堂主题:声态+AI主办单位:中国电子音响行业协会

2025-08-21

益生菌对增肥哪个牌子好看完这篇不再纠结
你有没有过这样的经历:明明吃得不多,体重却一直上不去,甚至有点“喝凉水都难胖”的无奈?我就是这样一个肠胃敏感、代谢快得像开了挂的人。试过增肌粉、蛋白棒、高热量饮食,效果微乎其微。直到三年前,一位营养师朋友提醒我:“你是不是忽略了肠道环境?吸收不好,吃再多也没

2025-08-21

深耕垂类大模型!中关村科金入选2025年《财富》中国科技50强
2025年8月21日,全球最具影响力的商业媒体之一《财富》(FORTUNE)正式发布“2025年中国科技50强”榜单。中关村科金凭借在垂类大模型领域从技术研发、平台应用到产业落地的全链条能力,成功登榜。《财富》系列榜单一直被视为全球商业发展趋势的风向标,具有极高的权威性和

2025-08-21

下一个爆款在哪儿?2025英特尔人工智能创新应用大赛获奖名单揭晓
8月16日,2025英特尔人工智能创新应用大赛总决赛暨颁奖典礼在深圳盛大启幕。历经层层选拔,从2817支年轻队伍中脱颖而出的40个优秀团队和作品,围绕工业、教育、心理健康、游戏等领域,展开了巅峰对决。最终,在总决赛现场,各项重磅大奖尘埃落定。其中,动力电池多机器

2025-08-21