ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

苹果携手高校推出PCG技术:AI语音生成效率与质量双提升

时间:2026-02-03 19:08:55来源:互联网编辑:快讯

苹果公司与特拉维夫大学联合研发的语音生成技术取得突破性进展,双方共同提出的“原则性粗粒度”(PCG)方法有效解决了AI文本转语音(TTS)领域长期存在的速度与质量矛盾问题。该技术通过创新性的验证机制,在保持音频自然度的前提下,将语音生成效率提升了近四成。

传统TTS系统普遍采用自回归模型架构,其工作原理类似于逐字拼写——每个语音单元的生成都严格依赖前序单元的精确匹配。这种机制虽能保证输出准确性,但过度严苛的验证标准导致系统频繁拒绝听觉效果相近的可行方案。研究团队发现,不同声学标记产生的实际听感差异往往微乎其微,现有技术的“单点验证”模式存在显著优化空间。

PCG技术的核心创新在于构建声学相似组体系。研究人员将具有相似听觉特征的语音单元归类为同一组别,系统验证时不再要求绝对精确匹配,而是允许预测结果落在合理范围内。这种“范围验证”机制通过双模型协作架构实现:轻量级预测模型快速生成候选单元,大型裁判模型负责审核组别归属。试验表明,该架构在保持4.09分自然度评分(满分5分)的同时,将生成速度提高了40%。

极限测试数据进一步验证了技术的鲁棒性。当研究人员故意替换91.4%的语音单元为同组其他选项时,系统词错率仅上升0.007,说话人特征相似度下降0.027,这些变化均处于人类听觉感知阈值之下。这种容错能力源于PCG对语音本质特征的把握——相比单个标记的精确性,系统更关注整体声学特征的连贯性。

该技术的工程化优势同样显著。作为推理阶段的优化方案,PCG可直接应用于现有模型而无需重新训练,声学相似组的存储需求仅约37MB内存。这种轻量化特性使其特别适合资源受限的边缘计算场景,为移动设备上的实时语音合成提供了可行路径。目前研究团队正探索将该技术扩展至多语言场景,进一步验证其通用性。

更多热门内容
真我海外新机与Buds T500 Pro耳机亮相,配置亮点多引关注
据悉,这款realme 真我 Buds T500 Pro 配备了 12.4mm 动圈单元,并通过 realme Link App 支持Spatial 360(360 度空间音频)技术;支持 50dB 的主…

2026-02-21

荣耀Magic V6预热徐梦桃成见证官 华为新机或配8000mAh电池引期待
此前爆料OPPO新款大折叠Find N6和荣耀新一代大折叠Magic V6均将在节后登场,现在荣耀这边率先开启预热。 而关于Magic V6这台尚未发布的新一代折叠屏旗舰,今日网上有更多徐梦桃在冬奥现场上手真…

2026-02-21

三星携手KT突破6G关键技术:7GHz频段X-MIMO验证成功,下行速率达3Gbps
该公司与 KT 公司、是德科技合作,成功在 7GHz 频段上验证了极致多输入多输出(X-MIMO)技术。7GHz 频段的 X-MIMO技术被视为核心 6G 技术,因为它通过更短的波长实现更高的天线密度来提…

2026-02-21

OPPO Find N6折叠屏3月17日发布!轻薄机身配2nm芯,续航影像全拉满
除了Find N6折叠屏旗舰,OPPO还宣布,将于3月17日同步发布A6i+千元续航神机,这款机型主打长续航和高性价比,搭载大容量电池和高效处理器,价格下探至1000元以内,满足预算有限用户的需求。据悉,O…

2026-02-21

三星Galaxy Z Flip7价格直降1500元,小折叠屏标杆之作触手可及
在这个追求个性与极致便携的时代,手机早已不仅仅是通讯工具,更是一种潮流配饰,当你第一次将三星Galaxy Z Flip7握在手中,那种精致如粉饼盒般的机械质感,会让你瞬间明白为什么依然有那么多人对三星的折叠屏…

2026-02-21