ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

Soul App开源播客语音合成模型SoulX-Podcast,河南话、四川话等多方言与副语言风格

时间:2025-10-29 17:39:30来源:互联网编辑:茹茹

近日,Soul App AI团队(Soul AI Lab)正式开源播客语音合成模型SoulX-Podcast。该模型是一款专为多人、多轮对话场景打造的语音生成模型,支持中、英、川、粤等多语种/方言与副语言风格,能稳定输出超60分钟、自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话。

除了播客场景以外,SoulX-Podcast在通用语音合成或克隆场景下也表现出色,带来更真实、更生动的语音体验。

SoulX-Podcast表现

Demo Page: https://soul-ailab.github.io/soulx-podcast

Technical Report: https://arxiv.org/pdf/2510.23541

Source Code: https://github.com/Soul-AILab/SoulX-Podcast

HuggingFace: https://huggingface.co/collections/Soul-AILab/soulx-podcast

SoulX-Podcast亮点:流畅自然多轮对话、多方言、超长播客生成

零样本克隆的多轮对话能力

在零样本克隆播客生成场景中,SoulX-Podcast 展现出卓越的语音生成能力。它不仅能高度还原参考语音的音色与风格,更能根据对话语境灵活调节韵律与节奏,让每一段对话都自然流畅、富有节奏感。无论是多轮长时对话,还是情感层次丰富的交流,SoulX-Podcast 都能保持声音的连贯与表达的真实。此外,SoulX-Podcast 还支持笑声、清嗓等多种副语言元素的可控生成,让合成语音更具临场感与表现力。

多语种和跨方言的克隆能力

除中英文外,SoulX-Podcast 同样支持四川话、河南话、粤语等多种主流方言。更值得关注的是,SoulX-Podcast 实现了跨方言音色克隆——即便仅提供普通话的参考语音,模型也能灵活生成带有四川话、河南话、粤语等方言特征的自然语音。

超长播客生成

SoulX-Podcast可以支持超长播客的生成,并维持稳定的音色与风格。

聚焦语音,AI重构情感纽带

一直以来,声音都是传递信息和情感的重要媒介,也最能在沟通中赋予“情绪温度”和“陪伴感”。在Soul,用户积极通过语音实时互动,表达自我、分享交流,收获新关系,语音成为用户构建链接的“情感纽带”,“语音社交”也成为平台颇具代表性的标签之一。

在推进AI+社交的过程中,智能对话、语音生成、情感化表达等语音能力是Soul重点布局的方向。此前,平台端到端全双工语音通话大模型全面升级,并在站内开启内测。新模型赋予 AI 自主决策对话节奏的能力,AI可主动打破沉默、适时打断用户、边听边说、时间语义感知、并行发言讨论等,实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。

同时,团队推出了自研的语音生成大模型、语音识别大模型、语音对话大模型等语音大模型能力,快速应用于“虚拟伴侣”、 群聊派对(多人语音互动场景)等多元场景中。

例如,9月,Soul 的两位虚拟人——孟知时与屿你——在群聊派对中发起了一场持续约40分钟的对话,在没有任何额外投流、仅依靠虚拟人自身自然流量的情况下,这场活动迅速引爆社区,房间互动热度刷新平台纪录,受到了广大用户的热烈欢迎。

这一成功案例让 Soul 的 AI 技术与虚拟IP运营团队深刻意识到:“虚拟IP + AI语音对话” 正在成为虚拟内容生态的重要增长点。它不仅展现了虚拟人的人格魅力与表达张力,更揭示了 AI 在内容创作与社交互动中的全新潜能。

然而,当时业界能够稳定支持多轮自然对话的开源播客生成模型相对较少,并且当场景从单人独白扩展到多人对话与长篇播客时,也普遍面临一些问题。为此,Soul 团队决定开源 SoulX-Podcast, 希望能携手 AIGC 社区,共同探索 AI 语音在内容创作、社交表达与虚拟生态中的更多可能。

开源新阶段,探索AI+社交更多可能

相比传统的单说话人语音合成系统,播客语音合成系统不仅需要保持文本与语音的精准一致,还要具备更强的上下文理解能力,以实现多轮对话间语音衔接的自然流畅与节奏的动态变化。此外,面对多角色交互和超长对话场景,系统还需在音色一致性、风格延续性以及角色切换的准确性上实现更高水平的控制与建模。

近来,已有部分开源研究开始探索播客或对话场景下的多说话人、多轮次语音合成能力。然而,这些工作仍主要聚焦于普通话或英语,对中文受众广泛的方言(如粤语、四川话、河南话等)支持不足。此外,在多轮语音对话场景中,恰当的副语言表达——如叹息、呼吸、笑声——对提升对话的生动性与自然度至关重要,但现有模型对此普遍关注不足。

而SoulX-Podcast正是希望解决这些痛点:不仅支持多轮、多角色的长对话生成,同时兼顾方言覆盖和副语言表达能力,使播客语音更贴近真实交流场景、富有表现力与生动感,从而提升听众的沉浸体验和内容传播力。

整体SoulX-Podcast模型基础结构上采用了常用的LLM + Flow Matching的语音生成范式,前者建模语义token,后者进一步建模声学特征。在基于LLM的语义token建模方面,SoulX-Podcast 以 Qwen3-1.7B 作为基座模型,并基于原始文本模型参数进行初始化,以充分继承其语言理解能力。

尽管SoulX-Podcast是专为多人、多轮对话场景设计的系统,但在传统的单人语音合成与零样本语音克隆任务中同样表现优异。在播客生成任务中,相较于近期相关工作,SoulX-Podcast 在语音可懂度与音色相似度方面均取得了最佳结果。

SoulX-Podcast在播客场景下的表现

SoulX-Podcast在通用TTS上的表现,*官方模型的复现结果

此次 SoulX-Podcast 的开源,是 Soul 在开源社区领域的一次全新尝试,也是一个新的起点。 Soul团队表示,未来将持续聚焦语音对话合成、全双工语音通话、拟人化表达、视觉交互等核心交互能力的提升,并加速技术在多样化应用场景与整体生态中的融合落地,为用户带来更加沉浸、智能且富有温度的交互体验,持续提升个体的幸福感与归属感。同时,团队将进一步深化开源生态建设,与全球开发者携手,共同拓展 AI 语音等前沿能力的边界,探索 “AI +社交” 的更多可能。

更多热门内容
从《记忆奇旅2》到凌波OS:两轮出行正在进入“软硬件共生时代”
近期,由九号品牌出品、九号品牌全球代言人易烊千玺主演的科幻微电影《记忆奇旅2:最后上传》正式上线。影片上映12小时内,全平台播放量即破1亿次,远超第一部《记忆奇旅》播放量记录,并成为爱奇艺历史首支科幻榜排名第2的科幻微电影。影片延续“科技×情感”的叙事风

2025-10-29

积木易搭无线一体式3D扫描仪Toucan重磅发布:不依赖电脑,开启3D扫描“全域自由作业”新时代
1、国内无线便携式3D扫描仪市场大规模增长,积木易搭推出3D扫描仪新品无线一体式3D扫描仪Toucan近年来,随着光学测量、计算机视觉与人工智能技术的深度融合发展,以及元宇宙、智能制造、医疗健康、文化遗产保护及3D打印等行业需求的驱动,无线便携式3D扫描仪展现出强劲

2025-10-29

业绩逆转之外,Intel 18A与Panther Lake将成为重塑英特尔营收增长逻辑的关键变量
上周(2025年10月24日),英特尔公布的2025年Q3财报交出了近六个季度以来最为令人满意的答卷:在营收、毛利率和每股收益方面均超出公司指引,实现137亿美元营收,同比增长3%,经调整毛利率为40%,高于市场预估的36.1%;调整后每股收益0.23美元,大幅超出市场预期的 0.01 美

2025-10-29

维谛技术(Vertiv):从直流演进到锂电安全|直击AIDC供配电最前线
当算力需求以兆瓦级爆发,当AI浪潮重塑数据中心边界,你是否已准备好迎接这场技术风暴?随着智算中心迈向兆瓦级高密时代,供电系统正面临前所未有的三重挑战:高密、高效、安全可靠。面对持续暴增的AI算力需求,供电系统如何重构底层逻辑?日前,在“思无界 设想未来——

2025-10-29

健力宝荣获广东省光彩事业贡献奖
近日,广东省非公有制经济人士优秀中国特色社会主义事业建设者暨光彩事业贡献奖名单正式揭晓。广东健力宝股份有限公司凭借四十年在公益事业领域的持续贡献荣获“光彩事业贡献奖”。这一奖项旨在表彰为社会促创新、增就业、改善民生、积极承担社会责任的非公有制经济人士

2025-10-29

京东100万现金发布“比价悬赏令” 爆款产品直播间5折抢购
10月30日晚8点,京东全新打造的直播栏目——“京东家电家居采销比价值班间”即将正式开播。直播期间,京东家电各品类采销负责人将轮番坐镇直播间现场比价,誓要捍卫京东用户11.11低价权益。值得关注的是,京东宣布拿出100万元现金向全网发布“比价悬赏令”,网友可用京

2025-10-29

全球精英聚安平 共赴“智造”之约
10月22日,第25届中国・安平国际丝网博览会在“中国丝网之都”盛大启幕。本届博览会由中国五金制品协会、河北省丝网产业协会主办,安平丝网集团与北京合得沃展览有限公司联合承办,以“共享智造,数质共赢”为核心主题,以近4万平方米的规模吸引了4.3万余名全球行业精英

2025-10-29

三季度全球AMOLED智能手机面板出货量同比增长11.7% 维信诺排名全球第三
根据CINNO Research统计数据显示,2025年第三季度全球AMOLED智能手机面板出货量约2.5亿片,同比增长11.7%,环比增长20.3%,实现同比与环比双增长,市场景气度持续回升。国内面板厂商维信诺(002387)三季度出货量同比增长16.7%,出货量排名位居全球第三。随着第三季度传统

2025-10-29

西门子冰箱口碑好不好?德系精工品质和创新科技技术
在高端家电领域,西门子冰箱一直以其德系精工品质和创新科技技术享有盛誉。今天我们就来聊聊西门子冰箱口碑表现,并为大家推荐两款备受好评的无界系列产品。西门子冰箱整体口碑情况大部分用户反馈,西门子冰箱整体外观设计高端大气、简约时尚,能够轻松融入现代家居风格

2025-10-29

11.11必购好物:这几款三星Galaxy智能生态产品真“绝了”
双十一对很多人来说,不只是“购物节”,更像一年一度的装备换新日:趁着活动优惠,把日常高频使用的科技好物来次集体升级,那体验别提多爽了。尤其是像三星商城11.11的「魔力全开 狂补狂省」活动热销的耳机、平板、手表等三星Galaxy智能生态产品,可以在无缝互联的三星

2025-10-29