百度语音大模型革新上线：对话超逼真，成本大降，1秒快答-人工智能-ITBear科技资讯

在人工智能技术日新月异的今天，百度再次引领了语音交互领域的创新风潮。近日，百度正式推出了业界首个基于全新互相关注意力（Cross-Attention）机制的端到端语音语言大模型，并率先在其产品文小言中上线，供用户免费体验。

此次升级后的文小言，以“超逼真语音交互、超低时延响应、超低成本应用”三大亮点吸引了广泛关注。其不仅能准确识别并回应重庆、广西、河南、广东、山东等地的特色方言，还能在对话中融入丰富的情感，使交互体验更加自然流畅。在时延方面，文小言将用户等待时间从行业普遍的3-5秒缩短至约1秒，几乎与真人对话无异。而在成本上，该模型在电话语音频道的问答场景中，调用成本较行业平均水平降低了50%-90%。

据百度语音首席架构师介绍，该语音语言大模型能够部署在L20卡上，在满足语音交互延迟要求的前提下，双L20卡的并发处理能力可达数百以上。模型的训练流程也极为便捷，基于文心大模型，仅需数百张卡优化一周即可完成，且优化工作并不复杂。

文小言不仅集成了包括天气查询、日历查询、单位换算、股票股价查询等在内的38个垂类助手，实现了高效的信息获取，还能应对时效性和非时效性问题。无论是百科查询、时政知识类问答，还是常识问答，文小言都能迅速给出精准答复。更重要的是，文小言能够与用户进行情感充沛的交流，快速响应反馈，实现了逼真拟人的交互效果。

在实际应用中，文小言展现了其强大的方言识别能力和多轮交互能力。例如，在面对小朋友多次打断的情况下，文小言能够准确识别其需求，并适时给出有情感的回复，营造出自然对话的氛围。当用户提到心情不好时，文小言的语音中透露出担心，并引导用户说出原因进行开导，展现了其作为情感陪伴者的潜力。

百度此次推出的端到端语音语言大模型，在技术创新方面取得了显著突破。作为业界首个基于Cross-Attention跨模态的语音语言大模型，该模型将Encoder与语音识别结合，使KV计算效率提升至十分之一。同时，Encoder与语音合成结合，实现了输出内容的情感控制。百度还研发了高效的全查询注意力EALLQA技术，进一步降低了KV cache的使用量。

在模型训练过程中，百度采用了自蒸馏方式进行post-train训练，以成熟的文心语言预训练模型为基础，成功训练出了Cross-Attention端到端语音语言大模型。这一创新性的跨模态建模技术，实现了语音识别与大语言模型的深度融合，为语音交互领域带来了革命性的变化。

在成本方面，该模型实现了低成本训练和低成本高速推理。通过流式逐字的LLM驱动的多情感语音合成技术，模型能够快速响应并给出有情感的回复。这一技术的应用，使得语音交互场景的应用潜力大幅提升，为大规模工业化应用提供了可能。

百度在语音识别领域的深厚积累，为此次创新提供了坚实的基础。从Deep Peak 2模型到流式多级的截断注意力模型SMLTA，再到基于历史信息抽象的流式截断conformer建模技术SMLTA2，百度不断突破技术瓶颈，推动了语音识别技术的快速发展。此次端到端语音语言大模型的推出，更是将百度在语音交互领域的技术优势发挥到了极致。

为了推动语音语言模型的规模化应用，百度已将其上线至文小言并免费开放。未来，该模型还将接入呼叫中心、音箱等业务线上，为更多用户提供高效便捷的语音交互体验。百度表示，将持续开放其技术创新成果，推动大语言模型在语音领域的应用，促进整个行业和生态的发展。

星海图A轮融资再传捷报，A2、A3轮累计超3亿，凯辉基金领衔

4月3日，具身智能机器人公司星海图宣布接连完成A2、A3轮系列融资，总融资额超3亿元人民币；本系列融资由凯辉基金领投，联想创投、海尔资本等产业资本参投，老股东IDG资本、高瓴创投、百度风投、同歌创投等追投。截…

2025-04-03

荣耀新设产业孵化部，大力招募具身智能等领域精英

据悉，荣耀已设立新产业孵化部，下设具身智能实验室、具身数据实验室、交互安全实验室、动力总成实验室、仿生本体研究实验室。在某招聘网站上，荣耀提供了机器人数据生成算法工程师、一体化关节设计师、机器人动力系统仿真工…

2025-04-03

OpenAI转型营利性公司，组建专家小组探索非营利挑战新路径

2025-04-03

ChatGPT付费用户激增至2000万，营收年增长率近30%！隐忧何在？

2025-04-03

无需ChatGPT！噜咔博士AI拍学机让孩子秒变"宫崎骏"

近日,OpenAI CEO山姆·奥特曼在直播中展示了ChatGPT如何将一张真人自拍照转换为动漫图片,并将自己的社交媒体头像更换为吉卜力风格图像。随后,一场“吉卜力风格”创作狂潮迅速在全球蔓延开来。这场技术与情怀的狂欢之中,噜咔博士AI拍学机上线全新「网红日漫风格」AI特效

2025-04-03