文小言焕新升级：一键生成吉卜力风，语音大模型与图片问答亮点多多-人工智能-ITBear科技资讯

在百度AI DAY的盛会上，文小言迎来了品牌的全面焕新与功能的重磅升级。此次升级，文小言不仅引入了百度自研的文心大模型X1和4.5，还整合了满血版DeepSeek-R1、可灵等第三方模型，实现了多模型的融合调度。

更文小言此番还推出了全新的语音大模型、图片问答、AI生成图片与视频等一系列创新功能，为用户带来了更加丰富多样的使用体验。用户现在可以选择“自动模式”，一键调用最优模型组合，无需再为不同任务频繁切换模型。当然，如果用户有特定需求，依然可以选择使用单一的DeepSeek或文心大模型。

百度AI产品创新业务负责人薛苏表示，AI的未来已经超越了单纯的技术参数竞争，而是聚焦于如何通过多模型的协同工作，为用户创造真正的价值。文小言致力于打造一个开放的生态，整合顶尖的模型能力，从而推出更强大、更简洁的AI产品。

在实际测试中，文小言展现出了强大的功能。当使用文心大模型X1来设计一款吉卜力风格的帆布包时，它能够准确解析风格特点，并连续调用AI绘图工具，快速生成帆布包的正反面效果图。而文心4.5的多模态分析能力，则能精准识别出照片中的地理位置、背景建筑等城市特点。

吉卜力风格帆布包设计效果图

布鲁克林大桥照片识别效果

文小言还支持在拍摄过程中直接用语音提问，能够自动拍摄并识别语音进行回答。在图片问答的基础上，文小言还能基于原图进行一键二次创作，例如上传一张水杯的照片，就能设计出同款的抱枕和鼠标垫。不过，当原图元素过于复杂时，仍可能出现文字拼写错误或主体不一致的问题。

语音提问与自动拍摄回答示例

基于原图的一键二次创作示例

文小言还整合了百度的拍照搜题功能，用户只需在拍摄界面选择“解题老师”，就能自动调用百度教育长期积累的资源，很多题目还配备了视频版数字人讲解。同时，文小言还支持重庆、广西、河南、广东、山东等特色方言对话，并能切换多种音色，如蜡笔小新、孙悟空、熊大熊二等，既能处理复杂知识问答，也能在角色扮演中随时中断。

方言对话与音色切换示例

据百度语音首席架构师贾磊透露，文小言此次推出的语音大模型是业界首个基于全新互相关注意力机制的端到端语音语言大模型，其调用成本比行业平均水平降低了50%-90%，推理响应速度极快，将用户等待时长缩短至约1秒。虽然目前暂不支持图生图功能，但文小言已经融合了文生图、AI修图、AI视频生成以及“图个冷知识”等科普解读向的新功能。

在谈及文小言的商业模式时，薛苏表示，过早进行商业化探索或在用户基础不稳定的情况下进行商业化尝试，可能会对产品造成损失。因此，目前文小言将全面拥抱免费策略，并专注于提升用户体验，这是他们的首要任务。