谷歌搜索新技能：40秒AI生成播客式音频摘要-信息流-ITBear科技资讯

谷歌在搜索领域迈出了创新一步，近日在其官方博客上宣布，实验室于6月13日推出了音频概览（Audio Overviews）功能。这是谷歌首次在搜索结果中整合由人工智能生成的播客式音频摘要，标志着AI技术在信息检索领域的又一次重要应用。

与之前的NotebookLM项目不同，此次音频概览并非简单移植，而是基于相同技术框架的独立功能扩展。用户在Chrome浏览器中搜索复杂话题，如“神经网络的工作原理”或“氩元素的用途”时，该功能即被激活。点击“生成音频概览”按钮后，大约40秒即可听到由两位AI“主持人”以对话形式呈现的语音总结。

音频概览功能的实现依赖于Gemini模型，该模型能够在前10秒内迅速抓取网页内容并进行语义分析。接下来的25秒，Gemini基于分析结果构建问答脚本，模拟出符合逻辑的对话框架。最后5秒，模型完成语音合成并输出。这一过程中，播放器提供暂停、倍速调节及原文跳转功能，非常适合驾驶、烹饪等无屏场景。

然而，为了提高响应速度，音频概览的交互能力有所牺牲。与NotebookLM能够实时追问不同，此版本仅支持单向输出，用户无法即时提出新问题。该功能目前仅面向美国用户提供英文服务，非英文搜索内容无法生成对应音频摘要。

NotebookLM作为谷歌推出的个性化AI研究助手，支持多种格式文档上传，并能提供精准摘要和对话形式的内容呈现。而音频概览功能则延续了NotebookLM的对话式音频技术，能够提取搜索结果首页内容，帮助用户更便捷地理解信息。用户还可以调整播放速度，实现“边听边看”的沉浸体验。

值得注意的是，音频概览功能早在2024年9月已在NotebookLM中亮相，并呈现出完整形态，支持用户实时追问。今年5月，外媒报道称该功能沿用了谷歌I/O大会发布的“重构信息流”技术架构。为了优化用户体验，谷歌技术团队将音频生成时长固定在40秒左右，旨在验证用户对这一基础功能的接受程度。

随着6月13日的升级更新，音频概览功能正式在谷歌搜索结果中面向用户开放。这一创新不仅丰富了搜索结果的呈现方式，也为用户提供了更加便捷的信息获取途径。在教育场景中，学生可以通过收听AI主播的40秒音频，更高效地吸收复杂概念；科研人员则可以突破文字壁垒，通过语音摘要加速跨学科知识整合。

然而，技术伦理问题也随之浮现。AI“主持人”对信息的取舍逻辑尚未透明，双人对话形式可能存在诱导性解读风险。因此，在享受技术带来的便利时，我们也需要关注并探讨如何建立更严格的信息溯源机制，确保信息的准确性和公正性。