谷歌近日为Chrome浏览器带来了一次重要更新,在最新版本中深度整合了Gemini 3.5 Flash模型,并推出了一项名为“从屏幕选择”的创新交互功能。这一功能允许用户直接通过框选屏幕特定区域的方式,与AI展开精准对话,无需在不同工具或模型之间来回切换,显著提升了网页浏览时的AI交互效率。
根据官方介绍,当用户在Chrome浏览器中启用Gemini功能时,只需用光标划出想要分析的文本或图片区域,被选中的内容便会自动作为附件嵌入用户输入的提示词中。这种操作方式与Google Lens的视觉搜索功能有相似之处,但区别在于它不会跳转至传统搜索结果页,而是直接将局部信息输入对话式AI框架,使智能体能够针对具体细节提供更精准的解答。
新功能的实用性体现在多个场景中。例如,在电商网站浏览商品时,用户可以框选多双鞋子的图片,让AI根据运动风格推荐最适合的款式;面对复杂的图表数据时,框选特定区域即可获得更通俗易懂的解释;甚至可以选取网页中的设计元素,让AI提供创意改造建议。这些场景化应用让AI交互从全局分析转向局部深耕,使用体验更加自然流畅。
除了交互方式的革新,Gemini 3.5 Flash模型还集成了原生计算机操作工具。这使得AI智能体能够跨平台执行复杂任务,包括自动访问网站、填写长表单、点击按钮以及收集数据等操作。这种深度整合让浏览器不再仅仅是信息获取工具,而是具备了主动协助用户完成工作流程的潜力,为端侧AI应用开辟了新的可能性。


