谷歌发布Gemini Embedding 2模型：支持多模态数据，简化流程提升检索精度-业界动态-ITBear比尔科技

谷歌近日宣布推出其首个原生多模态嵌入模型——Gemini Embedding 2，标志着人工智能在跨模态数据处理领域迈出重要一步。该模型突破了传统嵌入模型仅支持文本的局限，能够同时处理文本、图像、视频、音频和文档五种数据类型，并将它们映射到统一的向量空间中，为机器理解复杂信息提供了全新工具。

与生成式AI模型如Gemini 3不同，嵌入模型的核心功能在于数据理解而非内容创作。Gemini Embedding 2通过将非结构化数据转换为数学向量形式，使计算机能够精准捕捉语义关系。例如，在法律诉讼场景中，该模型可同时分析合同文本、监控视频和音频证据，快速定位关键信息。测试数据显示，在处理数百万条记录时，多模态嵌入技术使检索精度提升显著，尤其在图像和视频搜索方面表现突出。

该模型支持100种语言的语义意图识别，并设定了明确的数据处理规范：文本输入上限为8192个token，图像支持PNG/JPEG格式且单次最多处理6张，视频输入时长限制在120秒内（支持MP4/MOV格式），音频可直接处理无需转录，文档则支持最多6页的PDF文件。这种设计既保证了处理效率，又覆盖了主流应用场景的需求。

谷歌工程师透露，Gemini Embedding 2已通过Gemini API和Vertex AI平台开放预览服务。现有用户可在保持gemini-embedding-001文本模型使用的同时，体验新模型的多模态能力。技术文档显示，该模型特别优化了"图像+文本"混合输入场景，能够自动分析不同媒体间的关联性，为智能客服、内容推荐等应用开辟新可能。

行业分析师指出，多模态嵌入技术的成熟将重塑信息检索范式。传统关键词搜索依赖精确匹配，而向量搜索通过语义理解可返回更符合上下文的结果。例如，当用户搜索"蓝色连衣裙"时，新模型不仅能识别商品图片，还能理解描述文字中的材质、款式等细节，甚至关联到穿搭建议视频。这种能力在电商、医疗、教育等领域具有广泛应用前景。

OpenAI整合Sora入ChatGPT：激活用户增长，应对谷歌Gemini竞争挑战

OpenAI正计划将旗下视频生成AI工具Sora整合进ChatGPT，此举标志着该公司在产品策略上的重要转向。OpenAI于2024年2月首次预览这一视频生成AI，同年12月在独立网站正式向公众开放，并于去年…

2026-03-11

OpenClaw“龙虾”爆火背后：技术跃迁下的受益者与普通人的距离

OpenClaw爆火，更关键的是，它做对了一件事——降低了部署Agent的心理门槛，即使技术门槛并没有真正降低。也就是说，OpenClaw虽然看起来降低了部署的心理门槛，但对普通用户而言，它仍然是一款典型…

2026-03-11

从滞销到脱销：Mac mini因AI“龙虾”逆袭，狂欢背后安全隐忧待解

当“养龙虾”成为新潮流，Mac mini从边缘产品跃升为“AI神器”，这场由技术狂欢点燃的市场异动，既照见了开源智能的潜力，也暴露了普通用户面对新技术时的认知盲区与安全风险。更关键的是，用户不愿将高权限智能体…

2026-03-11

谷歌Gemini Embedding 2登场：全模态融合，开启AI嵌入技术新篇章

3月10日，谷歌DeepMind推出Gemini Embedding2，这是该公司首个原生多模态嵌入模型，将文本、图像、视频、音频及文档统一映射至单一嵌入空间，标志着AI嵌入技术迈入全模态融合的新阶段。 G…

2026-03-11

禾赛科技ATX焕新版激光雷达获北汽多款车型定点，2026年量产交付订单超400万台

2026-03-11

爱奇艺，陷入“降本增效”死循环

2026-03-11

雷军这次真把车险价格打下来了！小米官方车险在北京上线

2026-03-11