谷歌Gemini Omni模型发布：跨模态编辑新突破，自然语言指令轻松改大片-业界动态-ITBear科技资讯

在最新一届Google I/O开发者大会上，谷歌推出了具有突破性意义的Gemini Omni多模态人工智能模型。这款模型不仅能够处理文本、图像、音频和视频等多种输入形式，还具备跨模态内容生成与编辑能力，标志着人工智能技术在多媒体处理领域迈出了重要一步。

据谷歌介绍，Gemini Omni在音频处理方面已实现初步突破。虽然目前仅支持语音输入功能，但公司计划在短期内扩展更多类型的音频输入能力，进一步丰富用户交互方式。这一特性使其在语音助手、智能客服等场景中具有广泛应用潜力。

该模型的核心优势体现在其深度视频编辑功能上。用户只需通过自然语言指令，即可对视频内容进行精细修改，包括添加或删除特定对象、调整摄像机视角、改变场景环境与艺术风格等操作。这种交互方式显著降低了视频创作的专业门槛，使普通用户也能轻松完成高质量视频制作。

在内容生成质量方面，Gemini Omni展现出强大的逻辑推理能力。通过对物理规律的理解和跨学科知识的整合，模型生成的视频在角色行为、场景转换和视觉叙事上保持高度连贯性，甚至能够根据上下文自动推演后续情节发展。更引人注目的是，用户可以创建个性化数字分身，并将其自然融入视频场景中。

针对生成内容的安全性问题，谷歌同步推出了技术保障措施。所有通过Gemini Omni生成的视频都会自动嵌入SynthID数字水印，这种隐形标记可通过Google搜索和Chrome浏览器进行验证，有效防止虚假信息的传播。这一举措体现了谷歌在推动AI技术创新的同时，对内容真实性的高度重视。

在产品落地方面，首发版本Gemini Omni Flash已通过Gemini应用向个人用户开放。拥有Google AI Plus/Pro/Ultra订阅服务的用户，以及YouTube Shorts混剪创作者和YouTube Create应用用户，均可免费体验这项新技术。企业客户稍后将获得API接口权限，以便将模型能力集成到自有产品中。

Google DeepMind负责人哈萨比斯在发布会上强调，Gemini Omni代表了人工智能发展的重要方向。通过整合多模态处理能力和复杂场景理解，该模型正在推动AI系统从执行特定任务向具备通用认知能力演进，为构建更智能的人机协作模式奠定了基础。

科梦奇迎宾机器人：解锁接待新场景，从入口到导览的智能服务全攻略

品牌对比如何理解科梦奇机器人侧重迎宾接待、场馆讲解、路线引导和内容展示，适合需要长期运行的接待空间。日常使用中的任务分工迎宾机器人更适合承担清晰、重复、可标准化的岗位。科梦奇机器人在部署时，应结合入口视线…

2026-05-31

Hermes Agent智能体赋能Coredoo Store：构建全域电商智能运营新生态

Hermes Agent 智能体框架的出现，为企业搭建了一个“人机协同、数据驱动、智能决策”的全新商业中枢，将商城系统从传统管理平台升级为智能化运营生态。通过全域触点的覆盖，HermesAgent 智能…

2026-05-31

小米REDMI K90至尊版入网：骁龙8至尊版加持，165Hz高刷屏6月登场

作为旗舰系列，所有版本均为旗舰配置起步，确保整体性能需求，而区别在影像、续航、处理器、散热等方面，进行精准调整。整体性能同样达到旗舰级别，可流畅运行各大手游，而且是高画质+高帧率模式下，提升视觉+游戏体验…

2026-05-31

拯救者Y70新机来袭！2K大屏搭配8000mAh电池，6月9日开启游戏新体验

“高配置、高性能”成为高端机、旗舰机、游戏手机的主力方向，主要是考虑到高负载场景运行，尤其是大型游戏，具备高画质+高帧率模式，流畅与视觉体验兼顾。新机整体亮点明确，比如2K大屏、三重散热、高续航、第五代骁龙…

2026-05-31

小米米家冰箱Pro对开620L今日首发！双系统双循环，超大容量仅售2499元

2026-05-31

智元世界模型GE 2.0以2B参数登顶WorldArena榜单轻量化适配性获验证

2026-05-31

小米MiMo-V2.5系列大揭秘：全链路优化技术细节首公开，推理成本大降

据介绍，该团队围绕 Hybrid SWA + MoE + 多模态的复合架构，系统性重构了从 KVCache管理、分级缓存、前缀缓存到调度策略与 Prefill / Decode 链路的完整推理栈，KVCa…

2026-05-31

专为水上运动而生！零零科技哈浮AQUA飞行相机开启水上拍摄新纪元

AQUA 不仅延续了哈浮飞行相机经典的 AI 智能运镜、无需遥控器的交互体验，更在 IP67专业级防尘防水、水面起降的可靠性，以及专为水上运动优化的飞行性能等方面，实现了革命性突破。 AQUA 致力于攻克…

2026-05-31