ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

谷歌Gemini Omni模型发布:跨模态编辑新突破,自然语言指令轻松改大片

时间:2026-05-20 21:15:59来源:快讯编辑:快讯

在最新一届Google I/O开发者大会上,谷歌推出了具有突破性意义的Gemini Omni多模态人工智能模型。这款模型不仅能够处理文本、图像、音频和视频等多种输入形式,还具备跨模态内容生成与编辑能力,标志着人工智能技术在多媒体处理领域迈出了重要一步。

据谷歌介绍,Gemini Omni在音频处理方面已实现初步突破。虽然目前仅支持语音输入功能,但公司计划在短期内扩展更多类型的音频输入能力,进一步丰富用户交互方式。这一特性使其在语音助手、智能客服等场景中具有广泛应用潜力。

该模型的核心优势体现在其深度视频编辑功能上。用户只需通过自然语言指令,即可对视频内容进行精细修改,包括添加或删除特定对象、调整摄像机视角、改变场景环境与艺术风格等操作。这种交互方式显著降低了视频创作的专业门槛,使普通用户也能轻松完成高质量视频制作。

在内容生成质量方面,Gemini Omni展现出强大的逻辑推理能力。通过对物理规律的理解和跨学科知识的整合,模型生成的视频在角色行为、场景转换和视觉叙事上保持高度连贯性,甚至能够根据上下文自动推演后续情节发展。更引人注目的是,用户可以创建个性化数字分身,并将其自然融入视频场景中。

针对生成内容的安全性问题,谷歌同步推出了技术保障措施。所有通过Gemini Omni生成的视频都会自动嵌入SynthID数字水印,这种隐形标记可通过Google搜索和Chrome浏览器进行验证,有效防止虚假信息的传播。这一举措体现了谷歌在推动AI技术创新的同时,对内容真实性的高度重视。

在产品落地方面,首发版本Gemini Omni Flash已通过Gemini应用向个人用户开放。拥有Google AI Plus/Pro/Ultra订阅服务的用户,以及YouTube Shorts混剪创作者和YouTube Create应用用户,均可免费体验这项新技术。企业客户稍后将获得API接口权限,以便将模型能力集成到自有产品中。

Google DeepMind负责人哈萨比斯在发布会上强调,Gemini Omni代表了人工智能发展的重要方向。通过整合多模态处理能力和复杂场景理解,该模型正在推动AI系统从执行特定任务向具备通用认知能力演进,为构建更智能的人机协作模式奠定了基础。

更多热门内容
科梦奇迎宾机器人:解锁接待新场景,从入口到导览的智能服务全攻略
品牌对比如何理解科梦奇机器人侧重迎宾接待、场馆讲解、路线引导和内容展示,适合需要长期运行的接待空间。 日常使用中的任务分工迎宾机器人更适合承担清晰、重复、可标准化的岗位。科梦奇机器人在部署时,应结合入口视线…

2026-05-31

Hermes Agent智能体赋能Coredoo Store:构建全域电商智能运营新生态
Hermes Agent 智能体框架的出现,为企业搭建了一个“人机协同、数据驱动、智能决策”的全新商业中枢,将商城系统从传统管理平台升级为智能化运营生态。通过全域触点的覆盖,HermesAgent 智能…

2026-05-31

小米REDMI K90至尊版入网:骁龙8至尊版加持,165Hz高刷屏6月登场
作为旗舰系列,所有版本均为旗舰配置起步,确保整体性能需求,而区别在影像、续航、处理器、散热等方面,进行精准调整。 整体性能同样达到旗舰级别,可流畅运行各大手游,而且是高画质+高帧率模式下,提升视觉+游戏体验…

2026-05-31

拯救者Y70新机来袭!2K大屏搭配8000mAh电池,6月9日开启游戏新体验
“高配置、高性能”成为高端机、旗舰机、游戏手机的主力方向,主要是考虑到高负载场景运行,尤其是大型游戏,具备高画质+高帧率模式,流畅与视觉体验兼顾。 新机整体亮点明确,比如2K大屏、三重散热、高续航、第五代骁龙…

2026-05-31

小米MiMo-V2.5系列大揭秘:全链路优化技术细节首公开,推理成本大降
据介绍,该团队围绕 Hybrid SWA + MoE + 多模态的复合架构,系统性重构了从 KVCache管理、分级缓存、前缀缓存到调度策略与 Prefill / Decode 链路的完整推理栈,KVCa…

2026-05-31

专为水上运动而生!零零科技哈浮AQUA飞行相机开启水上拍摄新纪元
AQUA 不仅延续了哈浮飞行相机经典的 AI 智能运镜、无需遥控器的交互体验,更在 IP67专业级防尘防水、水面起降的可靠性,以及专为水上运动优化的飞行性能等方面,实现了革命性突破。 AQUA 致力于攻克…

2026-05-31