ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

谷歌推出全新 Gemma 4 12B 模型:轻松处理视觉与音频,无需编码器

时间:2026-06-04 13:11:08来源:CHINAZ编辑:快讯

近日,谷歌正式发布了其最新的统一多模态模型 ——Gemma 4 12B。这款模型具有 12 亿个参数,最大的亮点在于它不需要传统的多模态编码器,能够直接处理视觉和音频数据。为了适应消费级硬件的使用需求,Gemma 4 12B 仅需 16GB 的显存或统一内存,用户可以在高端笔记本电脑上本地运行,而不必依赖于云端计算资源。

Gemma 4 12B 的设计创新在于取消了传统多模态模型中的编码器组件。以往的多模态模型需要将图像和声音通过独立的视觉和音频编码器进行转换,而 Gemma 4 12B 采用了一种轻量级的嵌入层,简化了视觉输入的处理。它仅需进行一次矩阵乘法、位置嵌入和归一化操作,显著降低了计算复杂度。与此同时,音频信号则被直接投影到文本 token 的维度空间,省去了音频编码器的需求。这种无编码器的设计使得 Gemma 4 12B 在推理时的计算步骤减少,体积更为精简。

在性能表现方面,Gemma 4 12B 接近谷歌更大 26B MoE 模型的水平,在多项基准测试中展现出了卓越的多步推理能力和代理工作流能力。该模型还配备了 Multi-Token Prediction(MTP)drafters,能同时预测多个 token,从而加快推理速度。截至目前,Gemma 4 系列的累计下载量已经突破了 1.5 亿次,显示出开发者社区对该开源模型的热烈反响。

Gemma 4 12B 采用 Apache 2.0 许可证进行开源,权重文件已在 Hugging Face 和 Kaggle 等平台上线,支持多种推理框架,包括 LM Studio、Ollama、MLX、SGLang 和 vLLM 等。谷歌自家的 AI Edge Gallery 也为端侧部署提供了支持,开发者可以通过 Google Cloud 的 Model Garden、Cloud Run 和 GKE 等服务进行大规模的生产环境部署。

划重点:

更多热门内容
SpaceX上市路演揭秘:航天发射、星链通信与火星规划全解析
企业依托跨领域产业集群形成协同生态,关联车企、脑机接口、社交与AI企业形成技术与资源互通,Starlink为关联主体提供全球通信底座,海量用户数据反哺大模型研发,AI算力反向支撑卫星数据处理,构建天地一体化产…

2026-06-04

月球仅12人踏足,却堆积200吨垃圾?探月热潮下的环保挑战与应对之道
NASA于2月28日凌晨在肯尼迪航天中心宣布对阿尔忒弥斯计划进行架构大改:原定2028年实施载人登月的阿尔忒弥斯3号被降级为2027年的近地轨道对接测试,首次载人登月任务推迟到2028年由阿尔忒弥斯4号承担,…

2026-06-04

AI与能源双向赋能:从顶层设计到全域实践 开启高质量发展新篇章
具体来看,国家层面精准筛选高价值场景,摒弃华而不实的概念化应用,聚焦能落地、见实效、可推广的硬核场景;算电协同被纳入顶层施工图,实现算力负荷与电网调度双向对话、动态适配、协同运行;经营主体分工愈加清晰,能源…

2026-06-04