ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

Gemini 3 Flash 突袭:跑腿小弟差点打败了GPT-5.2

时间:2025-12-18 08:02:20来源:爱范儿编辑:快讯

一个月前,谷歌发布了最新的 Gemini,从此我们进入了 Gemini 3 的时代。

那以后, Gemini 3 Pro 就成了我干活的主力。

但说实话,它反应是真慢,而且很多时候我只是问些简单问题,完全没必要深度思考。

所以,一直期待速度飞快的 Flash 系列重新回来。

终于,在今天,Gemini 3 Flash 来了!

图:谷歌 CEO 宣布 Gemini 3 Flash 发布

谷歌这一波操作属实把我惊到了。

官方号称它“比快更快”,而且智商不减反增。

本来是一个“小弟”人设,但你看看它排名,居然仅次于OpenAI 最新的模型 GPT 5.2了。(就差 2 分

真让人情何以堪呐?

图:第三方机构评测 Gemini 3 Flash 的综合指标

废话不多说,咱们赶紧来扒一扒,这个新出的 Flash 到底香不香。

01 到底是个啥?

简单来说:把 Pro 的脑子,装进了 Flash 的身体里。

以前我们对“Flash(轻量级)”模型的印象是什么?

跑得快,便宜,但是……有点“笨”。处理复杂任务时经常翻车。

但这次 Gemini 3 Flash 彻底打破了这个刻板印象。

遇到闲聊、简单查询: 它就轻装上阵,秒回,省流又省钱;

遇到烧脑难题: 它能立马调动深层算力,像老教授一样深思熟虑。

它大脑似乎有个变速箱。

它甚至在性能、成本和速度方面突破了帕累托极限。(AI 界的性价比极限)

图:Gemini 3 Flash 在性能、成本和速度方面突破了帕累托极限

官方数据显示,它的 Token 消耗比 Gemini 2.5 Pro 少了 30%,但智商却在线。

说人话就是:多快好省!

图:Token 消耗率对比

这种“该省省,该花花”的 AI,谁不爱?

02 凭数据说话:这波“以下犯上”有点狠

咱们不整那些虚头巴脑的形容词,直接看跑分数据,谷歌这次是真的下了血本。

我看了一眼实测数据,甚至有点不敢相信:它在很多任务上接近自家最强的模型 3 Pro,甚至有些指标还干掉了Pro 版。(这样礼貌吗?

特别是那个让无数 AI 汗流浃背的 ARC-AGI-2 测试……

还让人意想不到的是:Gemini 3 Flash 全面碾压了上一代的旗舰版本 2.5 Pro。(前浪死在沙滩上

图: Gemini 3 Flash 的各项指标

先说说这个 ARC-AGI-2。

之前 GPT 5.2 发布让大家印象深刻,其中有一个原因就是这个指标碾压所有模型。

老粉都知道,ARC 评测集是 AI 圈最难啃的骨头,甚至没有之一, 主要测试模型到底有没有脑子。

它是由 Keras 之父 François Chollet 搞出来的,专门用来反死记硬背的。

比如这种题目:

图:ARC-AGI 2 题目

以前的模型,MMLU 这种考试能拿 90 分,一碰到 ARC 这种需要“举一反三”的智力题,立马现原形,得分低得可怜。

这项指标 Flash 竟然超过了自己的 Pro 大哥,仅次于 GPT-5.2!

这个小弟,要造反了有点脑子!

在另一项指标: GPQA Diamond(研究生级别的专家推理测试)里,它拿了 90.4 分。

意思就是智商堪比博士。

看这个数字,它的推理能力已经和那些大块头的前沿模型(Pro 版)平起平坐了。

在著名的“Humanity's Last Exam(人类最后一场考试)”这种地狱级难度的测试里,Gemini 3 Flash 居然考出了 43.5% 的高分(Tools on 模式)。

图:HLE 分数对比

它跟 GPT-5.2(45.5%)这种超级旗舰模型,只差了不到 2 分!

朋友们,别忘了,这可是一个 Flash 模型啊!

它的定位本来是“跑腿小弟”,结果一不小心把“业界大佬”们的饭碗给砸了。(面子?不存在的。

这哪里是“轻量版”,这分明是“披着闪电侠外衣的超人”。

在多模态测试(MMMU Pro)中得分 81.2%,看图、看视频的能力基本和 Gemini 3 Pro 五五开。

也就是,眼神儿更好使。

图:MMMU-Pro 指标对比

最让我意外的是这个——在 SWE-bench Verified(代码智能体测试)中,它得分 78%。

直接超越了 Gemini 2.5 全系,甚至在某些这就需要改代码的任务上,比 Gemini 3 Pro 还要好用!

本来以为它动动嘴还行,没想到写代码更溜!

一句话总结:它不是“丐版”,它是“精简版战神”。

03 为什么我建议你立马换用 Flash?

作为这一年多几乎天天都在用 AI 的人,我觉得 Gemini 3 Flash 带来的改变是肉眼可见的:

1. 真的太快了!⚡️

根据第三方测评(Artificial Analysis),它的速度是 2.5 Pro 的 3 倍。

自动播放

以前问 AI 一个问题,你可能还得切出去回个消息等它写完。

现在?你字刚打完,它答案就怼到你脸上了。

这种“跟手”的感觉,对于我们需要快速写文案、改代码的人来说,简直是救命。

2. 价格那是相当感人

更多热门内容
智能驾驶“新引擎”:自主创新、开放协作、品牌出海共绘汽车产业新蓝图
我国车企正以主动开放的姿态,积极融入全球创新网络,在引进、融合国际先进技术的同时,加速构建起既扎根中国实际、又具备全球视野的产业创新生态。唯有以开放汇合力、以创新固根本、以出海练筋骨,方能完整勾勒出中国汽车产…

2026-01-12

高端两轮车市场崛起:从九号发展看行业新趋势与增长潜力
分城市类型讨论:①类型1:九号目前密度较高的一线城市(例如北京)预计从拓店转向提店效,凭借高线级城市两轮车β、九号产品力及租金模型优势,预计店效提升的阻力不大;②类型2:九号密度不足的一线/新一线城市(尤其南…

2026-01-12

从儿童到老人,陪伴机器人如何以科技之力重塑情感消费新生态?
字节跳动推出的“显眼包”AI毛绒玩具,虽最初是中秋礼盒赠品,却因出色的情感交互能力,在二手平台炒至300-1000元;珞博智能Fuzozo自今年6月正式线上发售至今销量已突破12万台,成为目前销量最高的AI陪…

2026-01-12

Meta推出XR语言学习应用Spatial Lingo:AI赋能打造沉浸式入门新体验
该应用的人工智能系统具备双重核心能力:一方面聚焦物体检测以构建词汇库,另一方面搭载3D辅助模块为用户提供指导。 Spatial Lingo并未宣称可实现用户的英语流利掌握,其本质是一款演示应用,内置多项具备…

2026-01-12

机器人轴承怎么选?从品牌到性价比,一文解锁靠谱供应商选择攻略
在选择机器人轴承供应商时,品牌和口碑是不可忽视的因素。一些国际知名品牌在机器人轴承领域拥有多年的研发和生产经验,其产品广泛应用于各类机器人中,深受用户信赖。在机器人领域,海峰海林轴承也凭借其优质的产品和服务…

2026-01-12

MIT天才博士毕业即投身新锐公司 聚焦大模型预训练 年薪或达300万起
2024年2-5月期间,他作为英伟达实习生,研究方向是为长上下文大语言模型推理加速。他和团队提出了DuoAttention,结合检索与流式注意力头,实现高效推理。 这篇论文的价值在于,构建了一整套高效大模…

2026-01-12

马斯克预言:未来3-7年AI将颠覆职场,白领岗位或首当其冲面临变革
他表示,未来3-7年将非常难熬,因为人类难以同时适应剧变与繁荣。只要是涉及数字的,比如只需敲击键盘和移动鼠标,电脑完全可以做到,AI当然能做到……过渡期将会很颠簸,因为人类不喜欢这种剧变,我们将面临剧烈的变革…

2026-01-12

马斯克等大佬齐发声:中国在AI竞赛中凭电力优势或领先美国
马斯克认为,“中国在AI竞赛中的决定性优势在于其扩大电力生成规模的能力。”“由于人工智能需要巨大的电力,可靠且充足的电力供应很可能成为决定这场竞赛结果的关键因素,尤其是因为电力基础设施的瓶颈问题解决起来可能…

2026-01-12

从游戏引擎到数字孪生:跨界极客与科技巨头如何重塑地图的未来
过去的地图是“拍照片”,记录哪里有什么;现在的“世界模型”则是“造大脑”,它试图理解整个城市运行的逻辑:红绿灯的变换规律、早晚高峰的人潮走向、无数司机和外卖员之间的微观博弈。 我们曾以为地图是世界的影子,但现…

2026-01-12