ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

马斯克揭秘Grok 4:智能大爆炸,全榜领先,年费高达两万

时间:2025-07-10 18:35:03来源:机器之心Pro编辑:快讯

在科技界的万众瞩目下,xAI公司今日正式揭晓了其酝酿已久的下一代大型模型——Grok 4。这一发布不仅吸引了众多科技爱好者的关注,就连科技巨头马斯克也亲自现身直播间,为Grok 4站台。

马斯克在直播中直言不讳地称赞Grok 4为“世界上最好的AI”,并展示了其惊人的能力。据他透露,Grok 4能在SAT考试(美国高考)中轻松获得满分,无需预览题目便能接近GRE任何学科的满分线,这一表现超越了全球所有研究生的水平。更令人震惊的是,Grok 4的推理能力已超越人类,马斯克甚至预言,它将在今年内实现科学新发现。

Grok 4之所以能取得如此显著的进步,得益于计算能力的增强和强化学习的训练。与前代相比,Grok 4的推理能力提升了10倍。从Grok 2到Grok 4,技术范式经历了从下一个token预测到预训练计算,再到预训练结合强化学习,最终以强化学习为核心的转变。特别是在Grok 3到Grok 4的跨越中,预训练阶段的计算量提升了10倍,并首次引入了强化学习微调,带来了深度推理能力。

Grok 4在调用工具能力上的提升也进一步放大了其智慧,使其能在各类高难度基准测试中取得远超当前最优模型(SOTA)的成绩。在HLE(Humanities Last Exam,人类最后的考试)基准测试中,Grok 4在使用工具的情况下,成绩远超其他SOTA模型,达到了前所未有的高度。特别是在给予更多思考时间和使用更多外部工具的情况下,其分数还能进一步提升。

除了HLE,Grok 4在其他基准测试中也表现出色,包括GPQA(研究生级别的Google验证问答基准测试)、AIME25(美国数学竞赛邀请赛)、LCB(编程竞赛/在线算法竞赛)、HMMT25(高中生团队数学竞赛)和USAMO25(美国顶级高中生数学竞赛)等。在这些测试中,Grok 4 Heavy均取得了最新的SOTA成绩,展示了其在各学科的全面实力。

马斯克在直播中多次强调,Grok 4现在在所有学科上都达到了博士后水平,没有发现新科学或新的物理定律只是时间问题。他甚至表示,如果Grok 4在今年内没有发现实用的新科学技术,他会感到意外。

在性能评估方面,大模型性能评估平台Artificial Analysis的全套基准测试成绩也证明了Grok 4的领先地位。其总成绩达到了73分,领先于其他知名模型如o3、Gemini 2.5 Pro、Claude 4 Opus和DeepSeek R1 0528等。

为了直观展示Grok 4的能力,xAI还分享了一些demo。例如,Grok 4能够基于物理原理生成HTML动画,模拟两个黑洞碰撞并产生引力波的可视化效果。这一动画不仅展示了引力波的模拟效果,还附带了推理过程和计算步骤的代码链接。

Grok 4在语音能力上也得到了加强。与上代相比,其语音速度快了2倍,端到端延迟更低,并支持5种语音。单日用户总停留时长也提升了10倍。同时,Grok 4还新增了Eve和Sal两个角色,其中Sal支持多种性格设定,Eve则具备唱歌和低语的功能。

在AGI(通用人工智能)领域的基准测试ARC-AGI中,Grok 4同样取得了最新SOTA成绩。这一测试旨在评估模型解决未见新问题的能力,被视为通向AGI的重要试金石。Grok 4在ARC-AGI-2上的表现几乎将之前的商业SOTA翻了一番,并超越了当前的Kaggle竞赛SOTA。

最后,在Vending-Bench基准测试中,Grok 4也展现了其在真实物理世界中执行复杂操作任务的能力。这一测试专注于解决仿真环境与现实世界之间的鸿沟,推动机器人技术在开放场景中的实际应用。

目前,Grok 4已通过API开放使用,提供256K tokens的上下文窗口。其付费模式分为年付和月付两种,价格相对昂贵。但考虑到其强大的能力和广泛的应用前景,这一价格或许并不令人意外。

更多热门内容
长征五号再立新功送大卫星入轨,缘何难担载人登月重任?
于是一个自然的问题也随之而来:既然长征五号可以把二十多吨级的空间站舱段送入近地轨道,也能把探测器送往月球甚至火星,那么它是否可以直接承担我国首次载人登月任务?但长征五号在设计之初并没有这一系统,也不具备相应结…

2026-06-13

郭守敬望远镜立功!中国科学家解密超级地球与迷你海王星演化差异
他们联合国内外科研人员,基于国家重大科技基础设施郭守敬望远镜(LAMOST)观测的大样本数据,结合国外其他卫星和望远镜观测数据,发现“超级地球”与“迷你海王星”在轨道偏心率与周期关系上遵循截然相反的规律,并从…

2026-06-13

服役超25年国际空间站关键机械臂故障 宇航员将太空行走更换备用件
月 13 日消息,当地时间 6 月 10 日,NASA 发文称,国际空间站关键机械臂“加拿大臂 2号”(Canadarm2)在例行操作期间出现故障,目前相关任务已暂停。 不过,该机械臂并非最初专为接驳飞船设…

2026-06-13

天问二号开启小行星绕行探测之旅,国产技术助力揭开2016HO3起源奥秘
从探测性价比与科学收益来看,美日探测器完成采样后航天器大多报废,天问二号返回舱落地地球交付样品,主体飞行器继续奔赴彗星,最大化利用深空航行燃料与硬件寿命,大幅摊薄单次航天发射成本,也让我国一次性集齐近地小行…

2026-06-13

北斗崛起:精度达0.3米内,140余国选用,GPS独霸时代或成过去式
中国北斗不光在精度上做到了国际一流,更关键的是,它已经从"中国自建"变成了"全球共享",140多个国家正在用,这个数字还在涨。 2025年北斗《蓝皮书》披露了一组数据:北斗服务覆盖全球200多个国家和地区,其…

2026-06-13