马斯克力推Grok4，AI竞赛步入“马斯克时代”-信息流-ITBear科技资讯

近期，科技界的焦点汇聚于特斯拉创始人埃隆·马斯克，他在一场盛大的直播活动中，亲自为其旗下人工智能公司xAI的最新旗舰大模型Grok 4站台，尽管面容略显疲惫，但言辞间难掩兴奋。

马斯克在直播中大放异彩，将Grok 4誉为“宇宙最强模型”，声称其智慧已超越所有领域的人类博士，甚至预言Grok 4发明新科学或新物理定律只是时间问题。他进一步强调，Grok 4在解决代码问题上，比现有的Cursor更加高效。

为了证明其言论非虚，马斯克公布了Grok 4在“人类最后的考试”（Humanity's Last Exam）中的惊人表现，该测试被誉为AI世界的终极试炼，涵盖数学、化学、语言学等上百个学科。Grok 4以38.6%的准确率力压群雄，远超谷歌Gemini 2.5 Pro和OpenAI o3的21%左右。而多智能体版本Grok 4 Heavy更是达到了44.4%，在工具辅助下更是攀升至50.7%。

这一成就的背后，是xAI耗时6个月构建的10万块H100 GPU超级算力中心，以及Grok 4相较于前代10倍乃至100倍的训练量。马斯克在直播中透露，xAI采用了“暴力计算美学”，不计成本地投入资源，只为打造出这一顶尖AI模型。

在商业应用方面，马斯克同样雄心勃勃。他计划在8月推出代码模型，9月上线多模态智能代理，10月则发布视频生成模型。Grok已被集成到特斯拉最新固件中，未来还将通过Optimus人形机器人与现实世界进行交互。

在多个高难度基准测试中，Grok 4展现出了卓越的能力。马斯克自豪地表示，Grok 4在人文、数学、物理、工程等领域均达到了博士以上水平，其智慧远超几乎所有学科的研究生。在“人类最后的考试”中，Grok 4凭借其强大的推理能力脱颖而出，减少了对现有知识框架的依赖。

除了在数学邀请赛中获得满分、在GPQA问答中取得高分外，Grok 4还在ARC-AGI-2测试中登顶，得分远超第二名。在商业模拟任务Vending-Bench中，Grok 4同样表现出色，证明了其长期规划和多步骤推理能力。

Grok 4采用了创新的“工具原生融合”架构，在训练阶段就嵌入了搜索、代码执行等工具，使其能够灵活调用资源解决复杂问题。例如，在直播演示中，Grok 4通过检索学术论文和调用模拟工具，成功生成了黑洞碰撞的可视化动态模型。

然而，尽管Grok 4在推理和复杂知识整合方面表现出色，但在代码、多模态、图像和视频生成等方面仍有提升空间。xAI推出的Super Grok Heavy订阅计划也引发了关注，其高达300美元的月费较OpenAI顶级订阅贵了50%，API定价同样高昂。

高定价的背后是训练成本的陡增。马斯克坦言，Grok 4的训练量百倍于前代，依托10万块H100 GPU集群完成。他甚至表示，目前已几乎没有合适的问题来考验Grok 4的能力了，这从侧面印证了模型能力已逼近当前测试的极限。

马斯克对Grok 4的终极目标是与现实世界交互。他透露，今年Grok 4还将融合有限元分析、流体动力学等工具，构建高精度物理模拟器。同时，Grok 4将通过Optimus人形机器人连接现实，接受物理定律的最终检验。特斯拉最新固件已预埋Grok，未来或将作为车载语音助手及自动驾驶的“大脑”。

马斯克在直播中强调，安全是AI发展的首要任务。他表示，AI就像超级天才的孩子，最终会比人类更聪明，但我们仍需灌输正确的价值观。在AI寻求真理的路上，如何在开放性与安全性之间找到平衡，是马斯克等科技领袖必须面对的挑战。

尽管Grok 4取得了令人瞩目的成就，但AI大模型的快速迭代也意味着竞争日益激烈。有多少用户愿意为高昂的订阅费用买单，仍是未知数。同时，Grok近期因发表不当言论而引发的争议也提醒我们，AI的发展需要更加谨慎和负责任的态度。

随着马斯克的布局逐渐成型，自动驾驶、AI大模型、人形机器人、商业航天等领域将形成闭环。Grok大模型作为“大脑”，将驱动特斯拉自动驾驶和Optimus机器人的行动决策。而特斯拉车辆与机器人反馈的真实场景数据，则将反哺模型迭代。SpaceX星链提供的全球低延迟通信将支撑实时AI交互。