近期,科技界的焦点汇聚于特斯拉创始人埃隆·马斯克,他在一场盛大的直播活动中,亲自为其旗下人工智能公司xAI的最新旗舰大模型Grok 4站台,尽管面容略显疲惫,但言辞间难掩兴奋。
马斯克在直播中大放异彩,将Grok 4誉为“宇宙最强模型”,声称其智慧已超越所有领域的人类博士,甚至预言Grok 4发明新科学或新物理定律只是时间问题。他进一步强调,Grok 4在解决代码问题上,比现有的Cursor更加高效。
为了证明其言论非虚,马斯克公布了Grok 4在“人类最后的考试”(Humanity's Last Exam)中的惊人表现,该测试被誉为AI世界的终极试炼,涵盖数学、化学、语言学等上百个学科。Grok 4以38.6%的准确率力压群雄,远超谷歌Gemini 2.5 Pro和OpenAI o3的21%左右。而多智能体版本Grok 4 Heavy更是达到了44.4%,在工具辅助下更是攀升至50.7%。
这一成就的背后,是xAI耗时6个月构建的10万块H100 GPU超级算力中心,以及Grok 4相较于前代10倍乃至100倍的训练量。马斯克在直播中透露,xAI采用了“暴力计算美学”,不计成本地投入资源,只为打造出这一顶尖AI模型。
在商业应用方面,马斯克同样雄心勃勃。他计划在8月推出代码模型,9月上线多模态智能代理,10月则发布视频生成模型。Grok已被集成到特斯拉最新固件中,未来还将通过Optimus人形机器人与现实世界进行交互。
在多个高难度基准测试中,Grok 4展现出了卓越的能力。马斯克自豪地表示,Grok 4在人文、数学、物理、工程等领域均达到了博士以上水平,其智慧远超几乎所有学科的研究生。在“人类最后的考试”中,Grok 4凭借其强大的推理能力脱颖而出,减少了对现有知识框架的依赖。
除了在数学邀请赛中获得满分、在GPQA问答中取得高分外,Grok 4还在ARC-AGI-2测试中登顶,得分远超第二名。在商业模拟任务Vending-Bench中,Grok 4同样表现出色,证明了其长期规划和多步骤推理能力。
Grok 4采用了创新的“工具原生融合”架构,在训练阶段就嵌入了搜索、代码执行等工具,使其能够灵活调用资源解决复杂问题。例如,在直播演示中,Grok 4通过检索学术论文和调用模拟工具,成功生成了黑洞碰撞的可视化动态模型。
然而,尽管Grok 4在推理和复杂知识整合方面表现出色,但在代码、多模态、图像和视频生成等方面仍有提升空间。xAI推出的Super Grok Heavy订阅计划也引发了关注,其高达300美元的月费较OpenAI顶级订阅贵了50%,API定价同样高昂。
高定价的背后是训练成本的陡增。马斯克坦言,Grok 4的训练量百倍于前代,依托10万块H100 GPU集群完成。他甚至表示,目前已几乎没有合适的问题来考验Grok 4的能力了,这从侧面印证了模型能力已逼近当前测试的极限。
马斯克对Grok 4的终极目标是与现实世界交互。他透露,今年Grok 4还将融合有限元分析、流体动力学等工具,构建高精度物理模拟器。同时,Grok 4将通过Optimus人形机器人连接现实,接受物理定律的最终检验。特斯拉最新固件已预埋Grok,未来或将作为车载语音助手及自动驾驶的“大脑”。
马斯克在直播中强调,安全是AI发展的首要任务。他表示,AI就像超级天才的孩子,最终会比人类更聪明,但我们仍需灌输正确的价值观。在AI寻求真理的路上,如何在开放性与安全性之间找到平衡,是马斯克等科技领袖必须面对的挑战。
尽管Grok 4取得了令人瞩目的成就,但AI大模型的快速迭代也意味着竞争日益激烈。有多少用户愿意为高昂的订阅费用买单,仍是未知数。同时,Grok近期因发表不当言论而引发的争议也提醒我们,AI的发展需要更加谨慎和负责任的态度。
随着马斯克的布局逐渐成型,自动驾驶、AI大模型、人形机器人、商业航天等领域将形成闭环。Grok大模型作为“大脑”,将驱动特斯拉自动驾驶和Optimus机器人的行动决策。而特斯拉车辆与机器人反馈的真实场景数据,则将反哺模型迭代。SpaceX星链提供的全球低延迟通信将支撑实时AI交互。