
关键要点:
-
Grok 4和Grok 4 Heave是Xai的新旗舰车型,在以前的版本上具有推理和工具使用方面的重大升级。
-
Grok 4重型使用“多代理”制度 – 同时合作的Multiple AIS与精英学术研究小组相比。
-
在严格的人类最后的考试基准中,Grok 4重44.4%,表现优于Gemini 2.5 Pro(26.9%)和Openai的O3高(21%)。
-
Xai推出了Supergrok Heavy,每月300美元的高级级别,可尽早访问Grok 4重型和未来的车型。
-
现在,通过XAI的API进行了更广泛的开发者版本,其其他编码,多模式和视频生成模型将于2025年后期进行。
Grok 4:用于一般推理的新基准
在周三晚上的一次直播中宣布,马斯克将Grok 4描述为“比同时所有学科的几乎所有研究生都更聪明。”根据Xai的说法,Grok 4可以解决数学,物理,化学和语言学中的复杂问题,即使在问题不熟悉或未发表的时候。
Xai强调,Grok 4不只是记住互联网。取而代之的是,它展示了“第一原理推理”,这意味着它可以通过研究级学术界发现的新颖,抽象的问题来奏效。
在演示期间,Grok 4解决了人类的最后考试(HLE),这是2500个专家写的问题的基准,这些问题涵盖了多样化的学科,并且在以前没有其他模型都没有达到的水平上进行。
马斯克说:“没有人能够真正回答这些人可以获得良好的成绩。” “我的意思是,如果您实际上像任何人一样说什么,那么任何人都能得分的最好的东西?我的意思是我会乐观地说5%。”

Grok 4的工作方式:以前所未有的规模培训
Xai声称Grok 4的性能飞跃源于规模和建筑变化:
-
每个模型升级(从2到3到4)都涉及更多10倍的训练计算。
-
Grok 4将基础模型与从人类反馈(RLHF)和工具辅助推理中学习的基础模型结合在一起。
-
该模型是使用Xai的定制超级计算机Colossus培训的,该定制超级计算机由100,000 H100 GPU供电。
Grok 4 Heavy(高级版本)同时运行多个AI代理。这些代理人独立解决问题,比较注释并收敛于最佳解决方案。 XAI将此与研究小组中的协作解决问题进行了比较,并指出这并不总是多数投票,通常只有一个代理人就可以找到关键的见解。
现实世界测试:从预测市场到经营业务
为了展示现实世界的能力,在几个互动演示中测试了Grok 4重型:
-
市场预测: 它分析了Polymarket的运动赔率,计算道奇队赢得MLB世界大赛的机会21.6%,这列出了实时工具使用,搜索和概率建模。
-
自动售货机业务模拟: Grok 4在涉及供应管理,定价和战略遵守的长途任务中,将竞争模型的净资产翻了一番。在利润和一致性方面,它的表现优于其他领先的AI模型。
ARC生物医学发现研究所的研究人员正在使用Grok 4,它有助于在几秒钟内筛选数百万个实验记录,以加速有希望的研究方向的识别。

局限性:视觉和工具使用仍在成熟
尽管语言推理很强,但Grok 4仍在多模式理解中落后,尤其是图像分析和产生。一位主持人说:“这就像透过模糊的玻璃一样。”
根据目前正在培训的基础模型的7版,Grok 5将通过Grok 5进行改进。它将包括更好的视频理解,更高级的工具以及与模拟引擎(如虚幻或统一开发)的模拟引擎的更严格的集成。
与航空航天等行业中使用的复杂模拟相比,Grok 4的当前工具使用被认为是“原始的”。但是,马斯克承诺这些功能即将到来 – 并将其整合到人形机器人中,例如特斯拉的擎天柱。
XAI赌注大于高级访问和开发人员采用
XAI推出了Supergrok Heave,这是一个每月300美元的订阅层,其中包括:
-
早期进入Grok 4重量
-
新工具和功能的优先级
-
访问未来模型,例如AI编码助理(8月),多模式代理(9月)和视频生成模型(10月)
这使其成为主要提供商中最昂贵的AI订阅计划,在OpenAI,Google和Anthropic的产品之前。
对于开发人员而言,XAI通过其公共API发布了Grok 4,具有256K上下文的长度,并且可以使用工具功能。目的:鼓励整合跨研究,金融,游戏等等企业工作流程。
可用性和定价
Xai推出了三个Grok 4访问层,每个级别都具有不同的功能和定价模型:
Grok 4
能够解决复杂的学术和现实世界问题的核心单格推理模型。
Grok 4重
Grok 4的更强大的多代理版本,它催生了几个推理代理,以协作和收敛最佳解决方案,从而在复杂的基准测试上戏剧性地提高了性能。
超级兴奋
Xai的新的超级高级层次,包括访问4个重型工具的重型,早期版本和优先级计算。
-
可用性:现在为早期订户生活;演示期间的插槽有限,预计推出会扩大
-
成本:$ 300/月或$ 3,000/年
-
包括:
如果由于需求量很高而暂时关闭订阅,则XAI建议在演示窗口后不久再次尝试。
AI读者的快速事实
一个: Grok 4是Xai的最新大型语言模型,旨在高级推理和工具使用。
一个: Grok 4的多代理版本,使用并行工作的多个AI代理解决问题。
问:Grok 4如何在基准测试上表现?
一个: 在人类的最后一次考试中,Grok 4重44.4%,表现优于Gemini 2.5 Pro和Openai的O3高。
问:什么是Supergrok重?
答:XAI的新$ 300/月订阅层提供了早期访问Grok 4重量和未来工具的访问。
问:开发人员如何使用Grok 4?
一个: 通过XAI的API,它支持长篇文化推理并与外部工具集成。
这意味着什么
Grok 4是Xai最强大的案例,它属于生成AI开发的顶级层。它的基准赢得胜利和现场演示突出了向更深入推理的转变,而不仅仅是更快的反应。
但是,问题仍然存在 – 大约采用,安全以及XAI将如何处理未来的失误,包括Grok官方X官方X帐户的最新反犹太反应,这些反应在公众反对之后被删除。该公司随后修改了Grok的系统提示,但在发布期间没有直接解决该事件。
很明显,马斯克和XAI在速度,计算和开放部署方面都大大投注。这种方法是导致更安全,更智能还是简单地更快的AI取决于Grok的下一个版本如何发展,以及企业如何对现实世界情报的承诺进行大规模响应。
编者注: t他的文章是由Ainews.com的CMO Alicia Shapiro创作的,并由AI助手Chatgpt的写作,图像和创意支持。但是,最终的观点和社论选择仅是艾丽西亚·夏皮罗(Alicia Shapiro)的选择。特别感谢Chatgpt在编写本文时为研究和编辑支持提供的帮助。
评论0