Xai推出了Grok 4和Grok 4重，旨在重新定义AI智能

一个现代的AI研究实验室，有四个研究人员（三个男人和一名女性）在办公桌上，专注于显示神经网络图，代码和基准图的大型监视器。两个中央屏幕显示了标签“ Grok 4”标签，其中包括类人AI代理的插图，以解决难题。上屏幕上的基准图表显示，Grok 4的表现会随着时间的推移超过其他型号。实验室被昏暗，强调了屏幕上的光芒，并传达了针对AI开发和模型评估的高科技现实环境。

关键要点：

Grok 4和Grok 4 Heave是Xai的新旗舰车型，在以前的版本上具有推理和工具使用方面的重大升级。
Grok 4重型使用“多代理”制度 – 同时合作的Multiple AIS与精英学术研究小组相比。
在严格的人类最后的考试基准中，Grok 4重44.4％，表现优于Gemini 2.5 Pro（26.9％）和Openai的O3高（21％）。
Xai推出了Supergrok Heavy，每月300美元的高级级别，可尽早访问Grok 4重型和未来的车型。
现在，通过XAI的API进行了更广泛的开发者版本，其其他编码，多模式和视频生成模型将于2025年后期进行。

Grok 4：用于一般推理的新基准

在周三晚上的一次直播中宣布，马斯克将Grok 4描述为“比同时所有学科的几乎所有研究生都更聪明。”根据Xai的说法，Grok 4可以解决数学，物理，化学和语言学中的复杂问题，即使在问题不熟悉或未发表的时候。

Xai强调，Grok 4不只是记住互联网。取而代之的是，它展示了“第一原理推理”，这意味着它可以通过研究级学术界发现的新颖，抽象的问题来奏效。

在演示期间，Grok 4解决了人类的最后考试（HLE），这是2500个专家写的问题的基准，这些问题涵盖了多样化的学科，并且在以前没有其他模型都没有达到的水平上进行。

马斯克说：“没有人能够真正回答这些人可以获得良好的成绩。” “我的意思是，如果您实际上像任何人一样说什么，那么任何人都能得分的最好的东西？我的意思是我会乐观地说5％。”

Xai直播的屏幕截图显示了埃隆·马斯克（Elon Musk）和Xai研究人员坐在舞台上，讨论了Grok 4的发展。在他们身后，标题为“可笑的进度率”的幻灯片说明了Grok的快速演变：Grok 2 to Grok 3（10倍训练预训练计算），Grok 3 to Grok 3推理（10倍进行增强学习）和GROK 4推理（另一个10x Leap）。马斯克（Musk）讲了一个麦克风，而Xai的团队成员穿着品牌服装，听着。幻灯片使用垂直条在每个阶段显示计算增加。视频时间戳为8:02 / 53:38，X上有430万次观看次数。

Grok 4的工作方式：以前所未有的规模培训

Xai声称Grok 4的性能飞跃源于规模和建筑变化：

每个模型升级（从2到3到4）都涉及更多10倍的训练计算。
Grok 4将基础模型与从人类反馈（RLHF）和工具辅助推理中学习的基础模型结合在一起。
该模型是使用Xai的定制超级计算机Colossus培训的，该定制超级计算机由100,000 H100 GPU供电。

Grok 4 Heavy（高级版本）同时运行多个AI代理。这些代理人独立解决问题，比较注释并收敛于最佳解决方案。 XAI将此与研究小组中的协作解决问题进行了比较，并指出这并不总是多数投票，通常只有一个代理人就可以找到关键的见解。

现实世界测试：从预测市场到经营业务

为了展示现实世界的能力，在几个互动演示中测试了Grok 4重型：

市场预测： 它分析了Polymarket的运动赔率，计算道奇队赢得MLB世界大赛的机会21.6％，这列出了实时工具使用，搜索和概率建模。
自动售货机业务模拟： Grok 4在涉及供应管理，定价和战略遵守的长途任务中，将竞争模型的净资产翻了一番。在利润和一致性方面，它的表现优于其他领先的AI模型。

ARC生物医学发现研究所的研究人员正在使用Grok 4，它有助于在几秒钟内筛选数百万个实验记录，以加速有希望的研究方向的识别。

条形图比较了六个学术基准的模型性能：GPQA，AIME25，LCB（Jan – May），HMMT25和USAMO25。对于每个测试，均显示了GPT -O3，Gemini 2.5 Pro，Claude 4（Opus），Grok 4（无工具）和Grok 4重的分数。亮点：GROK 4（无工具）在GPQA上得分约为87.5％，AIME25的分数约为91.7％； grok 4重边缘高达约88.9％，AIME25的重量为100％。在LCB上，Grok 4命中率为约79％，而Grok 4重量达到约79.4％。对于HMMT25，得分从〜90％攀升至〜96.7％。在USAMO25上，Grok 4分〜37.5％，Grok 4重量达到〜61.9％。这些结果反映了最近的独立上传和用户共享基准数据

局限性：视觉和工具使用仍在成熟

尽管语言推理很强，但Grok 4仍在多模式理解中落后，尤其是图像分析和产生。一位主持人说：“这就像透过模糊的玻璃一样。”

根据目前正在培训的基础模型的7版，Grok 5将通过Grok 5进行改进。它将包括更好的视频理解，更高级的工具以及与模拟引擎（如虚幻或统一开发）的模拟引擎的更严格的集成。

与航空航天等行业中使用的复杂模拟相比，Grok 4的当前工具使用被认为是“原始的”。但是，马斯克承诺这些功能即将到来 – 并将其整合到人形机器人中，例如特斯拉的擎天柱。

XAI赌注大于高级访问和开发人员采用

XAI推出了Supergrok Heave，这是一个每月300美元的订阅层，其中包括：

早期进入Grok 4重量
新工具和功能的优先级
访问未来模型，例如AI编码助理（8月），多模式代理（9月）和视频生成模型（10月）

这使其成为主要提供商中最昂贵的AI订阅计划，在OpenAI，Google和Anthropic的产品之前。

对于开发人员而言，XAI通过其公共API发布了Grok 4，具有256K上下文的长度，并且可以使用工具功能。目的：鼓励整合跨研究，金融，游戏等等企业工作流程。

可用性和定价

Xai推出了三个Grok 4访问层，每个级别都具有不同的功能和定价模型：

Grok 4

能够解决复杂的学术和现实世界问题的核心单格推理模型。

Grok 4重

Grok 4的更强大的多代理版本，它催生了几个推理代理，以协作和收敛最佳解决方案，从而在复杂的基准测试上戏剧性地提高了性能。

超级兴奋

Xai的新的超级高级层次，包括访问4个重型工具的重型，早期版本和优先级计算。

可用性：现在为早期订户生活；演示期间的插槽有限，预计推出会扩大
成本：$ 300/月或$ 3,000/年
包括：

如果由于需求量很高而暂时关闭订阅，则XAI建议在演示窗口后不久再次尝试。

AI读者的快速事实

一个： Grok 4是Xai的最新大型语言模型，旨在高级推理和工具使用。

一个： Grok 4的多代理版本，使用并行工作的多个AI代理解决问题。

问：Grok 4如何在基准测试上表现？

一个： 在人类的最后一次考试中，Grok 4重44.4％，表现优于Gemini 2.5 Pro和Openai的O3高。

问：什么是Supergrok重？

答：XAI的新$ 300/月订阅层提供了早期访问Grok 4重量和未来工具的访问。

问：开发人员如何使用Grok 4？

一个： 通过XAI的API，它支持长篇文化推理并与外部工具集成。

这意味着什么

Grok 4是Xai最强大的案例，它属于生成AI开发的顶级层。它的基准赢得胜利和现场演示突出了向更深入推理的转变，而不仅仅是更快的反应。

但是，问题仍然存在 – 大约采用，安全以及XAI将如何处理未来的失误，包括Grok官方X官方X帐户的最新反犹太反应，这些反应在公众反对之后被删除。该公司随后修改了Grok的系统提示，但在发布期间没有直接解决该事件。

很明显，马斯克和XAI在速度，计算和开放部署方面都大大投注。这种方法是导致更安全，更智能还是简单地更快的AI取决于Grok的下一个版本如何发展，以及企业如何对现实世界情报的承诺进行大规模响应。

编者注： t他的文章是由Ainews.com的CMO Alicia Shapiro创作的，并由AI助手Chatgpt的写作，图像和创意支持。但是，最终的观点和社论选择仅是艾丽西亚·夏皮罗（Alicia Shapiro）的选择。特别感谢Chatgpt在编写本文时为研究和编辑支持提供的帮助。

Source link

关键要点：

Grok 4：用于一般推理的新基准

Grok 4的工作方式：以前所未有的规模培训

现实世界测试：从预测市场到经营业务

局限性：视觉和工具使用仍在成熟

XAI赌注大于高级访问和开发人员采用

可用性和定价

Grok 4

Grok 4重

超级兴奋

AI读者的快速事实

这意味着什么

猜你喜欢

据报道，阿联酋的NVIDIA AI CHIP交易被搁置

顶级ainews.com头条新闻

Openai将本机结帐系统构建到chatgpt

Google的AI现在可以为您致电本地企业

克劳德（Claude）为投资公司启动财务分析解决方案

顶级ainews.com头条新闻

评论0