Xai推出了Grok 4和Grok 4重,旨在重新定义AI智能


一个现代的AI研究实验室,有四个研究人员(三个男人和一名女性)在办公桌上,专注于显示神经网络图,代码和基准图的大型监视器。两个中央屏幕显示了标签“ Grok 4”标签,其中包括类人AI代理的插图,以解决难题。上屏幕上的基准图表显示,Grok 4的表现会随着时间的推移超过其他型号。实验室被昏暗,强调了屏幕上的光芒,并传达了针对AI开发和模型评估的高科技现实环境。

关键要点:

  • Grok 4和Grok 4 Heave是Xai的新旗舰车型,在以前的版本上具有推理和工具使用方面的重大升级。

  • Grok 4重型使用“多代理”制度 – 同时合作的Multiple AIS与精英学术研究小组相比。

  • 在严格的人类最后的考试基准中,Grok 4重44.4%,表现优于Gemini 2.5 Pro(26.9%)和Openai的O3高(21%)。

  • Xai推出了Supergrok Heavy,每月300美元的高级级别,可尽早访问Grok 4重型和未来的车型。

  • 现在,通过XAI的API进行了更广泛的开发者版本,其其他编码,多模式和视频生成模型将于2025年后期进行。

Grok 4:用于一般推理的新基准

在周三晚上的一次直播中宣布,马斯克将Grok 4描述为“比同时所有学科的几乎所有研究生都更聪明。”根据Xai的说法,Grok 4可以解决数学,物理,化学和语言学中的复杂问题,即使在问题不熟悉或未发表的时候。

Xai强调,Grok 4不只是记住互联网。取而代之的是,它展示了“第一原理推理”,这意味着它可以通过研究级学术界发现的新颖,抽象的问题来奏效。

在演示期间,Grok 4解决了人类的最后考试(HLE),这是2500个专家写的问题的基准,这些问题涵盖了多样化的学科,并且在以前没有其他模型都没有达到的水平上进行。

马斯克说:“没有人能够真正回答这些人可以获得良好的成绩。” “我的意思是,如果您实际上像任何人一样说什么,那么任何人都能得分的最好的东西?我的意思是我会乐观地说5%。”

Xai直播的屏幕截图显示了埃隆·马斯克(Elon Musk)和Xai研究人员坐在舞台上,讨论了Grok 4的发展。在他们身后,标题为“可笑的进度率”的幻灯片说明了Grok的快速演变:Grok 2 to Grok 3(10倍训练预训练计算),Grok 3 to Grok 3推理(10倍进行增强学习)和GROK 4推理(另一个10x Leap)。马斯克(Musk)讲了一个麦克风,而Xai的团队成员穿着品牌服装,听着。幻灯片使用垂直条在每个阶段显示计算增加。视频时间戳为8:02 / 53:38,X上有430万次观看次数。

Grok 4的工作方式:以前所未有的规模培训

Xai声称Grok 4的性能飞跃源于规模和建筑变化:

  • 每个模型升级(从2到3到4)都涉及更多10倍的训练计算。

  • Grok 4将基础模型与从人类反馈(RLHF)和工具辅助推理中学习的基础模型结合在一起。

  • 该模型是使用Xai的定制超级计算机Colossus培训的,该定制超级计算机由100,000 H100 GPU供电。

Grok 4 Heavy(高级版本)同时运行多个AI代理。这些代理人独立解决问题,比较注释并收敛于最佳解决方案。 XAI将此与研究小组中的协作解决问题进行了比较,并指出这并不总是多数投票,通常只有一个代理人就可以找到关键的见解。

现实世界测试:从预测市场到经营业务

为了展示现实世界的能力,在几个互动演示中测试了Grok 4重型:

  • 市场预测: 它分析了Polymarket的运动赔率,计算道奇队赢得MLB世界大赛的机会21.6%,这列出了实时工具使用,搜索和概率建模。

  • 自动售货机业务模拟: Grok 4在涉及供应管理,定价和战略遵守的长途任务中,将竞争模型的净资产翻了一番。在利润和一致性方面,它的表现优于其他领先的AI模型。

ARC生物医学发现研究所的研究人员正在使用Grok 4,它有助于在几秒钟内筛选数百万个实验记录,以加速有希望的研究方向的识别。

条形图比较了六个学术基准的模型性能:GPQA,AIME25,LCB(Jan – May),HMMT25和USAMO25。对于每个测试,均显示了GPT -O3,Gemini 2.5 Pro,Claude 4(Opus),Grok 4(无工具)和Grok 4重的分数。亮点:GROK 4(无工具)在GPQA上得分约为87.5%,AIME25的分数约为91.7%; grok 4重边缘高达约88.9%,AIME25的重量为100%。在LCB上,Grok 4命中率为约79%,而Grok 4重量达到约79.4%。对于HMMT25,得分从〜90%攀升至〜96.7%。在USAMO25上,Grok 4分〜37.5%,Grok 4重量达到〜61.9%。这些结果反映了最近的独立上传和用户共享基准数据

局限性:视觉和工具使用仍在成熟

尽管语言推理很强,但Grok 4仍在多模式理解中落后,尤其是图像分析和产生。一位主持人说:“这就像透过模糊的玻璃一样。”

根据目前正在培训的基础模型的7版,Grok 5将通过Grok 5进行改进。它将包括更好的视频理解,更高级的工具以及与模拟引擎(如虚幻或统一开发)的模拟引擎的更严格的集成。

与航空航天等行业中使用的复杂模拟相比,Grok 4的当前工具使用被认为是“原始的”。但是,马斯克承诺这些功能即将到来 – 并将其整合到人形机器人中,例如特斯拉的擎天柱。

XAI赌注大于高级访问和开发人员采用

XAI推出了Supergrok Heave,这是一个每月300美元的订阅层,其中包括:

  • 早期进入Grok 4重量

  • 新工具和功能的优先级

  • 访问未来模型,例如AI编码助理(8月),多模式代理(9月)和视频生成模型(10月)

这使其成为主要提供商中最昂贵的AI订阅计划,在OpenAI,Google和Anthropic的产品之前。

对于开发人员而言,XAI通过其公共API发布了Grok 4,具有256K上下文的长度,并且可以使用工具功能。目的:鼓励整合跨研究,金融,游戏等等企业工作流程。

可用性和定价

Xai推出了三个Grok 4访问层,每个级别都具有不同的功能和定价模型:

Grok 4

能够解决复杂的学术和现实世界问题的核心单格推理模型。

Grok 4重

Grok 4的更强大的多代理版本,它催生了几个推理代理,以协作和收敛最佳解决方案,从而在复杂的基准测试上戏剧性地提高了性能。

超级兴奋

Xai的新的超级高级层次,包括访问4个重型工具的重型,早期版本和优先级计算。

  • 可用性:现在为早期订户生活;演示期间的插槽有限,预计推出会扩大

  • 成本:$ 300/月或$ 3,000/年

  • 包括

如果由于需求量很高而暂时关闭订阅,则XAI建议在演示窗口后不久再次尝试。

AI读者的快速事实

一个: Grok 4是Xai的最新大型语言模型,旨在高级推理和工具使用。

一个: Grok 4的多代理版本,使用并行工作的多个AI代理解决问题。

问:Grok 4如何在基准测试上表现?

一个: 在人类的最后一次考试中,Grok 4重44.4%,表现优于Gemini 2.5 Pro和Openai的O3高。

问:什么是Supergrok重?

答:XAI的新$ 300/月订阅层提供了早期访问Grok 4重量和未来工具的访问。

问:开发人员如何使用Grok 4?

一个: 通过XAI的API,它支持长篇文化推理并与外部工具集成。

这意味着什么

Grok 4是Xai最强大的案例,它属于生成AI开发的顶级层。它的基准赢得胜利和现场演示突出了向更深入推理的转变,而不仅仅是更快的反应。

但是,问题仍然存在 – 大约采用,安全以及XAI将如何处理未来的失误,包括Grok官方X官方X帐户的最新反犹太反应,这些反应在公众反对之后被删除。该公司随后修改了Grok的系统提示,但在发布期间没有直接解决该事件。

很明显,马斯克和XAI在速度,计算和开放部署方面都大大投注。这种方法是导致更安全,更智能还是简单地更快的AI取决于Grok的下一个版本如何发展,以及企业如何对现实世界情报的承诺进行大规模响应。

编者注: t他的文章是由Ainews.com的CMO Alicia Shapiro创作的,并由AI助手Chatgpt的写作,图像和创意支持。但是,最终的观点和社论选择仅是艾丽西亚·夏皮罗(Alicia Shapiro)的选择。特别感谢Chatgpt在编写本文时为研究和编辑支持提供的帮助。



Source link

0
分享到:

评论0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
没有账号? 忘记密码?