
“这是世界上最明智的人工智能。”尽管它延迟了最初的发布时间大约一个小时的时间,即今天中午(9月10日,北京时间),Xai创始人Musk发行了新一代的大型模型Grok。但是比这更有趣的是传统的基准,Grok 4还进行了最终人性(简称HLE测试),该基准超过了以前的模型,以达到44.4%的最高精度。 Pictural/ Xai Musk也在现场直播中教授,Grok 4比所有几乎所有学科毕业的学生都要聪明,至少在毫无疑问的问题上,这在所有学科中都比医生的水平好,“也不例外。”这不是Grok 4的全部潜力。根据Musk的说法,第七版Grok 4基本模型将于本月完成,并将成为经验丰富的RL(增强增强)等,并最终对视频和工具呼叫功能有很好的了解。协调NG到RoadMap,XAI还将在接下来的几个月内推出代码模型,多模型代理和视频生成模型。扩展全文
图片/xai
此外,他们推出了更高水平的订阅服务-Supergrok重型,可以使用“最强的型号” Grok 4重。
但是,与论文的无能相比,重力仍然具有相对较低的实际演示误差。更引人入胜的是在Grok 4发布前几个小时,Punonscientist Igor Babuschkin突然宣布了他的辞职。
声称自己是“最强大的模型”的GROK4有多聪明?
从技术的角度来看,Grok 4不仅是“常规重复”。在这个40分钟的实时广播中,该信息试图向Xai传达:这不仅是一种挑战人类智能的新模型,而且是具有巨大潜在应用的AI。
Musk Grok 4“在所有学科中的博士学位上方的呼吁”并没有完全夸大营销。在主要长凳上诸如AIME25,HMMT25,GPQA,Grok 4之类的标记进一步将大型模型的结果推向了极端值,包括Grok 4 Heavy在AIME25上取得了完整的印记(美国数学竞争的邀请)。
图片/xai
但是,图像量越多的是弧形和HLE测试。约会是通过Opang Test ofenai O3吸引了该行业的注意力,主要关注AI的“研究”而不是“技能”的能力。 Grok 4在V1版本中的O3中达到了66%的精度,并在最新版本的V2中显着领导其他大型型号,获得了15.9%的精度。
至于HLE测试,它代表了人类智能的极限。来自世界各地的专家提出了2,500个专业问题,涉及数学,生物学,计算机科学,化学,物理,工程学和人类学等各种学科,因此直接命名为“人类的最终评论”。
图片/xai
在Grok 4之前,排名第一的型号,双子座2.5 Pro具有21.6%的精度,其次是OpenAI O3 20.3%。相比之下,Grok 4的准确性增加到25.4%,并在工具的帮助下可以进一步提高到44.4%。
在现场演示中,XAI在HLE测试中展示了Grount 4个专家问题的准确性,Musk认为只有少数人才能准确。还有2499个类似的问题。
此外,基于业务场景模拟,还有一个自动售货基础(自动售货机基准),它要求AI管理库存,联系供应商,设定价格等。
在实时广播中,Xai还进行了许多示范,包括实时爬行X平台帖子,对每个公司参加HLE测试的时间进行分类,或者在XAI团队中与怪异的Avatar一起发现一个。它不仅反映了Grok 4的功能,而且还强调了与X平台的深入整合的好处。
图片/xai
最长的现场演示现场广播是评论,2025年MLB世界大赛冠军的Grok 4预测。亮点主要使用工具,数据和审核过程,包括浏览多个赔率网站的数据以进行计算。整个过程持续了大约4个半钟。
此外,Grok 4还可以读取关键论文和材料,以生成一个网页,以模仿与两个黑洞交互时发生的变化。马斯克还表示,他们将提供4个真正的专业工具,包括物理学使用的专业实现软件,并猜测Grok 4明年可能会发现新的物理法。
这种声音非常扩大,没有很好的支持,但是马斯克的AI叙述可能不是抓住Google和Openai,而是改变目标本身。从产品设计的角度来看,XAI试图使用Grok 4mag一种AI工具,该工具与信息流严格集成在一起,而不是只能回答问题的机器人。
图片/xai
按照模型的理解大小Grok 4还显示了多模式输入的一些功能。尽管没有正式展示对该地区这一代人的形象和能力的理解,但马斯克强调他正在“训练”。这意味着Grok 4的完整形态将是一个多模型模型,而不是支持仅文本模型的Deptseek-R1。
换句话说,这也意味着Grok 4可以处理更复杂的感知匹配,并进一步扩大现实世界中的适当情况,例如人形机器人,自动驾驶,科学研究的Magomolde,等等。
值得一提的是,在理解,理解甚至物理学原理方面,现场广播“ Grok 4重”中提到的麝香是最强的版本,它比模型的整体版本要好。但是,重型版本在内部beta中,尚未向公众开放。
Grok 4的发行后,T的强度是T的10倍他掌握了3训练计算,这也是XAI几个月前完成其在美国孟菲斯的扩张的超级计算集群“ Colossus”。根据披露,该超级计算机发送了100,000个NVIDIA H100 GPU,并且可能是第一个部署GB200计算节点的人。
快速直播发行,Grok已经陷入困境
如果您仅查看模型本身,则Grok 4表示忽略了库诺的强度。尤其是在这个实时广播中,Grok的声音能力也正在升级 - 他不仅可以自然而然地切换音调,而且还添加了许多语音角色,包括英国发音。 Xai甚至表明Grok可以“唱歌”并根据指示阅读诗歌。
问题也出现在这里。在恋爱关系中,格罗克被要求“唱歌”,但他进入了“诗歌朗诵”,并以阅读语调阅读歌词。尽管这是一个小错误,但它揭示了以下事实:了解发音模型背后的多模式是S直到不稳定 - 不仅是发音,而且是旋律,音调和节奏的协同输出,显然还没有准备好。
图片/xai
同意阶段在整个版本中运行。现场直播时间比计划的时间晚一个小时,没有解释。尽管广播的实时内容很丰富,但总体速度有点赶时间,并且功能显示器显示之间缺乏传输逻辑。某些演示显然是准备准备的。这种节奏稍快,因为前一天的行政辞职消息不可避免地使人们想起了内在的不稳定。
在发行当天,Xai的首席科学家伊戈尔·巴布斯金(Igor Babuschkin)宣布辞职,更早的时候,X公司的首席执行官琳达·雅卡里诺(Linda Yacarino)辞职并留下了有意义的句子:“现在,随着X与Xai的新章节,最好的事情仍然来了。”
两人离开后,新闻发布会就开始了。
图片/xai
更现实问题是,Grok 4是Dapand面对世界上两个最强大的竞争对手 - Google和Gemini的Openai和Gemini Chatgpt。现在,当技术强度逐渐引人注目时,如果模型可以正确回答测试问题,而是在平台,生态学和用户上,那么真正的水通常不会说谎。
更难的是,重力也保持着一种“多样化”的态度 - 具有个性,敢于说话并变得更加独立。这是为此设计的麝香角色。但这也是这种角色使Grok更有可能失败。与近几个月一样,由于极端内容的产生,它引起了公众舆论。
因此,这一代的Grok 4确实很强大,并且可能比毕业甚至学生的人更聪明。但是,技术领导并不是用户充满信心,也不意味着产品成熟。在实际经验中,我们仍然需要在实际体验中查看模型的表现。
麝香曾经在现场广播中的帮助,他有点担心“ AI的智慧比人更聪明”对我们来说是好事或坏的,但他强调说:“我接受了一些事实。回到Sohu,看看更多