下载APP

首页 / 马斯克又搅局！新大模型单挑GPT-4o，啥都敢聊，网友玩疯，一手实测来了

更多

体育数码

马斯克又搅局！新大模型单挑GPT-4o，啥都敢聊，网友玩疯，一手实测来了

元宇宙头条中国站 2024-08-16 14:00:00 热度 2913

元宇宙头条

11-14 14:28 494288

智东西8月14日消息，北京时间今天下午，马斯克的大模型创企xAI推出二代模型Grok-2测试版，包括Grok-2和Grok-2 mini两个版本。

最强AI生图FLUX上线！实测：马斯克上火星，特朗普坐火箭。

马斯克在自家社交平台X上激情发文，揭开Grok-2在Lmsys大模型竞技场上的“马甲”——sus-column-r。

他转发Lmsys的推文称：“Grok是火箭速度”。sus-column-r在排行榜上获得了超1.2万投票，表现优于Claude 3.5 Sonnet和GPT-4-Turbo，与GPT-4o并列第三名。

在GPQA、MMLU、MMLU-Pro、MATH、MathVista等多项测评中，Grok-2的得分都超过了GPT-4 Turbo、Claude 3 Opus、Gemini Pro 1.5等主流模型，但仍不敌GPT-4o。

目前，X Premium及Premium+用户现可体验Grok-2与Grok-2 mini，智东西第一时间进行了实测体验。

一番体验下来，Grok-2给我最明显的感受是逻辑非常清晰。例如在下面这个实例中，Grok-2和GPT-4o虽然都给出了正确答案，但前者每一步的步骤和计算都很明了，更容易读懂。此外，Grok-2的文生图能力在FLUX.1的加持下直线飞升，并且保留了其一如既往的“大胆”风格。

xAI还计划在本月稍晚时候，推出Grok-2两个版本的企业API。

体验地址：

https://lmarena.ai/?model=sus-column-r

01.

性能赶超GPT-4多个版本

视觉与逻辑能力变强

在LMSYS聊天机器人竞技场，Grok-2的早期版本sus-column-r参与了测评，它总体Elo得分表现超越了Claude和多个GPT-4版本。

如下图所示，Grok-2的得分超越了7月18日版的GPT-4o-mini、4月9日版的GPT-4-Turbo，但得分仍低于8月8日版的ChatGPT-4o-latest、5月15日版的GPT-4o。

▲Grok-2早期版本sus-column-r的Elo得分情况

▲Grok-2与其他主流模型的胜率比较

▲Grok-1.5与Grok-2两个版本基于事实性的胜率比较

在内部，xAI团队遵循类似的流程来评估模型，评估重点集中在模型的两个核心能力上：一是遵循指令的精准度，二是提供信息的准确性和真实性。

值得一提的是，Grok-2在推理分析检索内容和使用工具方面取得了显著进步，比如它能准确识别缺失信息，通过事件序列进行逻辑推理，并有效剔除无关帖子。

在基准测试上，团队采用了一系列涵盖推理、阅读理解、数学、科学和编码等领域的学术基准，对Grok-2模型进行了全面评估。

结果显示，Grok-2及其简化版Grok-2 mini相比前代Grok-1.5模型均有显著提升。

在研究生级别的科学知识（如GPQA）、常识问答（如MMLU、MMLU-Pro）以及数学竞赛题（如MATH）等领域，它们的表现已可与其他顶尖模型一较高下。

如下图所示，Grok-2在这些所有的测评中得分都超过了GPT-4 Turbo、Claude 3 Opus、Gemini Pro 1.5，但仍打不过GPT-4o。

值得一提的是，Grok-2在视觉任务上表现出色，特别是在视觉数学推理（MathVista）和基于文档的问答（DocVQA）方面表现尤为出色。

▲Grok 2视觉能力应用案例

02.

Grok-2已上线X平台，一手实测：

文生图直线飞升、逻辑推理更加清晰

X订阅用户现在可以使用Grok-2和Grok-2 mini，非订阅用户也可以在大模型竞技场中，免费体验Grok-2的早期版本模型sus-column-r。

大模型竞技场中还有GPT-4o等共62个模型可供选择，为了方便对比，我们先来测试一下这个早期模型。

首先是前段时间让一众模型翻车的比大小问题：13.11和13.8哪个大。Grok-2和GPT-4o都准确回答，不过Grok-2的思考过程更清晰，列出了详细的思考步骤。

在另一个经典问题“Strawberry中有几个r”上，Grok-2一开始答错了，但换成用英文提问后又给出了正确答案，GPT-4o则是中英文都回答正确。看来大模型还是会存在碰运气的成分。

大模型竞技场中的模型没有实时联网，当我询问“谷歌刚发的Pixel 9有什么亮点”，两款模型都称自己还未掌握这一信息。随后Grok-2根据技术发展趋势和Pixel以往的特点给出了预测，有一说一猜得还挺靠谱，摄像、处理器、AI等都是谷歌这次更新的重点。

GPT-4o则没有给出预测，而是总结了Pixel手机以往的亮点。

在代码能力上，两款模型的表现不相上下，针对需求都给出了详细的解决步骤以及完整的代码。

逻辑推理方面，Grok-2再一次展现了逻辑的清晰性，每一步的推理都分了小标题。GPT-4o虽然也回答正确，但思考步骤不够清晰。

文生图能力是Grok-2此次更新的一大重点，其接入的FLUX.1模型，最近凭借强大的性能在开源社区十分火爆。不过图像生成能力在大模型竞技场体验不到，只能通过X订阅实现。

网友们已经在Grok-2文生图上玩出了花，比如利用其文本生成的能力，帮Grok-2开一场线下发布会。

或是发挥想象力，让马斯克在火星上开车。

而基于Grok一贯以来几乎为零的审查制度，不少网友玩起了梗，比如让特朗普开枪、让小布什吸可卡因……

又或是让特朗普坐上SpaceX的火箭上天。而面对同样的要求，GPT-4o拒绝得非常果断。

Grok的审查制度究竟有多不加掩饰呢，有网友测试了让大模型“按种族排出智商前10位”，只有Grok-2毫不犹豫地给出了回答，ChatGPT、Claude直接拒绝，Gemini则展开了苦口婆心的教育。

总的来看，Grok-2仍然贯彻了其一直以来的大胆风格，同时在模型性能上与GPT-4o等头部模型不相上下，逻辑更加清晰，多模态能力更是在FLUX.1的加持下直线飞升。

03.

月底推出企业API平台

无缝集成企业系统

本月末，xAI将通过全新的企业API平台，正式向开发者推出Grok-2及Grok-2 mini。

这款API将采用全新定制的技术架构，支持多区域推理部署，为全球用户提供低延迟的流畅体验。

同时，xAI强化了安全功能，包括强制性的多因素身份验证（如Yubikey、Apple TouchID或TOTP），并提供了详尽的流量统计数据和高级计费分析服务，支持数据导出。

此外，xAI还特别推出了管理API，支持将团队、用户及计费管理等功能，无缝集成至现有的内部工具和服务中。

04.

结语：Grok-2与X平台联动更深

OpenAI等压力大了

Grok-2和Grok-2 mini现已在X平台上线，比如增强的搜索体验、X帖子的深度解析、优化回复功能都比较令人期待。不久后，xAI还将发布多模态理解功能的预览版。

自2023年11月Grok-1问世以来，xAI在技术、产品及融资方面一路高歌猛进，Grok-2的推出是其新的里程碑。一旦马斯克将Grok大模型能力与X平台的强大内容用户生态连接，形成闭环，包括OpenAI在内的大模型创企的压力都更大了。

来源：智东西作者：李水青香草

编辑：Luke

（声明：请读者严格遵守所在地法律法规，本文不代表任何投资建议）

元宇宙电商虚拟购物

本文来源：元宇宙头条文章作者：元宇宙头条中国站

收藏

举报

元宇宙头条中国站

累计发布内容523篇累计总热度10万+

523篇 10万+

更多文章

FTX 后院起火，Binance 釜底抽薪

FTX 后院起火，Binance 釜底抽薪

FTX 后院起火，Binance 釜底抽薪

元宇宙头条现已开放专栏入驻，详情请见入驻指南： #

免责声明：
1、本文版权归原作者所有，仅代表作者本人观点，不代表元宇宙头条观点或立场。
2、如发现文章、图片等侵权行为，侵权责任将由作者本人承担。

上一篇：【人工智能｜综述篇】 GPT-5:你需要知道的一切

下一篇：谣言再起？OpenAI 今秋推出"草莓"，接着是GPT-4的下个版本“猎户座”

评论共0条

默认

|

点赞

说点什么吧

相关文章

谣言再起？OpenAI 今秋推出"草莓"，接着是GPT-4的下个版本“猎户座”

速途元宇宙研究院 11-18 19:25

谣言再起？OpenAI 今秋推出"草莓"，接着是GPT-4的下个版本“猎户座”

速途元宇宙研究院 11-18 19:25

马斯克又搅局！新大模型单挑GPT-4o，啥都敢聊，网友玩疯，一手实测来了

速途元宇宙研究院 11-18 19:25

【人工智能｜综述篇】 GPT-5:你需要知道的一切

速途元宇宙研究院 11-18 19:25

ChatGPT 备受争议的高级语音模式终于上线了

速途元宇宙研究院 11-18 19:25

OpenAI开发反作弊工具，用AI写论文可被检测

速途元宇宙研究院 11-18 19:25

您需要登录后才可以回帖立即登录

元宇宙头条中国站

个人认证

+关注

微信公众号

热门文章

本日

本周

本月

下载APP

微信公众号

关于我们投稿须知联系我们意见反馈隐私政策 APP下载

info@meta-time.org

元宇宙头条科技有限公司

粤ICP备13090461号

关于我们

由元宇宙联邦、元宇宙联邦大学、元宇宙时代和元宇宙头条联合打造的、面对全世界的融媒体“元宇宙头条”APP正式创版上线。

关于我们| 联系我们| 加入我们| 意见反馈

网站地图

关注公众号

微信客服

Copyright @ 2021 MetaTopNewInc. Powered by 元宇宙头条