马斯克又搅局!新大模型单挑GPT-4o,啥都敢聊,网友玩疯,一手实测来了

智东西8月14日消息,北京时间今天下午,马斯克的大模型创企xAI推出二代模型Grok-2测试版,包括Grok-2和Grok-2 mini两个版本。

最强AI生图FLUX上线!实测:马斯克上火星,特朗普坐火箭。

马斯克在自家社交平台X上激情发文,揭开Grok-2在Lmsys大模型竞技场上的“马甲”——sus-column-r

他转发Lmsys的推文称:“Grok是火箭速度”。sus-column-r在排行榜上获得了超1.2万投票,表现优于Claude 3.5 Sonnet和GPT-4-Turbo,与GPT-4o并列第三名

在GPQA、MMLU、MMLU-Pro、MATH、MathVista等多项测评中,Grok-2的得分都超过了GPT-4 Turbo、Claude 3 Opus、Gemini Pro 1.5等主流模型,但仍不敌GPT-4o。

目前,X Premium及Premium+用户现可体验Grok-2与Grok-2 mini,智东西第一时间进行了实测体验。
一番体验下来,Grok-2给我最明显的感受是逻辑非常清晰。例如在下面这个实例中,Grok-2和GPT-4o虽然都给出了正确答案,但前者每一步的步骤和计算都很明了,更容易读懂。此外,Grok-2的文生图能力在FLUX.1的加持下直线飞升,并且保留了其一如既往的“大胆”风格。

xAI还计划在本月稍晚时候,推出Grok-2两个版本的企业API。
体验地址
https://lmarena.ai/?model=sus-column-r

01.
性能赶超GPT-4多个版本
视觉与逻辑能力变强


在LMSYS聊天机器人竞技场,Grok-2的早期版本sus-column-r参与了测评,它总体Elo得分表现超越了Claude和多个GPT-4版本
如下图所示,Grok-2的得分超越了7月18日版的GPT-4o-mini、4月9日版的GPT-4-Turbo,但得分仍低于8月8日版的ChatGPT-4o-latest、5月15日版的GPT-4o。

▲Grok-2早期版本sus-column-r的Elo得分情况

▲Grok-2与其他主流模型的胜率比较

▲Grok-1.5与Grok-2两个版本基于事实性的胜率比较

在内部,xAI团队遵循类似的流程来评估模型,评估重点集中在模型的两个核心能力上:一是遵循指令的精准度,二是提供信息的准确性和真实性
值得一提的是,Grok-2在推理分析检索内容使用工具方面取得了显著进步,比如它能准确识别缺失信息,通过事件序列进行逻辑推理,并有效剔除无关帖子。
在基准测试上,团队采用了一系列涵盖推理、阅读理解、数学、科学和编码等领域的学术基准,对Grok-2模型进行了全面评估。
结果显示,Grok-2及其简化版Grok-2 mini相比前代Grok-1.5模型均有显著提升。
在研究生级别的科学知识(如GPQA)、常识问答(如MMLU、MMLU-Pro)以及数学竞赛题(如MATH)等领域,它们的表现已可与其他顶尖模型一较高下。
如下图所示,Grok-2在这些所有的测评中得分都超过了GPT-4 Turbo、Claude 3 Opus、Gemini Pro 1.5,但仍打不过GPT-4o

值得一提的是,Grok-2在视觉任务上表现出色,特别是在视觉数学推理(MathVista)基于文档的问答(DocVQA)方面表现尤为出色。

▲Grok 2视觉能力应用案例


02.
Grok-2已上线X平台,一手实测:
文生图直线飞升、逻辑推理更加清晰


X订阅用户现在可以使用Grok-2和Grok-2 mini,非订阅用户也可以在大模型竞技场中,免费体验Grok-2的早期版本模型sus-column-r。
大模型竞技场中还有GPT-4o等共62个模型可供选择,为了方便对比,我们先来测试一下这个早期模型。
首先是前段时间让一众模型翻车的比大小问题:13.11和13.8哪个大。Grok-2和GPT-4o都准确回答,不过Grok-2的思考过程更清晰,列出了详细的思考步骤。

在另一个经典问题“Strawberry中有几个r”上,Grok-2一开始答错了,但换成用英文提问后又给出了正确答案,GPT-4o则是中英文都回答正确。看来大模型还是会存在碰运气的成分。

大模型竞技场中的模型没有实时联网,当我询问“谷歌刚发的Pixel 9有什么亮点”,两款模型都称自己还未掌握这一信息。随后Grok-2根据技术发展趋势和Pixel以往的特点给出了预测,有一说一猜得还挺靠谱,摄像、处理器、AI等都是谷歌这次更新的重点。
GPT-4o则没有给出预测,而是总结了Pixel手机以往的亮点。

在代码能力上,两款模型的表现不相上下,针对需求都给出了详细的解决步骤以及完整的代码。

逻辑推理方面,Grok-2再一次展现了逻辑的清晰性,每一步的推理都分了小标题。GPT-4o虽然也回答正确,但思考步骤不够清晰。

文生图能力是Grok-2此次更新的一大重点,其接入的FLUX.1模型,最近凭借强大的性能在开源社区十分火爆。不过图像生成能力在大模型竞技场体验不到,只能通过X订阅实现。
网友们已经在Grok-2文生图上玩出了花,比如利用其文本生成的能力,帮Grok-2开一场线下发布会。

或是发挥想象力,让马斯克在火星上开车。

而基于Grok一贯以来几乎为零的审查制度,不少网友玩起了梗,比如让特朗普开枪、让小布什吸可卡因……

又或是让特朗普坐上SpaceX的火箭上天。而面对同样的要求,GPT-4o拒绝得非常果断。

Grok的审查制度究竟有多不加掩饰呢,有网友测试了让大模型“按种族排出智商前10位”,只有Grok-2毫不犹豫地给出了回答,ChatGPT、Claude直接拒绝,Gemini则展开了苦口婆心的教育。

总的来看,Grok-2仍然贯彻了其一直以来的大胆风格,同时在模型性能上与GPT-4o等头部模型不相上下,逻辑更加清晰,多模态能力更是在FLUX.1的加持下直线飞升。

03.
月底推出企业API平台
无缝集成企业系统


本月末,xAI将通过全新的企业API平台,正式向开发者推出Grok-2及Grok-2 mini。
这款API将采用全新定制的技术架构,支持多区域推理部署,为全球用户提供低延迟的流畅体验。
同时,xAI强化了安全功能,包括强制性的多因素身份验证(如Yubikey、Apple TouchID或TOTP),并提供了详尽的流量统计数据和高级计费分析服务,支持数据导出。
此外,xAI还特别推出了管理API,支持将团队、用户及计费管理等功能,无缝集成至现有的内部工具和服务中。

04.
结语:Grok-2与X平台联动更深
OpenAI等压力大了


Grok-2和Grok-2 mini现已在X平台上线,比如增强的搜索体验、X帖子的深度解析、优化回复功能都比较令人期待。不久后,xAI还将发布多模态理解功能的预览版。

自2023年11月Grok-1问世以来,xAI在技术、产品及融资方面一路高歌猛进,Grok-2的推出是其新的里程碑。一旦马斯克将Grok大模型能力与X平台的强大内容用户生态连接,形成闭环,包括OpenAI在内的大模型创企的压力都更大了。

来源:智东西  作者:李水青 香草

编辑:Luke

(声明:请读者严格遵守所在地法律法规,本文不代表任何投资建议)

本文来源:元宇宙头条 文章作者:元宇宙头条中国站
收藏
举报
元宇宙头条中国站
累计发布内容523篇 累计总热度10万+
523篇 10万+
FTX 后院起火,Binance 釜底抽薪
FTX 后院起火,Binance 釜底抽薪
FTX 后院起火,Binance 釜底抽薪

元宇宙头条现已开放专栏入驻,详情请见入驻指南: #

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表元宇宙头条观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

评论 共0条
默认
|
点赞
说点什么吧
相关文章
您需要登录后才可以回帖 立即登录