Claude 3真的比GPT-4更好吗？ Promptbase 的基准测试显示不同

头对头测试显示，GPT-4 Turbo 在所有类别中均优于 Claude 3。

首页 » 新闻中心

2分钟读

更新 2024 年 7 月 15 日

更新于 2024 年 7 月 15 日

分享此文章

改进本指南

读者帮助支持 MSpoweruser。如果您通过我们的链接购买，我们可能会获得佣金。

重点说明

人择刚刚推出克劳德3 不久前，其AI模型据说能够击败OpenAI的GPT-4和Google Gemini 1.0 Ultra。它具有三种变体：Claude 3 Haiku、Sonnet 和 Opus，均用于不同的用途。

在其初步公告AI公司表示，Claude 3略优于这两款最近推出的机型。

根据发布的基准分数，Claude 3 Opus 在本科水平知识（MMLU）、研究生水平推理（GPQA）、小学数学和数学问题解决、多语言数学、编码、文本推理等方面表现更好优于 GPT-4 和 Gemini 1.0 Ultra 和 Pro。

然而，这并不能完全真实地描绘出整个画面。公告中发布的基准分数（尤其是 GPT-4）显然取自去年 4 年 2023 月发布版本的 GPT-XNUMX（归功于 AI 爱好者） @TolgaBilge_ 在 X 上)

一种分析性能的工具（基准分析器）称为提示库表明 GPT-4 Turbo 实际上确实在所有可以直接比较的测试中击败了 Claude 3。这些测试涵盖基本数学技能（GSM8K 和 MATH）、编写代码（HumanEval）、文本推理（DROP）以及其他挑战。

在宣布结果的同时，Anthropic 还脚注中提到他们的工程师能够通过专门针对测试进行微调来进一步提高 GPT-4T 的性能。这表明报告的结果可能无法反映基本模型的真实功能。

哎哟。

拉夫利·吉朗

科技记者

Rafly 是一名拥有多年新闻经验的记者，报道领域涉及科技、商业、社会和文化。目前在 MSPowerUser 上报道与 Microsoft 相关产品、技术和 AI 的新闻。有提示吗？发送至 [电子邮件保护]

用户论坛

0消息

排序：