Claude 3 Opus 在重要聊天機器人排名中擊敗 OpenAI 的 GPT-4

首頁 » 最新消息

閱讀時間圖標 2分鐘讀

日曆圖標發表於 2024 年 3 月 28 日

by 拉胡爾

發表於 2024 年 3 月 28 日

讀者幫助支持 MSpoweruser。如果您透過我們的連結購買，我們可能會獲得佣金。

重點說明

Claude 3 Opus 擊敗 OpenAI 的 GPT-4，成為 Arena 排名第一。
Claude 3 Opus 的 Elo 分數為 1253，略高於 GPT-4。
結果是基於使用者對多個人工智慧模型的輸出的滿意度。

人類的宣布推出 Claude 3 車型系列本月早些時候，聲稱它可以超越 OpenAI 的 GPT-4。該公司展示了該模型的各種性能指標，並將其與競爭對手的聊天機器人進行比較，以得出這一結論。現在，克勞德3的霸主地位也體現在了競技場排行榜上。

Claude 3 Opus擊敗GPT-4成為第一

Claude 3 Opus 在 LYMSYS Chatbot Arena 排名中名列前茅，將 GPT-4 模型推至第二位。 Claude 3 Opus 的 Elo 分數為 1253，略高於 GPT-1251 的 4。判斷棋手的技術水平與分數相同。但在這種情況下，基準分數是在評判各種人工智慧模型，而不是國際象棋棋手。

[競技場更新]

70K+ 新競技場投票？都在！

Claude-3 Haiku 給所有人留下了深刻的印象，甚至根據我們的用戶偏好達到了 GPT-4 等級！它的速度、功能和上下文長度目前在市場上是無與倫比的？

恭喜 @AnthropicAI 令人難以置信的克勞德 3 號發射！

更令人興奮的… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) 2024 年 3 月 26 日

然而，LYMSYS Chatbot Arena 並不完美。它顯示的基準測試結果是基於人們的投票。因此，分數在 70 萬張新投票後更新。因此，從理論上講，更好的分數應該表明人工智慧模型的整體輸出更好。但很多時候，輸出的好壞取決於誰在觀看它。用戶還抱怨 GPT-4 在 Chatbot Arena 中無法正確載入（透過湯姆的指南）。儘管如此，OpenAI 多年來一直保持著第一的位置，直到幾個小時前被 Claude 3 Opus 取代。

雖然更新的 Arena 排名可能會引起人們對 Anthropic 人工智慧模型的更多興趣，但 OpenAI 計劃今年夏天推出 GPT-5，據說這是“物質上更好”。如果事實果真如此，OpenAI 很可能會重新奪回 Arena 排行榜上的榜首位置。

有關主題的更多資訊：人類的, 克勞德 3 作品, GPT-4

拉胡爾

科技記者

Rahul 是一位科技記者，在報道軟體（主要是 Windows 和 Android）方面擁有多年經驗。他也喜歡分享她對各種科技話題的看法。