Claude 3 Opus 在重要聊天機器人排名中擊敗 OpenAI 的 GPT-4

閱讀時間圖標 2分鐘讀


讀者幫助支持 MSpoweruser。如果您透過我們的連結購買,我們可能會獲得佣金。 工具提示圖標

請閱讀我們的揭露頁面,了解如何幫助 MSPoweruser 維持編輯團隊的發展 阅读更多

重點說明

  • Claude 3 Opus 擊敗 OpenAI 的 GPT-4,成為 Arena 排名第一。
  • Claude 3 Opus 的 Elo 分數為 1253,略高於 GPT-4。
  • 結果是基於使用者對多個人工智慧模型的輸出的滿意度。

人類的 宣布推出 Claude 3 車型系列 本月早些時候,聲稱它可以超越 OpenAI 的 GPT-4。該公司展示了該模型的各種性能指標,並將其與競爭對手的聊天機器人進行比較,以得出這一結論。現在,克勞德3的霸主地位也體現在了競技場排行榜上。

Claude 3 Opus擊敗GPT-4成為第一

Claude 3 Opus 在 LYMSYS Chatbot Arena 排名中名列前茅,將 GPT-4 模型推至第二位。 Claude 3 Opus 的 Elo 分數為 1253,略高於 GPT-1251 的 4。判斷棋手的技術水平與分數相同。但在這種情況下,基準分數是在評判各種人工智慧模型,而不是國際象棋棋手。

然而,LYMSYS Chatbot Arena 並不完美。它顯示的基準測試結果是基於人們的投票。因此,分數在 70 萬張新投票後更新。因此,從理論上講,更好的分數應該表明人工智慧模型的整體輸出更好。但很多時候,輸出的好壞取決於誰在觀看它。用戶還抱怨 GPT-4 在 Chatbot Arena 中無法正確載入(透過 湯姆的指南)。儘管如此,OpenAI 多年來一直保持著第一的位置,直到幾個小時前被 Claude 3 Opus 取代。

雖然更新的 Arena 排名可能會引起人們對 Anthropic 人工智慧模型的更多興趣,但 OpenAI 計劃 今年夏天推出 GPT-5,據說這是“物質上更好”。如果事實果真如此,OpenAI 很可能會重新奪回 Arena 排行榜上的榜首位置。

有關主題的更多資訊: 人類的, 克勞德 3 作品, GPT-4