Claude 3 Opus 在重要聊天機器人排名中擊敗 OpenAI 的 GPT-4
2分鐘讀
發表於
請閱讀我們的揭露頁面,了解如何幫助 MSPoweruser 維持編輯團隊的發展 阅读更多
重點說明
- Claude 3 Opus 擊敗 OpenAI 的 GPT-4,成為 Arena 排名第一。
- Claude 3 Opus 的 Elo 分數為 1253,略高於 GPT-4。
- 結果是基於使用者對多個人工智慧模型的輸出的滿意度。
人類的 宣布推出 Claude 3 車型系列 本月早些時候,聲稱它可以超越 OpenAI 的 GPT-4。該公司展示了該模型的各種性能指標,並將其與競爭對手的聊天機器人進行比較,以得出這一結論。現在,克勞德3的霸主地位也體現在了競技場排行榜上。
Claude 3 Opus擊敗GPT-4成為第一
Claude 3 Opus 在 LYMSYS Chatbot Arena 排名中名列前茅,將 GPT-4 模型推至第二位。 Claude 3 Opus 的 Elo 分數為 1253,略高於 GPT-1251 的 4。判斷棋手的技術水平與分數相同。但在這種情況下,基準分數是在評判各種人工智慧模型,而不是國際象棋棋手。
然而,LYMSYS Chatbot Arena 並不完美。它顯示的基準測試結果是基於人們的投票。因此,分數在 70 萬張新投票後更新。因此,從理論上講,更好的分數應該表明人工智慧模型的整體輸出更好。但很多時候,輸出的好壞取決於誰在觀看它。用戶還抱怨 GPT-4 在 Chatbot Arena 中無法正確載入(透過 湯姆的指南)。儘管如此,OpenAI 多年來一直保持著第一的位置,直到幾個小時前被 Claude 3 Opus 取代。
雖然更新的 Arena 排名可能會引起人們對 Anthropic 人工智慧模型的更多興趣,但 OpenAI 計劃 今年夏天推出 GPT-5,據說這是“物質上更好”。如果事實果真如此,OpenAI 很可能會重新奪回 Arena 排行榜上的榜首位置。