Claude 3 Opus slår OpenAI's GPT-4 i vigtig chatbot-rangering

Ikon for læsetid 2 min. Læs


Læsere hjælper med at understøtte MSpoweruser. Vi får muligvis en kommission, hvis du køber via vores links. Værktøjstip-ikon

Læs vores oplysningsside for at finde ud af, hvordan du kan hjælpe MSPoweruser med at opretholde redaktionen Læs mere

Nøgle noter

  • Claude 3 Opus har slået OpenAI's GPT-4 for at blive nummer et på Arena-ranglisten.
  • Claude 3 Opus har en Elo Score på 1253, lidt mere end GPT-4.
  • Resultaterne er baseret på, hvor tilfredse brugerne var med output fra flere AI-modeller.

Antropisk annoncerede Claude 3-modelfamilien tidligere på måneden og hævdede, at den kan udkonkurrere OpenAI's GPT-4. Virksomheden viste forskellige præstationsmålinger for modellen og sammenlignede dem med konkurrerende chatbots for at drage den konklusion. Nu afspejler Claude 3's overherredømme også på Arena-ranglisten.

Claude 3 Opus slår GPT-4 for at blive nummer et

Claude 3 Opus har toppet LYMSYS Chatbot Arena-ranglisten for at skubbe GPT-4-modellen til den anden position. Claude 3 Opus opnåede en Elo-score på 1253, lidt mere end 1251 af GPT-4. Det er den samme score, der bedømmer, hvor dygtige skakspillere er. Men i dette tilfælde bedømmer benchmark-resultaterne forskellige AI-modeller, ikke skakspillere.

LYMSYS Chatbot Arena er dog ikke perfekt. De benchmarking-resultater, som det viser, er baseret på folks stemmeafgivning. Som sådan blev resultaterne opdateret efter 70 tusinde nye stemmer. Så i teorien skulle en bedre score indikere, at det samlede output af AI-modellen var bedre. Men meget af tiden afhænger hvor godt outputtet er af, hvem der ser det. Brugere klager også over, at GPT-4 ikke indlæses korrekt i Chatbot Arena (via Toms guide). På trods af det havde OpenAI den første position i alle disse år, indtil den blev fordrevet af Claude 3 Opus for et par timer siden.

Mens en opdateret Arena-rangering sandsynligvis vil generere mere interesse for Anthropics AI-modeller, har OpenAI planer om at lancere GPT-5 til sommer, som siges at være "materielt bedre". Hvis det viser sig at være tilfældet, vil OpenAI sandsynligvis genvinde sin topplacering på Arena-ranglisten.

Mere om emnerne: Antropisk, Claude 3 opus, GPT-4