Claude 3 Opus învinge GPT-4 de la OpenAI în clasamentul chatbot important

Acasă » Noutăţi

Pictograma timp de citire 2 min. citit

Pictogramă calendar Publicat în data de Martie 28, 2024

by Rahul

publicat pe Martie 28, 2024

Cititorii ajută la sprijinirea MSpoweruser. Este posibil să primim un comision dacă cumpărați prin link-urile noastre.

Note cheie

Claude 3 Opus a învins GPT-4 de la OpenAI pentru a deveni numărul unu în clasamentul Arena.
Claude 3 Opus are un scor Elo de 1253, puțin mai mult decât GPT-4.
Rezultatele se bazează pe cât de mulțumiți au fost utilizatorii cu rezultatele mai multor modele AI.

Antropică a anunțat familia de modele Claude 3 la începutul acestei luni, susținând că poate depăși GPT-4 de la OpenAI. Compania a arătat diferite valori de performanță ale modelului și le-a comparat cu cele ale chatbot-urilor rivali pentru a trage această concluzie. Acum, supremația lui Claude 3 se reflectă și pe clasamentul Arena.

Claude 3 Opus învinge GPT-4 pentru a deveni numărul unu

Claude 3 Opus a ajuns în fruntea clasamentului LYMSYS Chatbot Arena pentru a împinge modelul GPT-4 pe a doua poziție. Claude 3 Opus a obținut un scor Elo de 1253, puțin mai mult de 1251 de GPT-4. Este același scor care judecă cât de pricepuți sunt jucătorii de șah. Dar în acest caz, scorurile de referință judecă diverse modele AI, nu jucătorii de șah.

[Actualizare Arena]

Peste 70 de voturi noi Arena?? sunt în!

Claude-3 Haiku i-a impresionat pe toți, ajungând chiar și la nivelul GPT-4 după preferințele noastre de utilizator! Viteza, capacitățile și lungimea contextului sunt de neegalat acum pe piață?

felicitări @AnthropicAI la incredibila lansare Claude-3!

Mai interesant… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) Martie 26, 2024

Cu toate acestea, LYMSYS Chatbot Arena nu este perfectă. Rezultatele benchmarking-ului pe care le arată se bazează pe votul oamenilor. Ca atare, scorurile au fost actualizate după 70 de mii de voturi noi. Deci, în teorie, un scor mai bun ar trebui să indice că rezultatul general al modelului AI a fost mai bun. Dar, de multe ori, cât de bună este rezultatul depinde de cine îl vizionează. Utilizatorii se plâng, de asemenea, că GPT-4 nu se încarcă corect în Chatbot Arena (prin Ghidul lui Tom). În ciuda acestui fapt, OpenAI a deținut prima poziție în toți acești ani până când a fost înlăturat de Claude 3 Opus în urmă cu câteva ore.

În timp ce un clasament actualizat al Arena va genera probabil mai mult interes pentru modelele AI Anthropic, OpenAI are de gând să o facă lansează GPT-5 în această vară, despre care se spune că este „mai bună din punct de vedere material”. Dacă acesta se dovedește a fi cazul, este probabil ca OpenAI să-și recapete poziția de vârf în clasamentul Arena.

Mai multe despre subiecte: Antropică, Claude 3 Opus, GPT-4

Rahul

Jurnalist tehnic

Rahul este jurnalist tech, cu ani de experiență în acoperirea software-ului, în principal Windows și Android. De asemenea, îi place să-i împărtășească opiniile despre diverse subiecte tehnologice.