Claude 3 Opus învinge GPT-4 de la OpenAI în clasamentul chatbot important

Pictograma timp de citire 2 min. citit


Cititorii ajută la sprijinirea MSpoweruser. Este posibil să primim un comision dacă cumpărați prin link-urile noastre. Pictograma Tooltip

Citiți pagina noastră de dezvăluire pentru a afla cum puteți ajuta MSPoweruser să susțină echipa editorială Află mai multe

Note cheie

  • Claude 3 Opus a învins GPT-4 de la OpenAI pentru a deveni numărul unu în clasamentul Arena.
  • Claude 3 Opus are un scor Elo de 1253, puțin mai mult decât GPT-4.
  • Rezultatele se bazează pe cât de mulțumiți au fost utilizatorii cu rezultatele mai multor modele AI.

Antropică a anunțat familia de modele Claude 3 la începutul acestei luni, susținând că poate depăși GPT-4 de la OpenAI. Compania a arătat diferite valori de performanță ale modelului și le-a comparat cu cele ale chatbot-urilor rivali pentru a trage această concluzie. Acum, supremația lui Claude 3 se reflectă și pe clasamentul Arena.

Claude 3 Opus învinge GPT-4 pentru a deveni numărul unu

Claude 3 Opus a ajuns în fruntea clasamentului LYMSYS Chatbot Arena pentru a împinge modelul GPT-4 pe a doua poziție. Claude 3 Opus a obținut un scor Elo de 1253, puțin mai mult de 1251 de GPT-4. Este același scor care judecă cât de pricepuți sunt jucătorii de șah. Dar în acest caz, scorurile de referință judecă diverse modele AI, nu jucătorii de șah.

Cu toate acestea, LYMSYS Chatbot Arena nu este perfectă. Rezultatele benchmarking-ului pe care le arată se bazează pe votul oamenilor. Ca atare, scorurile au fost actualizate după 70 de mii de voturi noi. Deci, în teorie, un scor mai bun ar trebui să indice că rezultatul general al modelului AI a fost mai bun. Dar, de multe ori, cât de bună este rezultatul depinde de cine îl vizionează. Utilizatorii se plâng, de asemenea, că GPT-4 nu se încarcă corect în Chatbot Arena (prin Ghidul lui Tom). În ciuda acestui fapt, OpenAI a deținut prima poziție în toți acești ani până când a fost înlăturat de Claude 3 Opus în urmă cu câteva ore.

În timp ce un clasament actualizat al Arena va genera probabil mai mult interes pentru modelele AI Anthropic, OpenAI are de gând să o facă lansează GPT-5 în această vară, despre care se spune că este „mai bună din punct de vedere material”. Dacă acesta se dovedește a fi cazul, este probabil ca OpenAI să-și recapete poziția de vârf în clasamentul Arena.

Mai multe despre subiecte: Antropică, Claude 3 Opus, GPT-4