Claude 3 Opus batte GPT-4 di OpenAI nell'importante classifica dei chatbot

Icona del tempo di lettura 2 minuto. leggere


I lettori aiutano a supportare MSpoweruser. Potremmo ricevere una commissione se acquisti tramite i nostri link. Icona descrizione comando

Leggi la nostra pagina informativa per scoprire come puoi aiutare MSPoweruser a sostenere il team editoriale Per saperne di più

Note chiave

  • Claude 3 Opus ha battuto il GPT-4 di OpenAI per diventare il numero uno nella classifica Arena.
  • Claude 3 Opus ha un punteggio Elo di 1253, leggermente superiore a GPT-4.
  • I risultati si basano sul livello di soddisfazione degli utenti rispetto ai risultati di diversi modelli di intelligenza artificiale.

Antropico ha annunciato la famiglia di modelli Claude 3 all'inizio di questo mese, sostenendo che può surclassare il GPT-4 di OpenAI. L’azienda ha mostrato vari parametri prestazionali del modello e li ha confrontati con quelli dei chatbot rivali per trarre questa conclusione. Ora, la supremazia di Claude 3 si riflette anche nella classifica dell'Arena.

Claude 3 Opus batte GPT-4 per diventare il numero uno

Claude 3 Opus ha superato la classifica LYMSYS Chatbot Arena spingendo il modello GPT-4 in seconda posizione. Il Claude 3 Opus ha ottenuto un punteggio Elo di 1253, poco più del 1251 di GPT-4. È lo stesso punteggio che giudica l'abilità dei giocatori di scacchi. Ma in questo caso, i punteggi dei benchmark valutano vari modelli di intelligenza artificiale, non i giocatori di scacchi.

Tuttavia, LYMSYS Chatbot Arena non è perfetta. I risultati del benchmarking mostrati si basano sul voto delle persone. Pertanto, i punteggi sono stati aggiornati dopo 70mila nuovi voti. Quindi, in teoria, un punteggio migliore dovrebbe indicare che il risultato complessivo del modello di intelligenza artificiale è stato migliore. Ma nella maggior parte dei casi, la qualità dell'output dipende da chi lo guarda. Gli utenti lamentano inoltre che GPT-4 non si carica correttamente in Chatbot Arena (tramite La guida di Tom). Nonostante ciò, OpenAI ha mantenuto la prima posizione in tutti questi anni fino a quando è stata spodestata da Claude 3 Opus poche ore fa.

Anche se una classifica aggiornata dell'Arena susciterà probabilmente più interesse per i modelli di intelligenza artificiale di Anthropic, OpenAI ha in programma di farlo lanciare GPT-5 quest'estate, che si dice sia “materialmente migliore”. Se così fosse, è probabile che OpenAI riconquisti la sua prima posizione nella classifica dell'Arena.

Maggiori informazioni sugli argomenti: Antropico, Claude 3 Opus, GPT-4

Lascia un Commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *