Claude 3 Opus batte GPT-4 di OpenAI nell'importante classifica dei chatbot

Casa » Notizie

Icona del tempo di lettura 2 minuto. leggere

Icona del calendario Edizione del 28 Marzo 2024

by Rahul

pubblicato su 28 Marzo 2024

I lettori aiutano a supportare MSpoweruser. Potremmo ricevere una commissione se acquisti tramite i nostri link.

Note chiave

Claude 3 Opus ha battuto il GPT-4 di OpenAI per diventare il numero uno nella classifica Arena.
Claude 3 Opus ha un punteggio Elo di 1253, leggermente superiore a GPT-4.
I risultati si basano sul livello di soddisfazione degli utenti rispetto ai risultati di diversi modelli di intelligenza artificiale.

Antropico ha annunciato la famiglia di modelli Claude 3 all'inizio di questo mese, sostenendo che può surclassare il GPT-4 di OpenAI. L’azienda ha mostrato vari parametri prestazionali del modello e li ha confrontati con quelli dei chatbot rivali per trarre questa conclusione. Ora, la supremazia di Claude 3 si riflette anche nella classifica dell'Arena.

Claude 3 Opus batte GPT-4 per diventare il numero uno

Claude 3 Opus ha superato la classifica LYMSYS Chatbot Arena spingendo il modello GPT-4 in seconda posizione. Il Claude 3 Opus ha ottenuto un punteggio Elo di 1253, poco più del 1251 di GPT-4. È lo stesso punteggio che giudica l'abilità dei giocatori di scacchi. Ma in questo caso, i punteggi dei benchmark valutano vari modelli di intelligenza artificiale, non i giocatori di scacchi.

[Aggiornamento dell'Arena]

Più di 70 voti per la nuova Arena?? sono dentro!

Claude-3 Haiku ha impressionato tutti, raggiungendo anche il livello GPT-4 secondo le nostre preferenze utente! La sua velocità, capacità e durata del contesto non hanno eguali sul mercato?

congratulazioni @AnthropicAI sull'incredibile lancio di Claude-3!

Più eccitante… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) 26 Marzo 2024

Tuttavia, LYMSYS Chatbot Arena non è perfetta. I risultati del benchmarking mostrati si basano sul voto delle persone. Pertanto, i punteggi sono stati aggiornati dopo 70mila nuovi voti. Quindi, in teoria, un punteggio migliore dovrebbe indicare che il risultato complessivo del modello di intelligenza artificiale è stato migliore. Ma nella maggior parte dei casi, la qualità dell'output dipende da chi lo guarda. Gli utenti lamentano inoltre che GPT-4 non si carica correttamente in Chatbot Arena (tramite La guida di Tom). Nonostante ciò, OpenAI ha mantenuto la prima posizione in tutti questi anni fino a quando è stata spodestata da Claude 3 Opus poche ore fa.

Anche se una classifica aggiornata dell'Arena susciterà probabilmente più interesse per i modelli di intelligenza artificiale di Anthropic, OpenAI ha in programma di farlo lanciare GPT-5 quest'estate, che si dice sia “materialmente migliore”. Se così fosse, è probabile che OpenAI riconquisti la sua prima posizione nella classifica dell'Arena.

Maggiori informazioni sugli argomenti: Antropico, Claude 3 Opus, GPT-4

Rahul

Giornalista tecnico

Rahul è un giornalista tecnologico, con anni di esperienza nella copertura di software, principalmente Windows e Android. Ama anche condividere le sue opinioni su diversi argomenti tecnologici.

Claude 3 Opus batte GPT-4 per diventare il numero uno

Lascia un Commento