Claude 3 Opus pobjeđuje OpenAI-jev GPT-4 u važnom rangiranju chatbota
2 min. čitati
Objavljeno na
Pročitajte našu stranicu za otkrivanje kako biste saznali kako možete pomoći MSPoweruseru da održi urednički tim Čitaj više
Ključne napomene
- Claude 3 Opus je pobijedio OpenAI-jev GPT-4 i postao broj jedan na Areninoj ljestvici.
- Claude 3 Opus ima Elo rezultat od 1253, malo više od GPT-4.
- Rezultati se temelje na tome koliko su korisnici bili zadovoljni rezultatima nekoliko AI modela.
antropski najavio obitelj modela Claude 3 ranije ovog mjeseca, tvrdeći da može nadmašiti OpenAI-jev GPT-4. Tvrtka je pokazala različite metrike performansi modela i usporedila ih s onima konkurentskih chatbota kako bi izvukla taj zaključak. Sada se nadmoć Claude 3 odražava i na ljestvici Arena.
Claude 3 Opus pobjeđuje GPT-4 i postaje broj jedan
Claude 3 Opus nadmašio je ljestvicu LYMSYS Chatbot Arena i potisnuo model GPT-4 na drugo mjesto. Claude 3 Opus dobio je Elo rezultat od 1253, malo više od 1251 GPT-4. To je isti rezultat koji ocjenjuje koliko su šahisti vješti. Ali u ovom slučaju, referentni rezultati ocjenjuju različite AI modele, a ne šahiste.
Međutim, LYMSYS Chatbot Arena nije savršena. Rezultati usporedne analize koje prikazuje temelje se na glasovanju ljudi. Kao takvi, rezultati su ažurirani nakon 70 tisuća novih glasova. Dakle, u teoriji, bolji rezultat trebao bi značiti da je ukupni rezultat AI modela bio bolji. No koliko je dobar rezultat često ovisi o tome tko ga gleda. Korisnici se također žale da se GPT-4 ne učitava ispravno u Chatbot Areni (putem Tomov vodič). Unatoč tome, OpenAI je sve ove godine držao prvo mjesto dok ga prije nekoliko sati nije istisnuo Claude 3 Opus.
Iako će ažurirani poredak u Areni vjerojatno izazvati više interesa za Anthropicove AI modele, OpenAI planira pokrenuti GPT-5 ovog ljeta, za koju se kaže da je “materijalno bolja”. Ako se to pokaže slučajem, OpenAI će vjerojatno vratiti svoje prvo mjesto na Areninoj ljestvici.