Claude 3 Opus poráží OpenAI GPT-4 v důležitém hodnocení chatbotů

Domů » Novinky

Ikona času čtení 2 min. číst

Ikona kalendáře Publikované dne 28. března 2024

by Rahul

publikováno dne 28. března 2024

Čtenáři pomáhají podporovat MSpoweruser. Pokud nakoupíte prostřednictvím našich odkazů, můžeme získat provizi.

Klíčové poznámky

Claude 3 Opus porazil OpenAI GPT-4 a stal se jedničkou v žebříčku Arena.
Claude 3 Opus má Elo Score 1253, o něco více než GPT-4.
Výsledky vycházejí z toho, jak byli uživatelé spokojeni s výstupy několika modelů AI.

Antropický oznámila modelovou rodinu Claude 3 začátkem tohoto měsíce s tvrzením, že dokáže překonat OpenAI GPT-4. Společnost ukázala různé výkonnostní metriky modelu a porovnala je s konkurenčními chatboty, aby dospěla k tomuto závěru. Nyní se nadřazenost Claude 3 odráží také na žebříčku Arena.

Claude 3 Opus poráží GPT-4 a stává se jedničkou

Claude 3 Opus se dostal na první místo žebříčku LYMSYS Chatbot Arena a posunul model GPT-4 na druhou pozici. Claude 3 Opus získal Elo skóre 1253, o něco více než 1251 GPT-4. Je to stejné skóre, které posuzuje, jak jsou šachisté šikovní. Ale v tomto případě skóre benchmarků posuzuje různé modely umělé inteligence, nikoli šachisty.

[Aktualizace arény]

70 tisíc nových hlasů pro Arena?? jsou v!

Claude-3 Haiku udělal dojem na všechny, dokonce dosáhl úrovně GPT-4 podle našich uživatelských preferencí! Jeho rychlost, možnosti a délka kontextu jsou nyní na trhu bezkonkurenční?

Gratulujeme @AnthropicAI na neuvěřitelném startu Claude-3!

Více vzrušující… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) 26. března 2024

LYMSYS Chatbot Arena však není dokonalá. Výsledky benchmarkingu, které ukazuje, jsou založeny na hlasování lidí. Skóre jako takové bylo aktualizováno po 70 tisících nových hlasů. Teoreticky by tedy lepší skóre mělo naznačovat, že celkový výstup modelu AI byl lepší. Ale to, jak dobrý je výstup, často závisí na tom, kdo ho sleduje. Uživatelé si také stěžují, že GPT-4 se v Chatbot Areně nenačítá správně (přes Tomův průvodce). Navzdory tomu OpenAI drželo první pozici celé ty roky, dokud nebylo před pár hodinami sesazeno Claude 3 Opus.

Zatímco aktualizované hodnocení Arena pravděpodobně vyvolá větší zájem o modely umělé inteligence Anthropic, OpenAI to má v plánu spustit GPT-5 letos v létě, která je prý „materiálně lepší“. Pokud se ukáže, že tomu tak je, OpenAI pravděpodobně znovu získá svou nejvyšší pozici v žebříčku Arena.

Více o tématech: Antropický, Claude 3 Opus, GPT-4

Rahul

Technický novinář

Rahul je technický novinář s dlouholetými zkušenostmi v oblasti softwaru, především Windows a Android. Také rád sdílí její názory na různá technická témata.

Claude 3 Opus poráží GPT-4 a stává se jedničkou

Napsat komentář