Claude 3 Opus poráží OpenAI GPT-4 v důležitém hodnocení chatbotů

Ikona času čtení 2 min. číst


Čtenáři pomáhají podporovat MSpoweruser. Pokud nakoupíte prostřednictvím našich odkazů, můžeme získat provizi. Ikona popisku

Přečtěte si naši informační stránku a zjistěte, jak můžete pomoci MSPoweruser udržet redakční tým Dozvědět se více

Klíčové poznámky

  • Claude 3 Opus porazil OpenAI GPT-4 a stal se jedničkou v žebříčku Arena.
  • Claude 3 Opus má Elo Score 1253, o něco více než GPT-4.
  • Výsledky vycházejí z toho, jak byli uživatelé spokojeni s výstupy několika modelů AI.

Antropický oznámila modelovou rodinu Claude 3 začátkem tohoto měsíce s tvrzením, že dokáže překonat OpenAI GPT-4. Společnost ukázala různé výkonnostní metriky modelu a porovnala je s konkurenčními chatboty, aby dospěla k tomuto závěru. Nyní se nadřazenost Claude 3 odráží také na žebříčku Arena.

Claude 3 Opus poráží GPT-4 a stává se jedničkou

Claude 3 Opus se dostal na první místo žebříčku LYMSYS Chatbot Arena a posunul model GPT-4 na druhou pozici. Claude 3 Opus získal Elo skóre 1253, o něco více než 1251 GPT-4. Je to stejné skóre, které posuzuje, jak jsou šachisté šikovní. Ale v tomto případě skóre benchmarků posuzuje různé modely umělé inteligence, nikoli šachisty.

LYMSYS Chatbot Arena však není dokonalá. Výsledky benchmarkingu, které ukazuje, jsou založeny na hlasování lidí. Skóre jako takové bylo aktualizováno po 70 tisících nových hlasů. Teoreticky by tedy lepší skóre mělo naznačovat, že celkový výstup modelu AI byl lepší. Ale to, jak dobrý je výstup, často závisí na tom, kdo ho sleduje. Uživatelé si také stěžují, že GPT-4 se v Chatbot Areně nenačítá správně (přes Tomův průvodce). Navzdory tomu OpenAI drželo první pozici celé ty roky, dokud nebylo před pár hodinami sesazeno Claude 3 Opus.

Zatímco aktualizované hodnocení Arena pravděpodobně vyvolá větší zájem o modely umělé inteligence Anthropic, OpenAI to má v plánu spustit GPT-5 letos v létě, která je prý „materiálně lepší“. Pokud se ukáže, že tomu tak je, OpenAI pravděpodobně znovu získá svou nejvyšší pozici v žebříčku Arena.

Více o tématech: Antropický, Claude 3 Opus, GPT-4

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *