Je Claude 3 opravdu lepší než GPT-4? Benchmarking Promptbase říká něco jiného

Vzájemné testy ukazují, že GPT-4 Turbo překonává Claude 3 ve všech kategoriích.

Ikona času čtení 2 min. číst


Čtenáři pomáhají podporovat MSpoweruser. Pokud nakoupíte prostřednictvím našich odkazů, můžeme získat provizi. Ikona popisku

Přečtěte si naši informační stránku a zjistěte, jak můžete pomoci MSPoweruser udržet redakční tým Dozvědět se více

Klíčové poznámky

  • Společnost Anthropic nedávno uvedla na trh Claude 3, který má překonat GPT-4 a Google Gemini 1.0 Ultra.
  • Zveřejněné výsledky benchmarků ukazují, že Claude 3 Opus vyniká v různých oblastech ve srovnání se svými protějšky.
  • Další analýza však naznačuje, že GPT-4 Turbo překonává Claude 3 v přímých srovnáních, což naznačuje potenciální zkreslení v hlášených výsledcích.

Antropický má právě spustil Claude 3 není to tak dávno, jeho model AI, o kterém se říká, že je schopen porazit OpenAI GPT-4 a Google Gemini 1.0 Ultra. Dodává se se třemi variantami: Claude 3 Haiku, Sonnet a Opus, všechny pro různá použití.

V jeho počáteční oznámeníAI společnost říká, že Claude 3 je o něco lepší než tyto dva nedávno uvedené modely. 

Podle zveřejněných srovnávacích skóre je Claude 3 Opus lepší ve znalostech na vysokoškolské úrovni (MMLU), uvažování na úrovni absolventa (GPQA), v matematice na základní škole a řešení matematických problémů, ve vícejazyčné matematice, kódování, uvažování nad textem a dalších dalších. než GPT-4 a Gemini 1.0 Ultra a Pro.

To však nevykresluje celý obraz pravdivě. Zveřejněné benchmarkové skóre při oznámení (zejména pro GPT-4) bylo zjevně převzato z GPT-4 ve verzi z března 2023 minulého roku (poděkování nadšencům AI @TolgaBilge_ na X)

Nástroj, který analyzuje výkon (benchmark analyzátor), tzv Promptbase ukazuje, že GPT-4 Turbo skutečně poráží Claude 3 ve všech testech, se kterými je mohli přímo porovnat. Tyto testy pokrývají věci jako základní matematické dovednosti (GSM8K & MATH), psaní kódu (HumanEval), uvažování nad textem (DROP) a směs dalších výzev.

Při vyhlašování svých výsledků také Anthropic zmiňuje v poznámce pod čarou že jejich inženýři byli schopni dále zlepšit výkon GPT-4T jeho jemným doladěním speciálně pro testy. To naznačuje, že uvedené výsledky nemusí odrážet skutečné možnosti základního modelu.

Ouch.