Je Claude 3 opravdu lepší než GPT-4? Benchmarking Promptbase říká něco jiného

Vzájemné testy ukazují, že GPT-4 Turbo překonává Claude 3 ve všech kategoriích.

Domů » Novinky

2 min. číst

Publikované dne 6. března 2024

by Rafly Gilangová

publikováno dne 6. března 2024

Čtenáři pomáhají podporovat MSpoweruser. Pokud nakoupíte prostřednictvím našich odkazů, můžeme získat provizi.

Klíčové poznámky

Společnost Anthropic nedávno uvedla na trh Claude 3, který má překonat GPT-4 a Google Gemini 1.0 Ultra.
Zveřejněné výsledky benchmarků ukazují, že Claude 3 Opus vyniká v různých oblastech ve srovnání se svými protějšky.
Další analýza však naznačuje, že GPT-4 Turbo překonává Claude 3 v přímých srovnáních, což naznačuje potenciální zkreslení v hlášených výsledcích.

Antropický má právě spustil Claude 3 není to tak dávno, jeho model AI, o kterém se říká, že je schopen porazit OpenAI GPT-4 a Google Gemini 1.0 Ultra. Dodává se se třemi variantami: Claude 3 Haiku, Sonnet a Opus, všechny pro různá použití.

V jeho počáteční oznámeníAI společnost říká, že Claude 3 je o něco lepší než tyto dva nedávno uvedené modely.

Podle zveřejněných srovnávacích skóre je Claude 3 Opus lepší ve znalostech na vysokoškolské úrovni (MMLU), uvažování na úrovni absolventa (GPQA), v matematice na základní škole a řešení matematických problémů, ve vícejazyčné matematice, kódování, uvažování nad textem a dalších dalších. než GPT-4 a Gemini 1.0 Ultra a Pro.

To však nevykresluje celý obraz pravdivě. Zveřejněné benchmarkové skóre při oznámení (zejména pro GPT-4) bylo zjevně převzato z GPT-4 ve verzi z března 2023 minulého roku (poděkování nadšencům AI @TolgaBilge_ na X)

Nástroj, který analyzuje výkon (benchmark analyzátor), tzv Promptbase ukazuje, že GPT-4 Turbo skutečně poráží Claude 3 ve všech testech, se kterými je mohli přímo porovnat. Tyto testy pokrývají věci jako základní matematické dovednosti (GSM8K & MATH), psaní kódu (HumanEval), uvažování nad textem (DROP) a směs dalších výzev.

Při vyhlašování svých výsledků také Anthropic zmiňuje v poznámce pod čarou že jejich inženýři byli schopni dále zlepšit výkon GPT-4T jeho jemným doladěním speciálně pro testy. To naznačuje, že uvedené výsledky nemusí odrážet skutečné možnosti základního modelu.

Ouch.

Rafly Gilangová

Technický zpravodaj

Rafly je reportér s dlouholetými novinářskými zkušenostmi v oblasti technologií, obchodu, sociálních věcí a kultury. Aktuálně hlásí novinky o produktech, technologiích a AI souvisejících s Microsoftem na Windows Report a MSPowerUser. Máte tip? Pošlete to na [chráněno e-mailem].