Je Claude 3 naozaj lepší ako GPT-4? Benchmarking Promptbase hovorí inak

Vzájomné testy ukazujú, že GPT-4 Turbo prekonáva Claude 3 vo všetkých kategóriách.

Domov » Novinky

2 min. čítať

Publikované dňa March 6, 2024

by Rafly Gilangová

publikované dňa March 6, 2024

Čítačky pomáhajú podporovať MSpoweruser. Ak nakupujete prostredníctvom našich odkazov, môžeme získať províziu.

Kľúčové poznámky

Spoločnosť Anthropic nedávno uviedla na trh Claude 3, ktorý má prekonať GPT-4 a Google Gemini 1.0 Ultra.
Zverejnené výsledky benchmarkov naznačujú, že Claude 3 Opus vyniká v rôznych oblastiach v porovnaní so svojimi náprotivkami.
Ďalšia analýza však naznačuje, že GPT-4 Turbo prekoná Claude 3 v priamych porovnaniach, čo naznačuje potenciálne skreslenie v hlásených výsledkoch.

Antropický má práve spustil Claude 3 nie je to tak dávno, jeho model AI, o ktorom sa hovorí, že dokáže poraziť OpenAI GPT-4 a Google Gemini 1.0 Ultra. Dodáva sa s tromi variantmi: Claude 3 Haiku, Sonnet a Opus, všetky na rôzne použitie.

V jeho počiatočné oznámenieSpoločnosť AI tvrdí, že Claude 3 je o niečo lepší ako tieto dva nedávno uvedené modely.

Podľa zverejnených benchmarkových skóre je Claude 3 Opus lepší vo vedomostiach na vysokoškolskej úrovni (MMLU), uvažovaní na úrovni absolventa (GPQA), v matematike na základnej škole a riešení matematických problémov, vo viacjazyčnej matematike, kódovaní, uvažovaní nad textom a v ďalších ďalších než GPT-4 a Gemini 1.0 Ultra a Pro.

To však nevykresľuje celý obraz pravdivo. Zverejnené benchmarkové skóre v oznámení (najmä pre GPT-4) bolo zjavne prevzaté z GPT-4 vo verzii vydania z marca 2023 minulého roka (poďakovanie nadšencom AI @TolgaBilge_ na X)

Nástroj, ktorý analyzuje výkon (analyzátor benchmarkov) tzv Promptbase ukazuje, že GPT-4 Turbo skutočne porazil Claude 3 vo všetkých testoch, s ktorými ich mohli priamo porovnať. Tieto testy pokrývajú veci ako základné matematické zručnosti (GSM8K & MATH), písanie kódu (HumanEval), uvažovanie nad textom (DROP) a zmes ďalších výziev.

Pri vyhlasovaní svojich výsledkov aj Anthropic uvádza v poznámke pod čiarou že ich inžinieri boli schopní ďalej zlepšiť výkon GPT-4T jeho jemným doladením špeciálne pre testy. To naznačuje, že uvedené výsledky nemusia odrážať skutočné možnosti základného modelu.

Ouch.

Rafly Gilangová

Technický reportér

Rafly je reportérka s dlhoročnými novinárskymi skúsenosťami v oblasti technológií, obchodu, sociálnych vecí a kultúry. Aktuálne hlásia novinky o produktoch, technológiách a AI súvisiacich so spoločnosťou Microsoft na stránkach Windows Report a MSPowerUser. Máte tip? Pošlite to na [chránené e-mailom].