Je Claude 3 naozaj lepší ako GPT-4? Benchmarking Promptbase hovorí inak

Vzájomné testy ukazujú, že GPT-4 Turbo prekonáva Claude 3 vo všetkých kategóriách.

Ikona času čítania 2 min. čítať


Čítačky pomáhajú podporovať MSpoweruser. Ak nakupujete prostredníctvom našich odkazov, môžeme získať províziu. Ikona popisu

Prečítajte si našu informačnú stránku a zistite, ako môžete pomôcť MSPoweruser udržať redakčný tím Čítaj viac

Kľúčové poznámky

  • Spoločnosť Anthropic nedávno uviedla na trh Claude 3, ktorý má prekonať GPT-4 a Google Gemini 1.0 Ultra.
  • Zverejnené výsledky benchmarkov naznačujú, že Claude 3 Opus vyniká v rôznych oblastiach v porovnaní so svojimi náprotivkami.
  • Ďalšia analýza však naznačuje, že GPT-4 Turbo prekoná Claude 3 v priamych porovnaniach, čo naznačuje potenciálne skreslenie v hlásených výsledkoch.

Antropický má práve spustil Claude 3 nie je to tak dávno, jeho model AI, o ktorom sa hovorí, že dokáže poraziť OpenAI GPT-4 a Google Gemini 1.0 Ultra. Dodáva sa s tromi variantmi: Claude 3 Haiku, Sonnet a Opus, všetky na rôzne použitie.

V jeho počiatočné oznámenieSpoločnosť AI tvrdí, že Claude 3 je o niečo lepší ako tieto dva nedávno uvedené modely. 

Podľa zverejnených benchmarkových skóre je Claude 3 Opus lepší vo vedomostiach na vysokoškolskej úrovni (MMLU), uvažovaní na úrovni absolventa (GPQA), v matematike na základnej škole a riešení matematických problémov, vo viacjazyčnej matematike, kódovaní, uvažovaní nad textom a v ďalších ďalších než GPT-4 a Gemini 1.0 Ultra a Pro.

To však nevykresľuje celý obraz pravdivo. Zverejnené benchmarkové skóre v oznámení (najmä pre GPT-4) bolo zjavne prevzaté z GPT-4 vo verzii vydania z marca 2023 minulého roka (poďakovanie nadšencom AI @TolgaBilge_ na X)

Nástroj, ktorý analyzuje výkon (analyzátor benchmarkov) tzv Promptbase ukazuje, že GPT-4 Turbo skutočne porazil Claude 3 vo všetkých testoch, s ktorými ich mohli priamo porovnať. Tieto testy pokrývajú veci ako základné matematické zručnosti (GSM8K & MATH), písanie kódu (HumanEval), uvažovanie nad textom (DROP) a zmes ďalších výziev.

Pri vyhlasovaní svojich výsledkov aj Anthropic uvádza v poznámke pod čiarou že ich inžinieri boli schopní ďalej zlepšiť výkon GPT-4T jeho jemným doladením špeciálne pre testy. To naznačuje, že uvedené výsledky nemusia odrážať skutočné možnosti základného modelu.

Ouch.