Je li Claude 3 stvarno bolji od GPT-4? Promptbaseov benchmarking kaže drugačije

Direktni testovi pokazuju da GPT-4 Turbo nadmašuje Claude 3 u svim kategorijama.

Naslovna » Vijesti iz kluba

2 min. čitati

Objavljeno na Ožujak 6, 2024

by Rafly Gilang

objavljeno Ožujak 6, 2024

Čitatelji pomažu pri podršci MSpoweruser. Možda ćemo dobiti proviziju ako kupujete putem naših veza.

Ključne napomene

Anthropic je nedavno lansirao Claude 3, za koji se reklamira da će nadmašiti GPT-4 i Google Gemini 1.0 Ultra.
Objavljeni referentni rezultati pokazuju da se Claude 3 Opus ističe u raznim područjima u usporedbi sa svojim kolegama.
Međutim, daljnja analiza sugerira da GPT-4 Turbo nadmašuje Claude 3 u izravnim usporedbama, što ukazuje na potencijalne pristranosti u prijavljenim rezultatima.

Anthropic je upravo lansirao Claude 3 ne tako davno, njegov AI model za koji se kaže da može pobijediti OpenAI GPT-4 i Google Gemini 1.0 Ultra. Dolazi s tri varijante: Claude 3 Haiku, Sonnet i Opus, sve za različite namjene.

U svom početna najava, tvrtka AI kaže da je Claude 3 malo bolji od ova dva nedavno lansirana modela.

Prema objavljenim referentnim rezultatima, Claude 3 Opus je bolji u znanju na dodiplomskoj razini (MMLU), zaključivanju na diplomskoj razini (GPQA), matematici u osnovnoj školi i rješavanju matematičkih problema, višejezičnoj matematici, kodiranju, rasuđivanju preko teksta i još mnogo toga nego GPT-4 i Gemini 1.0 Ultra i Pro.

Međutim, to ne prikazuje u potpunosti istinitu cijelu sliku. Objavljeni referentni rezultat u najavi (posebice za GPT-4) očito je preuzet iz GPT-4 na verziji izdanja iz ožujka 2023. prošle godine (zasluge AI entuzijastu @TolgaBilge_ na X)

Alat koji analizira performanse (benchmark analizator) tzv Promptbase pokazuje da GPT-4 Turbo zapravo pobjeđuje Claude 3 u svim testovima na kojima su ih mogli izravno usporediti. Ovi testovi pokrivaju stvari kao što su osnovne matematičke vještine (GSM8K & MATH), pisanje koda (HumanEval), razmišljanje o tekstu (DROP) i mješavinu drugih izazova.

Objavljujući rezultate, Anthropic također spominje u bilješci da su njihovi inženjeri uspjeli dodatno poboljšati performanse GPT-4T finim podešavanjem posebno za testove. Ovo sugerira da prijavljeni rezultati možda ne odražavaju stvarne mogućnosti osnovnog modela.

Ouch.

Rafly Gilang

Tehnički izvjestitelj

Rafly je reporter s godinama novinarskog iskustva, u rasponu od tehnologije, poslovanja, društvenih i kulturnih. Trenutno izvještava o novostima o Microsoftovim proizvodima, tehnologiji i umjetnoj inteligenciji na Windows izvješću i MSPowerUser. Imate savjet? Pošaljite na [e-pošta zaštićena].