Pripravovaný model Llama-3 400B od spoločnosti Meta by mohol potenciálne poraziť GPT-4 Turbo a Claude 3 Opus

Nepresahuje ich, ale má potenciál

Domov » Novinky

Ikona času čítania 2 min. čítať

Ikona kalendára Publikované dňa Apríla 19, 2024

by Rafly Gilangová

publikované dňa Apríla 19, 2024

Čítačky pomáhajú podporovať MSpoweruser. Ak nakupujete prostredníctvom našich odkazov, môžeme získať províziu.

Kľúčové poznámky

Meta odhaľuje Llama-3, svoj zatiaľ najvýkonnejší model s parametrami 700B
Llama-3 ukazuje potenciál na zlepšenie napriek tomu, že je v tréningovej fáze
Nedávne čísla naznačujú, že v benchmarkoch je blízko Claude 3 Opus a GPT-4 Turbo

Meta je pripravená uviesť na trh svoj zatiaľ najvýkonnejší model AI Lama-3 s parametrami 400B. V jeho oznámenia vo štvrtok bude model s otvoreným zdrojom čoskoro poháňať pomocný nástroj Meta AI, ktorý prichádza na WhatsApp a Instagram.

Pravdou však je, že v súčasnosti je na trhu veľa výkonných modelov AI. GPT-4 Turbo so 128k kontextovým oknom od OpenAI existuje už nejaký čas a Claude 3 Opus od Anthropic je je teraz k dispozícii na Amazon Bedrock.

Ako sa teda tieto modely navzájom porovnávajú na základe niekoľkých referenčných hodnôt? Tu je porovnanie, ako tieto výkonné modely testovali vo viacerých možnostiach. Tieto čísla sú prevzaté z verejne dostupné informácie a Meta oznámenia.

mierka	Lama 3 400B	Claude 3 Opus	GPT-4 Turbo	Gemini Ultra 1.0	Gemini Pro 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	-	-
HumanEval	84.1	84.9	87.6	74.4	71.9
MATH	57.8	60.1	72.2	53.2	58.5

Ako môžete vidieť, Llama-3 400B v skutočnosti v týchto benchmarkoch mierne zaostáva a má skóre 86.1 v MMLU, 48 v GPQA, 84.1 v HumanEval a 57.8 v MATH.

Ale vzhľadom na to, že je stále vo fáze tréningu, po úplnom nasadení je tu dobrá možnosť veľkých zlepšení. A pre model s otvoreným zdrojom je to oveľa viac ako pôsobivé.

MMLU testuje, ako dobre modely rozumejú rôznym predmetom bez toho, aby ich priamo vyučovali, pričom pokrýva široký rozsah tém. GPQA na druhej strane triedi modely podľa toho, ako dobre sa im darí v biológii, fyzike a chémii, zatiaľ čo HumanEval sa zameriava na to, ako kódujú.

Rafly Gilangová

Technický reportér

Rafly je reportérka s dlhoročnými novinárskymi skúsenosťami v oblasti technológií, obchodu, sociálnych vecí a kultúry. Aktuálne hlásia novinky o produktoch, technológiách a AI súvisiacich so spoločnosťou Microsoft na stránkach Windows Report a MSPowerUser. Máte tip? Pošlite to na [chránené e-mailom].

Nechaj odpoveď