Nadcházející model Llama-3 400B od Meta by mohl potenciálně porazit GPT-4 Turbo a Claude 3 Opus

Nepřesahuje je, ale má potenciál

Domů » Novinky

Ikona času čtení 2 min. číst

Ikona kalendáře Publikované dne 19. dubna 2024

by Rafly Gilangová

publikováno dne 19. dubna 2024

Čtenáři pomáhají podporovat MSpoweruser. Pokud nakoupíte prostřednictvím našich odkazů, můžeme získat provizi.

Klíčové poznámky

Meta odhaluje Llama-3, svůj zatím nejvýkonnější model s parametry 700B
Llama-3 ukazuje potenciál pro zlepšení, přestože je ve fázi tréninku
Nedávná čísla naznačují, že se v benchmarcích blíží Claude 3 Opus a GPT-4 Turbo

Meta je připravena uvést na trh svůj dosud nejvýkonnější model umělé inteligence Lama-3 s parametry 400B. Ve svém oznámení ve čtvrtek bude model s otevřeným zdrojovým kódem brzy pohánět pomocný nástroj Meta AI, který přichází na WhatsApp a Instagram.

Pravdou ale je, že v současnosti je na trhu spousta výkonných modelů umělé inteligence. GPT-4 Turbo se 128k kontextovým oknem od OpenAI existuje již nějakou dobu a Claude 3 Opus od Anthropic je je nyní k dispozici na Amazon Bedrock.

Jak se tedy tyto modely vzájemně porovnávají na základě několika benchmarků? Zde je srovnání toho, jak tyto výkonné modely testovaly v několika variantách. Tyto údaje jsou převzaty z veřejně dostupné informace a Meta's oznámení.

měřítko	Lama 3 400B	Claude 3 Opus	GPT-4 Turbo	Gemini Ultra 1.0	Gemini Pro 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	-	-
HumanEval	84.1	84.9	87.6	74.4	71.9
MATEMATIKA	57.8	60.1	72.2	53.2	58.5

Jak můžete vidět, Llama-3 400B ve skutečnosti v těchto benchmarcích mírně zaostává, má skóre 86.1 v MMLU, 48 v GPQA, 84.1 v HumanEval a 57.8 v MATH.

Ale vzhledem k tomu, že je stále ve fázi tréninku, existuje dobrá možnost velkých zlepšení, jakmile bude plně nasazen. A pro model s otevřeným zdrojovým kódem je to mnohem víc než působivé.

MMLU testuje, jak dobře modely rozumí různým předmětům, aniž by je přímo učily, a pokrývá širokou škálu témat. GPQA na druhé straně třídí modely podle toho, jak dobře si vedou v biologii, fyzice a chemii, zatímco HumanEval se zaměřuje na to, jak kódují.

Rafly Gilangová

Technický zpravodaj

Rafly je reportér s dlouholetými novinářskými zkušenostmi v oblasti technologií, obchodu, sociálních věcí a kultury. Aktuálně hlásí novinky o produktech, technologiích a AI souvisejících s Microsoftem na Windows Report a MSPowerUser. Máte tip? Pošlete to na [chráněno e-mailem].

Napsat komentář