Nadcházející model Llama-3 400B od Meta by mohl potenciálně porazit GPT-4 Turbo a Claude 3 Opus

Nepřesahuje je, ale má potenciál

Ikona času čtení 2 min. číst


Čtenáři pomáhají podporovat MSpoweruser. Pokud nakoupíte prostřednictvím našich odkazů, můžeme získat provizi. Ikona popisku

Přečtěte si naši informační stránku a zjistěte, jak můžete pomoci MSPoweruser udržet redakční tým Dozvědět se více

Klíčové poznámky

  • Meta odhaluje Llama-3, svůj zatím nejvýkonnější model s parametry 700B
  • Llama-3 ukazuje potenciál pro zlepšení, přestože je ve fázi tréninku
  • Nedávná čísla naznačují, že se v benchmarcích blíží Claude 3 Opus a GPT-4 Turbo

Meta je připravena uvést na trh svůj dosud nejvýkonnější model umělé inteligence Lama-3 s parametry 400B. Ve svém oznámení ve čtvrtek bude model s otevřeným zdrojovým kódem brzy pohánět pomocný nástroj Meta AI, který přichází na WhatsApp a Instagram. 

Pravdou ale je, že v současnosti je na trhu spousta výkonných modelů umělé inteligence. GPT-4 Turbo se 128k kontextovým oknem od OpenAI existuje již nějakou dobu a Claude 3 Opus od Anthropic je je nyní k dispozici na Amazon Bedrock.

Jak se tedy tyto modely vzájemně porovnávají na základě několika benchmarků? Zde je srovnání toho, jak tyto výkonné modely testovaly v několika variantách. Tyto údaje jsou převzaty z veřejně dostupné informace a Meta's oznámení.

měřítkoLama 3 400BClaude 3 OpusGPT-4 TurboGemini Ultra 1.0Gemini Pro 1.5
MMLU86.186.886.583.781.9
GPQA4850.449.1--
HumanEval84.184.987.674.471.9
MATEMATIKA57.860.172.253.258.5

Jak můžete vidět, Llama-3 400B ve skutečnosti v těchto benchmarcích mírně zaostává, má skóre 86.1 v MMLU, 48 v GPQA, 84.1 v HumanEval a 57.8 v MATH. 

Ale vzhledem k tomu, že je stále ve fázi tréninku, existuje dobrá možnost velkých zlepšení, jakmile bude plně nasazen. A pro model s otevřeným zdrojovým kódem je to mnohem víc než působivé. 

MMLU testuje, jak dobře modely rozumí různým předmětům, aniž by je přímo učily, a pokrývá širokou škálu témat. GPQA na druhé straně třídí modely podle toho, jak dobře si vedou v biologii, fyzice a chemii, zatímco HumanEval se zaměřuje na to, jak kódují. 

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *