Nadcházející model Llama-3 400B od Meta by mohl potenciálně porazit GPT-4 Turbo a Claude 3 Opus
Nepřesahuje je, ale má potenciál
2 min. číst
Publikované dne
Přečtěte si naši informační stránku a zjistěte, jak můžete pomoci MSPoweruser udržet redakční tým Více informací
Klíčové poznámky
- Meta odhaluje Llama-3, svůj zatím nejvýkonnější model s parametry 700B
- Llama-3 ukazuje potenciál pro zlepšení, přestože je ve fázi tréninku
- Nedávná čísla naznačují, že se v benchmarcích blíží Claude 3 Opus a GPT-4 Turbo

Meta je připravena uvést na trh svůj dosud nejvýkonnější model umělé inteligence Lama-3 s parametry 400B. Ve svém oznámení ve čtvrtek bude model s otevřeným zdrojovým kódem brzy pohánět pomocný nástroj Meta AI, který přichází na WhatsApp a Instagram.
Pravdou ale je, že v současnosti je na trhu spousta výkonných modelů umělé inteligence. GPT-4 Turbo se 128k kontextovým oknem od OpenAI existuje již nějakou dobu a Claude 3 Opus od Anthropic je je nyní k dispozici na Amazon Bedrock.
Jak se tedy tyto modely vzájemně porovnávají na základě několika benchmarků? Zde je srovnání toho, jak tyto výkonné modely testovaly v několika variantách. Tyto údaje jsou převzaty z veřejně dostupné informace a Meta's oznámení.
měřítko | Lama 3 400B | Claude 3 Opus | GPT-4 Turbo | Gemini Ultra 1.0 | Gemini Pro 1.5 |
MMLU | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GPQA | 48 | 50.4 | 49.1 | - | - |
HumanEval | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
MATEMATIKA | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
Jak můžete vidět, Llama-3 400B ve skutečnosti v těchto benchmarcích mírně zaostává, má skóre 86.1 v MMLU, 48 v GPQA, 84.1 v HumanEval a 57.8 v MATH.
Ale vzhledem k tomu, že je stále ve fázi tréninku, existuje dobrá možnost velkých zlepšení, jakmile bude plně nasazen. A pro model s otevřeným zdrojovým kódem je to mnohem víc než působivé.
MMLU testuje, jak dobře modely rozumí různým předmětům, aniž by je přímo učily, a pokrývá širokou škálu témat. GPQA na druhé straně třídí modely podle toho, jak dobře si vedou v biologii, fyzice a chemii, zatímco HumanEval se zaměřuje na to, jak kódují.
Uživatelské fórum
0 zprávy