Metas kommende Llama-3 400B-model kan potentielt slå GPT-4 Turbo og Claude 3 Opus
Det overstiger dem ikke, men det har et potentiale
2 min. Læs
Udgivet den
Læs vores oplysningsside for at finde ud af, hvordan du kan hjælpe MSPoweruser med at opretholde redaktionen Læs mere
Nøgle noter
- Meta løfter sløret for Llama-3, dens endnu mest kraftfulde model med 700B parametre
- Llama-3 viser potentiale for forbedring på trods af at være i træningsfasen
- De seneste tal tyder på, at det er tæt på Claude 3 Opus og GPT-4 Turbo i benchmarks
Meta er klar til at lancere sin endnu mest kraftfulde AI-model, den Lama-3 med 400B parametre. I dets meddelelse på torsdag vil open source-modellen snart drive Meta AI-assistentværktøjet, der kommer til WhatsApp og Instagram.
Men sandheden er, at der er masser af kraftfulde AI-modeller på markedet i øjeblikket. GPT-4 turbo med et 128k kontekstvindue fra OpenAI har eksisteret i et stykke tid, og Claude 3 Opus fra Anthropic er nu tilgængelig på Amazon Bedrock.
Så hvordan sammenligner disse modeller sig med hinanden, baseret på flere benchmarks? Her er en sammenligning af, hvordan disse kraftfulde modeller blev testet i flere muligheder. Disse tal er taget fra offentlig tilgængelig information og Meta's meddelelse.
benchmark | Lama 3 400B | Claude 3 opus | GPT-4 turbo | Gemini Ultra 1.0 | Gemini Pro 1.5 |
MMLU | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GPQA | 48 | 50.4 | 49.1 | - | - |
HumanEval | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
MATH | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
Som du kan se, falder Llama-3 400B faktisk lidt til kort i disse benchmarks og scorer 86.1 i MMLU, 48 i GPQA, 84.1 i HumanEval og 57.8 i MATH.
Men i betragtning af, at det stadig er i træningsfasen, er der god mulighed for store forbedringer, når det er fuldt implementeret. Og for en open source-model er det langt mere end imponerende.
MMLU tester, hvor godt modeller forstår forskellige emner uden direkte at undervise i dem, og dækker en bred vifte af emner. GPQA, på den anden side, sorterer modeller for, hvor godt de klarer sig inden for biologi, fysik og kemi, mens HumanEval fokuserer på, hvordan de koder.
Brugerforum
0 meddelelser