Metas kommende Llama-3 400B-model kan potentielt slå GPT-4 Turbo og Claude 3 Opus

Det overstiger dem ikke, men det har et potentiale

Ikon for læsetid 2 min. Læs


Læsere hjælper med at understøtte MSpoweruser. Vi får muligvis en kommission, hvis du køber via vores links. Værktøjstip-ikon

Læs vores oplysningsside for at finde ud af, hvordan du kan hjælpe MSPoweruser med at opretholde redaktionen Læs mere

Nøgle noter

  • Meta løfter sløret for Llama-3, dens endnu mest kraftfulde model med 700B parametre
  • Llama-3 viser potentiale for forbedring på trods af at være i træningsfasen
  • De seneste tal tyder på, at det er tæt på Claude 3 Opus og GPT-4 Turbo i benchmarks

Meta er klar til at lancere sin endnu mest kraftfulde AI-model, den Lama-3 med 400B parametre. I dets meddelelse på torsdag vil open source-modellen snart drive Meta AI-assistentværktøjet, der kommer til WhatsApp og Instagram. 

Men sandheden er, at der er masser af kraftfulde AI-modeller på markedet i øjeblikket. GPT-4 turbo med et 128k kontekstvindue fra OpenAI har eksisteret i et stykke tid, og Claude 3 Opus fra Anthropic er nu tilgængelig på Amazon Bedrock.

Så hvordan sammenligner disse modeller sig med hinanden, baseret på flere benchmarks? Her er en sammenligning af, hvordan disse kraftfulde modeller blev testet i flere muligheder. Disse tal er taget fra offentlig tilgængelig information og Meta's meddelelse.

benchmarkLama 3 400BClaude 3 opusGPT-4 turboGemini Ultra 1.0Gemini Pro 1.5
MMLU86.186.886.583.781.9
GPQA4850.449.1--
HumanEval84.184.987.674.471.9
MATH57.860.172.253.258.5

Som du kan se, falder Llama-3 400B faktisk lidt til kort i disse benchmarks og scorer 86.1 i MMLU, 48 i GPQA, 84.1 i HumanEval og 57.8 i MATH. 

Men i betragtning af, at det stadig er i træningsfasen, er der god mulighed for store forbedringer, når det er fuldt implementeret. Og for en open source-model er det langt mere end imponerende. 

MMLU tester, hvor godt modeller forstår forskellige emner uden direkte at undervise i dem, og dækker en bred vifte af emner. GPQA, på den anden side, sorterer modeller for, hvor godt de klarer sig inden for biologi, fysik og kemi, mens HumanEval fokuserer på, hvordan de koder. 

Giv en kommentar

Din e-mail adresse vil ikke blive offentliggjort. Krævede felter er markeret *