Metas kommande Llama-3 400B-modell kan potentiellt slå GPT-4 Turbo och Claude 3 Opus

Det överskrider dem inte, men det har en potential

Lästid ikon 2 min. läsa


Läsare hjälper till att stödja MSpoweruser. Vi kan få en provision om du köper via våra länkar. Verktygstipsikon

Läs vår informationssida för att ta reda på hur du kan hjälpa MSPoweruser upprätthålla redaktionen Läs mer

Viktiga anteckningar

  • Meta presenterar Llama-3, dess ännu kraftfullaste modell med 700B parametrar
  • Llama-3 visar potential för förbättring trots att den är i träningsfas
  • De senaste siffrorna tyder på att det är nära Claude 3 Opus och GPT-4 Turbo i benchmarks

Meta kommer att lansera sin ännu mest kraftfulla AI-modell, den Lama-3 med 400B parametrar. I dess meddelande på torsdag kommer modellen med öppen källkod snart att driva Meta AI-assistentverktyget som kommer till WhatsApp och Instagram. 

Men sanningen är att det finns gott om kraftfulla AI-modeller på marknaden för tillfället. GPT-4 Turbo med ett 128k kontextfönster från OpenAI har funnits ganska länge, och Claude 3 Opus från Anthropic är nu tillgänglig på Amazon Bedrock.

Så, hur jämför dessa modeller med varandra, baserat på flera riktmärken? Här är en jämförelse av hur dessa kraftfulla modeller testades i flera alternativ. Dessa siffror är hämtade från allmänt tillgänglig information och Meta's meddelande.

riktmärkeLama 3 400BClaude 3 OpusGPT-4 TurboGemini Ultra 1.0Gemini Pro 1.5
MMLU86.186.886.583.781.9
GPQA4850.449.1--
HumanEval84.184.987.674.471.9
MATEMATIK57.860.172.253.258.5

Som du kan se, faller Llama-3 400B faktiskt något under i dessa riktmärken, med 86.1 i MMLU, 48 i GPQA, 84.1 i HumanEval och 57.8 i MATH. 

Men med tanke på att det fortfarande är i utbildningsfasen, finns det goda möjligheter till stora förbättringar när det väl är fullt utplacerat. Och för en modell med öppen källkod är det mycket mer än imponerande. 

MMLU testar hur väl modeller förstår olika ämnen utan att direkt lära dem, och täcker ett brett spektrum av ämnen. GPQA, å andra sidan, sorterar modeller på hur bra de klarar sig inom biologi, fysik och kemi, medan HumanEval fokuserar på hur de kodar.