Metas kommande Llama-3 400B-modell kan potentiellt slå GPT-4 Turbo och Claude 3 Opus

Det överskrider dem inte, men det har en potential

Hem » Nyheter

Lästid ikon 2 min. läsa

Kalenderikonen Publicerad den 19 april 2024

by Rafly Gilang

publicerad den 19 april 2024

Läsare hjälper till att stödja MSpoweruser. Vi kan få en provision om du köper via våra länkar.

Viktiga anteckningar

Meta presenterar Llama-3, dess ännu kraftfullaste modell med 700B parametrar
Llama-3 visar potential för förbättring trots att den är i träningsfas
De senaste siffrorna tyder på att det är nära Claude 3 Opus och GPT-4 Turbo i benchmarks

Meta kommer att lansera sin ännu mest kraftfulla AI-modell, den Lama-3 med 400B parametrar. I dess meddelande på torsdag kommer modellen med öppen källkod snart att driva Meta AI-assistentverktyget som kommer till WhatsApp och Instagram.

Men sanningen är att det finns gott om kraftfulla AI-modeller på marknaden för tillfället. GPT-4 Turbo med ett 128k kontextfönster från OpenAI har funnits ganska länge, och Claude 3 Opus från Anthropic är nu tillgänglig på Amazon Bedrock.

Så, hur jämför dessa modeller med varandra, baserat på flera riktmärken? Här är en jämförelse av hur dessa kraftfulla modeller testades i flera alternativ. Dessa siffror är hämtade från allmänt tillgänglig information och Meta's meddelande.

riktmärke	Lama 3 400B	Claude 3 Opus	GPT-4 Turbo	Gemini Ultra 1.0	Gemini Pro 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	-	-
HumanEval	84.1	84.9	87.6	74.4	71.9
MATEMATIK	57.8	60.1	72.2	53.2	58.5

Som du kan se, faller Llama-3 400B faktiskt något under i dessa riktmärken, med 86.1 i MMLU, 48 i GPQA, 84.1 i HumanEval och 57.8 i MATH.

Men med tanke på att det fortfarande är i utbildningsfasen, finns det goda möjligheter till stora förbättringar när det väl är fullt utplacerat. Och för en modell med öppen källkod är det mycket mer än imponerande.

MMLU testar hur väl modeller förstår olika ämnen utan att direkt lära dem, och täcker ett brett spektrum av ämnen. GPQA, å andra sidan, sorterar modeller på hur bra de klarar sig inom biologi, fysik och kemi, medan HumanEval fokuserar på hur de kodar.

Rafly Gilang

Teknisk reporter

Rafly är en reporter med många års journalistisk erfarenhet, allt från teknik, affärer, socialt och kultur. Rapporterar för närvarande nyheter om Microsoft-relaterade produkter, teknik och AI på Windows Report och MSPowerUser. Har du ett tips? Skicka det till [e-postskyddad].