Metas kommande Llama-3 400B-modell kan potentiellt slå GPT-4 Turbo och Claude 3 Opus
Det överskrider dem inte, men det har en potential
2 min. läsa
Publicerad den
Läs vår informationssida för att ta reda på hur du kan hjälpa MSPoweruser upprätthålla redaktionen Läs mer
Viktiga anteckningar
- Meta presenterar Llama-3, dess ännu kraftfullaste modell med 700B parametrar
- Llama-3 visar potential för förbättring trots att den är i träningsfas
- De senaste siffrorna tyder på att det är nära Claude 3 Opus och GPT-4 Turbo i benchmarks
Meta kommer att lansera sin ännu mest kraftfulla AI-modell, den Lama-3 med 400B parametrar. I dess meddelande på torsdag kommer modellen med öppen källkod snart att driva Meta AI-assistentverktyget som kommer till WhatsApp och Instagram.
Men sanningen är att det finns gott om kraftfulla AI-modeller på marknaden för tillfället. GPT-4 Turbo med ett 128k kontextfönster från OpenAI har funnits ganska länge, och Claude 3 Opus från Anthropic är nu tillgänglig på Amazon Bedrock.
Så, hur jämför dessa modeller med varandra, baserat på flera riktmärken? Här är en jämförelse av hur dessa kraftfulla modeller testades i flera alternativ. Dessa siffror är hämtade från allmänt tillgänglig information och Meta's meddelande.
riktmärke | Lama 3 400B | Claude 3 Opus | GPT-4 Turbo | Gemini Ultra 1.0 | Gemini Pro 1.5 |
MMLU | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GPQA | 48 | 50.4 | 49.1 | - | - |
HumanEval | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
MATEMATIK | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
Som du kan se, faller Llama-3 400B faktiskt något under i dessa riktmärken, med 86.1 i MMLU, 48 i GPQA, 84.1 i HumanEval och 57.8 i MATH.
Men med tanke på att det fortfarande är i utbildningsfasen, finns det goda möjligheter till stora förbättringar när det väl är fullt utplacerat. Och för en modell med öppen källkod är det mycket mer än imponerande.
MMLU testar hur väl modeller förstår olika ämnen utan att direkt lära dem, och täcker ett brett spektrum av ämnen. GPQA, å andra sidan, sorterar modeller på hur bra de klarar sig inom biologi, fysik och kemi, medan HumanEval fokuserar på hur de kodar.
Användarforum
0 meddelanden