Metas kommende Llama-3 400B-model kan potentielt slå GPT-4 Turbo og Claude 3 Opus

Det overstiger dem ikke, men det har et potentiale

Home » Nyheder

Ikon for læsetid 2 min. Læs

Kalenderikon Udgivet den April 19, 2024

by Rafly Gilang

offentliggjort den April 19, 2024

Læsere hjælper med at understøtte MSpoweruser. Vi får muligvis en kommission, hvis du køber via vores links.

Nøgle noter

Meta løfter sløret for Llama-3, dens endnu mest kraftfulde model med 700B parametre
Llama-3 viser potentiale for forbedring på trods af at være i træningsfasen
De seneste tal tyder på, at det er tæt på Claude 3 Opus og GPT-4 Turbo i benchmarks

Meta er klar til at lancere sin endnu mest kraftfulde AI-model, den Lama-3 med 400B parametre. I dets meddelelse på torsdag vil open source-modellen snart drive Meta AI-assistentværktøjet, der kommer til WhatsApp og Instagram.

Men sandheden er, at der er masser af kraftfulde AI-modeller på markedet i øjeblikket. GPT-4 turbo med et 128k kontekstvindue fra OpenAI har eksisteret i et stykke tid, og Claude 3 Opus fra Anthropic er nu tilgængelig på Amazon Bedrock.

Så hvordan sammenligner disse modeller sig med hinanden, baseret på flere benchmarks? Her er en sammenligning af, hvordan disse kraftfulde modeller blev testet i flere muligheder. Disse tal er taget fra offentlig tilgængelig information og Meta's meddelelse.

benchmark	Lama 3 400B	Claude 3 opus	GPT-4 turbo	Gemini Ultra 1.0	Gemini Pro 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	-	-
HumanEval	84.1	84.9	87.6	74.4	71.9
MATH	57.8	60.1	72.2	53.2	58.5

Som du kan se, falder Llama-3 400B faktisk lidt til kort i disse benchmarks og scorer 86.1 i MMLU, 48 i GPQA, 84.1 i HumanEval og 57.8 i MATH.

Men i betragtning af, at det stadig er i træningsfasen, er der god mulighed for store forbedringer, når det er fuldt implementeret. Og for en open source-model er det langt mere end imponerende.

MMLU tester, hvor godt modeller forstår forskellige emner uden direkte at undervise i dem, og dækker en bred vifte af emner. GPQA, på den anden side, sorterer modeller for, hvor godt de klarer sig inden for biologi, fysik og kemi, mens HumanEval fokuserer på, hvordan de koder.

Rafly Gilang

Teknisk reporter

Rafly er en reporter med mange års journalistisk erfaring, lige fra teknologi, forretning, social og kultur. Rapporterer i øjeblikket nyheder om Microsoft-relaterede produkter, teknologi og kunstig intelligens på Windows Report og MSPowerUser. Har du et tip? Send det til [e-mail beskyttet].

Giv en kommentar