Metas kommende Llama-3 400B-modell kan potensielt slå GPT-4 Turbo og Claude 3 Opus

Det overgår dem ikke, men det har et potensial

Hjemprodukt » Nyheter

Ikon for lesetid 2 min. lese

Kalenderikon Publisert på April 19, 2024

by Rafly Gilang

publisert på April 19, 2024

Lesere hjelper til med å støtte MSpoweruser. Vi kan få provisjon hvis du kjøper gjennom lenkene våre.

Viktige merknader

Meta avduker Llama-3, dens ennå kraftigste modell med 700B parametere
Llama-3 viser forbedringspotensial til tross for at den er i treningsfasen
Nylige tall tyder på at den er nær Claude 3 Opus og GPT-4 Turbo i benchmarks

Meta skal lansere sin ennå kraftigste AI-modell, den Lama-3 med 400B parametere. I sin kunngjøring på torsdag vil åpen kildekode-modellen snart drive Meta AI-assistentverktøyet som kommer til WhatsApp og Instagram.

Men sannheten er at det er mange kraftige AI-modeller på markedet for øyeblikket. GPT-4 Turbo med et 128k kontekstvindu fra OpenAI har eksistert ganske lenge, og Claude 3 Opus fra Anthropic er nå tilgjengelig på Amazonas grunnfjell.

Så hvordan sammenligner disse modellene seg med hverandre, basert på flere benchmarks? Her er en sammenligning av hvordan disse kraftige modellene testet i flere alternativer. Disse tallene er hentet fra offentlig tilgjengelig informasjon og Meta's kunngjøring.

benchmark	Lama 3 400B	Claude 3 opus	GPT-4 Turbo	Gemini Ultra 1.0	Gemini Pro 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	-	-
HumanEval	84.1	84.9	87.6	74.4	71.9
MATTE	57.8	60.1	72.2	53.2	58.5

Som du kan se, kommer Llama-3 400B faktisk litt til kort i disse benchmarkene, og scoret 86.1 i MMLU, 48 i GPQA, 84.1 i HumanEval og 57.8 i MATH.

Men gitt at det fortsatt er i treningsfasen, er det en god mulighet for store forbedringer når det er fullt utplassert. Og for en åpen kildekode-modell er det langt mer enn imponerende.

MMLU tester hvor godt modeller forstår ulike emner uten å direkte lære dem, og dekker et bredt spekter av emner. GPQA, derimot, sorterer modeller på hvor godt de gjør det i biologi, fysikk og kjemi, mens HumanEval fokuserer på hvordan de koder.

Rafly Gilang

Teknisk reporter

Rafly er en reporter med mange års journalistisk erfaring, alt fra teknologi, næringsliv, sosialt og kultur. Rapporterer for tiden nyheter om Microsoft-relaterte produkter, teknologi og kunstig intelligens på Windows Report og MSPowerUser. Har du et tips? Send den til [e-postbeskyttet].

Legg igjen en kommentar