Metas kommende Llama-3 400B-modell kan potensielt slå GPT-4 Turbo og Claude 3 Opus

Det overgår dem ikke, men det har et potensial

Ikon for lesetid 2 min. lese


Lesere hjelper til med å støtte MSpoweruser. Vi kan få provisjon hvis du kjøper gjennom lenkene våre. Verktøytipsikon

Les vår avsløringsside for å finne ut hvordan du kan hjelpe MSPoweruser opprettholde redaksjonen Les mer

Viktige merknader

  • Meta avduker Llama-3, dens ennå kraftigste modell med 700B parametere
  • Llama-3 viser forbedringspotensial til tross for at den er i treningsfasen
  • Nylige tall tyder på at den er nær Claude 3 Opus og GPT-4 Turbo i benchmarks

Meta skal lansere sin ennå kraftigste AI-modell, den Lama-3 med 400B parametere. I sin kunngjøring på torsdag vil åpen kildekode-modellen snart drive Meta AI-assistentverktøyet som kommer til WhatsApp og Instagram. 

Men sannheten er at det er mange kraftige AI-modeller på markedet for øyeblikket. GPT-4 Turbo med et 128k kontekstvindu fra OpenAI har eksistert ganske lenge, og Claude 3 Opus fra Anthropic er nå tilgjengelig på Amazonas grunnfjell.

Så hvordan sammenligner disse modellene seg med hverandre, basert på flere benchmarks? Her er en sammenligning av hvordan disse kraftige modellene testet i flere alternativer. Disse tallene er hentet fra offentlig tilgjengelig informasjon og Meta's kunngjøring.

benchmarkLama 3 400BClaude 3 opusGPT-4 TurboGemini Ultra 1.0Gemini Pro 1.5
MMLU86.186.886.583.781.9
GPQA4850.449.1--
HumanEval84.184.987.674.471.9
MATTE57.860.172.253.258.5

Som du kan se, kommer Llama-3 400B faktisk litt til kort i disse benchmarkene, og scoret 86.1 i MMLU, 48 i GPQA, 84.1 i HumanEval og 57.8 i MATH. 

Men gitt at det fortsatt er i treningsfasen, er det en god mulighet for store forbedringer når det er fullt utplassert. Og for en åpen kildekode-modell er det langt mer enn imponerende. 

MMLU tester hvor godt modeller forstår ulike emner uten å direkte lære dem, og dekker et bredt spekter av emner. GPQA, derimot, sorterer modeller på hvor godt de gjør det i biologi, fysikk og kjemi, mens HumanEval fokuserer på hvordan de koder. 

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket *