Metas kommende Llama-3 400B-modell kan potensielt slå GPT-4 Turbo og Claude 3 Opus
Det overgår dem ikke, men det har et potensial
2 min. lese
Publisert på
Viktige merknader
- Meta avduker Llama-3, dens ennå kraftigste modell med 700B parametere
- Llama-3 viser forbedringspotensial til tross for at den er i treningsfasen
- Nylige tall tyder på at den er nær Claude 3 Opus og GPT-4 Turbo i benchmarks
Meta skal lansere sin ennå kraftigste AI-modell, den Lama-3 med 400B parametere. I sin kunngjøring på torsdag vil åpen kildekode-modellen snart drive Meta AI-assistentverktøyet som kommer til WhatsApp og Instagram.
Men sannheten er at det er mange kraftige AI-modeller på markedet for øyeblikket. GPT-4 Turbo med et 128k kontekstvindu fra OpenAI har eksistert ganske lenge, og Claude 3 Opus fra Anthropic er nå tilgjengelig på Amazonas grunnfjell.
Så hvordan sammenligner disse modellene seg med hverandre, basert på flere benchmarks? Her er en sammenligning av hvordan disse kraftige modellene testet i flere alternativer. Disse tallene er hentet fra offentlig tilgjengelig informasjon og Meta's kunngjøring.
benchmark | Lama 3 400B | Claude 3 opus | GPT-4 Turbo | Gemini Ultra 1.0 | Gemini Pro 1.5 |
MMLU | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GPQA | 48 | 50.4 | 49.1 | - | - |
HumanEval | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
MATTE | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
Som du kan se, kommer Llama-3 400B faktisk litt til kort i disse benchmarkene, og scoret 86.1 i MMLU, 48 i GPQA, 84.1 i HumanEval og 57.8 i MATH.
Men gitt at det fortsatt er i treningsfasen, er det en god mulighet for store forbedringer når det er fullt utplassert. Og for en åpen kildekode-modell er det langt mer enn imponerende.
MMLU tester hvor godt modeller forstår ulike emner uten å direkte lære dem, og dekker et bredt spekter av emner. GPQA, derimot, sorterer modeller på hvor godt de gjør det i biologi, fysikk og kjemi, mens HumanEval fokuserer på hvordan de koder.
Brukerforum
0 meldinger