Metan tuleva Llama-3 400B -malli voisi mahdollisesti voittaa GPT-4 Turbon ja Claude 3 Opuksen
Se ei ylitä niitä, mutta siinä on potentiaalia
2 min. lukea
Julkaistu
Lue ilmoitussivumme saadaksesi selville, kuinka voit auttaa MSPoweruseria ylläpitämään toimitustiimiä Lue lisää
Keskeiset huomautukset
- Meta paljastaa Llama-3:n, silti tehokkaimman mallinsa 700B-parametrilla
- Llama-3:lla on parannuspotentiaalia harjoitusvaiheesta huolimatta
- Viimeaikaiset luvut viittaavat siihen, että se on lähellä Claude 3 Opusta ja GPT-4 Turboa vertailuissa
Meta julkaisee vielä tehokkaimman tekoälymallinsa Laama-3 400B-parametreilla. Sen ilmoitus torstaina avoimen lähdekoodin malli saa pian virtansa WhatsAppiin ja Instagramiin saapuvalle Meta AI -avustajatyökalulle.
Mutta totuus on, että markkinoilla on tällä hetkellä paljon tehokkaita tekoälymalleja. GPT-4 Turbo OpenAI:n 128k kontekstiikkunalla on ollut olemassa jo jonkin aikaa, ja Anthropicin Claude 3 Opus on nyt saatavilla Amazon Bedrockissa.
Joten miten nämä mallit vertautuvat toisiinsa useiden vertailuarvojen perusteella? Tässä on vertailu siitä, kuinka nämä tehokkaat mallit testattiin useissa vaihtoehdoissa. Nämä luvut on otettu julkisesti saatavilla oleva tieto ja Metan ilmoitus.
benchmark | Laama 3 400B | Claude 3 Opus | GPT-4 Turbo | Gemini Ultra 1.0 | Gemini Pro 1.5 |
MMLU | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GPQA | 48 | 50.4 | 49.1 | - | - |
HumanEval | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
MATEMATIIKKA | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
Kuten näette, Llama-3 400B jää itse asiassa hieman alle näissä vertailuissa, sillä se on 86.1 MMLU:ssa, 48 GPQA:ssa, 84.1 HumanEvalissa ja 57.8 MATHissa.
Mutta koska se on vielä koulutusvaiheessa, on olemassa hyvä mahdollisuus suuriin parannuksiin, kun se on otettu kokonaan käyttöön. Ja avoimen lähdekoodin mallissa se on paljon enemmän vaikuttavaa.
MMLU testaa, kuinka hyvin mallit ymmärtävät eri aineita opettamatta niitä suoraan, kattaen monenlaisia aiheita. GPQA puolestaan lajitelee malleja siitä, kuinka hyvin he pärjäävät biologiassa, fysiikassa ja kemiassa, kun taas HumanEval keskittyy siihen, miten he koodaavat.
Käyttäjäfoorumi
0-viestit