Metan tuleva Llama-3 400B -malli voisi mahdollisesti voittaa GPT-4 Turbon ja Claude 3 Opuksen

Se ei ylitä niitä, mutta siinä on potentiaalia

Home » uutiset

2 min. lukea

Julkaistu Huhtikuu 19, 2024

by Rafly Gilang

Julkaistu Huhtikuu 19, 2024

Jaa tämä artikkeli

Paranna tätä ohjetta

Lukijat auttavat tukemaan MSpoweruseria. Saatamme saada palkkion, jos ostat linkkien kautta.

Keskeiset huomautukset

Meta paljastaa Llama-3:n, silti tehokkaimman mallinsa 700B-parametrilla
Llama-3:lla on parannuspotentiaalia harjoitusvaiheesta huolimatta
Viimeaikaiset luvut viittaavat siihen, että se on lähellä Claude 3 Opusta ja GPT-4 Turboa vertailuissa

Meta julkaisee vielä tehokkaimman tekoälymallinsa Laama-3 400B-parametreilla. Sen ilmoitus torstaina avoimen lähdekoodin malli saa pian virtansa WhatsAppiin ja Instagramiin saapuvalle Meta AI -avustajatyökalulle.

Mutta totuus on, että markkinoilla on tällä hetkellä paljon tehokkaita tekoälymalleja. GPT-4 Turbo OpenAI:n 128k kontekstiikkunalla on ollut olemassa jo jonkin aikaa, ja Anthropicin Claude 3 Opus on nyt saatavilla Amazon Bedrockissa.

Joten miten nämä mallit vertautuvat toisiinsa useiden vertailuarvojen perusteella? Tässä on vertailu siitä, kuinka nämä tehokkaat mallit testattiin useissa vaihtoehdoissa. Nämä luvut on otettu julkisesti saatavilla oleva tieto ja Metan ilmoitus.

benchmark	Laama 3 400B	Claude 3 Opus	GPT-4 Turbo	Gemini Ultra 1.0	Gemini Pro 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	-	-
HumanEval	84.1	84.9	87.6	74.4	71.9
MATEMATIIKKA	57.8	60.1	72.2	53.2	58.5

Kuten näette, Llama-3 400B jää itse asiassa hieman alle näissä vertailuissa, sillä se on 86.1 MMLU:ssa, 48 GPQA:ssa, 84.1 HumanEvalissa ja 57.8 MATHissa.

Mutta koska se on vielä koulutusvaiheessa, on olemassa hyvä mahdollisuus suuriin parannuksiin, kun se on otettu kokonaan käyttöön. Ja avoimen lähdekoodin mallissa se on paljon enemmän vaikuttavaa.

MMLU testaa, kuinka hyvin mallit ymmärtävät eri aineita opettamatta niitä suoraan, kattaen monenlaisia aiheita. GPQA puolestaan lajitelee malleja siitä, kuinka hyvin he pärjäävät biologiassa, fysiikassa ja kemiassa, kun taas HumanEval keskittyy siihen, miten he koodaavat.

Rafly Gilang

Tekninen toimittaja

Rafly on toimittaja, jolla on vuosien journalistinen kokemus teknologiasta, liiketoiminnasta, sosiaalisesta ja kulttuurista. Raportoi tällä hetkellä uutisia Microsoftiin liittyvistä tuotteista, tekniikasta ja tekoälystä MSPowerUserissa. Onko sinulla vinkkiä? Lähetä se osoitteeseen [sähköposti suojattu]

Käyttäjäfoorumi

0-viestit

Järjestä:

Jätä vastaus Peruuta vastaus