Metin prihajajoči model Llama-3 400B bi lahko potencialno premagal GPT-4 Turbo in Claude 3 Opus
Ne presega jih, ima pa potencial
2 min. prebrati
Objavljeno dne
Preberite našo stran za razkritje, če želite izvedeti, kako lahko pomagate MSPoweruser vzdrževati uredniško skupino Preberi več
Ključne opombe
- Meta razkriva Llama-3, svoj doslej najmočnejši model s parametri 700B
- Llama-3 kaže potencial za izboljšave kljub temu, da je v fazi usposabljanja
- Zadnje številke kažejo, da je v merilih uspešnosti blizu Claude 3 Opus in GPT-4 Turbo
Meta naj bi predstavila svoj doslej najmočnejši model AI, the Lama-3 s parametri 400B. V svoji Objava v četrtek bo odprtokodni model kmalu poganjal orodje Meta AI assistant, ki prihaja v WhatsApp in Instagram.
Toda resnica je, da je trenutno na trgu veliko zmogljivih modelov AI. GPT-4 Turbo s kontekstnim oknom 128k iz OpenAI obstaja že kar nekaj časa, Claude 3 Opus iz Anthropica pa je sedaj na voljo na Amazon Bedrock.
Torej, kako se ti modeli primerjajo med seboj na podlagi več meril? Tukaj je primerjava, kako so ti zmogljivi modeli preizkušeni v več možnostih. Te številke so vzete iz javno dostopne informacije in Meta Objava.
merilo | Lama 3 400B | Claude 3 Opus | GPT-4 Turbo | Gemini Ultra 1.0 | Gemini Pro 1.5 |
MMLU | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GPQA | 48 | 50.4 | 49.1 | - | - |
HumanEval | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
MATH | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
Kot lahko vidite, Llama-3 400B dejansko nekoliko zaostaja pri teh merilih uspešnosti, saj je dosegel 86.1 v MMLU, 48 v GPQA, 84.1 v HumanEval in 57.8 v MATH.
Toda glede na to, da je še vedno v fazi usposabljanja, obstaja dobra možnost za velike izboljšave, ko bo v celoti uveden. In za odprtokodni model je to več kot impresivno.
MMLU preizkuša, kako dobro modeli razumejo različne teme, ne da bi jih neposredno poučevali, pri čemer pokriva širok nabor tem. GPQA po drugi strani razvršča modele o tem, kako dobro jim gre v biologiji, fiziki in kemiji, medtem ko se HumanEval osredotoča na to, kako kodirajo.
Uporabniški forum
Sporočila 0