Metin prihajajoči model Llama-3 400B bi lahko potencialno premagal GPT-4 Turbo in Claude 3 Opus

Ne presega jih, ima pa potencial

Ikona časa branja 2 min. prebrati


Bralci pomagajo pri podpori MSpoweruser. Če kupujete prek naših povezav, lahko prejmemo provizijo. Ikona opisa orodja

Preberite našo stran za razkritje, če želite izvedeti, kako lahko pomagate MSPoweruser vzdrževati uredniško skupino Preberi več

Ključne opombe

  • Meta razkriva Llama-3, svoj doslej najmočnejši model s parametri 700B
  • Llama-3 kaže potencial za izboljšave kljub temu, da je v fazi usposabljanja
  • Zadnje številke kažejo, da je v merilih uspešnosti blizu Claude 3 Opus in GPT-4 Turbo
Podjetje Meta

Meta naj bi predstavila svoj doslej najmočnejši model AI, the Lama-3 s parametri 400B. V svoji Objava v četrtek bo odprtokodni model kmalu poganjal orodje Meta AI assistant, ki prihaja v WhatsApp in Instagram. 

Toda resnica je, da je trenutno na trgu veliko zmogljivih modelov AI. GPT-4 Turbo s kontekstnim oknom 128k iz OpenAI obstaja že kar nekaj časa, Claude 3 Opus iz Anthropica pa je sedaj na voljo na Amazon Bedrock.

Torej, kako se ti modeli primerjajo med seboj na podlagi več meril? Tukaj je primerjava, kako so ti zmogljivi modeli preizkušeni v več možnostih. Te številke so vzete iz javno dostopne informacije in Meta Objava.

meriloLama 3 400BClaude 3 OpusGPT-4 TurboGemini Ultra 1.0Gemini Pro 1.5
MMLU86.186.886.583.781.9
GPQA4850.449.1--
HumanEval84.184.987.674.471.9
MATH57.860.172.253.258.5

Kot lahko vidite, Llama-3 400B dejansko nekoliko zaostaja pri teh merilih uspešnosti, saj je dosegel 86.1 v MMLU, 48 v GPQA, 84.1 v HumanEval in 57.8 v MATH. 

Toda glede na to, da je še vedno v fazi usposabljanja, obstaja dobra možnost za velike izboljšave, ko bo v celoti uveden. In za odprtokodni model je to več kot impresivno. 

MMLU preizkuša, kako dobro modeli razumejo različne teme, ne da bi jih neposredno poučevali, pri čemer pokriva širok nabor tem. GPQA po drugi strani razvršča modele o tem, kako dobro jim gre v biologiji, fiziki in kemiji, medtem ko se HumanEval osredotoča na to, kako kodirajo. 

Uporabniški forum

Sporočila 0