Metin prihajajoči model Llama-3 400B bi lahko potencialno premagal GPT-4 Turbo in Claude 3 Opus

Ne presega jih, ima pa potencial

Domov » Novice

2 min. prebrati

Objavljeno dne April 19, 2024

by Rafly Gilang

Objavljeno dne April 19, 2024

Dajte v skupno rabo ta članek

Izboljšajte ta vodnik

Bralci pomagajo pri podpori MSpoweruser. Če kupujete prek naših povezav, lahko prejmemo provizijo.

Ključne opombe

Meta razkriva Llama-3, svoj doslej najmočnejši model s parametri 700B
Llama-3 kaže potencial za izboljšave kljub temu, da je v fazi usposabljanja
Zadnje številke kažejo, da je v merilih uspešnosti blizu Claude 3 Opus in GPT-4 Turbo

Meta naj bi predstavila svoj doslej najmočnejši model AI, the Lama-3 s parametri 400B. V svoji Objava v četrtek bo odprtokodni model kmalu poganjal orodje Meta AI assistant, ki prihaja v WhatsApp in Instagram.

Toda resnica je, da je trenutno na trgu veliko zmogljivih modelov AI. GPT-4 Turbo s kontekstnim oknom 128k iz OpenAI obstaja že kar nekaj časa, Claude 3 Opus iz Anthropica pa je sedaj na voljo na Amazon Bedrock.

Torej, kako se ti modeli primerjajo med seboj na podlagi več meril? Tukaj je primerjava, kako so ti zmogljivi modeli preizkušeni v več možnostih. Te številke so vzete iz javno dostopne informacije in Meta Objava.

merilo	Lama 3 400B	Claude 3 Opus	GPT-4 Turbo	Gemini Ultra 1.0	Gemini Pro 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	-	-
HumanEval	84.1	84.9	87.6	74.4	71.9
MATH	57.8	60.1	72.2	53.2	58.5

Kot lahko vidite, Llama-3 400B dejansko nekoliko zaostaja pri teh merilih uspešnosti, saj je dosegel 86.1 v MMLU, 48 v GPQA, 84.1 v HumanEval in 57.8 v MATH.

Toda glede na to, da je še vedno v fazi usposabljanja, obstaja dobra možnost za velike izboljšave, ko bo v celoti uveden. In za odprtokodni model je to več kot impresivno.

MMLU preizkuša, kako dobro modeli razumejo različne teme, ne da bi jih neposredno poučevali, pri čemer pokriva širok nabor tem. GPQA po drugi strani razvršča modele o tem, kako dobro jim gre v biologiji, fiziki in kemiji, medtem ko se HumanEval osredotoča na to, kako kodirajo.

Rafly Gilang

Tehnični poročevalec

Rafly je poročevalec z dolgoletnimi novinarskimi izkušnjami, ki segajo od tehnologije, gospodarstva, družbe in kulture. Trenutno poročanje o novicah o Microsoftovih izdelkih, tehnologiji in AI na MSPowerUser. Imate nasvet? Pošljite na [e-pošta zaščitena]

Uporabniški forum

Sporočila 0

Razvrsti po:

Pustite Odgovori preklicati odgovor