A Meta hamarosan megjelenő Llama-3 400B modellje potenciálisan legyőzheti a GPT-4 Turbót és a Claude 3 Opust

Nem haladja meg őket, de van benne lehetőség

Kezdőlap » Hírek

Olvasási idő ikonra 2 perc olvas

Naptár ikonra Publikálva April 19, 2024

by Rafly Gilang

közzétették April 19, 2024

Az olvasók segítenek az MSpoweruser támogatásában. Kaphatunk jutalékot, ha a linkjeinken keresztül vásárol.

Főbb megjegyzések

A Meta bemutatja a Llama-3-at, a legerősebb, 700B paraméterekkel rendelkező modelljét
A Llama-3 fejlődési potenciált mutat annak ellenére, hogy edzési fázisban van
A legújabb számok azt sugallják, hogy közel áll a Claude 3 Opushoz és a GPT-4 Turbóhoz a referenciaértékekben

A Meta piacra dobja még legerősebb mesterséges intelligencia modelljét, a Láma-3 400B paraméterekkel. Abban közlemény Csütörtökön a nyílt forráskódú modell hamarosan a WhatsApp-on és az Instagramon megjelenő Meta AI-asszisztens eszközt fogja működtetni.

De az igazság az, hogy jelenleg rengeteg hatékony AI modell található a piacon. GPT-4 Turbo az OpenAI 128k-os kontextusablakkal már jó ideje létezik, és az Anthropic Claude 3 Opusa már kapható az Amazon Bedrock-on.

Tehát hogyan viszonyulnak ezek a modellek egymáshoz, több benchmark alapján? Íme egy összehasonlítás arról, hogyan tesztelték ezeket a nagy teljesítményű modelleket több lehetőség között. Ezek a számok innen származnak nyilvánosan elérhető információk és Métáé közlemény.

benchmark	Láma 3 400B	Claude 3 Opus	GPT-4 Turbo	Gemini Ultra 1.0	Gemini Pro 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	-	-
HumanEval	84.1	84.9	87.6	74.4	71.9
matematika	57.8	60.1	72.2	53.2	58.5

Amint láthatja, a Llama-3 400B valójában kissé alulmarad ezekben a benchmarkokban: 86.1 pontot ért el az MMLU-ban, 48-at a GPQA-ban, 84.1-et a HumanEval-ban és 57.8-at a MATH-ban.

Tekintettel azonban arra, hogy még képzési fázisban van, jó lehetőség van nagy fejlesztésekre, miután teljesen üzembe helyezték. És egy nyílt forráskódú modell esetében ez jóval lenyűgözőbb.

Az MMLU azt vizsgálja, hogy a modellek mennyire értik meg a különböző tantárgyakat anélkül, hogy közvetlenül tanítanák őket, és sokféle témakört lefed. A GPQA ezzel szemben a biológia, a fizika és a kémia területén jól teljesítő modelleket válogatja össze, míg a HumanEval arra összpontosít, hogyan kódolnak.

Rafly Gilang

Tech Riporter

Rafly egy riporter, aki több éves újságírói tapasztalattal rendelkezik a technológiai, üzleti, társadalmi és kulturális területeken. Jelenleg híreket jelent a Microsofttal kapcsolatos termékekről, technológiáról és mesterséges intelligenciáról a Windows Report és az MSPowerUser oldalon. Van tipped? Küldd el [e-mail védett].