A Meta hamarosan megjelenő Llama-3 400B modellje potenciálisan legyőzheti a GPT-4 Turbót és a Claude 3 Opust
Nem haladja meg őket, de van benne lehetőség
2 perc olvas
Publikálva
Olvassa el közzétételi oldalunkat, hogy megtudja, hogyan segítheti az MSPowerusert a szerkesztői csapat fenntartásában Tovább
Főbb megjegyzések
- A Meta bemutatja a Llama-3-at, a legerősebb, 700B paraméterekkel rendelkező modelljét
- A Llama-3 fejlődési potenciált mutat annak ellenére, hogy edzési fázisban van
- A legújabb számok azt sugallják, hogy közel áll a Claude 3 Opushoz és a GPT-4 Turbóhoz a referenciaértékekben
A Meta piacra dobja még legerősebb mesterséges intelligencia modelljét, a Láma-3 400B paraméterekkel. Abban közlemény Csütörtökön a nyílt forráskódú modell hamarosan a WhatsApp-on és az Instagramon megjelenő Meta AI-asszisztens eszközt fogja működtetni.
De az igazság az, hogy jelenleg rengeteg hatékony AI modell található a piacon. GPT-4 Turbo az OpenAI 128k-os kontextusablakkal már jó ideje létezik, és az Anthropic Claude 3 Opusa már kapható az Amazon Bedrock-on.
Tehát hogyan viszonyulnak ezek a modellek egymáshoz, több benchmark alapján? Íme egy összehasonlítás arról, hogyan tesztelték ezeket a nagy teljesítményű modelleket több lehetőség között. Ezek a számok innen származnak nyilvánosan elérhető információk és Métáé közlemény.
benchmark | Láma 3 400B | Claude 3 Opus | GPT-4 Turbo | Gemini Ultra 1.0 | Gemini Pro 1.5 |
MMLU | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GPQA | 48 | 50.4 | 49.1 | - | - |
HumanEval | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
matematika | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
Amint láthatja, a Llama-3 400B valójában kissé alulmarad ezekben a benchmarkokban: 86.1 pontot ért el az MMLU-ban, 48-at a GPQA-ban, 84.1-et a HumanEval-ban és 57.8-at a MATH-ban.
Tekintettel azonban arra, hogy még képzési fázisban van, jó lehetőség van nagy fejlesztésekre, miután teljesen üzembe helyezték. És egy nyílt forráskódú modell esetében ez jóval lenyűgözőbb.
Az MMLU azt vizsgálja, hogy a modellek mennyire értik meg a különböző tantárgyakat anélkül, hogy közvetlenül tanítanák őket, és sokféle témakört lefed. A GPQA ezzel szemben a biológia, a fizika és a kémia területén jól teljesítő modelleket válogatja össze, míg a HumanEval arra összpontosít, hogyan kódolnak.
Felhasználói fórum
0 üzenetek