Meta's aankomende Llama-3 400B-model zou mogelijk GPT-4 Turbo en Claude 3 Opus kunnen verslaan

Het overtreft ze niet, maar het heeft potentieel

Home » Nieuws

Pictogram voor leestijd 2 minuut. lezen

Kalender pictogram Uitgegeven op 19 april 2024

by Rafly Gilang

gepubliceerd op 19 april 2024

Lezers helpen MSpoweruser ondersteunen. We kunnen een commissie krijgen als u via onze links koopt.

Belangrijkste opmerkingen

Meta onthult Llama-3, het krachtigste model met 700B-parameters
Llama-3 vertoont potentieel voor verbetering, ondanks dat hij zich in de trainingsfase bevindt
Recente cijfers suggereren dat het in benchmarks dicht bij Claude 3 Opus en GPT-4 Turbo ligt

Meta gaat zijn nog krachtigste AI-model lanceren, de Lama-3 met 400B-parameters. In zijn aankondiging donderdag zal het open-sourcemodel binnenkort de Meta AI-assistent-tool aandrijven die naar WhatsApp en Instagram komt.

Maar de waarheid is dat er momenteel genoeg krachtige AI-modellen op de markt zijn. GPT-4-turbo met een 128k-contextvenster van OpenAI bestaat al geruime tijd, en Claude 3 Opus van Anthropic is nu beschikbaar op Amazon Bedrock.

Hoe verhouden deze modellen zich tot elkaar, gebaseerd op verschillende benchmarks? Hier is een vergelijking van hoe deze krachtige modellen in verschillende opties zijn getest. Deze cijfers zijn afkomstig uit openbaar beschikbare informatie en meta's aankondiging.

criterium	Lama 3 400B	Claude 3 Opus	GPT-4-turbo	Gemini Ultra 1.0	Gemini Pro 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	-	-
MenselijkEval	84.1	84.9	87.6	74.4	71.9
WISKUNDE	57.8	60.1	72.2	53.2	58.5

Zoals u kunt zien, schiet de Llama-3 400B eigenlijk iets tekort in deze benchmarks, met een score van 86.1 in MMLU, 48 in GPQA, 84.1 in HumanEval en 57.8 in MATH.

Maar aangezien het zich nog in de trainingsfase bevindt, is er een goede mogelijkheid voor grote verbeteringen zodra het volledig is geïmplementeerd. En voor een open-sourcemodel is dat veel meer dan indrukwekkend.

MMLU test hoe goed modellen verschillende onderwerpen begrijpen zonder ze rechtstreeks te onderwijzen, en bestrijkt een breed scala aan onderwerpen. GPQA daarentegen sorteert modellen op hoe goed ze het doen in de biologie, natuurkunde en scheikunde, terwijl HumanEval zich richt op hoe ze coderen.

Rafly Gilang

Tech-verslaggever

Rafly is een verslaggever met jarenlange journalistieke ervaring, variërend van technologie, zakelijk, sociaal en cultuur. Rapporteert momenteel nieuws over Microsoft-gerelateerde producten, technologie en AI op Windows Report en MSPowerUser. Heb je een tip? Zend het naar [e-mail beveiligd].

Laat een reactie achter