Meta's aankomende Llama-3 400B-model zou mogelijk GPT-4 Turbo en Claude 3 Opus kunnen verslaan

Het overtreft ze niet, maar het heeft potentieel

Pictogram voor leestijd 2 minuut. lezen


Lezers helpen MSpoweruser ondersteunen. We kunnen een commissie krijgen als u via onze links koopt. Tooltip-pictogram

Lees onze openbaarmakingspagina om erachter te komen hoe u MSPoweruser kunt helpen het redactieteam te ondersteunen Lees meer

Belangrijkste opmerkingen

  • Meta onthult Llama-3, het krachtigste model met 700B-parameters
  • Llama-3 vertoont potentieel voor verbetering, ondanks dat hij zich in de trainingsfase bevindt
  • Recente cijfers suggereren dat het in benchmarks dicht bij Claude 3 Opus en GPT-4 Turbo ligt
Meta-bedrijf

Meta gaat zijn nog krachtigste AI-model lanceren, de Lama-3 met 400B-parameters. In zijn aankondiging donderdag zal het open-sourcemodel binnenkort de Meta AI-assistent-tool aandrijven die naar WhatsApp en Instagram komt. 

Maar de waarheid is dat er momenteel genoeg krachtige AI-modellen op de markt zijn. GPT-4-turbo met een 128k-contextvenster van OpenAI bestaat al geruime tijd, en Claude 3 Opus van Anthropic is nu beschikbaar op Amazon Bedrock.

Hoe verhouden deze modellen zich tot elkaar, gebaseerd op verschillende benchmarks? Hier is een vergelijking van hoe deze krachtige modellen in verschillende opties zijn getest. Deze cijfers zijn afkomstig uit openbaar beschikbare informatie en meta's aankondiging.

criteriumLama 3 400BClaude 3 OpusGPT-4-turboGemini Ultra 1.0Gemini Pro 1.5
MMLU86.186.886.583.781.9
GPQA4850.449.1--
MenselijkEval84.184.987.674.471.9
WISKUNDE57.860.172.253.258.5

Zoals u kunt zien, schiet de Llama-3 400B eigenlijk iets tekort in deze benchmarks, met een score van 86.1 in MMLU, 48 in GPQA, 84.1 in HumanEval en 57.8 in MATH. 

Maar aangezien het zich nog in de trainingsfase bevindt, is er een goede mogelijkheid voor grote verbeteringen zodra het volledig is geïmplementeerd. En voor een open-sourcemodel is dat veel meer dan indrukwekkend. 

MMLU test hoe goed modellen verschillende onderwerpen begrijpen zonder ze rechtstreeks te onderwijzen, en bestrijkt een breed scala aan onderwerpen. GPQA daarentegen sorteert modellen op hoe goed ze het doen in de biologie, natuurkunde en scheikunde, terwijl HumanEval zich richt op hoe ze coderen. 

Gebruikersforum

0 berichten