Le prochain modèle Llama-3 400B de Meta pourrait potentiellement battre GPT-4 Turbo et Claude 3 Opus

Cela ne les dépasse pas, mais cela a un potentiel

Icône de temps de lecture 2 minute. lis


Les lecteurs aident à prendre en charge MSpoweruser. Nous pouvons recevoir une commission si vous achetez via nos liens. Icône d'info-bulle

Lisez notre page de divulgation pour savoir comment vous pouvez aider MSPoweruser à soutenir l'équipe éditoriale En savoir plus

Notes clés

  • Meta dévoile Llama-3, son modèle le plus puissant avec des paramètres 700B
  • Llama-3 montre un potentiel d'amélioration malgré sa phase d'entraînement
  • Des chiffres récents suggèrent qu'il est proche de Claude 3 Opus et GPT-4 Turbo dans les benchmarks

Meta s'apprête à lancer son modèle d'IA le plus puissant à ce jour, le Lama-3 avec des paramètres 400B. Dans son annonce Jeudi, le modèle open source alimentera bientôt l'outil d'assistance Meta AI qui arrive sur WhatsApp et Instagram. 

Mais la vérité est qu’il existe actuellement de nombreux modèles d’IA puissants sur le marché. GPT-4 Turbo avec une fenêtre contextuelle de 128 Ko d'OpenAI existe depuis un certain temps, et Claude 3 Opus d'Anthropic est maintenant disponible sur le substrat rocheux d'Amazon.

Alors, comment ces modèles se comparent-ils les uns aux autres, sur la base de plusieurs critères de référence ? Voici une comparaison de la façon dont ces modèles puissants ont été testés selon plusieurs options. Ces chiffres sont tirés de informations accessibles au public et Meta annonce.

référenceLama 3 400BClaude 3 OpusGPT-4 TurboGémeaux Ultra 1.0Gémeaux Pro 1.5
MMLU86.186.886.583.781.9
GPQA4850.449.1--
HumanEval84.184.987.674.471.9
MATH57.860.172.253.258.5

Comme vous pouvez le constater, Llama-3 400B est en fait légèrement en deçà de ces critères, avec un score de 86.1 en MMLU, 48 en GPQA, 84.1 en HumanEval et 57.8 en MATH. 

Mais étant donné qu’il est encore en phase de formation, il existe de bonnes possibilités d’améliorations importantes une fois qu’il sera entièrement déployé. Et pour un modèle open source, c’est bien plus qu’impressionnant. 

MMLU teste la capacité des modèles à comprendre différents sujets sans les enseigner directement, couvrant un large éventail de sujets. GPQA, quant à lui, trie les modèles en fonction de leurs performances en biologie, physique et chimie, tandis que HumanEval se concentre sur la façon dont ils codent.