Le prochain modèle Llama-3 400B de Meta pourrait potentiellement battre GPT-4 Turbo et Claude 3 Opus

Cela ne les dépasse pas, mais cela a un potentiel

Icône de temps de lecture 2 minute. lis

Icône de calendrier Publié le 19 avril 2024

publié sur 19 avril 2024

Les lecteurs aident à prendre en charge MSpoweruser. Nous pouvons recevoir une commission si vous achetez via nos liens.

Notes clés

Meta dévoile Llama-3, son modèle le plus puissant avec des paramètres 700B
Llama-3 montre un potentiel d'amélioration malgré sa phase d'entraînement
Des chiffres récents suggèrent qu'il est proche de Claude 3 Opus et GPT-4 Turbo dans les benchmarks

Meta s'apprête à lancer son modèle d'IA le plus puissant à ce jour, le Lama-3 avec des paramètres 400B. Dans son annonce Jeudi, le modèle open source alimentera bientôt l'outil d'assistance Meta AI qui arrive sur WhatsApp et Instagram.

Mais la vérité est qu’il existe actuellement de nombreux modèles d’IA puissants sur le marché. GPT-4 Turbo avec une fenêtre contextuelle de 128 Ko d'OpenAI existe depuis un certain temps, et Claude 3 Opus d'Anthropic est maintenant disponible sur le substrat rocheux d'Amazon.

Alors, comment ces modèles se comparent-ils les uns aux autres, sur la base de plusieurs critères de référence ? Voici une comparaison de la façon dont ces modèles puissants ont été testés selon plusieurs options. Ces chiffres sont tirés de informations accessibles au public et Meta annonce.

référence	Lama 3 400B	Claude 3 Opus	GPT-4 Turbo	Gémeaux Ultra 1.0	Gémeaux Pro 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	-	-
HumanEval	84.1	84.9	87.6	74.4	71.9
MATH	57.8	60.1	72.2	53.2	58.5

Comme vous pouvez le constater, Llama-3 400B est en fait légèrement en deçà de ces critères, avec un score de 86.1 en MMLU, 48 en GPQA, 84.1 en HumanEval et 57.8 en MATH.

Mais étant donné qu’il est encore en phase de formation, il existe de bonnes possibilités d’améliorations importantes une fois qu’il sera entièrement déployé. Et pour un modèle open source, c’est bien plus qu’impressionnant.

MMLU teste la capacité des modèles à comprendre différents sujets sans les enseigner directement, couvrant un large éventail de sujets. GPQA, quant à lui, trie les modèles en fonction de leurs performances en biologie, physique et chimie, tandis que HumanEval se concentre sur la façon dont ils codent.

Rafly Gilang

Journaliste technique

Rafly est un journaliste possédant des années d'expérience journalistique dans les domaines de la technologie, des affaires, du social et de la culture. Je rapporte actuellement des actualités sur les produits, la technologie et l'IA liés à Microsoft sur Windows Report et MSPowerUser. Vous avez un conseil ? Envoyez-le à [email protected].