Claude 3 est-il vraiment meilleur que GPT-4 ? L'analyse comparative de Promptbase dit le contraire

Les tests face-à-face montrent que GPT-4 Turbo devance Claude 3 dans toutes les catégories.

2 minute. lis

Publié le 6 mars 2024

publié sur 6 mars 2024

Les lecteurs aident à prendre en charge MSpoweruser. Nous pouvons recevoir une commission si vous achetez via nos liens.

Notes clés

Anthropic a récemment lancé Claude 3, censé surpasser GPT-4 et Google Gemini 1.0 Ultra.
Les scores de référence affichés indiquent que Claude 3 Opus excelle dans divers domaines par rapport à ses homologues.
Cependant, une analyse plus approfondie suggère que GPT-4 Turbo surpasse Claude 3 en comparaison directe, ce qui implique des biais potentiels dans les résultats rapportés.

Anthropic vient de a lancé Claude 3 il n'y a pas si longtemps, son modèle d'IA serait capable de battre le GPT-4 d'OpenAI et Google Gemini 1.0 Ultra. Il se décline en trois variantes : Claude 3 Haiku, Sonnet et Opus, toutes pour des usages différents.

Dans son annonce initiale, la société d'IA affirme que Claude 3 est légèrement supérieur à ces deux modèles récemment lancés.

Selon les scores de référence affichés, Claude 3 Opus est meilleur en connaissances de premier cycle (MMLU), en raisonnement de niveau supérieur (GPQA), en mathématiques à l'école primaire et en résolution de problèmes mathématiques, en mathématiques multilingues, en codage, en raisonnement sur texte et bien d'autres. que GPT-4 et Gemini 1.0 Ultra et Pro.

Cependant, cela ne donne pas une image fidèle de l’ensemble de la situation. Le score de référence affiché lors de l'annonce (en particulier pour GPT-4) a apparemment été tiré de GPT-4 sur la version de mars 2023 de l'année dernière (crédits aux passionnés d'IA @TolgaBilge_ sur X)

Un outil d'analyse des performances (analyseur de référence) appelé Base d'invite montre que GPT-4 Turbo bat effectivement Claude 3 dans tous les tests sur lesquels ils ont pu les comparer directement. Ces tests couvrent des éléments tels que les compétences mathématiques de base (GSM8K & MATH), l'écriture de code (HumanEval), le raisonnement sur texte (DROP) et un mélange d'autres défis.

En annonçant ses résultats, Anthropic a également mentionne dans une note de bas de page que leurs ingénieurs ont pu améliorer encore les performances du GPT-4T en le peaufinant spécifiquement pour les tests. Cela suggère que les résultats rapportés pourraient ne pas refléter les véritables capacités du modèle de base.

Aie.

Rafly Gilang

Journaliste technique

Rafly est un journaliste possédant des années d'expérience journalistique dans les domaines de la technologie, des affaires, du social et de la culture. Je rapporte actuellement des actualités sur les produits, la technologie et l'IA liés à Microsoft sur Windows Report et MSPowerUser. Vous avez un conseil ? Envoyez-le à [email protected].