Claude 3 Opus bat le GPT-4 d'OpenAI dans un classement important des chatbots

Icône de temps de lecture 2 minute. lis


Les lecteurs aident à prendre en charge MSpoweruser. Nous pouvons recevoir une commission si vous achetez via nos liens. Icône d'info-bulle

Lisez notre page de divulgation pour savoir comment vous pouvez aider MSPoweruser à soutenir l'équipe éditoriale En savoir plus

Notes clés

  • Claude 3 Opus a battu le GPT-4 d'OpenAI pour devenir numéro un du classement Arena.
  • Claude 3 Opus a un score Elo de 1253, légèrement supérieur à GPT-4.
  • Les résultats sont basés sur le degré de satisfaction des utilisateurs à l’égard des résultats de plusieurs modèles d’IA.

Anthropique a annoncé la famille modèle Claude 3 plus tôt ce mois-ci, affirmant qu'il pouvait surclasser le GPT-4 d'OpenAI. La société a présenté diverses mesures de performance du modèle et les a comparées à celles des chatbots concurrents pour tirer cette conclusion. Désormais, la suprématie de Claude 3 se reflète également dans le classement Arena.

Claude 3 Opus bat GPT-4 et devient numéro un

Claude 3 Opus arrive en tête du classement LYMSYS Chatbot Arena pour pousser le modèle GPT-4 à la deuxième position. Le Claude 3 Opus a obtenu un score Elo de 1253, soit un peu plus que 1251 du GPT-4. C'est le même score qui juge de l'habileté des joueurs d'échecs. Mais dans ce cas, les scores de référence jugent différents modèles d’IA, et non des joueurs d’échecs.

Cependant, la LYMSYS Chatbot Arena n'est pas parfaite. Les résultats de l'analyse comparative présentés sont basés sur le vote des citoyens. Ainsi, les scores ont été mis à jour après 70 4 nouveaux votes. Ainsi, en théorie, un meilleur score devrait indiquer que le résultat global du modèle d’IA était meilleur. Mais la plupart du temps, la qualité du résultat dépend de qui le regarde. Les utilisateurs se plaignent également du fait que GPT-XNUMX ne se charge pas correctement dans Chatbot Arena (via Le guide de Tom). Malgré cela, OpenAI a occupé la première place toutes ces années jusqu'à ce qu'il soit évincé par Claude 3 Opus il y a quelques heures.

Bien qu'un classement Arena mis à jour suscitera probablement davantage d'intérêt pour les modèles d'IA d'Anthropic, OpenAI prévoit de lancer GPT-5 cet été, qui est dit « matériellement meilleur ». Si cela s’avère être le cas, OpenAI retrouvera probablement sa première place dans le classement Arena.

En savoir plus sur les sujets : Anthropique, Claude 3 Opus, GPT-4