Claude 3 Opus bat le GPT-4 d'OpenAI dans un classement important des chatbots

Icône de temps de lecture 2 minute. lis

Icône de calendrier Publié le 28 mars 2024

publié sur 28 mars 2024

Les lecteurs aident à prendre en charge MSpoweruser. Nous pouvons recevoir une commission si vous achetez via nos liens.

Notes clés

Claude 3 Opus a battu le GPT-4 d'OpenAI pour devenir numéro un du classement Arena.
Claude 3 Opus a un score Elo de 1253, légèrement supérieur à GPT-4.
Les résultats sont basés sur le degré de satisfaction des utilisateurs à l’égard des résultats de plusieurs modèles d’IA.

Anthropique a annoncé la famille modèle Claude 3 plus tôt ce mois-ci, affirmant qu'il pouvait surclasser le GPT-4 d'OpenAI. La société a présenté diverses mesures de performance du modèle et les a comparées à celles des chatbots concurrents pour tirer cette conclusion. Désormais, la suprématie de Claude 3 se reflète également dans le classement Arena.

Claude 3 Opus bat GPT-4 et devient numéro un

Claude 3 Opus arrive en tête du classement LYMSYS Chatbot Arena pour pousser le modèle GPT-4 à la deuxième position. Le Claude 3 Opus a obtenu un score Elo de 1253, soit un peu plus que 1251 du GPT-4. C'est le même score qui juge de l'habileté des joueurs d'échecs. Mais dans ce cas, les scores de référence jugent différents modèles d’IA, et non des joueurs d’échecs.

[Mise à jour de l'arène]

Plus de 70 XNUMX nouveaux votes dans l’arène ? sont dans!

Claude-3 Haiku a tout impressionné, atteignant même le niveau GPT-4 selon nos préférences d'utilisateur ! Sa vitesse, ses capacités et sa longueur de contexte sont désormais inégalées sur le marché ?

félicitations @AnthropiqueAI sur l'incroyable lancement de Claude-3 !

Plus excitant… pic.twitter.com/p1Guuf0B3K
– lmsys.org (@lmsysorg) 26 mars 2024

Cependant, la LYMSYS Chatbot Arena n'est pas parfaite. Les résultats de l'analyse comparative présentés sont basés sur le vote des citoyens. Ainsi, les scores ont été mis à jour après 70 4 nouveaux votes. Ainsi, en théorie, un meilleur score devrait indiquer que le résultat global du modèle d’IA était meilleur. Mais la plupart du temps, la qualité du résultat dépend de qui le regarde. Les utilisateurs se plaignent également du fait que GPT-XNUMX ne se charge pas correctement dans Chatbot Arena (via Le guide de Tom). Malgré cela, OpenAI a occupé la première place toutes ces années jusqu'à ce qu'il soit évincé par Claude 3 Opus il y a quelques heures.

Bien qu'un classement Arena mis à jour suscitera probablement davantage d'intérêt pour les modèles d'IA d'Anthropic, OpenAI prévoit de lancer GPT-5 cet été, qui est dit « matériellement meilleur ». Si cela s’avère être le cas, OpenAI retrouvera probablement sa première place dans le classement Arena.

En savoir plus sur les sujets : Anthropique, Claude 3 Opus, GPT-4

Rahul

Journaliste technique

Rahul est un journaliste technologique, avec des années d'expérience dans la couverture de logiciels, principalement Windows et Android. Il aime également partager ses opinions sur divers sujets technologiques.