Claude 3 Opus schlägt GPT-4 von OpenAI im wichtigen Chatbot-Ranking

Startseite » Aktuelles

Symbol für die Lesezeit 2 Minute. lesen

Kalendersymbol Veröffentlicht am 28. März 2024

by Rahul

Veröffentlicht am 28. März 2024

Leser unterstützen MSpoweruser. Wir erhalten möglicherweise eine Provision, wenn Sie über unsere Links kaufen.

Wichtige Hinweise

Claude 3 Opus hat OpenAIs GPT-4 geschlagen und ist die Nummer eins im Arena-Ranking.
Claude 3 Opus hat einen Elo-Score von 1253, etwas mehr als GPT-4.
Die Ergebnisse basieren darauf, wie zufrieden Benutzer mit den Ergebnissen mehrerer KI-Modelle waren.

Anthropisch kündigte die Modellfamilie Claude 3 an Anfang dieses Monats behauptete es, es könne OpenAIs GPT-4 übertreffen. Das Unternehmen zeigte verschiedene Leistungsmetriken des Modells und verglich sie mit denen konkurrierender Chatbots, um zu dieser Schlussfolgerung zu gelangen. Jetzt spiegelt sich die Vormachtstellung von Claude 3 auch in der Arena-Rangliste wider.

Claude 3 Opus schlägt GPT-4 und wird die Nummer eins

Claude 3 Opus hat die LYMSYS Chatbot Arena-Rangliste angeführt und das GPT-4-Modell auf den zweiten Platz verdrängt. Das Claude 3 Opus erreichte einen Elo-Wert von 1253, etwas mehr als 1251 von GPT-4. Es ist die gleiche Punktzahl, die beurteilt, wie geschickt Schachspieler sind. Aber in diesem Fall beurteilen die Benchmark-Ergebnisse verschiedene KI-Modelle und nicht Schachspieler.

[Arena-Update]

Über 70 neue Arena-Stimmen?? sind in!

Claude-3 Haiku hat alle beeindruckt und nach unserer Benutzervorliebe sogar das GPT-4-Niveau erreicht! Seine Geschwindigkeit, Fähigkeiten und Kontextlänge sind derzeit auf dem Markt unübertroffen?

congrats @AnthropicAI zum unglaublichen Start von Claude-3!

Aufregender… pic.twitter.com/p1Guuf0B3K
– lmsys.org (@lmsysorg) 26. März 2024

Allerdings ist die LYMSYS Chatbot Arena nicht perfekt. Die angezeigten Benchmarking-Ergebnisse basieren auf der Abstimmung der Menschen. Daher wurden die Ergebnisse nach 70 neuen Stimmen aktualisiert. Theoretisch sollte ein besserer Wert also bedeuten, dass die Gesamtleistung des KI-Modells besser war. Aber wie gut die Ausgabe ist, hängt oft davon ab, wer sie ansieht. Benutzer beschweren sich auch darüber, dass GPT-4 in Chatbot Arena nicht richtig geladen wird (via Tom'sguide). Trotzdem hielt OpenAI all die Jahre den ersten Platz, bis es vor ein paar Stunden von Claude 3 Opus verdrängt wurde.

Während ein aktualisiertes Arena-Ranking wahrscheinlich mehr Interesse an den KI-Modellen von Anthropic wecken wird, hat OpenAI Pläne, dies zu tun starten Sie GPT-5 diesen Sommer, was angeblich „materiell besser“ sei. Sollte dies der Fall sein, wird OpenAI wahrscheinlich seinen Spitzenplatz auf der Arena-Rangliste zurückerobern.

Mehr zu den Themen: Anthropisch, Claude 3 Opus, GPT-4

Rahul

Technikjournalist

Rahul ist ein Technikjournalist mit jahrelanger Erfahrung in der Berichterstattung über Software, vor allem Windows und Android. Er liebt es auch, ihre Meinung zu verschiedenen Technologiethemen zu teilen.

Claude 3 Opus schlägt GPT-4 und wird die Nummer eins

Hinterlassen Sie uns einen Kommentar