Claude 3 Opus slår OpenAI:s GPT-4 i viktig chatbot-rankning

Hem » Nyheter

Lästid ikon 2 min. läsa

Kalenderikonen Publicerad den Mars 28, 2024

by Rahul

publicerad den Mars 28, 2024

Läsare hjälper till att stödja MSpoweruser. Vi kan få en provision om du köper via våra länkar.

Viktiga anteckningar

Claude 3 Opus har besegrat OpenAI:s GPT-4 för att bli nummer ett i Arena-rankingen.
Claude 3 Opus har en Elo-poäng på 1253, något mer än GPT-4.
Resultaten baseras på hur nöjda användare var med resultatet av flera AI-modeller.

Antropisk tillkännagav modellfamiljen Claude 3 tidigare denna månad, hävdade att det kan överträffa OpenAI:s GPT-4. Företaget visade olika prestandamått för modellen och jämförde dem med rivaliserande chatbots för att dra den slutsatsen. Nu återspeglar Claude 3:s överhöghet även på Arena-poängtavlan.

Claude 3 Opus slår GPT-4 för att bli nummer ett

Claude 3 Opus har toppat LYMSYS Chatbot Arena-rankingen för att flytta GPT-4-modellen till den andra positionen. Claude 3 Opus fick en Elo-poäng på 1253, något mer än 1251 av GPT-4. Det är samma poäng som bedömer hur skickliga schackspelare är. Men i det här fallet bedömer benchmarkpoängen olika AI-modeller, inte schackspelare.

[Arenauppdatering]

70K+ nya Arena-röster?? är i!

Claude-3 Haiku har imponerat på alla, till och med nått GPT-4-nivå enligt våra användarpreferenser! Dess hastighet, kapacitet och sammanhangslängd är oöverträffad nu på marknaden?

Grattis @AnthropicAI på den otroliga lanseringen av Claude-3!

Mer spännande… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) Mars 26, 2024

LYMSYS Chatbot Arena är dock inte perfekt. Benchmarkingresultaten som den visar är baserade på folks röstning. Som sådan uppdaterades poängen efter 70 tusen nya röster. Så i teorin borde ett bättre resultat indikera att den totala produktionen av AI-modellen var bättre. Men ofta beror hur bra resultatet är på vem som tittar på det. Användare klagar också på att GPT-4 inte laddas ordentligt i Chatbot Arena (via Toms guide). Trots det hade OpenAI den första positionen under alla dessa år tills den avsattes av Claude 3 Opus för några timmar sedan.

Medan en uppdaterad Arena-rankning sannolikt kommer att generera mer intresse för Anthropics AI-modeller, har OpenAI planer på att lansera GPT-5 i sommar, vilket sägs vara "materiellt bättre". Om så visar sig vara fallet kommer OpenAI sannolikt att återta sin topposition på Arena-poängtavlan.

Mer om ämnena: Antropisk, Claude 3 Opus, GPT-4

Rahul

Teknisk journalist

Rahul är en teknisk journalist, med många års erfarenhet av att täcka programvara, främst Windows och Android. Han älskar också att dela hennes åsikter om olika tekniska ämnen.

Claude 3 Opus slår GPT-4 för att bli nummer ett

Kommentera uppropet