Claude 3 Opus slår OpenAI's GPT-4 i vigtig chatbot-rangering

Home » Nyheder

Ikon for læsetid 2 min. Læs

Kalenderikon Udgivet den Marts 28, 2024

by Rahul

offentliggjort den Marts 28, 2024

Læsere hjælper med at understøtte MSpoweruser. Vi får muligvis en kommission, hvis du køber via vores links.

Nøgle noter

Claude 3 Opus har slået OpenAI's GPT-4 for at blive nummer et på Arena-ranglisten.
Claude 3 Opus har en Elo Score på 1253, lidt mere end GPT-4.
Resultaterne er baseret på, hvor tilfredse brugerne var med output fra flere AI-modeller.

Antropisk annoncerede Claude 3-modelfamilien tidligere på måneden og hævdede, at den kan udkonkurrere OpenAI's GPT-4. Virksomheden viste forskellige præstationsmålinger for modellen og sammenlignede dem med konkurrerende chatbots for at drage den konklusion. Nu afspejler Claude 3's overherredømme også på Arena-ranglisten.

Claude 3 Opus slår GPT-4 for at blive nummer et

Claude 3 Opus har toppet LYMSYS Chatbot Arena-ranglisten for at skubbe GPT-4-modellen til den anden position. Claude 3 Opus opnåede en Elo-score på 1253, lidt mere end 1251 af GPT-4. Det er den samme score, der bedømmer, hvor dygtige skakspillere er. Men i dette tilfælde bedømmer benchmark-resultaterne forskellige AI-modeller, ikke skakspillere.

[Arena-opdatering]

70K+ nye Arena-stemmer?? er inde!

Claude-3 Haiku har imponeret alle, endda nået GPT-4 niveauet efter vores brugerpræference! Er dens hastighed, muligheder og kontekstlængde uovertruffen nu på markedet?

tillykke @AnthropicAI på den utrolige Claude-3-lancering!

Mere spændende… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) Marts 26, 2024

LYMSYS Chatbot Arena er dog ikke perfekt. De benchmarking-resultater, som det viser, er baseret på folks stemmeafgivning. Som sådan blev resultaterne opdateret efter 70 tusinde nye stemmer. Så i teorien skulle en bedre score indikere, at det samlede output af AI-modellen var bedre. Men meget af tiden afhænger hvor godt outputtet er af, hvem der ser det. Brugere klager også over, at GPT-4 ikke indlæses korrekt i Chatbot Arena (via Toms guide). På trods af det havde OpenAI den første position i alle disse år, indtil den blev fordrevet af Claude 3 Opus for et par timer siden.

Mens en opdateret Arena-rangering sandsynligvis vil generere mere interesse for Anthropics AI-modeller, har OpenAI planer om at lancere GPT-5 til sommer, som siges at være "materielt bedre". Hvis det viser sig at være tilfældet, vil OpenAI sandsynligvis genvinde sin topplacering på Arena-ranglisten.

Mere om emnerne: Antropisk, Claude 3 opus, GPT-4

Rahul

Teknisk journalist

Rahul er en teknisk journalist med mange års erfaring i at dække software, primært Windows og Android. Han elsker også at dele hendes meninger om forskellige tekniske emner.