Claude 3 Opus slår OpenAIs GPT-4 i viktig chatbot-rangering

Hjemprodukt » Nyheter

Ikon for lesetid 2 min. lese

Kalenderikon Publisert på Mars 28, 2024

by Rahul

publisert på Mars 28, 2024

Lesere hjelper til med å støtte MSpoweruser. Vi kan få provisjon hvis du kjøper gjennom lenkene våre.

Viktige merknader

Claude 3 Opus har slått OpenAIs GPT-4 for å bli nummer én i Arena-rankingen.
Claude 3 Opus har en Elo-score på 1253, litt mer enn GPT-4.
Resultatene er basert på hvor fornøyde brukere var med resultatene fra flere AI-modeller.

Antropisk annonserte Claude 3-modellfamilien tidligere denne måneden, og hevdet at den kan overgå OpenAIs GPT-4. Selskapet viste ulike ytelsesmålinger for modellen og sammenlignet dem med de til rivaliserende chatboter for å trekke den konklusjonen. Nå gjenspeiler Claude 3 overherredømmet også på Arena-ledertavlen.

Claude 3 Opus slår GPT-4 for å bli nummer én

Claude 3 Opus har toppet LYMSYS Chatbot Arena-rangeringen for å presse GPT-4-modellen til andre posisjon. Claude 3 Opus fikk en Elo-poengsum på 1253, litt mer enn 1251 av GPT-4. Det er den samme poengsummen som bedømmer hvor dyktige sjakkspillere er. Men i dette tilfellet bedømmer benchmark-skårene ulike AI-modeller, ikke sjakkspillere.

[Arenaoppdatering]

70K+ nye Arena-stemmer?? er i!

Claude-3 Haiku har imponert alle, til og med nådd GPT-4-nivå etter brukerpreferansene våre! Dens hastighet, evner og kontekstlengde er uovertruffen nå på markedet?

Gratulerer @AnthropicAI på den utrolige Claude-3-lanseringen!

Mer spennende… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) Mars 26, 2024

LYMSYS Chatbot Arena er imidlertid ikke perfekt. Benchmarking-resultatene som den viser er basert på folks stemmegivning. Som sådan ble poengsummen oppdatert etter 70 tusen nye stemmer. Så i teorien burde en bedre poengsum indikere at den totale produksjonen av AI-modellen var bedre. Men mye av tiden, hvor bra utgangen er, avhenger av hvem som ser den. Brukere klager også over at GPT-4 ikke laster ordentlig i Chatbot Arena (via Toms guide). Til tross for det hadde OpenAI den første posisjonen i alle disse årene inntil den ble kastet ut av Claude 3 Opus for noen timer siden.

Mens en oppdatert Arena-rangering sannsynligvis vil generere mer interesse for Anthropics AI-modeller, har OpenAI planer om å lansere GPT-5 i sommer, som sies å være "materiell bedre". Hvis det viser seg å være tilfelle, vil OpenAI sannsynligvis gjenvinne sin topplassering på Arena-ledertavlen.

Mer om temaene: Antropisk, Claude 3 opus, GPT-4

Rahul

Teknisk journalist

Rahul er en teknisk journalist, med mange års erfaring med å dekke programvare, primært Windows og Android. Han elsker også å dele hennes meninger om forskjellige tekniske emner.

Claude 3 Opus slår GPT-4 for å bli nummer én

Legg igjen en kommentar