Claude 3 Opus slår OpenAIs GPT-4 i viktig chatbot-rangering

Ikon for lesetid 2 min. lese


Lesere hjelper til med å støtte MSpoweruser. Vi kan få provisjon hvis du kjøper gjennom lenkene våre. Verktøytipsikon

Les vår avsløringsside for å finne ut hvordan du kan hjelpe MSPoweruser opprettholde redaksjonen Les mer

Viktige merknader

  • Claude 3 Opus har slått OpenAIs GPT-4 for å bli nummer én i Arena-rankingen.
  • Claude 3 Opus har en Elo-score på 1253, litt mer enn GPT-4.
  • Resultatene er basert på hvor fornøyde brukere var med resultatene fra flere AI-modeller.

Antropisk annonserte Claude 3-modellfamilien tidligere denne måneden, og hevdet at den kan overgå OpenAIs GPT-4. Selskapet viste ulike ytelsesmålinger for modellen og sammenlignet dem med de til rivaliserende chatboter for å trekke den konklusjonen. Nå gjenspeiler Claude 3 overherredømmet også på Arena-ledertavlen.

Claude 3 Opus slår GPT-4 for å bli nummer én

Claude 3 Opus har toppet LYMSYS Chatbot Arena-rangeringen for å presse GPT-4-modellen til andre posisjon. Claude 3 Opus fikk en Elo-poengsum på 1253, litt mer enn 1251 av GPT-4. Det er den samme poengsummen som bedømmer hvor dyktige sjakkspillere er. Men i dette tilfellet bedømmer benchmark-skårene ulike AI-modeller, ikke sjakkspillere.

LYMSYS Chatbot Arena er imidlertid ikke perfekt. Benchmarking-resultatene som den viser er basert på folks stemmegivning. Som sådan ble poengsummen oppdatert etter 70 tusen nye stemmer. Så i teorien burde en bedre poengsum indikere at den totale produksjonen av AI-modellen var bedre. Men mye av tiden, hvor bra utgangen er, avhenger av hvem som ser den. Brukere klager også over at GPT-4 ikke laster ordentlig i Chatbot Arena (via Toms guide). Til tross for det hadde OpenAI den første posisjonen i alle disse årene inntil den ble kastet ut av Claude 3 Opus for noen timer siden.

Mens en oppdatert Arena-rangering sannsynligvis vil generere mer interesse for Anthropics AI-modeller, har OpenAI planer om å lansere GPT-5 i sommer, som sies å være "materiell bedre". Hvis det viser seg å være tilfelle, vil OpenAI sannsynligvis gjenvinne sin topplassering på Arena-ledertavlen.

Mer om temaene: Antropisk, Claude 3 opus, GPT-4

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket *