Claude 3 Opus slår OpenAIs GPT-4 i viktig chatbot-rangering
2 min. lese
Publisert på
Les vår avsløringsside for å finne ut hvordan du kan hjelpe MSPoweruser opprettholde redaksjonen Les mer
Viktige merknader
- Claude 3 Opus har slått OpenAIs GPT-4 for å bli nummer én i Arena-rankingen.
- Claude 3 Opus har en Elo-score på 1253, litt mer enn GPT-4.
- Resultatene er basert på hvor fornøyde brukere var med resultatene fra flere AI-modeller.
Antropisk annonserte Claude 3-modellfamilien tidligere denne måneden, og hevdet at den kan overgå OpenAIs GPT-4. Selskapet viste ulike ytelsesmålinger for modellen og sammenlignet dem med de til rivaliserende chatboter for å trekke den konklusjonen. Nå gjenspeiler Claude 3 overherredømmet også på Arena-ledertavlen.
Claude 3 Opus slår GPT-4 for å bli nummer én
Claude 3 Opus har toppet LYMSYS Chatbot Arena-rangeringen for å presse GPT-4-modellen til andre posisjon. Claude 3 Opus fikk en Elo-poengsum på 1253, litt mer enn 1251 av GPT-4. Det er den samme poengsummen som bedømmer hvor dyktige sjakkspillere er. Men i dette tilfellet bedømmer benchmark-skårene ulike AI-modeller, ikke sjakkspillere.
LYMSYS Chatbot Arena er imidlertid ikke perfekt. Benchmarking-resultatene som den viser er basert på folks stemmegivning. Som sådan ble poengsummen oppdatert etter 70 tusen nye stemmer. Så i teorien burde en bedre poengsum indikere at den totale produksjonen av AI-modellen var bedre. Men mye av tiden, hvor bra utgangen er, avhenger av hvem som ser den. Brukere klager også over at GPT-4 ikke laster ordentlig i Chatbot Arena (via Toms guide). Til tross for det hadde OpenAI den første posisjonen i alle disse årene inntil den ble kastet ut av Claude 3 Opus for noen timer siden.
Mens en oppdatert Arena-rangering sannsynligvis vil generere mer interesse for Anthropics AI-modeller, har OpenAI planer om å lansere GPT-5 i sommer, som sies å være "materiell bedre". Hvis det viser seg å være tilfelle, vil OpenAI sannsynligvis gjenvinne sin topplassering på Arena-ledertavlen.