Claude 3 Opus slår OpenAI:s GPT-4 i viktig chatbot-rankning
2 min. läsa
Publicerad den
Läs vår informationssida för att ta reda på hur du kan hjälpa MSPoweruser upprätthålla redaktionen Läs mer
Viktiga anteckningar
- Claude 3 Opus har besegrat OpenAI:s GPT-4 för att bli nummer ett i Arena-rankingen.
- Claude 3 Opus har en Elo-poäng på 1253, något mer än GPT-4.
- Resultaten baseras på hur nöjda användare var med resultatet av flera AI-modeller.
Antropisk tillkännagav modellfamiljen Claude 3 tidigare denna månad, hävdade att det kan överträffa OpenAI:s GPT-4. Företaget visade olika prestandamått för modellen och jämförde dem med rivaliserande chatbots för att dra den slutsatsen. Nu återspeglar Claude 3:s överhöghet även på Arena-poängtavlan.
Claude 3 Opus slår GPT-4 för att bli nummer ett
Claude 3 Opus har toppat LYMSYS Chatbot Arena-rankingen för att flytta GPT-4-modellen till den andra positionen. Claude 3 Opus fick en Elo-poäng på 1253, något mer än 1251 av GPT-4. Det är samma poäng som bedömer hur skickliga schackspelare är. Men i det här fallet bedömer benchmarkpoängen olika AI-modeller, inte schackspelare.
LYMSYS Chatbot Arena är dock inte perfekt. Benchmarkingresultaten som den visar är baserade på folks röstning. Som sådan uppdaterades poängen efter 70 tusen nya röster. Så i teorin borde ett bättre resultat indikera att den totala produktionen av AI-modellen var bättre. Men ofta beror hur bra resultatet är på vem som tittar på det. Användare klagar också på att GPT-4 inte laddas ordentligt i Chatbot Arena (via Toms guide). Trots det hade OpenAI den första positionen under alla dessa år tills den avsattes av Claude 3 Opus för några timmar sedan.
Medan en uppdaterad Arena-rankning sannolikt kommer att generera mer intresse för Anthropics AI-modeller, har OpenAI planer på att lansera GPT-5 i sommar, vilket sägs vara "materiellt bättre". Om så visar sig vara fallet kommer OpenAI sannolikt att återta sin topposition på Arena-poängtavlan.