Är Claude 3 verkligen bättre än GPT-4? Promptbases benchmarking säger annorlunda

Head-to-head tester visar att GPT-4 Turbo kanter ut Claude 3 i alla kategorier.

Lästid ikon 2 min. läsa


Läsare hjälper till att stödja MSpoweruser. Vi kan få en provision om du köper via våra länkar. Verktygstipsikon

Läs vår informationssida för att ta reda på hur du kan hjälpa MSPoweruser upprätthålla redaktionen Läs mer

Viktiga anteckningar

  • Anthropic lanserade nyligen Claude 3, utsedd för att överträffa GPT-4 och Google Gemini 1.0 Ultra.
  • Postade benchmarkpoäng visar att Claude 3 Opus utmärker sig på olika områden jämfört med sina motsvarigheter.
  • Ytterligare analys tyder dock på att GPT-4 Turbo överträffar Claude 3 i direkta jämförelser, vilket innebär potentiella fördomar i rapporterade resultat.

Anthropic har precis lanserade Claude 3 för inte så länge sedan, dess AI-modell som sägs kunna slå OpenAI:s GPT-4 och Google Gemini 1.0 Ultra. Den kommer med tre varianter: Claude 3 Haiku, Sonnet och Opus, alla för olika användningsområden.

I sitt första tillkännagivande, säger AI-företaget att Claude 3 är något överlägsen dessa två nyligen lanserade modeller. 

Enligt de publicerade benchmarkpoängen är Claude 3 Opus bättre i kunskaper på grundnivå (MMLU), resonemang på forskarnivå (GPQA), matematik och matematisk problemlösning i grundskolan, flerspråkig matematik, kodning, resonemang över text och andra mer än GPT-4 och Gemini 1.0 Ultra och Pro.

Men det målar inte helt upp hela bilden sanningsenligt. Den postade benchmark-poängen på tillkännagivandet (särskilt för GPT-4) togs tydligen från GPT-4 på releaseversionen från mars 2023 förra året (krediter till AI-entusiasten @TolgaBilge_ på X)

Ett verktyg som analyserar prestanda (benchmark analyzer) kallas Promptbas visar att GPT-4 Turbo faktiskt slog Claude 3 i alla tester de direkt kunde jämföra dem på. Dessa test täcker saker som grundläggande matematiska färdigheter (GSM8K & MATH), skriva kod (HumanEval), resonemang över text (DROP) och en blandning av andra utmaningar.

Samtidigt som de tillkännager sina resultat, Anthropic också nämner i en fotnot att deras ingenjörer kunde förbättra GPT-4T:s prestanda ytterligare genom att finjustera den specifikt för testerna. Detta tyder på att de rapporterade resultaten kanske inte återspeglar basmodellens verkliga kapacitet.

Aj.