Onko Claude 3 todella parempi kuin GPT-4? Promptbasen benchmarking sanoo erilaista

Head-to-head testit osoittavat, että GPT-4 Turbo voittaa Claude 3:n kaikissa luokissa.

Lukuajan kuvake 2 min. lukea


Lukijat auttavat tukemaan MSpoweruseria. Saatamme saada palkkion, jos ostat linkkien kautta. Työkaluvihje-kuvake

Lue ilmoitussivumme saadaksesi selville, kuinka voit auttaa MSPoweruseria ylläpitämään toimitustiimiä Lue lisää

Keskeiset huomautukset

  • Anthropic julkaisi äskettäin Claude 3:n, jonka kerrottiin ylittävän GPT-4:n ja Google Gemini 1.0 Ultran.
  • Julkaistut benchmark-pisteet osoittavat, että Claude 3 Opus on erinomaista eri alueilla verrattuna kollegoihinsa.
  • Lisäanalyysi kuitenkin viittaa siihen, että GPT-4 Turbo on suorissa vertailuissa parempi kuin Claude 3, mikä viittaa mahdollisiin harhaan raportoiduissa tuloksissa.

Anthropic on juuri lanseerasi Claude 3:n ei liian kauan sitten sen tekoälymalli, jonka sanotaan voittavan OpenAI:n GPT-4:n ja Google Gemini 1.0 Ultran. Siinä on kolme versiota: Claude 3 Haiku, Sonnet ja Opus, kaikki eri käyttötarkoituksiin.

Sen ensimmäinen ilmoitus, AI-yhtiö sanoo, että Claude 3 on hieman parempi kuin nämä kaksi äskettäin lanseerattua mallia. 

Lähetettyjen vertailupisteiden mukaan Claude 3 Opus on parempi perustutkintotason tiedossa (MMLU), jatko-tason päättelyssä (GPQA), peruskoulun matematiikassa ja matematiikan ongelmanratkaisussa, monikielisessä matematiikassa, koodauksessa, tekstin yli päättelyssä ja muissa muissa kuin GPT-4 ja Gemini 1.0 Ultra ja Pro.

Se ei kuitenkaan maalaa koko kuvaa täysin totuudenmukaisesti. Ilmoituksen (erityisesti GPT-4:lle) julkaistu vertailupiste on ilmeisesti otettu GPT-4:stä viime vuoden maaliskuussa 2023 julkaistussa versiossa (kiitokset tekoälyn harrastajalle @TolgaBilge_ X:llä)

Työkalu, joka analysoi suorituskykyä (benchmark-analysaattori) kutsutaan Promptbase osoittaa, että GPT-4 Turbo päihitti Claude 3:n kaikissa testeissä, joihin he voisivat verrata niitä suoraan. Nämä testit kattavat esimerkiksi matematiikan perustaidot (GSM8K & MATH), koodin kirjoittamisen (HumanEval), päättelyn tekstin yli (DROP) ja yhdistelmän muita haasteita.

Ilmoittaessaan tuloksiaan myös Anthropic mainitsee alaviitteessä että heidän insinöörinsä pystyivät parantamaan GPT-4T:n suorituskykyä edelleen hienosäätämällä sitä erityisesti testejä varten. Tämä viittaa siihen, että raportoidut tulokset eivät välttämättä kuvasta perusmallin todellisia ominaisuuksia.

Auts.

Jätä vastaus

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *