Claude 3 Opus verslaat OpenAI's GPT-4 op de belangrijke ranglijst van chatbots

Pictogram voor leestijd 2 minuut. lezen


Lezers helpen MSpoweruser ondersteunen. We kunnen een commissie krijgen als u via onze links koopt. Tooltip-pictogram

Lees onze openbaarmakingspagina om erachter te komen hoe u MSPoweruser kunt helpen het redactieteam te ondersteunen Lees meer

Belangrijkste opmerkingen

  • Claude 3 Opus heeft OpenAI's GPT-4 verslagen en is nummer één geworden in de Arena-ranglijst.
  • Claude 3 Opus heeft een Elo-score van 1253, iets meer dan GPT-4.
  • De resultaten zijn gebaseerd op hoe tevreden gebruikers waren met de resultaten van verschillende AI-modellen.

antropisch kondigde de Claude 3-modelfamilie aan eerder deze maand en beweerde dat het de GPT-4 van OpenAI kan overtreffen. Het bedrijf liet verschillende prestatiestatistieken van het model zien en vergeleek deze met die van concurrerende chatbots om die conclusie te trekken. Nu wordt de suprematie van Claude 3 ook weerspiegeld in het Arena-klassement.

Claude 3 Opus verslaat GPT-4 en wordt de nummer één

Claude 3 Opus staat bovenaan de LYMSYS Chatbot Arena-ranglijst en duwt het GPT-4-model naar de tweede positie. De Claude 3 Opus behaalde een Elo-score van 1253, iets meer dan 1251 van de GPT-4. Het is dezelfde score die beoordeelt hoe vaardig schakers zijn. Maar in dit geval beoordelen de benchmarkscores verschillende AI-modellen, en niet schakers.

De LYMSYS Chatbot Arena is echter niet perfect. De benchmarkresultaten die het laat zien, zijn gebaseerd op de stem van mensen. Daarom werden de scores bijgewerkt na 70 duizend nieuwe stemmen. In theorie zou een betere score dus moeten aangeven dat de algehele output van het AI-model beter was. Maar hoe goed de output is, hangt vaak af van wie ernaar kijkt. Gebruikers klagen ook dat GPT-4 niet goed laadt in Chatbot Arena (via Tom's gids). Desondanks bekleedde OpenAI al die jaren de eerste positie totdat het een paar uur geleden werd verdrongen door de Claude 3 Opus.

Hoewel een bijgewerkte Arena-ranglijst waarschijnlijk meer belangstelling zal wekken voor de AI-modellen van Anthropic, heeft OpenAI plannen om dat te doen lanceren GPT-5 deze zomer, waarvan wordt gezegd dat het “materieel beter” is. Als dat het geval blijkt te zijn, zal OpenAI waarschijnlijk zijn toppositie op het Arena-klassement herwinnen.

Meer over de onderwerpen: antropisch, Claude 3 Opus, GPT-4

Laat een reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd *