Claude 3 Opus verslaat OpenAI's GPT-4 op de belangrijke ranglijst van chatbots

Home » Nieuws

Pictogram voor leestijd 2 minuut. lezen

Kalender pictogram Uitgegeven op 28 maart 2024

by Rahul

gepubliceerd op 28 maart 2024

Lezers helpen MSpoweruser ondersteunen. We kunnen een commissie krijgen als u via onze links koopt.

Belangrijkste opmerkingen

Claude 3 Opus heeft OpenAI's GPT-4 verslagen en is nummer één geworden in de Arena-ranglijst.
Claude 3 Opus heeft een Elo-score van 1253, iets meer dan GPT-4.
De resultaten zijn gebaseerd op hoe tevreden gebruikers waren met de resultaten van verschillende AI-modellen.

antropisch kondigde de Claude 3-modelfamilie aan eerder deze maand en beweerde dat het de GPT-4 van OpenAI kan overtreffen. Het bedrijf liet verschillende prestatiestatistieken van het model zien en vergeleek deze met die van concurrerende chatbots om die conclusie te trekken. Nu wordt de suprematie van Claude 3 ook weerspiegeld in het Arena-klassement.

Claude 3 Opus verslaat GPT-4 en wordt de nummer één

Claude 3 Opus staat bovenaan de LYMSYS Chatbot Arena-ranglijst en duwt het GPT-4-model naar de tweede positie. De Claude 3 Opus behaalde een Elo-score van 1253, iets meer dan 1251 van de GPT-4. Het is dezelfde score die beoordeelt hoe vaardig schakers zijn. Maar in dit geval beoordelen de benchmarkscores verschillende AI-modellen, en niet schakers.

[Arena-update]

70K+ nieuwe Arena-stemmen?? zijn in!

Claude-3 Haiku heeft indruk op iedereen gemaakt en heeft volgens onze gebruikersvoorkeur zelfs het GPT-4-niveau bereikt! De snelheid, mogelijkheden en contextlengte zijn nu ongeëvenaard op de markt?

Proficiat @AnthropicAI over de ongelooflijke lancering van de Claude-3!

Opwindender… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) 26 maart 2024

De LYMSYS Chatbot Arena is echter niet perfect. De benchmarkresultaten die het laat zien, zijn gebaseerd op de stem van mensen. Daarom werden de scores bijgewerkt na 70 duizend nieuwe stemmen. In theorie zou een betere score dus moeten aangeven dat de algehele output van het AI-model beter was. Maar hoe goed de output is, hangt vaak af van wie ernaar kijkt. Gebruikers klagen ook dat GPT-4 niet goed laadt in Chatbot Arena (via Tom's gids). Desondanks bekleedde OpenAI al die jaren de eerste positie totdat het een paar uur geleden werd verdrongen door de Claude 3 Opus.

Hoewel een bijgewerkte Arena-ranglijst waarschijnlijk meer belangstelling zal wekken voor de AI-modellen van Anthropic, heeft OpenAI plannen om dat te doen lanceren GPT-5 deze zomer, waarvan wordt gezegd dat het “materieel beter” is. Als dat het geval blijkt te zijn, zal OpenAI waarschijnlijk zijn toppositie op het Arena-klassement herwinnen.

Meer over de onderwerpen: antropisch, Claude 3 Opus, GPT-4

Rahul

Technisch journalist

Rahul is een technologiejournalist, met jarenlange ervaring in het verslaan van software, voornamelijk Windows en Android. Hij deelt ook graag haar mening over diverse technische onderwerpen.

Claude 3 Opus verslaat GPT-4 en wordt de nummer één

Laat een reactie achter