OpenAI's nieuwe GPT-4o-model verslaat Gemini en Claude en zet nieuwe benchmarks

2 minuut. lezen

Uitgegeven op 13 mei 2024

gepubliceerd op 13 mei 2024

Lezers helpen MSpoweruser ondersteunen. We kunnen een commissie krijgen als u via onze links koopt.

Vandaag Open AI aangekondigd zijn nieuwste vlaggenschipmodel, GPT-4o. Het GPT-4o-model (o verwijst naar 'omni') is nu via API beschikbaar voor ontwikkelaars. Het nieuwe GPT-4o-model is net zo slim als de GPT-4 Turbo, maar heeft verbeterde zichtmogelijkheden en is veel efficiënter.

OpenAI beweert dat dit nieuwe model 2x sneller, 50% goedkoper is en wordt geleverd met 5x tarieflimieten. De GPT-4 Turbo kost $14 voor miljoen tokens, terwijl de GPT-4o slechts $7 voor miljoen tokens kost. En ja, het GPT-4o-model ondersteunt tot 10 miljoen tokens per minuut. De GPT-4o-model-API ondersteunt voorlopig tekst en beeld, en binnenkort ook audio- en video-ondersteuning. Het model heeft ook een context van 128K en een kennislimiet van oktober 2023.

Hoe presteert GPT-4o in vergelijking met Gemini en Claude?

De afgelopen dagen testte OpenAI een versie van het GPT-4o-model op de LMSys-arena als een goede gpt2-chatbot. Zoals je in de bovenstaande grafiek kunt zien, is GPT-4o op dit moment het beste model ter wereld en is het gratis beschikbaar voor alle ChatGPT-gebruikers.

Het nieuwe GPT-4o-model vestigt ook een record in verschillende standaard AI-benchmarks. Bekijk het hieronder.

Model	prompt	MMLU	GPQA	WISKUNDE	MenselijkEval	MGSM	DROP (F1,3-opname)
OPENAI GPT4's
gpt-4o	chat gpt¹	`88.7`	`53.6`	`76.6`	90.2	90.5	83.4
gpt-4o	assistent²	87.2	49.9	`76.6`	`91.0`	89.9	83.7
gpt-4-turbo-2024-04-09	chat gpt	86.5	49.1	72.2	87.6	88.6	85.4
gpt-4-turbo-2024-04-09	assistent	86.7	49.3	73.4	88.2	89.6	`86.0`
gpt-4-1106(-visie)-preview	chat gpt	84.6	42.1	64.1	82.2	86.5	81.3
gpt-4-1106(-visie)-preview	assistent	84.7	42.5	64.3	83.7	87.1	83.2
gpt-4-0125-preview	chat gpt	84.8	39.7	64.2	88.2	83.7	83.4
gpt-4-0125-preview	assistent	85.4	41.4	64.5	86.6	85.1	81.5
REFERENTIE-HERHALING
Claude-3-Opus (herhaling met API)	leeg³	84.1	49.7	63.2	84.8	89.7	79.0
Claude-3-Opus (herhaling met API)	lmsys⁴	84.2	50.7	63.8	82.9	89.2	77.1
Llama3 70b (herhaling met API)	leeg	80.2	41.3	52.8	70.1	82.6	81.4
REFERENTIE-RAPPORT		(5-schots)
Claude-3-Opus (rapport⁵)	onbekend	86.8	50.4	60.1	84.9	`90.7`	83.1
Gemini-Ultra-1.0 (rapport⁶)	onbekend	83.7	n / a	53.2	74.4	79.0	82.4
Gemini-Pro-1.5 (rapport⁶)	onbekend	81.9	n / a	58.5	71.9	88.7	78.9
Lama3 8b (rapport⁷)	onbekend	68.4	34.2	30.0	62.2	n / a	58.4
Lama3 70b (rapport⁷)	onbekend	82.0	39.5	50.4	81.7	n / a	79.7
Llama3 400b (nog aan het trainen, rapport⁷)	onbekend	86.1	48.0	57.8	84.1	n / a	83.5

Ontwikkelaars kunnen het GPT-4o-model uitproberen op Open AI-speeltuin.

OpenAI vraagt het publiek om te helpen bij het identificeren van taken waarbij GPT-4 Turbo nog steeds beter presteert dan GPT-4o, zodat ze het model kunnen blijven verbeteren.

Meer over de onderwerpen: GPT-4o, openAI

Pradeep Viswav

Software- en service-expert

Pradeep is afgestudeerd in computerwetenschappen en techniek. Hij was ook een Microsoft Student Partner. Momenteel werkt hij bij een toonaangevend IT-bedrijf.

Laat een reactie achter