OpenAI's nieuwe GPT-4o-model verslaat Gemini en Claude en zet nieuwe benchmarks
2 minuut. lezen
Uitgegeven op
Lees onze openbaarmakingspagina om erachter te komen hoe u MSPoweruser kunt helpen het redactieteam te ondersteunen Lees meer
Vandaag Open AI aangekondigd zijn nieuwste vlaggenschipmodel, GPT-4o. Het GPT-4o-model (o verwijst naar 'omni') is nu via API beschikbaar voor ontwikkelaars. Het nieuwe GPT-4o-model is net zo slim als de GPT-4 Turbo, maar heeft verbeterde zichtmogelijkheden en is veel efficiënter.
OpenAI beweert dat dit nieuwe model 2x sneller, 50% goedkoper is en wordt geleverd met 5x tarieflimieten. De GPT-4 Turbo kost $14 voor miljoen tokens, terwijl de GPT-4o slechts $7 voor miljoen tokens kost. En ja, het GPT-4o-model ondersteunt tot 10 miljoen tokens per minuut. De GPT-4o-model-API ondersteunt voorlopig tekst en beeld, en binnenkort ook audio- en video-ondersteuning. Het model heeft ook een context van 128K en een kennislimiet van oktober 2023.
Hoe presteert GPT-4o in vergelijking met Gemini en Claude?
De afgelopen dagen testte OpenAI een versie van het GPT-4o-model op de LMSys-arena als een goede gpt2-chatbot. Zoals je in de bovenstaande grafiek kunt zien, is GPT-4o op dit moment het beste model ter wereld en is het gratis beschikbaar voor alle ChatGPT-gebruikers.
Het nieuwe GPT-4o-model vestigt ook een record in verschillende standaard AI-benchmarks. Bekijk het hieronder.
Model | prompt | MMLU | GPQA | WISKUNDE | MenselijkEval | MGSM | DROP (F1,3-opname) |
---|---|---|---|---|---|---|---|
OPENAI GPT4's | |||||||
gpt-4o | chat gpt1 | 88.7 | 53.6 | 76.6 | 90.2 | 90.5 | 83.4 |
gpt-4o | assistent2 | 87.2 | 49.9 | 76.6 | 91.0 | 89.9 | 83.7 |
gpt-4-turbo-2024-04-09 | chat gpt | 86.5 | 49.1 | 72.2 | 87.6 | 88.6 | 85.4 |
gpt-4-turbo-2024-04-09 | assistent | 86.7 | 49.3 | 73.4 | 88.2 | 89.6 | 86.0 |
gpt-4-1106(-visie)-preview | chat gpt | 84.6 | 42.1 | 64.1 | 82.2 | 86.5 | 81.3 |
gpt-4-1106(-visie)-preview | assistent | 84.7 | 42.5 | 64.3 | 83.7 | 87.1 | 83.2 |
gpt-4-0125-preview | chat gpt | 84.8 | 39.7 | 64.2 | 88.2 | 83.7 | 83.4 |
gpt-4-0125-preview | assistent | 85.4 | 41.4 | 64.5 | 86.6 | 85.1 | 81.5 |
REFERENTIE-HERHALING | |||||||
Claude-3-Opus (herhaling met API) | leeg3 | 84.1 | 49.7 | 63.2 | 84.8 | 89.7 | 79.0 |
Claude-3-Opus (herhaling met API) | lmsys4 | 84.2 | 50.7 | 63.8 | 82.9 | 89.2 | 77.1 |
Llama3 70b (herhaling met API) | leeg | 80.2 | 41.3 | 52.8 | 70.1 | 82.6 | 81.4 |
REFERENTIE-RAPPORT | (5-schots) | ||||||
Claude-3-Opus (rapport5) | onbekend | 86.8 | 50.4 | 60.1 | 84.9 | 90.7 | 83.1 |
Gemini-Ultra-1.0 (rapport6) | onbekend | 83.7 | n / a | 53.2 | 74.4 | 79.0 | 82.4 |
Gemini-Pro-1.5 (rapport6) | onbekend | 81.9 | n / a | 58.5 | 71.9 | 88.7 | 78.9 |
Lama3 8b (rapport7) | onbekend | 68.4 | 34.2 | 30.0 | 62.2 | n / a | 58.4 |
Lama3 70b (rapport7) | onbekend | 82.0 | 39.5 | 50.4 | 81.7 | n / a | 79.7 |
Llama3 400b (nog aan het trainen, rapport7) | onbekend | 86.1 | 48.0 | 57.8 | 84.1 | n / a | 83.5 |
Ontwikkelaars kunnen het GPT-4o-model uitproberen op Open AI-speeltuin.
OpenAI vraagt het publiek om te helpen bij het identificeren van taken waarbij GPT-4 Turbo nog steeds beter presteert dan GPT-4o, zodat ze het model kunnen blijven verbeteren.