OpenAI の新しい GPT-4o モデルが Gemini と Claude を破り、新たなベンチマークを設定
2分。 読んだ
上で公開
MSPoweruser の編集チームの維持にどのように貢献できるかについては、開示ページをお読みください。 続きを読む
![OpenAI GPT-4o モデル](https://mspoweruser.com/wp-content/uploads/2024/05/OpenAI-GPT-4o-model-700x368.png)
今日、OpenAI 発表の 最新のフラッグシップモデル「GPT-4o」。 GPT-4o (o は「オムニ」を意味します) モデルが、開発者向けの API 経由で利用できるようになりました。新しい GPT-4o モデルは、GPT-4 Turbo と同じくらいスマートですが、視覚機能が向上し、はるかに効率的です。
OpenAI は、この新しいモデルは 2 倍高速で 50% 安く、5 倍のレート制限があると主張しています。 GPT-4 Turbo の価格は 14 万トークンで 4 ドルですが、GPT-7o の価格は 4 万トークンでわずか 10 ドルです。はい、GPT-4o モデルは 128 分あたり最大 2023 万トークンをサポートします。 GPT-XNUMXo モデル API は、現時点ではテキストとビジョンをサポートしますが、オーディオとビデオのサポートは近日中に開始されます。また、モデルには XNUMXK コンテキストと XNUMX 年 XNUMX 月のナレッジ カットオフがあります。
ジェミニやクロードと比較した場合、GPT-4o のパフォーマンスはどうですか?
![](https://mspoweruser.com/wp-content/uploads/2024/05/GPT-4o-ELO-benchmarks-1200x674.jpg)
過去数日間、OpenAI は LMSys アリーナで、im-only-a-good-gpt4-chatbot として GPT-2o モデルのバージョンをテストしていました。上の表からわかるように、GPT-4o は現時点で世界最高のモデルであり、すべての ChatGPT ユーザーが無料で利用できます。
新しい GPT-4o モデルは、いくつかの標準 AI ベンチマークでも記録を打ち立てています。以下をチェックしてください。
モデル | プロンプト | MMLU | GPQA | 数学 | HumanEval | MGSM | DROP (F1,3ショット) |
---|---|---|---|---|---|---|---|
OPENAI GPT4 | |||||||
gpt-4o | チャットポイント1 | 88.7 | 53.6 | 76.6 | 90.2 | 90.5 | 83.4 |
gpt-4o | アシスタント2 | 87.2 | 49.9 | 76.6 | 91.0 | 89.9 | 83.7 |
gpt-4-turbo-2024-04-09 | チャットポイント | 86.5 | 49.1 | 72.2 | 87.6 | 88.6 | 85.4 |
gpt-4-turbo-2024-04-09 | アシスタント | 86.7 | 49.3 | 73.4 | 88.2 | 89.6 | 86.0 |
gpt-4-1106(-vision)-プレビュー | チャットポイント | 84.6 | 42.1 | 64.1 | 82.2 | 86.5 | 81.3 |
gpt-4-1106(-vision)-プレビュー | アシスタント | 84.7 | 42.5 | 64.3 | 83.7 | 87.1 | 83.2 |
gpt-4-0125-プレビュー | チャットポイント | 84.8 | 39.7 | 64.2 | 88.2 | 83.7 | 83.4 |
gpt-4-0125-プレビュー | アシスタント | 85.4 | 41.4 | 64.5 | 86.6 | 85.1 | 81.5 |
リファレンス-再実行 | |||||||
Claude-3-Opus (API 付きの再実行) | 空の3 | 84.1 | 49.7 | 63.2 | 84.8 | 89.7 | 79.0 |
Claude-3-Opus (API 付きの再実行) | lmsys4 | 84.2 | 50.7 | 63.8 | 82.9 | 89.2 | 77.1 |
Llama3 70b (API を使用した再実行) | 空の | 80.2 | 41.3 | 52.8 | 70.1 | 82.6 | 81.4 |
参考レポート | (5発) | ||||||
Claude-3-Opus (レポート)5) | 未知の | 86.8 | 50.4 | 60.1 | 84.9 | 90.7 | 83.1 |
Gemini-Ultra-1.0 (レポート)6) | 未知の | 83.7 | N / A | 53.2 | 74.4 | 79.0 | 82.4 |
Gemini-Pro-1.5 (レポート)6) | 未知の | 81.9 | N / A | 58.5 | 71.9 | 88.7 | 78.9 |
Llama3 8b (レポート)7) | 未知の | 68.4 | 34.2 | 30.0 | 62.2 | N / A | 58.4 |
Llama3 70b (レポート)7) | 未知の | 82.0 | 39.5 | 50.4 | 81.7 | N / A | 79.7 |
Llama3 400b (トレーニング中、レポート)7) | 未知の | 86.1 | 48.0 | 57.8 | 84.1 | N / A | 83.5 |
開発者は GPT-4o モデルを次の場所で試すことができます。 OpenAI プレイグラウンド.
OpenAI は、モデルの改善を継続できるように、GPT-4 Turbo が依然として GPT-4o よりも優れているタスクを特定するのに協力するよう一般に呼びかけています。