OpenAI の新しい GPT-4o モデルが Gemini と Claude を破り、新たなベンチマークを設定

2分。読んだ

上で公開 2024 年 5 月 13 日

上の公表 2024 年 5 月 13 日

読者は MSpoweruser のサポートを支援します。私たちのリンクを通じて購入すると、手数料が発生する場合があります。

今日、OpenAI 発表の最新のフラッグシップモデル「GPT-4o」。 GPT-4o (o は「オムニ」を意味します) モデルが、開発者向けの API 経由で利用できるようになりました。新しい GPT-4o モデルは、GPT-4 Turbo と同じくらいスマートですが、視覚機能が向上し、はるかに効率的です。

OpenAI は、この新しいモデルは 2 倍高速で 50% 安く、5 倍のレート制限があると主張しています。 GPT-4 Turbo の価格は 14 万トークンで 4 ドルですが、GPT-7o の価格は 4 万トークンでわずか 10 ドルです。はい、GPT-4o モデルは 128 分あたり最大 2023 万トークンをサポートします。 GPT-XNUMXo モデル API は、現時点ではテキストとビジョンをサポートしますが、オーディオとビデオのサポートは近日中に開始されます。また、モデルには XNUMXK コンテキストと XNUMX 年 XNUMX 月のナレッジカットオフがあります。

ジェミニやクロードと比較した場合、GPT-4o のパフォーマンスはどうですか?

過去数日間、OpenAI は LMSys アリーナで、im-only-a-good-gpt4-chatbot として GPT-2o モデルのバージョンをテストしていました。上の表からわかるように、GPT-4o は現時点で世界最高のモデルであり、すべての ChatGPT ユーザーが無料で利用できます。

新しい GPT-4o モデルは、いくつかの標準 AI ベンチマークでも記録を打ち立てています。以下をチェックしてください。

モデル	プロンプト	MMLU	GPQA	数学	HumanEval	MGSM	DROP (F1,3ショット)
OPENAI GPT4
gpt-4o	チャットポイント¹	`88.7`	`53.6`	`76.6`	90.2	90.5	83.4
gpt-4o	アシスタント²	87.2	49.9	`76.6`	`91.0`	89.9	83.7
gpt-4-turbo-2024-04-09	チャットポイント	86.5	49.1	72.2	87.6	88.6	85.4
gpt-4-turbo-2024-04-09	アシスタント	86.7	49.3	73.4	88.2	89.6	`86.0`
gpt-4-1106(-vision)-プレビュー	チャットポイント	84.6	42.1	64.1	82.2	86.5	81.3
gpt-4-1106(-vision)-プレビュー	アシスタント	84.7	42.5	64.3	83.7	87.1	83.2
gpt-4-0125-プレビュー	チャットポイント	84.8	39.7	64.2	88.2	83.7	83.4
gpt-4-0125-プレビュー	アシスタント	85.4	41.4	64.5	86.6	85.1	81.5
リファレンス-再実行
Claude-3-Opus (API 付きの再実行)	空の³	84.1	49.7	63.2	84.8	89.7	79.0
Claude-3-Opus (API 付きの再実行)	lmsys⁴	84.2	50.7	63.8	82.9	89.2	77.1
Llama3 70b (API を使用した再実行)	空の	80.2	41.3	52.8	70.1	82.6	81.4
参考レポート		(5発)
Claude-3-Opus (レポート)⁵)	未知の	86.8	50.4	60.1	84.9	`90.7`	83.1
Gemini-Ultra-1.0 (レポート)⁶)	未知の	83.7	N / A	53.2	74.4	79.0	82.4
Gemini-Pro-1.5 (レポート)⁶)	未知の	81.9	N / A	58.5	71.9	88.7	78.9
Llama3 8b (レポート)⁷)	未知の	68.4	34.2	30.0	62.2	N / A	58.4
Llama3 70b (レポート)⁷)	未知の	82.0	39.5	50.4	81.7	N / A	79.7
Llama3 400b (トレーニング中、レポート)⁷)	未知の	86.1	48.0	57.8	84.1	N / A	83.5

開発者は GPT-4o モデルを次の場所で試すことができます。 OpenAI プレイグラウンド.

OpenAI は、モデルの改善を継続できるように、GPT-4 Turbo が依然として GPT-4o よりも優れているタスクを特定するのに協力するよう一般に呼びかけています。

トピックの詳細: GPT-4o, オープンAI

プラディープ・ヴィスワフ

ソフトウェアおよびサービスの専門家

Pradeep はコンピュータサイエンスとエンジニアリングの卒業生です。彼はマイクロソフトの学生パートナーでもありました。現在は大手IT企業に勤務。