Meta の次期 Llama-3 400B モデルは GPT-4 Turbo や Claude 3 Opus を上回る可能性がある
超えることはないが可能性はある
2分。 読んだ
上で公開
MSPoweruser の編集チームの維持にどのように貢献できるかについては、開示ページをお読みください。 続きを読む
キーノート
- Meta が 3B パラメーターを備えた最も強力なモデルである Llama-700 を発表
- Llama-3 は訓練段階にもかかわらず改善の可能性を示しています
- 最近の数値によると、ベンチマークでは Claude 3 Opus や GPT-4 Turbo に近いことがわかります
Meta は、同社のこれまでで最も強力な AI モデルである ラマ-3 パラメータは 400B です。その中で 発表 木曜日、このオープンソース モデルは、WhatsApp と Instagram に導入される Meta AI アシスタント ツールを間もなく強化する予定です。
しかし真実は、現時点で市場には強力な AI モデルがたくさんあるということです。 GPT-4ターボ OpenAI の 128k コンテキスト ウィンドウを備えたものはかなり前から存在しており、Anthropic の Claude 3 Opus は 今すぐ利用可能 Amazon ベッドロックで。
では、いくつかのベンチマークに基づいて、これらのモデルを相互にどのように比較するのでしょうか?これらの強力なモデルをいくつかのオプションでテストした方法を比較します。これらの数値は以下から取得されています 公開されている情報 とメタの 発表.
ベンチマーク | ラマ3 400B | クロード 3 オーパス | GPT-4ターボ | ジェミニ ウルトラ 1.0 | ジェミニ プロ 1.5 |
MMLU | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GPQA | 48 | 50.4 | 49.1 | – | – |
HumanEval | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
数学 | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
ご覧のとおり、Llama-3 400B は実際にはこれらのベンチマークでわずかに下回っており、MMLU で 86.1、GPQA で 48、HumanEval で 84.1、MATH で 57.8 のスコアを獲得しています。
ただし、まだトレーニング段階にあることを考えると、完全に導入されれば大きな改善が見られる可能性は十分にあります。そして、オープンソース モデルとしては、これは驚くべきことをはるかに超えています。
MMLU は、モデルに直接教えることなく、モデルがさまざまな主題をどの程度理解しているかをテストし、幅広いトピックをカバーします。一方、GPQA はモデルが生物学、物理学、化学でどれだけうまくやっているかに基づいてモデルを分類するのに対し、HumanEval はモデルがどのようにコーディングするかに焦点を当てます。
ユーザーフォーラム
0メッセージ