Meta の次期 Llama-3 400B モデルは GPT-4 Turbo や Claude 3 Opus を上回る可能性がある

超えることはないが可能性はある

ホーム » ニュース

2分。読んだ

上で公開 2024 年 4 月 19 日

by ラフライ・ギラン

上の公表 2024 年 4 月 19 日

この記事を共有する

このガイドを改善する

読者は MSpoweruser のサポートを支援します。私たちのリンクを通じて購入すると、手数料が発生する場合があります。

キーノート

Meta が 3B パラメーターを備えた最も強力なモデルである Llama-700 を発表
Llama-3 は訓練段階にもかかわらず改善の可能性を示しています
最近の数値によると、ベンチマークでは Claude 3 Opus や GPT-4 Turbo に近いことがわかります

Meta は、同社のこれまでで最も強力な AI モデルであるラマ-3 パラメータは 400B です。その中で発表木曜日、このオープンソースモデルは、WhatsApp と Instagram に導入される Meta AI アシスタントツールを間もなく強化する予定です。

しかし真実は、現時点で市場には強力な AI モデルがたくさんあるということです。 GPT-4ターボ OpenAI の 128k コンテキストウィンドウを備えたものはかなり前から存在しており、Anthropic の Claude 3 Opus は今すぐ利用可能 Amazon ベッドロックで。

では、いくつかのベンチマークに基づいて、これらのモデルを相互にどのように比較するのでしょうか?これらの強力なモデルをいくつかのオプションでテストした方法を比較します。これらの数値は以下から取得されています公開されている情報とメタの発表.

ベンチマーク	ラマ3 400B	クロード 3 オーパス	GPT-4ターボ	ジェミニウルトラ 1.0	ジェミニプロ 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	–	–
HumanEval	84.1	84.9	87.6	74.4	71.9
数学	57.8	60.1	72.2	53.2	58.5

ご覧のとおり、Llama-3 400B は実際にはこれらのベンチマークでわずかに下回っており、MMLU で 86.1、GPQA で 48、HumanEval で 84.1、MATH で 57.8 のスコアを獲得しています。

ただし、まだトレーニング段階にあることを考えると、完全に導入されれば大きな改善が見られる可能性は十分にあります。そして、オープンソースモデルとしては、これは驚くべきことをはるかに超えています。

MMLU は、モデルに直接教えることなく、モデルがさまざまな主題をどの程度理解しているかをテストし、幅広いトピックをカバーします。一方、GPQA はモデルが生物学、物理学、化学でどれだけうまくやっているかに基づいてモデルを分類するのに対し、HumanEval はモデルがどのようにコーディングするかに焦点を当てます。