Meta の次期 Llama-3 400B モデルは GPT-4 Turbo や Claude 3 Opus を上回る可能性がある

超えることはないが可能性はある

ホームペー » ニュース

2分。読んだ

上で公開 2024 年 4 月 19 日

by ラフライ・ギラン

上の公表 2024 年 4 月 19 日

読者は MSpoweruser のサポートを支援します。私たちのリンクを通じて購入すると、手数料が発生する場合があります。

キーノート

Meta が 3B パラメーターを備えた最も強力なモデルである Llama-700 を発表
Llama-3 は訓練段階にもかかわらず改善の可能性を示しています
最近の数値によると、ベンチマークでは Claude 3 Opus や GPT-4 Turbo に近いことがわかります

Meta は、同社のこれまでで最も強力な AI モデルであるラマ-3 パラメータは 400B です。その中で発表木曜日、このオープンソースモデルは、WhatsApp と Instagram に導入される Meta AI アシスタントツールを間もなく強化する予定です。

しかし真実は、現時点で市場には強力な AI モデルがたくさんあるということです。 GPT-4ターボ OpenAI の 128k コンテキストウィンドウを備えたものはかなり前から存在しており、Anthropic の Claude 3 Opus は今すぐ利用可能 Amazon ベッドロックで。

では、いくつかのベンチマークに基づいて、これらのモデルを相互にどのように比較するのでしょうか?これらの強力なモデルをいくつかのオプションでテストした方法を比較します。これらの数値は以下から取得されています公開されている情報とメタの発表.

ベンチマーク	ラマ3 400B	クロード 3 オーパス	GPT-4ターボ	ジェミニウルトラ 1.0	ジェミニプロ 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	–	–
HumanEval	84.1	84.9	87.6	74.4	71.9
数学	57.8	60.1	72.2	53.2	58.5

ご覧のとおり、Llama-3 400B は実際にはこれらのベンチマークでわずかに下回っており、MMLU で 86.1、GPQA で 48、HumanEval で 84.1、MATH で 57.8 のスコアを獲得しています。

ただし、まだトレーニング段階にあることを考えると、完全に導入されれば大きな改善が見られる可能性は十分にあります。そして、オープンソースモデルとしては、これは驚くべきことをはるかに超えています。

MMLU は、モデルに直接教えることなく、モデルがさまざまな主題をどの程度理解しているかをテストし、幅広いトピックをカバーします。一方、GPQA はモデルが生物学、物理学、化学でどれだけうまくやっているかに基づいてモデルを分類するのに対し、HumanEval はモデルがどのようにコーディングするかに焦点を当てます。

ラフライ・ギラン

テックレポーター

Rafly は、テクノロジー、ビジネス、社会、文化に至るまで、長年にわたるジャーナリストとしての経験を持つ記者です。現在、Windows Report および MSPowerUser で Microsoft 関連製品、テクノロジー、AI に関するニュースを報告しています。ヒントはありますか？に送信してください [メール保護].