Meta 即將推出的 Llama-3 400B 車型可能會擊敗 GPT-4 Turbo 和 Claude 3 Opus
它沒有超過它們,但它有潛力
2分鐘讀
發表於
重點說明
- Meta 推出 Llama-3,迄今為止最強大的模型,具有 700B 參數
- 儘管處於訓練階段,Llama-3仍顯示出改進的潛力
- 最近的數據表明它在基準測試中接近 Claude 3 Opus 和 GPT-4 Turbo

Meta 將推出其迄今為止最強大的人工智慧模型 美洲駝-3 具有 400B 參數。在其 公告 週四,開源模型將很快為 WhatsApp 和 Instagram 上的 Meta AI 助理工具提供支援。
但事實是,目前市場上有許多強大的人工智慧模型。 GPT-4渦輪 OpenAI 的 128k 上下文視窗已經存在相當長一段時間了,Anthropic 的 Claude 3 Opus 是 現已 在亞馬遜基岩上。
那麼,根據多個基準,這些模型之間的比較如何?以下是這些強大模型在多個選項中的測試情況的比較。這些數字取自 公開資訊 和 Meta 的 公告.
基準 | 羊駝 3 400B | 克勞德 3 作品 | GPT-4渦輪 | 雙子座超1.0 | 雙子座專業版 1.5 |
百萬美元 | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GP品質保證 | 48 | 50.4 | 49.1 | - | - |
人類評估 | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
數學 | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
如您所看到的,Llama-3 400B 實際上在這些基準測試中確實稍顯不足,在MMLU 中得分為86.1,在GPQA 中得分為48,在HumanEval 中得分為84.1,在MATH 中得分為57.8 。
但是,鑑於它仍處於訓練階段,一旦完全部署,很有可能會出現重大改進。對於開源模型來說,這遠遠超出了令人印象深刻的程度。
MMLU 測試模型在不直接教授不同主題的情況下對它們的理解程度,涵蓋了廣泛的主題。另一方面,GPQA 根據模型在生物學、物理和化學方面的表現對模型進行排序,而 HumanEval 則專注於它們的編碼方式。
使用者論壇
0消息