Meta 即將推出的 Llama-3 400B 車型可能會擊敗 GPT-4 Turbo 和 Claude 3 Opus

它沒有超過它們,但它有潛力

閱讀時間圖標 2分鐘讀


讀者幫助支持 MSpoweruser。如果您透過我們的連結購買,我們可能會獲得佣金。 工具提示圖標

請閱讀我們的揭露頁面,了解如何幫助 MSPoweruser 維持編輯團隊的發展 阅读更多

重點說明

  • Meta 推出 Llama-3,迄今為止最強大的模型,具有 700B 參數
  • 儘管處於訓練階段,Llama-3仍顯示出改進的潛力
  • 最近的數據表明它在基準測試中接近 Claude 3 Opus 和 GPT-4 Turbo

Meta 將推出其迄今為止最強大的人工智慧模型 美洲駝-3 具有 400B 參數。在其 公告 週四,開源模型將很快為 WhatsApp 和 Instagram 上的 Meta AI 助理工具提供支援。 

但事實是,目前市場上有許多強大的人工智慧模型。 GPT-4渦輪 OpenAI 的 128k 上下文視窗已經存在相當長一段時間了,Anthropic 的 Claude 3 Opus 是 現已 在亞馬遜基岩上。

那麼,根據多個基準,這些模型之間的比較如何?以下是這些強大模型在多個選項中的測試情況的比較。這些數字取自 公開資訊 和 Meta 的 公告.

基準羊駝 3 400B克勞德 3 作品GPT-4渦輪雙子座超1.0雙子座專業版 1.5
百萬美元86.186.886.583.781.9
GP品質保證4850.449.1 - -
人類評估84.184.987.674.471.9
數學57.860.172.253.258.5

如您所看到的,Llama-3 400B 實際上在這些基準測試中確實稍顯不足,在MMLU 中得分為86.1,在GPQA 中得分為48,在HumanEval 中得分為84.1,在MATH 中得分為57.8 。 

但是,鑑於它仍處於訓練階段,一旦完全部署,很有可能會出現重大改進。對於開源模型來說,這遠遠超出了令人印象深刻的程度。 

MMLU 測試模型在不直接教授不同主題的情況下對它們的理解程度,涵蓋了廣泛的主題。另一方面,GPQA 根據模型在生物學、物理和化學方面的表現對模型進行排序,而 HumanEval 則專注於它們的編碼方式。