Apple 的 OpenELM 開源模型與 Microsoft 的 Phi-3 在參數方面有何不同?

巧合?

閱讀時間圖標 2分鐘讀


讀者幫助支持 MSpoweruser。如果您透過我們的連結購買,我們可能會獲得佣金。 工具提示圖標

請閱讀我們的揭露頁面,了解如何幫助 MSPoweruser 維持編輯團隊的發展 阅读更多

重點說明

  • Apple 在 HuggingFace 上發布了具有八個變體的 OpenELM。
  • 每個模型都有不同的參數:270億、450億、1.1億和3億。
  • 另一方面,微軟的 Phi-3 模型包括 3.8 億、7 億和 14 億個參數的版本。
蘋果

微軟推出後不久 Phi-3家族一套專為輕便使用而設計的小型開源模型,蘋果也加入了這列火車。 iPhone 製造商(悄悄地)推出了 OpenELM,這是其最新的開源人工智慧模型。 

OpenELM 是開源高效語言模型的縮寫,有八種變體,每種變體 預訓練的 和 指令調整 得到四個。蘋果公司的研究人員 說過 該模型使用逐層縮放策略來有效地在變壓器模型的每一層內分配參數,並且您可以在 擁抱臉.

「例如,在參數預算約為 2.36 億個參數的情況下,OpenELM 與 OLMo 相比,準確率提高了 2%,同時需要的預訓練令牌減少了 XNUMX 倍,」文件中寫道。

至於尺寸,每個型號都有不同的參數:270億、450億、1.1億、3億。雖然它並不總是最好的測量標準,但人工智慧模型中的參數始終是比較它們的起點。

坦白說,OpenELM 並不像其他開源模型那樣令人印象深刻(參數方面): 駱駝3為 Meta AI 提供支持,參數數量上限為 70 億,微軟支持的 Mixtral 推出了其 8x22B型號 具有 176B 參數。

Phi-3-mini 是微軟 Phi-3 模型的最小版本,擁有 3.8 億個參數, 訓練了一周 使用 Nvidia 的 H100 GPU。相比之下,中型版本有 14 億個參數,小型版本有 7 億個參數。