Apple 的 OpenELM 开源模型与 Microsoft 的 Phi-3 在参数方面有何不同?

巧合?

阅读时间图标 2分钟读


读者帮助支持 MSpoweruser。如果您通过我们的链接购买,我们可能会获得佣金。 工具提示图标

阅读我们的披露页面,了解如何帮助 MSPoweruser 维持编辑团队 查看更多

重点说明

  • Apple 在 HuggingFace 上发布了具有八个变体的 OpenELM。
  • 每个模型都有不同的参数:270亿、450亿、1.1亿和3亿。
  • 另一方面,微软的 Phi-3 模型包括 3.8 亿、7 亿和 14 亿个参数的版本。
Apple

微软推出后不久 Phi-3家族一套专为轻便使用而设计的小型开源模型,苹果也加入了这列火车。 iPhone 制造商(悄悄地)推出了 OpenELM,这是其最新的开源人工智能模型。 

OpenELM 是开源高效语言模型的缩写,有八种变体,每种变体 预训练 和 指令调整 得到四个。苹果公司的研究人员 说过 该模型使用逐层缩放策略来有效地在变压器模型的每一层内分配参数,并且您可以在 拥抱脸.

“例如,在参数预算约为 2.36 亿个参数的情况下,OpenELM 与 OLMo 相比,准确率提高了 2%,同时需要的预训练令牌减少了 XNUMX 倍,”文档中写道。

至于尺寸,每个型号都有不同的参数:270亿、450亿、1.1亿、3亿。虽然它并不总是最好的测量标准,但人工智能模型中的参数始终是比较它们的起点。

坦率地说,OpenELM 并不像其他开源模型那样令人印象深刻(参数方面): 骆驼3为 Meta AI 提供支持,参数数量上限为 70 亿,微软支持的 Mixtral 推出了其 8x22B型号 具有 176B 参数。

Phi-3-mini 是微软 Phi-3 模型的最小版本,拥有 3.8 亿个参数, 训练了一周 使用 Nvidia 的 H100 GPU。相比之下,中型版本有 14 亿个参数,小型版本有 7 亿个参数。