Apple の OpenELM オープンソース モデルは、パラメータに関して Microsoft の Phi-3 とどのように比較されますか?

一致?

読書時間アイコン 2分。 読んだ


読者は MSpoweruser のサポートを支援します。私たちのリンクを通じて購入すると、手数料が発生する場合があります。 ツールチップアイコン

MSPoweruser の編集チームの維持にどのように貢献できるかについては、開示ページをお読みください。 続きを読む

キーノート

  • Apple は、8 つのバリアントを備えた OpenELM を HuggingFace でリリースしました。
  • 各モデルには、270 億 450 万、1.1 億 3 万、XNUMX 億、XNUMX 億という異なるパラメーターが付属しています。
  • 一方、Microsoft の Phi-3 モデルには、3.8 億、7 億、14 億のパラメータを持つバージョンが含まれています。
Apple

マイクロソフトがサービスを開始した直後、 ファイ-3ファミリー、軽量な使用のために設計された一連の小型のオープンソース モデルに、Apple が加わりました。 iPhone メーカーは、最新のオープンソース AI モデルである OpenELM を (静かに) 立ち上げました。 

OpenELM (Open-source Efficient Language Models の略) には 8 つのバリアントがあり、それぞれ 事前トレーニング済み および 命令に合わせて調整された 4つになります。アップルの研究者  モデルはレイヤーごとのスケーリング戦略を使用して、変圧器モデルの各レイヤー内でパラメーターを効率的に分散し、これらのモデルを 抱き合う顔.

「たとえば、約 2.36 億のパラメータのパラメータ バジェットを使用すると、OpenELM は OLMo と比較して精度が 2% 向上し、必要な事前トレーニング トークンの量が XNUMX 倍少なくなります」とドキュメントには記載されています。

サイズに関しては、各モデルには 270 億 450 万、1.1 億 3 万、XNUMX 億、XNUMX 億という異なるパラメーターが付属しています。また、それが常に最適な測定基準であるとは限りませんが、AI モデルのパラメーターは常に比較の出発点となります。

率直に言って、OpenELM は他のオープンソース モデルほど (パラメーター的には) 優れていません。 ラマ3Meta AI を強化する , は最大 70 億のパラメータ数を備えており、Microsoft が支援する Mixtral は 8x22Bモデル 176B パラメータ付き。

Microsoft の Phi-3 モデルの最小バージョンである Phi-3-mini には 3.8 億のパラメータがあり、 一週間訓練された Nvidia の H100 GPU を使用します。比較すると、中バージョンには 14 億のパラメータがあり、小規模バージョンには 7 億のパラメータがあります。