Jak si stojí open-source model Apple OpenELM ve srovnání s Phi-3 od Microsoftu, pokud jde o parametry?

Náhoda?

Ikona času čtení 2 min. číst


Čtenáři pomáhají podporovat MSpoweruser. Pokud nakoupíte prostřednictvím našich odkazů, můžeme získat provizi. Ikona popisku

Přečtěte si naši informační stránku a zjistěte, jak můžete pomoci MSPoweruser udržet redakční tým Dozvědět se více

Klíčové poznámky

  • Apple vydal OpenELM na HuggingFace s osmi variantami.
  • Každý model přichází s různými parametry: 270 milionů, 450 milionů, 1.1 miliardy a 3 miliardy.
  • Model Phi-3 od Microsoftu naproti tomu obsahuje verze s 3.8 miliardami, 7 miliardami a 14 miliardami parametrů.
jablko

Krátce poté, co Microsoft spustil Rodina Phi-3, sada malých modelů s otevřeným zdrojovým kódem navržených pro lehčí použití, se Apple připojil k vlaku. Výrobci iPhonů (v tichosti) spustili OpenELM, svůj nejnovější open-source model umělé inteligence. 

OpenELM, zkratka pro Open-source Efficient Language Models, přichází v osmi variantách, každá z nich předtrénovaný  a  instrukčně laděný dostane čtyři. Výzkumníci Applu řekl že model používá strategii škálování po vrstvách k efektivní distribuci parametrů v každé vrstvě modelu transformátoru a tyto modely můžete použít na Objímání tváře.

„Například s rozpočtem parametrů přibližně jedna miliarda parametrů vykazuje OpenELM 2.36% zlepšení přesnosti ve srovnání s OLMo, přičemž vyžaduje 2× méně předtréninkových tokenů,“ píše se v dokumentaci.

Pokud jde o velikosti, každý model přichází s různými parametry: 270 milionů, 450 milionů, 1.1 miliardy a 3 miliardy. A i když to není vždy nejlepší standard měření, parametry v modelech AI jsou vždy začátkem jejich porovnávání.

Upřímně řečeno, OpenELM není tak působivý (z hlediska parametrů) jako jiné modely s otevřeným zdrojovým kódem: Llama 3, který pohání Meta AI, přichází s maximálním počtem 70 miliard parametrů a Mixtral podporovaný Microsoftem spustil svůj Model 8x22B s parametry 176B.

Phi-3-mini, nejmenší verze modelu Phi-3 od Microsoftu, má 3.8 miliardy parametrů a byla týden trénoval pomocí GPU Nvidia H100. Pro srovnání, střední verze má 14 miliard parametrů a malá verze 7 miliard parametrů.