Milyen az Apple OpenELM nyílt forráskódú modellje a Microsoft Phi-3 modelljéhez képest paraméterek tekintetében?

Véletlen egybeesés?

Olvasási idő ikonra 2 perc olvas


Az olvasók segítenek az MSpoweruser támogatásában. Kaphatunk jutalékot, ha a linkjeinken keresztül vásárol. Eszköztipp ikon

Olvassa el közzétételi oldalunkat, hogy megtudja, hogyan segítheti az MSPowerusert a szerkesztői csapat fenntartásában Tovább

Főbb megjegyzések

  • Az Apple nyolc változattal adta ki az OpenELM-et a HuggingFace-en.
  • Mindegyik modellhez különböző paraméterek tartoznak: 270 millió, 450 millió, 1.1 milliárd és 3 milliárd.
  • A Microsoft Phi-3 modellje viszont 3.8 milliárd, 7 milliárd és 14 milliárdos paraméterrel rendelkezik.
Apple

Röviddel azután, hogy a Microsoft elindította a Phi-3 család, kis, nyílt forráskódú modellek készlete, amelyet könnyebb használatra terveztek – csatlakozott a vonathoz az Apple. Az iPhone gyártói (csendben) elindították az OpenELM-et, a legújabb nyílt forráskódú mesterséges intelligencia modelljét. 

Az OpenELM, a nyílt forráskódú hatékony nyelvi modellek rövidítése, egyenként nyolc változatban kapható előképzett és a utasításra hangolt négyet kap. Az Apple kutatói mondott hogy a modell rétegenkénti skálázási stratégiát használ a paraméterek hatékony elosztására a transzformátormodell egyes rétegei között, és ezeket a modelleket használhatja HuggingFace.

„Például körülbelül egymilliárd paraméteres paraméter-költségvetés mellett az OpenELM 2.36%-os pontossági javulást mutat az OLMo-hoz képest, miközben 2-szer kevesebb előképzési tokenre van szüksége” – olvasható a dokumentációban.

Ami a méreteit illeti, minden modell más-más paraméterekkel érkezik: 270 millió, 450 millió, 1.1 milliárd és 3 milliárd. És bár nem mindig ez a legjobb mérési szabvány, az AI-modellek paraméterei mindig az összehasonlítás kezdetét jelentik.

Őszintén szólva, az OpenELM nem olyan lenyűgöző (paraméterek szempontjából), mint a többi nyílt forráskódú modell: Láma 3A Meta AI-t működtető 70 milliárdos maximális paraméterszámmal érkezik, és a Microsoft által támogatott Mixtral elindította 8x22B modell 176B paraméterekkel.

A Phi-3-mini, a Microsoft Phi-3 modelljének legkisebb változata 3.8 milliárd paraméterrel rendelkezik, és egy hétig edzett az Nvidia H100 GPU-it használva. Összehasonlításképpen, a közepes verzió 14 milliárd, a kis változat 7 milliárd paraméterrel rendelkezik.