Ako je na tom open-source model Apple OpenELM v porovnaní s Phi-3 od Microsoftu z hľadiska parametrov?

Náhoda?

Ikona času čítania 2 min. čítať


Čítačky pomáhajú podporovať MSpoweruser. Ak nakupujete prostredníctvom našich odkazov, môžeme získať províziu. Ikona popisu

Prečítajte si našu informačnú stránku a zistite, ako môžete pomôcť MSPoweruser udržať redakčný tím Čítaj viac

Kľúčové poznámky

  • Apple vydal OpenELM na HuggingFace s ôsmimi variantmi.
  • Každý model prichádza s rôznymi parametrami: 270 miliónov, 450 miliónov, 1.1 miliardy a 3 miliardy.
  • Model Phi-3 od Microsoftu na druhej strane obsahuje verzie s 3.8 miliardami, 7 miliardami a 14 miliardami parametrov.
jablko

Krátko po tom, ako spoločnosť Microsoft spustila Rodina Phi-3, sadu malých modelov s otvoreným zdrojovým kódom navrhnutých pre ľahšie použitie, sa do vlaku zapojil aj Apple. Výrobcovia iPhonov (potichu) spustili OpenELM, svoj najnovší open-source model AI. 

OpenELM, skratka pre Open-source Efficient Language Models, prichádza v ôsmich variantoch, každý z nich predtrénovaný a inštruktážne ladený dostane štyri. Výskumníci spoločnosti Apple povedal že model používa stratégiu škálovania po vrstvách na efektívnu distribúciu parametrov v rámci každej vrstvy modelu transformátora a tieto modely môžete použiť na HuggingFace.

„Napríklad s rozpočtom parametrov približne jedna miliarda parametrov vykazuje OpenELM 2.36 % zlepšenie presnosti v porovnaní s OLMo, pričom vyžaduje 2× menej predtréningových tokenov,“ píše sa v dokumentácii.

Čo sa týka veľkosti, každý model prichádza s inými parametrami: 270 miliónov, 450 miliónov, 1.1 miliardy a 3 miliardy. A hoci to nie je vždy najlepší štandard merania, parametre v modeloch AI sú vždy začiatkom ich porovnávania.

Úprimne povedané, OpenELM nie je taký pôsobivý (pokiaľ ide o parametre) ako iné modely s otvoreným zdrojom: Lama 3, ktorý poháňa Meta AI, prichádza s maximálnym počtom parametrov 70 miliárd a Mixtral podporovaný Microsoftom spustil svoju Model 8x22B s parametrami 176B.

Phi-3-mini, najmenšia verzia modelu Phi-3 od Microsoftu, má 3.8 miliardy parametrov a bola trénoval týždeň pomocou GPU Nvidia H100. Na porovnanie, stredná verzia má 14 miliárd parametrov a malá verzia má 7 miliárd parametrov.