Hoe verhoudt het open-sourcemodel OpenELM van Apple zich qua parameters tot de Phi-3 van Microsoft?

Toeval?

Pictogram voor leestijd 2 minuut. lezen


Lezers helpen MSpoweruser ondersteunen. We kunnen een commissie krijgen als u via onze links koopt. Tooltip-pictogram

Lees onze openbaarmakingspagina om erachter te komen hoe u MSPoweruser kunt helpen het redactieteam te ondersteunen Lees meer

Belangrijkste opmerkingen

  • Apple heeft OpenELM op HuggingFace uitgebracht met acht varianten.
  • Elk model heeft verschillende parameters: 270 miljoen, 450 miljoen, 1.1 miljard en 3 miljard.
  • Het Phi-3-model van Microsoft omvat daarentegen versies met 3.8 miljard, 7 miljard en 14 miljard parameters.
Apple

Kort nadat Microsoft de Phi-3-familie, een reeks kleine, open-sourcemodellen ontworpen voor lichter gebruik, sloot Apple zich aan bij de trein. De iPhone-makers hebben (stilletjes) OpenELM gelanceerd, het nieuwste open-source AI-model. 

OpenELM, een afkorting van Open-source Efficient Language Models, is elk in acht varianten verkrijgbaar vooraf opgeleid en instructie afgestemd krijgt er vier. Apple's onderzoekers zei dat het model een laagsgewijze schaalstrategie gebruikt om parameters efficiënt te verdelen binnen elke laag van het transformatormodel, en u kunt deze modellen gebruiken op KnuffelenGezicht.

“Met een parameterbudget van ongeveer een miljard parameters vertoont OpenELM bijvoorbeeld een verbetering van 2.36% in nauwkeurigheid vergeleken met OLMo, terwijl er twee keer minder pre-training tokens nodig zijn”, aldus de documentatie.

Wat de afmetingen betreft, heeft elk model verschillende parameters: 270 miljoen, 450 miljoen, 1.1 miljard en 3 miljard. En hoewel dit niet altijd de beste meetstandaard is, vormen parameters in AI-modellen altijd het begin bij het vergelijken ervan.

Eerlijk gezegd is OpenELM niet zo indrukwekkend (qua parameters) als andere open-sourcemodellen: Lama 3, die Meta AI aanstuurt, wordt geleverd met een maximaal aantal parameters van 70 miljard, en door Microsoft gesteunde Mixtral lanceerde zijn 8x22B-model met 176B-parameters.

Phi-3-mini, de kleinste versie van Microsofts Phi-3-model, heeft 3.8 miljard parameters en is een week getraind met Nvidia's H100 GPU's. Ter vergelijking: de middelgrote versie heeft 14 miljard parameters en de kleine versie 7 miljard parameters.