Comment le modèle open source OpenELM d'Apple se compare-t-il au Phi-3 de Microsoft, en termes de paramètres ?

Coïncidence?

Icône de temps de lecture 2 minute. lis


Les lecteurs aident à prendre en charge MSpoweruser. Nous pouvons recevoir une commission si vous achetez via nos liens. Icône d'info-bulle

Lisez notre page de divulgation pour savoir comment vous pouvez aider MSPoweruser à soutenir l'équipe éditoriale En savoir plus

Notes clés

  • Apple a publié OpenELM sur HuggingFace avec huit variantes.
  • Chaque modèle comporte des paramètres différents : 270 millions, 450 millions, 1.1 milliard et 3 milliards.
  • Le modèle Phi-3 de Microsoft, quant à lui, comprend des versions avec 3.8 milliards, 7 milliards et 14 milliards de paramètres.
Apple

Peu de temps après que Microsoft ait lancé le Famille Phi-3, un ensemble de petits modèles open source conçus pour une utilisation plus légère, Apple a rejoint le train. Les fabricants d'iPhone ont (discrètement) lancé OpenELM, son dernier modèle d'IA open source. 

OpenELM, abréviation de Open-source Efficient Language Models, se décline en huit variantes, chacune pré-formé ainsi que le adapté aux instructions en obtient quatre. Les chercheurs d'Apple a affirmé Valérie Plante. que le modèle utilise une stratégie de mise à l'échelle par couche pour distribuer efficacement les paramètres au sein de chaque couche du modèle de transformateur, et que vous pouvez utiliser ces modèles sur Étreindre.

« Par exemple, avec un budget de paramètres d'environ un milliard de paramètres, OpenELM présente une amélioration de 2.36 % en termes de précision par rapport à OLMo tout en nécessitant 2 fois moins de jetons de pré-formation », indique la documentation.

Quant à ses tailles, chaque modèle est doté de paramètres différents : 270 millions, 450 millions, 1.1 milliard et 3 milliards. Et même s’il ne s’agit pas toujours de la meilleure norme de mesure, les paramètres des modèles d’IA constituent toujours un point de départ pour les comparer.

Franchement, OpenELM n'est pas aussi impressionnant (en termes de paramètres) que d'autres modèles open source : Llama 3, qui alimente Meta AI, est livré avec un nombre maximum de paramètres de 70 milliards, et Mixtral, soutenu par Microsoft, a lancé son Modèle 8x22B avec des paramètres 176B.

Phi-3-mini, la plus petite version du modèle Phi-3 de Microsoft, possède 3.8 milliards de paramètres et a été entraîné pendant une semaine en utilisant les GPU H100 de Nvidia. En comparaison, la version moyenne comporte 14 milliards de paramètres et la version petite, 7 milliards de paramètres.