Come si confronta il modello open source OpenELM di Apple con Phi-3 di Microsoft, dal punto di vista dei parametri?

Coincidenza?

Icona del tempo di lettura 2 minuto. leggere


I lettori aiutano a supportare MSpoweruser. Potremmo ricevere una commissione se acquisti tramite i nostri link. Icona descrizione comando

Leggi la nostra pagina informativa per scoprire come puoi aiutare MSPoweruser a sostenere il team editoriale Per saperne di più

Note chiave

  • Apple ha rilasciato OpenELM su HuggingFace con otto varianti.
  • Ogni modello viene fornito con parametri diversi: 270 milioni, 450 milioni, 1.1 miliardi e 3 miliardi.
  • Il modello Phi-3 di Microsoft, invece, include versioni con 3.8 miliardi, 7 miliardi e 14 miliardi di parametri.
Apple

Poco dopo che Microsoft ha lanciato il Famiglia Phi-3, una serie di piccoli modelli open source progettati per un utilizzo più leggero, Apple si è unita al treno. I produttori di iPhone hanno (silenziosamente) lanciato OpenELM, il suo ultimo modello di intelligenza artificiale open source. 

OpenELM, abbreviazione di Open-source Efficient Language Models, è disponibile in otto varianti ciascuna pre-addestrato ed ottimizzato per le istruzioni ne ottiene quattro. I ricercatori di Apple disse che il modello utilizza una strategia di ridimensionamento a livello per distribuire in modo efficiente i parametri all'interno di ciascun livello del modello del trasformatore ed è possibile utilizzare questi modelli su abbracciare il viso.

"Ad esempio, con un budget di parametri di circa un miliardo di parametri, OpenELM mostra un miglioramento della precisione del 2.36% rispetto a OLMo richiedendo al contempo 2 volte meno token di pre-addestramento", si legge nella documentazione.

Per quanto riguarda le dimensioni, ogni modello ha parametri diversi: 270 milioni, 450 milioni, 1.1 miliardi e 3 miliardi. E sebbene non sia sempre lo standard di misurazione migliore, i parametri nei modelli di intelligenza artificiale rappresentano sempre il punto di partenza per confrontarli.

Francamente, OpenELM non è così impressionante (dal punto di vista dei parametri) come altri modelli open source: lama 3, che alimenta Meta AI, viene fornito con un numero massimo di parametri di 70 miliardi e Mixtral, sostenuto da Microsoft, ha lanciato il suo Modello 8x22B con parametri 176B.

Phi-3-mini, la versione più piccola del modello Phi-3 di Microsoft, ha 3.8 miliardi di parametri ed è stato allenato per una settimana utilizzando le GPU H100 di Nvidia. In confronto, la versione media ha 14 miliardi di parametri e la versione piccola ne ha 7 miliardi.