Come si confronta il modello open source OpenELM di Apple con Phi-3 di Microsoft, dal punto di vista dei parametri?
Coincidenza?
2 minuto. leggere
Edizione del
Leggi la nostra pagina informativa per scoprire come puoi aiutare MSPoweruser a sostenere il team editoriale Per saperne di più
Note chiave
- Apple ha rilasciato OpenELM su HuggingFace con otto varianti.
- Ogni modello viene fornito con parametri diversi: 270 milioni, 450 milioni, 1.1 miliardi e 3 miliardi.
- Il modello Phi-3 di Microsoft, invece, include versioni con 3.8 miliardi, 7 miliardi e 14 miliardi di parametri.
Poco dopo che Microsoft ha lanciato il Famiglia Phi-3, una serie di piccoli modelli open source progettati per un utilizzo più leggero, Apple si è unita al treno. I produttori di iPhone hanno (silenziosamente) lanciato OpenELM, il suo ultimo modello di intelligenza artificiale open source.
OpenELM, abbreviazione di Open-source Efficient Language Models, è disponibile in otto varianti ciascuna pre-addestrato che a ottimizzato per le istruzioni ne ottiene quattro. I ricercatori di Apple disse che il modello utilizza una strategia di ridimensionamento a livello per distribuire in modo efficiente i parametri all'interno di ciascun livello del modello del trasformatore ed è possibile utilizzare questi modelli su abbracciare il viso.
"Ad esempio, con un budget di parametri di circa un miliardo di parametri, OpenELM mostra un miglioramento della precisione del 2.36% rispetto a OLMo richiedendo al contempo 2 volte meno token di pre-addestramento", si legge nella documentazione.
Per quanto riguarda le dimensioni, ogni modello ha parametri diversi: 270 milioni, 450 milioni, 1.1 miliardi e 3 miliardi. E sebbene non sia sempre lo standard di misurazione migliore, i parametri nei modelli di intelligenza artificiale rappresentano sempre il punto di partenza per confrontarli.
Francamente, OpenELM non è così impressionante (dal punto di vista dei parametri) come altri modelli open source: lama 3, che alimenta Meta AI, viene fornito con un numero massimo di parametri di 70 miliardi e Mixtral, sostenuto da Microsoft, ha lanciato il suo Modello 8x22B con parametri 176B.
Phi-3-mini, la versione più piccola del modello Phi-3 di Microsoft, ha 3.8 miliardi di parametri ed è stato allenato per una settimana utilizzando le GPU H100 di Nvidia. In confronto, la versione media ha 14 miliardi di parametri e la versione piccola ne ha 7 miliardi.
Forum degli utenti
0 messaggi