Cum se compară modelul open-source OpenELM de la Apple cu Phi-3 de la Microsoft, din punct de vedere al parametrilor?

Coincidență?

Pictograma timp de citire 2 min. citit


Cititorii ajută la sprijinirea MSpoweruser. Este posibil să primim un comision dacă cumpărați prin link-urile noastre. Pictograma Tooltip

Citiți pagina noastră de dezvăluire pentru a afla cum puteți ajuta MSPoweruser să susțină echipa editorială Află mai multe

Note cheie

  • Apple a lansat OpenELM pe HuggingFace cu opt variante.
  • Fiecare model vine cu parametri diferiți: 270 milioane, 450 milioane, 1.1 miliarde și 3 miliarde.
  • Modelul Microsoft Phi-3, pe de altă parte, include versiuni cu 3.8 miliarde, 7 miliarde și 14 miliarde de parametri.
Apple

La scurt timp după ce Microsoft a lansat Familia Phi-3, un set de modele mici, open-source, concepute pentru o utilizare mai ușoară, Apple s-a alăturat trenului. Producătorii de iPhone au lansat (în liniște) OpenELM, cel mai recent model AI open-source. 

OpenELM, prescurtare pentru Open-source Efficient Language Models, vine în opt variante, fiecare pre-antrenat și reglat cu instrucțiuni primește patru. Cercetătorii Apple a spus că modelul utilizează o strategie de scalare la nivel de straturi pentru a distribui eficient parametrii în fiecare strat al modelului de transformator și puteți utiliza aceste modele pe Față îmbrățișată.

„De exemplu, cu un buget de parametri de aproximativ un miliard de parametri, OpenELM prezintă o îmbunătățire cu 2.36% a preciziei în comparație cu OLMo, în timp ce necesită de 2 ori mai puține jetoane de pre-antrenare”, se arată în documentație.

În ceea ce privește dimensiunile sale, fiecare model vine cu parametri diferiți: 270 milioane, 450 milioane, 1.1 miliarde și 3 miliarde. Și, deși nu este întotdeauna cel mai bun standard de măsurare, parametrii din modelele AI sunt întotdeauna începutul în compararea acestora.

Sincer, OpenELM nu este la fel de impresionant (din punct de vedere al parametrilor) ca alte modele open-source: Lama 3, care alimentează Meta AI, vine cu un număr maxim de parametri de 70 de miliarde, iar Mixtral, susținut de Microsoft, și-a lansat Model 8x22B cu parametrii 176B.

Phi-3-mini, cea mai mică versiune a modelului Microsoft Phi-3, are 3.8 miliarde de parametri și a fost antrenat timp de o săptămână folosind GPU-urile H100 de la Nvidia. În comparație, versiunea medie are 14 miliarde de parametri, iar versiunea mică are 7 miliarde de parametri.