Cum se compară modelul open-source OpenELM de la Apple cu Phi-3 de la Microsoft, din punct de vedere al parametrilor?

Coincidență?

Acasă » Noutăţi

Pictograma timp de citire 2 min. citit

Pictogramă calendar Publicat în data de Aprilie 24, 2024

by Rafly Gilang

publicat pe Aprilie 24, 2024

Cititorii ajută la sprijinirea MSpoweruser. Este posibil să primim un comision dacă cumpărați prin link-urile noastre.

Note cheie

Apple a lansat OpenELM pe HuggingFace cu opt variante.
Fiecare model vine cu parametri diferiți: 270 milioane, 450 milioane, 1.1 miliarde și 3 miliarde.
Modelul Microsoft Phi-3, pe de altă parte, include versiuni cu 3.8 miliarde, 7 miliarde și 14 miliarde de parametri.

La scurt timp după ce Microsoft a lansat Familia Phi-3, un set de modele mici, open-source, concepute pentru o utilizare mai ușoară, Apple s-a alăturat trenului. Producătorii de iPhone au lansat (în liniște) OpenELM, cel mai recent model AI open-source.

OpenELM, prescurtare pentru Open-source Efficient Language Models, vine în opt variante, fiecare pre-antrenat și reglat cu instrucțiuni primește patru. Cercetătorii Apple a spus că modelul utilizează o strategie de scalare la nivel de straturi pentru a distribui eficient parametrii în fiecare strat al modelului de transformator și puteți utiliza aceste modele pe Față îmbrățișată.

„De exemplu, cu un buget de parametri de aproximativ un miliard de parametri, OpenELM prezintă o îmbunătățire cu 2.36% a preciziei în comparație cu OLMo, în timp ce necesită de 2 ori mai puține jetoane de pre-antrenare”, se arată în documentație.

În ceea ce privește dimensiunile sale, fiecare model vine cu parametri diferiți: 270 milioane, 450 milioane, 1.1 miliarde și 3 miliarde. Și, deși nu este întotdeauna cel mai bun standard de măsurare, parametrii din modelele AI sunt întotdeauna începutul în compararea acestora.

Sincer, OpenELM nu este la fel de impresionant (din punct de vedere al parametrilor) ca alte modele open-source: Lama 3, care alimentează Meta AI, vine cu un număr maxim de parametri de 70 de miliarde, iar Mixtral, susținut de Microsoft, și-a lansat Model 8x22B cu parametrii 176B.

Phi-3-mini, cea mai mică versiune a modelului Microsoft Phi-3, are 3.8 miliarde de parametri și a fost antrenat timp de o săptămână folosind GPU-urile H100 de la Nvidia. În comparație, versiunea medie are 14 miliarde de parametri, iar versiunea mică are 7 miliarde de parametri.

Rafly Gilang

Reporter tehnic

Rafly este un reporter cu ani de experiență jurnalistică, variind de la tehnologie, afaceri, sociale și cultură. Raportează în prezent știri despre produse, tehnologie și AI legate de Microsoft pe Windows Report și MSPowerUser. Ai un pont? Trimete-o la [e-mail protejat].