Hvordan er Apples OpenELM open source-model sammenlignet med Microsofts Phi-3, parametermæssigt?

Sammentræf?

Ikon for læsetid 2 min. Læs


Læsere hjælper med at understøtte MSpoweruser. Vi får muligvis en kommission, hvis du køber via vores links. Værktøjstip-ikon

Læs vores oplysningsside for at finde ud af, hvordan du kan hjælpe MSPoweruser med at opretholde redaktionen Læs mere

Nøgle noter

  • Apple udgav OpenELM på HuggingFace med otte varianter.
  • Hver model kommer med forskellige parametre: 270 millioner, 450 millioner, 1.1 milliarder og 3 milliarder.
  • Microsofts Phi-3-model indeholder på den anden side versioner med 3.8 milliarder, 7 milliarder og 14 milliarder parametre.
Æble bygning

Kort efter Microsoft lancerede Phi-3 familie, et sæt små open source-modeller designet til lettere brug, sluttede Apple sig til toget. iPhone-producenterne har (stille og roligt) lanceret OpenELM, dens seneste open source AI-model. 

OpenELM, en forkortelse for Open-source Efficient Language Models, kommer i otte varianter, hver foruddannet og instruktion afstemt får fire. Apples forskere sagde at modellen bruger en lagmæssig skaleringsstrategi til effektivt at fordele parametre inden for hvert lag af transformermodellen, og du kan bruge disse modeller på KrammerFace.

"For eksempel, med et parameterbudget på cirka en milliard parametre, udviser OpenELM en 2.36% forbedring i nøjagtighed sammenlignet med OLMo, mens det kræver 2x færre præ-træning tokens," lyder dokumentationen.

Med hensyn til dens størrelser kommer hver model med forskellige parametre: 270 millioner, 450 millioner, 1.1 milliarder og 3 milliarder. Og selvom det ikke altid er den bedste målestandard, er parametre i AI-modeller altid begyndelsen til at sammenligne dem.

Helt ærligt, OpenELM er ikke så imponerende (parametermæssigt) som andre open source-modeller: Lama 3, der driver Meta AI, kommer med et maksimalt antal parametre på 70 milliarder, og Microsoft-støttede Mixtral lancerede sin 8x22B model med 176B parametre.

Phi-3-mini, den mindste version af Microsofts Phi-3-model, har 3.8 milliarder parametre og var trænet i en uge ved hjælp af Nvidias H100 GPU'er. Til sammenligning har den mellemstore version 14 milliarder parametre, og den lille version har 7 milliarder parametre. 

Brugerforum

0 meddelelser