Hur står sig Apples OpenELM-modell med öppen källkod jämfört med Microsofts Phi-3, parametermässigt?

Tillfällighet?

Hem » Nyheter

Lästid ikon 2 min. läsa

Kalenderikonen Publicerad den 24 april 2024

by Rafly Gilang

publicerad den 24 april 2024

Läsare hjälper till att stödja MSpoweruser. Vi kan få en provision om du köper via våra länkar.

Viktiga anteckningar

Apple släppte OpenELM på HuggingFace med åtta varianter.
Varje modell kommer med olika parametrar: 270 miljoner, 450 miljoner, 1.1 miljarder och 3 miljarder.
Microsofts Phi-3-modell innehåller å andra sidan versioner med 3.8 miljarder, 7 miljarder och 14 miljarder parametrar.

Kort efter att Microsoft lanserade Phi-3 familj, en uppsättning små modeller med öppen källkod designade för lättare användning, gick Apple med i tåget. iPhone-tillverkarna har (lugnt) lanserat OpenELM, dess senaste AI-modell med öppen källkod.

OpenELM, förkortning för Open-source Efficient Language Models, finns i åtta varianter, vardera förutbildad och instruktionsstämda får fyra. Apples forskare sade att modellen använder en lagervis skalningsstrategi för att effektivt fördela parametrar inom varje lager i transformatormodellen, och du kan använda dessa modeller på Kramar ansikte.

"Till exempel, med en parameterbudget på cirka en miljard parametrar, uppvisar OpenELM en 2.36% förbättring i noggrannhet jämfört med OLMo samtidigt som det kräver 2x färre förträningstokens," står det i dokumentationen.

När det gäller dess storlekar kommer varje modell med olika parametrar: 270 miljoner, 450 miljoner, 1.1 miljarder och 3 miljarder. Och även om det inte alltid är den bästa mätstandarden, är parametrar i AI-modeller alltid början på att jämföra dem.

Uppriktigt nog är OpenELM inte lika imponerande (parametermässigt) som andra modeller med öppen källkod: Lama 3, som driver Meta AI, kommer med ett maximalt antal parametrar på 70 miljarder, och Microsoft-stödda Mixtral lanserade sin 8x22B modell med 176B parametrar.

Phi-3-mini, den minsta versionen av Microsofts Phi-3-modell, har 3.8 miljarder parametrar och var tränat i en vecka använder Nvidias H100 GPU:er. Som jämförelse har den mellanstora versionen 14 miljarder parametrar och den lilla versionen har 7 miljarder parametrar.

Rafly Gilang

Teknisk reporter

Rafly är en reporter med många års journalistisk erfarenhet, allt från teknik, affärer, socialt och kultur. Rapporterar för närvarande nyheter om Microsoft-relaterade produkter, teknik och AI på Windows Report och MSPowerUser. Har du ett tips? Skicka det till [e-postskyddad].