Hur står sig Apples OpenELM-modell med öppen källkod jämfört med Microsofts Phi-3, parametermässigt?

Tillfällighet?

Lästid ikon 2 min. läsa


Läsare hjälper till att stödja MSpoweruser. Vi kan få en provision om du köper via våra länkar. Verktygstipsikon

Läs vår informationssida för att ta reda på hur du kan hjälpa MSPoweruser upprätthålla redaktionen Läs mer

Viktiga anteckningar

  • Apple släppte OpenELM på HuggingFace med åtta varianter.
  • Varje modell kommer med olika parametrar: 270 miljoner, 450 miljoner, 1.1 miljarder och 3 miljarder.
  • Microsofts Phi-3-modell innehåller å andra sidan versioner med 3.8 miljarder, 7 miljarder och 14 miljarder parametrar.
Apple

Kort efter att Microsoft lanserade Phi-3 familj, en uppsättning små modeller med öppen källkod designade för lättare användning, gick Apple med i tåget. iPhone-tillverkarna har (lugnt) lanserat OpenELM, dess senaste AI-modell med öppen källkod. 

OpenELM, förkortning för Open-source Efficient Language Models, finns i åtta varianter, vardera förutbildad och instruktionsstämda får fyra. Apples forskare sade att modellen använder en lagervis skalningsstrategi för att effektivt fördela parametrar inom varje lager i transformatormodellen, och du kan använda dessa modeller på Kramar ansikte.

"Till exempel, med en parameterbudget på cirka en miljard parametrar, uppvisar OpenELM en 2.36% förbättring i noggrannhet jämfört med OLMo samtidigt som det kräver 2x färre förträningstokens," står det i dokumentationen.

När det gäller dess storlekar kommer varje modell med olika parametrar: 270 miljoner, 450 miljoner, 1.1 miljarder och 3 miljarder. Och även om det inte alltid är den bästa mätstandarden, är parametrar i AI-modeller alltid början på att jämföra dem.

Uppriktigt nog är OpenELM inte lika imponerande (parametermässigt) som andra modeller med öppen källkod: Lama 3, som driver Meta AI, kommer med ett maximalt antal parametrar på 70 miljarder, och Microsoft-stödda Mixtral lanserade sin 8x22B modell med 176B parametrar.

Phi-3-mini, den minsta versionen av Microsofts Phi-3-modell, har 3.8 miljarder parametrar och var tränat i en vecka använder Nvidias H100 GPU:er. Som jämförelse har den mellanstora versionen 14 miljarder parametrar och den lilla versionen har 7 miljarder parametrar.