Hvordan er Apples OpenELM åpen kildekode-modell sammenlignet med Microsofts Phi-3, parametermessig?

Tilfeldighet?

Ikon for lesetid 2 min. lese


Lesere hjelper til med å støtte MSpoweruser. Vi kan få provisjon hvis du kjøper gjennom lenkene våre. Verktøytipsikon

Les vår avsløringsside for å finne ut hvordan du kan hjelpe MSPoweruser opprettholde redaksjonen Les mer

Viktige merknader

  • Apple ga ut OpenELM på HuggingFace med åtte varianter.
  • Hver modell kommer med forskjellige parametere: 270 millioner, 450 millioner, 1.1 milliarder og 3 milliarder.
  • Microsofts Phi-3-modell inkluderer derimot versjoner med 3.8 milliarder, 7 milliarder og 14 milliarder parametere.
eple

Kort tid etter at Microsoft lanserte Phi-3-familien, et sett med små, åpen kildekode-modeller designet for lettere bruk, ble Apple med på toget. iPhone-produsentene har (stille) lansert OpenELM, den nyeste åpen kildekode AI-modellen. 

OpenELM, forkortelse for Open-source Efficient Language Models, kommer i åtte varianter, hver ferdig trent og instruksjonstilpasset får fire. Apples forskere sa at modellen bruker en lagvis skaleringsstrategi for å effektivt distribuere parametere innenfor hvert lag i transformatormodellen, og du kan bruke disse modellene på Klem ansikt.

"For eksempel, med et parameterbudsjett på omtrent en milliard parametere, viser OpenELM en 2.36% forbedring i nøyaktighet sammenlignet med OLMo, mens det krever 2x færre før-trening-tokens," heter det i dokumentasjonen.

Når det gjelder størrelsene, kommer hver modell med forskjellige parametere: 270 millioner, 450 millioner, 1.1 milliarder og 3 milliarder. Og selv om det ikke alltid er den beste målestandarden, er parametere i AI-modeller alltid starten på å sammenligne dem.

Oppriktig nok er ikke OpenELM så imponerende (parametermessig) som andre åpen kildekode-modeller: Lama 3, som driver Meta AI, kommer med et maksimalt antall parametere på 70 milliarder, og Microsoft-støttet Mixtral lanserte sin 8x22B modell med 176B parametere.

Phi-3-mini, den minste versjonen av Microsofts Phi-3-modell, har 3.8 milliarder parametere og var trent en uke bruker Nvidias H100 GPUer. Til sammenligning har den mellomstore versjonen 14 milliarder parametere, og den lille versjonen har 7 milliarder parametere.