איך מודל הקוד הפתוח OpenELM של אפל משתווה ל-Phi-3 של מיקרוסופט, מבחינת פרמטרים?
יָד הַמִקרֶה?
2 דקות לקרוא
פורסם ב
קרא את דף הגילויים שלנו כדי לגלות כיצד תוכל לעזור ל-MSPoweruser לקיים את צוות העריכה קראו עוד
הערות עיקריות
- אפל שחררה את OpenELM ב- HuggingFace עם שמונה גרסאות.
- כל דגם מגיע עם פרמטרים שונים: 270 מיליון, 450 מיליון, 1.1 מיליארד ו-3 מיליארד.
- מודל ה-Phi-3 של מיקרוסופט, לעומת זאת, כולל גרסאות עם 3.8 מיליארד, 7 מיליארד ו-14 מיליארד פרמטרים.
זמן קצר לאחר שמיקרוסופט השיקה את משפחת פי-3, סט של דגמי קוד פתוח קטנים המיועדים לשימוש קל יותר, הצטרפה אפל לרכבת. יצרניות האייפון השיקו (בשקט) את OpenELM, דגם ה-AI האחרון בקוד פתוח.
OpenELM, קיצור של Open-source Efficient Language Models, מגיע בשמונה גרסאות, כל אחת מאומן מראש ו מכוון הוראות מקבל ארבעה. החוקרים של אפל אמר שהמודל משתמש באסטרטגיית קנה מידה לפי שכבה כדי להפיץ ביעילות פרמטרים בתוך כל שכבה של מודל השנאי, ותוכל להשתמש במודלים אלה על חיבוק פנים.
"לדוגמה, עם תקציב פרמטר של כמיליארד פרמטרים, OpenELM מציגה שיפור של 2.36% ברמת הדיוק בהשוואה ל-OLMo תוך צורך ב-2× פחות אסימוני טרום אימון", נכתב בתיעוד.
לגבי הגדלים שלו, כל דגם מגיע עם פרמטרים שונים: 270 מיליון, 450 מיליון, 1.1 מיליארד ו-3 מיליארד. ולמרות שזה לא תמיד תקן המדידה הטוב ביותר, פרמטרים במודלים של AI הם תמיד ההתחלה בהשוואה ביניהם.
בכנות, OpenELM אינו מרשים (מבחינת פרמטרים) כמו דגמי קוד פתוח אחרים: לאמה 3, המניע את Meta AI, מגיע עם ספירת פרמטרים מקסימלית של 70 מיליארד, ו-Mixtral בתמיכת מיקרוסופט השיקה את דגם 8x22B עם 176B פרמטרים.
ל-Phi-3-mini, הגרסה הקטנה ביותר של דגם ה-Phi-3 של מיקרוסופט, יש 3.8 מיליארד פרמטרים והיא הייתה התאמן במשך שבוע באמצעות ה-H100 GPUs של Nvidia. לשם השוואה, לגרסה הבינונית יש 14 מיליארד פרמטרים, ולגרסה הקטנה יש 7 מיליארד פרמטרים.
פורום משתמשים
0 הודעות