מיקרוסופט ו-NVIDIA מכריזות על מודל השפה הגדול והחזק ביותר שהוכשר עד כה
1 דקות לקרוא
פורסם ב
קרא את דף הגילויים שלנו כדי לגלות כיצד תוכל לעזור ל-MSPoweruser לקיים את צוות העריכה קראו עוד
מיקרוסופט ו-NVIDIA הכריזו היום על מודל ה-Megatron-Turing Natural Language Generation (MT-NLG) המופעל על ידי DeepSpeed ו-Megatron, המודל הגדול והחזק ביותר של שפת השנאים המונוליטיים שהוכשר עד כה. דגם זה כולל 530 מיליארד פרמטרים, פי 3 ממספר הפרמטרים בהשוואה לדגם הגדול ביותר הקיים, GPT-3. אימון מודל כה גדול כרוך באתגרים שונים. NVIDIA ומיקרוסופט עבדו על חידושים ופריצות דרך רבות לאורך כל צירי הבינה המלאכותית.
לדוגמה, בשיתוף פעולה הדוק, NVIDIA ו-Microsoft השיגו יעילות אימון חסרת תקדים על ידי התכנסות של תשתית אימון משוכללת המואצת ב-GPU עם ערימת תוכנת למידה מבוזרת מתקדמת. בנינו קורפוסי אימון בשפה טבעית באיכות גבוהה עם מאות מיליארדי אסימונים, ופיתחנו במשותף מתכוני אימון לשיפור יעילות האופטימיזציה והיציבות.
אתה יכול ללמוד עוד על פרויקט זה מהקישורים למטה.