با Microsoft DeepSpeed ​​آشنا شوید، یک کتابخانه یادگیری عمیق جدید که می تواند مدل های عظیم 100 میلیارد پارامتری را آموزش دهد.

نماد زمان خواندن 2 دقیقه خواندن


خوانندگان به پشتیبانی از MSpoweruser کمک می کنند. در صورت خرید از طریق پیوندهای ما ممکن است کمیسیون دریافت کنیم. نماد راهنمای ابزار

صفحه افشای ما را بخوانید تا بدانید چگونه می توانید به MSPoweruser کمک کنید تا تیم تحریریه را حفظ کند ادامه مطلب

مایکروسافت ریسرچ امروز DeepSpeed ​​را معرفی کرد، یک کتابخانه جدید بهینه سازی یادگیری عمیق که می تواند مدل های عظیم 100 میلیارد پارامتری را آموزش دهد. در هوش مصنوعی، برای دقت بهتر باید مدل‌های زبان طبیعی بزرگ‌تری داشته باشید. اما آموزش مدل های بزرگتر زبان طبیعی زمان بر است و هزینه های مرتبط با آن بسیار زیاد است. مایکروسافت ادعا می کند که کتابخانه جدید یادگیری عمیق DeepSpeed ​​سرعت، هزینه، مقیاس و قابلیت استفاده را بهبود می بخشد.

مایکروسافت همچنین اشاره کرد که DeepSpeed ​​مدل‌های زبانی را با مدل‌های 100 میلیارد پارامتری فعال می‌کند و شامل ZeRO (Zero Redundancy Optimizer)، یک بهینه‌ساز موازی است که منابع مورد نیاز برای موازی‌سازی مدل و داده را کاهش می‌دهد و در عین حال تعداد پارامترهای قابل آموزش را افزایش می‌دهد. . محققان مایکروسافت با استفاده از DeepSpeed ​​و ZeRO نسل جدید زبان طبیعی تورینگ (Turing-NLG) را توسعه داده اند که بزرگترین مدل زبان با 17 میلیارد پارامتر است.

نکات برجسته DeepSpeed:

  • مقیاس: مدل های بزرگ پیشرفته مانند OpenAI GPT-2، NVIDIA Megatron-LM و Google T5 به ترتیب دارای اندازه های 1.5 میلیارد، 8.3 میلیارد و 11 میلیارد پارامتر هستند. مرحله یک ZeRO در DeepSpeed ​​پشتیبانی سیستم را برای اجرای مدل هایی تا 100 میلیارد پارامتر، 10 برابر بزرگتر، فراهم می کند.
  • سرعت: ما در سخت افزارهای مختلف تا پنج برابر توان عملیاتی بالاتری را در حال حاضر مشاهده می کنیم. در خوشه‌های گرافیکی NVIDIA با اتصال پهنای باند کم (بدون NVIDIA NVLink یا Infiniband)، ما به بهبود توان عملیاتی 3.75 برابری نسبت به استفاده از Megatron-LM به تنهایی برای یک مدل استاندارد GPT-2 با 1.5 میلیارد پارامتر دست پیدا کردیم. در خوشه‌های NVIDIA DGX-2 با اتصال پهنای باند بالا، برای مدل‌هایی با 20 تا 80 میلیارد پارامتر، سه تا پنج برابر سریع‌تر هستیم.
  • هزینه: توان عملیاتی بهبود یافته را می توان به کاهش قابل توجه هزینه آموزش ترجمه کرد. به عنوان مثال، برای آموزش مدلی با 20 میلیارد پارامتر، DeepSpeed ​​به سه برابر منابع کمتری نیاز دارد.
  • قابلیت استفاده: برای فعال کردن یک مدل PyTorch برای استفاده از DeepSpeed ​​و ZeRO فقط به چند خط تغییر کد نیاز است. در مقایسه با کتابخانه‌های موازی مدل فعلی، DeepSpeed ​​نیازی به طراحی مجدد کد یا بازسازی مدل ندارد.

مایکروسافت هم DeepSpeed ​​و هم ZeRO را منبع باز است، می توانید آن را بررسی کنید اینجا در GitHub.

منبع: مایکروسافت

بیشتر در مورد موضوعات: یادگیری عمیق, در اعماق, مایکروسافت, تحقیقات مایکروسافت, تورینگ-NLG, صفر