با Microsoft DeepSpeed آشنا شوید، یک کتابخانه یادگیری عمیق جدید که می تواند مدل های عظیم 100 میلیارد پارامتری را آموزش دهد.

نماد زمان خواندن 2 دقیقه خواندن

نماد تقویم به روز شده در فوریه 12، 2020

به روز شد فوریه 12، 2020

خوانندگان به پشتیبانی از MSpoweruser کمک می کنند. در صورت خرید از طریق پیوندهای ما ممکن است کمیسیون دریافت کنیم.

مایکروسافت ریسرچ امروز DeepSpeed را معرفی کرد، یک کتابخانه جدید بهینه سازی یادگیری عمیق که می تواند مدل های عظیم 100 میلیارد پارامتری را آموزش دهد. در هوش مصنوعی، برای دقت بهتر باید مدل‌های زبان طبیعی بزرگ‌تری داشته باشید. اما آموزش مدل های بزرگتر زبان طبیعی زمان بر است و هزینه های مرتبط با آن بسیار زیاد است. مایکروسافت ادعا می کند که کتابخانه جدید یادگیری عمیق DeepSpeed سرعت، هزینه، مقیاس و قابلیت استفاده را بهبود می بخشد.

مایکروسافت همچنین اشاره کرد که DeepSpeed مدل‌های زبانی را با مدل‌های 100 میلیارد پارامتری فعال می‌کند و شامل ZeRO (Zero Redundancy Optimizer)، یک بهینه‌ساز موازی است که منابع مورد نیاز برای موازی‌سازی مدل و داده را کاهش می‌دهد و در عین حال تعداد پارامترهای قابل آموزش را افزایش می‌دهد. . محققان مایکروسافت با استفاده از DeepSpeed و ZeRO نسل جدید زبان طبیعی تورینگ (Turing-NLG) را توسعه داده اند که بزرگترین مدل زبان با 17 میلیارد پارامتر است.

نکات برجسته DeepSpeed:

مقیاس: مدل های بزرگ پیشرفته مانند OpenAI GPT-2، NVIDIA Megatron-LM و Google T5 به ترتیب دارای اندازه های 1.5 میلیارد، 8.3 میلیارد و 11 میلیارد پارامتر هستند. مرحله یک ZeRO در DeepSpeed پشتیبانی سیستم را برای اجرای مدل هایی تا 100 میلیارد پارامتر، 10 برابر بزرگتر، فراهم می کند.
سرعت: ما در سخت افزارهای مختلف تا پنج برابر توان عملیاتی بالاتری را در حال حاضر مشاهده می کنیم. در خوشه‌های گرافیکی NVIDIA با اتصال پهنای باند کم (بدون NVIDIA NVLink یا Infiniband)، ما به بهبود توان عملیاتی 3.75 برابری نسبت به استفاده از Megatron-LM به تنهایی برای یک مدل استاندارد GPT-2 با 1.5 میلیارد پارامتر دست پیدا کردیم. در خوشه‌های NVIDIA DGX-2 با اتصال پهنای باند بالا، برای مدل‌هایی با 20 تا 80 میلیارد پارامتر، سه تا پنج برابر سریع‌تر هستیم.
هزینه: توان عملیاتی بهبود یافته را می توان به کاهش قابل توجه هزینه آموزش ترجمه کرد. به عنوان مثال، برای آموزش مدلی با 20 میلیارد پارامتر، DeepSpeed به سه برابر منابع کمتری نیاز دارد.
قابلیت استفاده: برای فعال کردن یک مدل PyTorch برای استفاده از DeepSpeed و ZeRO فقط به چند خط تغییر کد نیاز است. در مقایسه با کتابخانه‌های موازی مدل فعلی، DeepSpeed نیازی به طراحی مجدد کد یا بازسازی مدل ندارد.

مایکروسافت هم DeepSpeed و هم ZeRO را منبع باز است، می توانید آن را بررسی کنید اینجا در GitHub.

منبع: مایکروسافت

بیشتر در مورد موضوعات: یادگیری عمیق, در اعماق, مایکروسافت, تحقیقات مایکروسافت, تورینگ-NLG, صفر

پرادیپ ویسواو

کارشناس نرم افزار و خدمات

پرادیپ فارغ التحصیل رشته مهندسی و علوم کامپیوتر است. او همچنین شریک دانشجویی مایکروسافت بود. او در حال حاضر در یک شرکت پیشرو فناوری اطلاعات مشغول به کار است.