Зустрічайте Microsoft DeepSpeed, нову бібліотеку глибокого навчання, яка може навчати величезні моделі зі 100 мільярдами параметрів

Значок часу читання 2 хв. читати


Читачі допомагають підтримувати MSpoweruser. Ми можемо отримати комісію, якщо ви купуєте через наші посилання. Значок підказки

Прочитайте нашу сторінку розкриття інформації, щоб дізнатися, як ви можете допомогти MSPoweruser підтримувати редакційну команду Читати далі

Сьогодні Microsoft Research анонсувала DeepSpeed, нову бібліотеку оптимізації глибокого навчання, яка може навчати величезні моделі зі 100 мільярдами параметрів. У ШІ вам потрібно мати більші моделі природної мови для кращої точності. Але навчання більших моделей природної мови займає багато часу, а пов’язані з цим витрати дуже високі. Microsoft стверджує, що нова бібліотека глибокого навчання DeepSpeed ​​покращує швидкість, вартість, масштаб і зручність використання.

Microsoft також зазначила, що DeepSpeed ​​дозволяє мовні моделі з моделями до 100 мільярдів параметрів і включає ZeRO (Zero Redundancy Optimizer), паралельний оптимізатор, який зменшує ресурси, необхідні для паралельності моделей і даних, одночасно збільшуючи кількість параметрів, які можна навчати. . Використовуючи DeepSpeed ​​і ZeRO, дослідники Microsoft розробили нову генерацію природної мови Turing (Turing-NLG), найбільшу мовну модель із 17 мільярдами параметрів.

Основні моменти DeepSpeed:

  • шкала: Найсучасніші великі моделі, такі як OpenAI GPT-2, NVIDIA Megatron-LM і Google T5, мають розміри 1.5 мільярда, 8.3 мільярда та 11 мільярдів параметрів відповідно. Перший етап ZeRO в DeepSpeed ​​забезпечує системну підтримку для запуску моделей з до 100 мільярдів параметрів, що в 10 разів більше.
  • швидкість: Ми спостерігаємо до п'яти разів вищу пропускну здатність у порівнянні з найсучаснішим обладнанням. На кластерах графічних процесорів NVIDIA з низькопропускним підключенням (без NVIDIA NVLink або Infiniband) ми досягаємо підвищення пропускної здатності в 3.75 рази порівняно з використанням лише Megatron-LM для стандартної моделі GPT-2 з 1.5 мільярдами параметрів. На кластерах NVIDIA DGX-2 з високошвидкісним з’єднанням для моделей з параметрами від 20 до 80 мільярдів ми працюємо в три-п’ять разів швидше.
  • Коштувати: Покращена пропускна здатність може бути переведена на істотне зниження вартості навчання. Наприклад, щоб навчити модель з 20 мільярдами параметрів, DeepSpeed ​​потрібно втричі менше ресурсів.
  • Юзабіліті: Для того, щоб модель PyTorch могла використовувати DeepSpeed ​​і ZeRO, потрібно лише кілька рядків змінити код. У порівнянні з поточними бібліотеками паралелізму моделей, DeepSpeed ​​не вимагає переробки коду або рефакторингу моделі.

Microsoft пропонує відкритий вихідний код як DeepSpeed, так і ZeRO, ви можете перевірити це тут на GitHub.

джерело: Microsoft

Детальніше про теми: Глибоке навчання, DeepSpeed, Microsoft, дослідження Microsoft, Turing-NLG, нуль

залишити коментар

Ваша електронна адреса не буде опублікований. Обов'язкові поля позначені * *