Poznaj Microsoft DeepSpeed, nową bibliotekę głębokiego uczenia, która może trenować ogromne modele o wartości 100 miliardów parametrów

Ikona czasu czytania 2 minuta. czytać

Ikona kalendarza Zaktualizowano na 12 lutego 2020 r.

zaktualizowany 12 lutego 2020 r.

Czytelnicy pomagają wspierać MSpoweruser. Możemy otrzymać prowizję, jeśli dokonasz zakupu za pośrednictwem naszych linków.

Firma Microsoft Research ogłosiła dziś DeepSpeed, nową bibliotekę do optymalizacji uczenia głębokiego, która może trenować ogromne modele o wartości 100 miliardów parametrów. W AI musisz mieć większe modele języka naturalnego, aby uzyskać większą dokładność. Jednak uczenie większych modeli języka naturalnego jest czasochłonne, a koszty z tym związane są bardzo wysokie. Microsoft twierdzi, że nowa biblioteka głębokiego uczenia DeepSpeed poprawia szybkość, koszt, skalę i użyteczność.

Microsoft wspomniał również, że DeepSpeed umożliwia modele językowe z modelami do 100 miliardów parametrów i obejmuje ZeRO (Zero Redundancy Optimizer), zrównoleglony optymalizator, który zmniejsza zasoby potrzebne do równoległości modeli i danych, jednocześnie zwiększając liczbę parametrów, które można trenować . Korzystając z technologii DeepSpeed i ZeRO, badacze firmy Microsoft opracowali nową generację języka naturalnego Turing (Turing-NLG), największy model języka z 17 miliardami parametrów.

Najważniejsze cechy DeepSpeed:

Skala: Najnowocześniejsze duże modele, takie jak OpenAI GPT-2, NVIDIA Megatron-LM i Google T5, mają rozmiary odpowiednio 1.5 miliarda, 8.3 miliarda i 11 miliardów parametrów. Pierwszy etap Zero w DeepSpeed zapewnia wsparcie systemowe do uruchamiania modeli do 100 miliardów parametrów, 10 razy większych.
Prędkość: Obserwujemy do pięciu razy wyższą przepustowość w porównaniu ze stanem techniki na różnych urządzeniach. W klastrach procesorów graficznych NVIDIA z połączeniem o niskiej przepustowości (bez NVIDIA NVLink lub Infiniband) osiągamy wzrost przepustowości o 3.75x w porównaniu z używaniem samego Megatron-LM dla standardowego modelu GPT-2 z 1.5 miliarda parametrów. W klastrach NVIDIA DGX-2 z interkonektem o dużej przepustowości, w przypadku modeli o parametrach od 20 do 80 miliardów, jesteśmy od trzech do pięciu razy szybsi.
Koszty:: Większą przepustowość można przełożyć na znaczne zmniejszenie kosztów szkolenia. Na przykład, aby trenować model z 20 miliardami parametrów, DeepSpeed wymaga trzykrotnie mniej zasobów.
Użyteczność: Wystarczy kilka linijek zmian w kodzie, aby umożliwić modelowi PyTorch korzystanie z DeepSpeed i ZERO. W porównaniu z obecnymi bibliotekami równoległości modeli, DeepSpeed nie wymaga przeprojektowania kodu ani refaktoryzacji modelu.

Microsoft jest otwarty na sourcing zarówno DeepSpeed, jak i ZeRO, możesz to sprawdzić tutaj na GitHub.

Źródło: Microsoft

Więcej na tematy: głęboki Learning, Głęboka prędkość, Microsoft, badania Microsoft, Turing-NLG, zero

Pradeepa Viswava

Ekspert ds. oprogramowania i usług

Pradeep jest absolwentem informatyki i inżynierii. Był także partnerem studenckim firmy Microsoft. Obecnie pracuje w wiodącej firmie informatycznej.