大量の100億パラメータモデルをトレーニングできる新しいディープラーニングライブラリであるMicrosoftDeepSpeedをご覧ください

読書時間アイコン 2分。読んだ

カレンダーアイコン更新日 2020 年 2 月 12 日

上の更新 2020 年 2 月 12 日

読者は MSpoweruser のサポートを支援します。私たちのリンクを通じて購入すると、手数料が発生する場合があります。

Microsoft Researchは本日、100億パラメータの大規模なモデルをトレーニングできる新しいディープラーニング最適化ライブラリであるDeepSpeedを発表しました。 AIでは、精度を高めるために、より大きな自然言語モデルが必要です。しかし、より大きな自然言語モデルのトレーニングには時間がかかり、それに関連するコストは非常に高くなります。 Microsoftは、新しいDeepSpeedディープラーニングライブラリにより、速度、コスト、規模、および使いやすさが向上すると主張しています。

Microsoftはまた、DeepSpeedが最大100億のパラメーターモデルを備えた言語モデルを可能にし、ZeRO（Zero Redundancy Optimizer）を含むことにも言及しました。これは、トレーニング可能なパラメーターの数を増やしながら、モデルとデータの並列処理に必要なリソースを削減する並列化オプティマイザーです。。 Microsoft Researchersは、DeepSpeedとZeROを使用して、17億のパラメーターを持つ最大の言語モデルである新しいチューリング自然言語生成（Turing-NLG）を開発しました。

DeepSpeedのハイライト：

規模：OpenAI GPT-2、NVIDIA Megatron-LM、Google T5などの最先端の大型モデルのサイズは、それぞれ1.5億、8.3億、11億のパラメーターです。 DeepSpeedのZeROステージ100は、最大10億個のパラメーター（XNUMX倍）のモデルを実行するためのシステムサポートを提供します。
速度：さまざまなハードウェアで、最先端のスループットの最大3.75倍のスループットが見られます。低帯域幅の相互接続を備えたNVIDIAGPUクラスター（NVIDIA NVLinkまたはInfinibandなし）では、2億個のパラメーターを持つ標準GPT-1.5モデルでMegatron-LMを単独で使用した場合に比べて2倍のスループットの向上を実現します。高帯域幅の相互接続を備えたNVIDIADGX-20クラスターでは、80〜XNUMX億のパラメーターのモデルの場合、XNUMX〜XNUMX倍高速です。
費用：スループットの向上は、トレーニングコストの大幅な削減につながります。たとえば、20億個のパラメーターを使用してモデルをトレーニングするには、DeepSpeedに必要なリソースはXNUMX分のXNUMXです。
使いやすさ：PyTorchモデルでDeepSpeedとZeROを使用できるようにするには、数行のコード変更のみが必要です。現在のモデル並列処理ライブラリと比較すると、DeepSpeedではコードの再設計やモデルのリファクタリングは必要ありません。

MicrosoftはDeepSpeedとZeROの両方をオープンソーシングしています。チェックしてください。ここGitHub上。

情報源： Microsoft

トピックの詳細: 深層学習, ディープスピード, マイクロソフト, マイクロソフトリサーチ, チューリング-NLG, ゼロ

プラディープ・ヴィスワフ

ソフトウェアおよびサービスの専門家

Pradeep はコンピュータサイエンスとエンジニアリングの卒業生です。彼はマイクロソフトの学生パートナーでもありました。現在は大手IT企業に勤務。