MicrosoftとNVIDIAは、これまでにトレーニングされた最大かつ最も強力な言語モデルを発表しました
1分。 読んだ
上で公開
MSPoweruser の編集チームの維持にどのように貢献できるかについては、開示ページをお読みください。 続きを読む
MicrosoftとNVIDIAは本日、DeepSpeedおよびMegatronを搭載したMegatron-Turing自然言語生成モデル(MT-NLG)を発表しました。これは、これまでにトレーニングされた最大かつ最も強力なモノリシックトランス言語モデルです。 このモデルには、既存の最大モデルであるGPT-530と比較して3倍の数の3億のパラメーターが含まれています。 このような大規模なモデルのトレーニングには、さまざまな課題が伴います。 NVIDIAとMicrosoftは、すべてのAI軸に沿って多くの革新とブレークスルーに取り組みました。
たとえば、NVIDIAとMicrosoftは緊密に連携して、最先端の分散学習ソフトウェアスタックを備えた最先端のGPUアクセラレーショントレーニングインフラストラクチャを統合することにより、前例のないトレーニング効率を達成しました。 数千億のトークンを使用して高品質の自然言語トレーニングコーパスを構築し、最適化の効率と安定性を向上させるためのトレーニングレシピを共同開発しました。
このプロジェクトの詳細については、以下のリンクをご覧ください。