认识微软 DeepSpeed，一个可以训练海量 100 亿参数模型的新深度学习库

阅读时间图标 2分钟读

日历图标更新 2020 年 2 月 12 日

更新于 2020 年 2 月 12 日

读者帮助支持 MSpoweruser。如果您通过我们的链接购买，我们可能会获得佣金。

微软研究院今天发布了 DeepSpeed，这是一个新的深度学习优化库，可以训练海量 100 亿参数模型。在 AI 中，您需要拥有更大的自然语言模型以获得更好的准确性。但是训练更大的自然语言模型非常耗时，并且与之相关的成本非常高。微软声称新的 DeepSpeed 深度学习库提高了速度、成本、规模和可用性。

微软还提到，DeepSpeed 支持具有多达 100 亿个参数模型的语言模型，它包括 ZeRO（零冗余优化器），这是一种并行优化器，可减少模型和数据并行所需的资源，同时增加可训练的参数数量. 微软研究人员使用 DeepSpeed 和 ZeRO 开发了新的图灵自然语言生成 (Turing-NLG)，这是最大的语言模型，具有 17 亿个参数。

DeepSpeed 的亮点：

鳞片：OpenAI GPT-2、NVIDIA Megatron-LM 和 Google T5 等最先进的大型模型的大小分别为 1.5 亿、8.3 亿和 11 亿个参数。 DeepSpeed 中的 ZeRO 第一阶段提供系统支持，可运行多达 100 亿个参数的模型，大 10 倍。
迅速的：我们观察到各种硬件的吞吐量比现有技术高出五倍。在具有低带宽互连（没有 NVIDIA NVLink 或 Infiniband）的 NVIDIA GPU 集群上，对于具有 3.75 亿个参数的标准 GPT-2 模型，与单独使用 Megatron-LM 相比，我们实现了 1.5 倍的吞吐量提升。在具有高带宽互连的 NVIDIA DGX-2 集群上，对于 20 到 80 亿个参数的模型，我们的速度提高了三到五倍。
价格：提高的吞吐量可以转化为显着降低的培训成本。例如，要训练一个具有 20 亿个参数的模型，DeepSpeed 需要的资源要少三倍。
可用性：只需要更改几行代码即可使 PyTorch 模型使用 DeepSpeed 和 ZeRO。与当前的模型并行库相比，DeepSpeed 不需要重新设计代码或重构模型。

微软正在开源 DeepSpeed 和 ZeRO，你可以看看这里是GitHub。

Sumber: 微软

有关主题的更多信息：深度学习, 极速, 微软, 微软研究, 图灵-NLG, 零

普拉迪普·维斯瓦夫

软件和服务专家

Pradeep 是计算机科学与工程专业的毕业生。他还是微软的学生合作伙伴。他目前在一家领先的 IT 公司工作。