微软研究院推出 Splitwise,一种提高大型语言模型 GPU 效率的新技术

阅读时间图标 2分钟读


读者帮助支持 MSpoweruser。如果您通过我们的链接购买,我们可能会获得佣金。 工具提示图标

阅读我们的披露页面,了解如何帮助 MSPoweruser 维持编辑团队 查看更多

重点说明

  • Splitwise 是 LLM 推理效率和可持续性方面的突破。
  • 通过分离提示阶段和令牌阶段,Splitwise 释放了 GPU 使用的新潜力,并使云提供商能够在相同的功率预算下更快地提供更多查询。
微软分裂

大型语言模型 (LLM) 正在改变自然语言处理和人工智能领域,支持代码生成、对话代理和文本摘要等应用。然而,这些模型也给云提供商带来了重大挑战,他们需要部署越来越多的图形处理单元 (GPU) 来满足对 LLM 推理不断增长的需求。

问题在于 GPU 不仅价格昂贵,而且耗电巨大,而且提供运行 GPU 所需电力的能力有限。因此,云提供商经常面临要么拒绝用户查询,要么增加运营成本和环境影响的两难境地。

为了解决这个问题,Microsoft Azure 的研究人员开发了一种新技术,称为 Splitwise,旨在通过将计算分为两个不同的阶段并将其分配给不同的机器,使 LLM 推理更加高效和可持续。您可以在他们的“Splitwise:使用相分裂的高效生成 LLM 推理“ 研究论文。

Splitwise 基于这样的观察:LLM 推理由具有不同特征的两个阶段组成:提示阶段和令牌生成阶段。在提示阶段,模型使用大量 GPU 计算并行处理用户输入或提示。在令牌生成阶段,模型使用大量 GPU 内存带宽按顺序生成每个输出令牌。除了将两个 LLM 推理阶段分成两个不同的机器池之外,微软还使用第三个机器池在提示和令牌阶段进行混合批处理,并根据实时计算需求动态调整大小。 

使用 Splitwise,Microsoft 能够实现以下目标:

  • 与当前设计相比,吞吐量提高了 1.4 倍,成本降低了 20%。
  • 在成本和功耗预算相同的情况下,吞吐量提高 2.35 倍。

Splitwise 是 LLM 推理效率和可持续性方面的突破。通过分离提示阶段和令牌阶段,Splitwise 释放了 GPU 使用的新潜力,并使云提供商能够在相同的功率预算下更快地提供更多查询。 Splitwise 现在是 vLLM 的一部分,也可以与其他框架一起实现。 Microsoft Azure 的研究人员计划继续致力于使 LLM 推理更加高效和可持续,并设想定制的机器池可实现最大吞吐量、降低成本和能效。

有关主题的更多信息: 法学硕士, 微软, 微软研究, Splitwise