微软研究院推出 Splitwise，一种提高大型语言模型 GPU 效率的新技术

主页 » 微软

阅读时间图标 2分钟读

日历图标发表于 2024 年 1 月 5 日

by 普拉迪普·维斯瓦夫

发表于 2024 年 1 月 5 日

读者帮助支持 MSpoweruser。如果您通过我们的链接购买，我们可能会获得佣金。

重点说明

Splitwise 是 LLM 推理效率和可持续性方面的突破。
通过分离提示阶段和令牌阶段，Splitwise 释放了 GPU 使用的新潜力，并使云提供商能够在相同的功率预算下更快地提供更多查询。

大型语言模型 (LLM) 正在改变自然语言处理和人工智能领域，支持代码生成、对话代理和文本摘要等应用。然而，这些模型也给云提供商带来了重大挑战，他们需要部署越来越多的图形处理单元 (GPU) 来满足对 LLM 推理不断增长的需求。

问题在于 GPU 不仅价格昂贵，而且耗电巨大，而且提供运行 GPU 所需电力的能力有限。因此，云提供商经常面临要么拒绝用户查询，要么增加运营成本和环境影响的两难境地。

为了解决这个问题，Microsoft Azure 的研究人员开发了一种新技术，称为 Splitwise，旨在通过将计算分为两个不同的阶段并将其分配给不同的机器，使 LLM 推理更加高效和可持续。您可以在他们的“Splitwise：使用相分裂的高效生成 LLM 推理“ 研究论文。

Splitwise 基于这样的观察：LLM 推理由具有不同特征的两个阶段组成：提示阶段和令牌生成阶段。在提示阶段，模型使用大量 GPU 计算并行处理用户输入或提示。在令牌生成阶段，模型使用大量 GPU 内存带宽按顺序生成每个输出令牌。除了将两个 LLM 推理阶段分成两个不同的机器池之外，微软还使用第三个机器池在提示和令牌阶段进行混合批处理，并根据实时计算需求动态调整大小。

使用 Splitwise，Microsoft 能够实现以下目标：

与当前设计相比，吞吐量提高了 1.4 倍，成本降低了 20%。
在成本和功耗预算相同的情况下，吞吐量提高 2.35 倍。

Splitwise 是 LLM 推理效率和可持续性方面的突破。通过分离提示阶段和令牌阶段，Splitwise 释放了 GPU 使用的新潜力，并使云提供商能够在相同的功率预算下更快地提供更多查询。 Splitwise 现在是 vLLM 的一部分，也可以与其他框架一起实现。 Microsoft Azure 的研究人员计划继续致力于使 LLM 推理更加高效和可持续，并设想定制的机器池可实现最大吞吐量、降低成本和能效。

有关主题的更多信息：法学硕士, 微软, 微软研究, Splitwise

普拉迪普·维斯瓦夫

软件和服务专家

Pradeep 是计算机科学与工程专业的毕业生。他还是微软的学生合作伙伴。他目前在一家领先的 IT 公司工作。