Microsoft Research представляет Splitwise, новый метод повышения эффективности графического процессора для больших языковых моделей

Значок времени чтения 2 минута. читать


Читатели помогают поддержать MSpoweruser. Мы можем получить комиссию, если вы совершите покупку по нашим ссылкам. Значок подсказки

Прочтите нашу страницу раскрытия информации, чтобы узнать, как вы можете помочь MSPoweruser поддержать редакционную команду. Читать далее

Ключевые заметки

  • Splitwise — это прорыв в эффективности и устойчивости LLM-выводов.
  • Разделяя фазы запроса и токена, Splitwise открывает новый потенциал использования графического процессора и позволяет облачным провайдерам быстрее обслуживать больше запросов при том же бюджете мощности.
Microsoft разделена

Большие языковые модели (LLM) трансформируют области обработки естественного языка и искусственного интеллекта, позволяя использовать такие приложения, как генерация кода, диалоговые агенты и обобщение текста. Однако эти модели также создают серьезные проблемы для поставщиков облачных услуг, которым необходимо развертывать все больше и больше графических процессоров (GPU), чтобы удовлетворить растущий спрос на логические выводы LLM.

Проблема в том, что графические процессоры не только дороги, но и энергоемки, а возможности по обеспечению электроэнергией, необходимой для их работы, ограничены. В результате поставщики облачных услуг часто сталкиваются с дилеммой: либо отклонять запросы пользователей, либо увеличивать свои эксплуатационные расходы и воздействие на окружающую среду.

Чтобы решить эту проблему, исследователи Microsoft Azure разработали новую технику под названием Splitwise, целью которого является сделать вывод LLM более эффективным и устойчивым за счет разделения вычислений на две отдельные фазы и распределения их между разными машинами. Подробно об этой технике вы можете прочитать в их «Разделение: эффективный генеративный вывод LLM с использованием разделения фаз" Научно-исследовательская работа.

Разделение основано на наблюдении, что вывод LLM состоит из двух фаз с разными характеристиками: фазы подсказки и фазы генерации токена. На этапе подсказки модель параллельно обрабатывает пользовательский ввод или подсказку, используя большие вычислительные ресурсы графического процессора. На этапе генерации токена модель генерирует каждый выходной токен последовательно, используя большую часть пропускной способности памяти графического процессора. Помимо разделения двух фаз вывода LLM на два отдельных машинных пула, Microsoft использовала третий машинный пул для смешанной пакетной обработки фаз приглашения и токена, размер которого динамически определялся в зависимости от вычислительных потребностей в реальном времени. 

Используя Splitwise, Microsoft смогла добиться следующего:

  • Пропускная способность в 1.4 раза выше при стоимости на 20 % ниже, чем в существующих моделях.
  • Пропускная способность в 2.35 раза выше при тех же затратах и ​​энергопотреблении.

Splitwise — это прорыв в эффективности и устойчивости LLM-выводов. Разделяя фазы запроса и токена, Splitwise открывает новый потенциал использования графического процессора и позволяет облачным провайдерам быстрее обслуживать больше запросов при том же бюджете мощности. Splitwise теперь является частью vLLM и может быть реализован с другими платформами. Исследователи из Microsoft Azure планируют продолжить работу над тем, чтобы сделать LLM-выводы более эффективными и устойчивыми, а также предполагают создание специализированных пулов машин, обеспечивающих максимальную пропускную способность, снижение затрат и энергоэффективность.

Подробнее о темах: LLM, Microsoft, исследование Microsoft, Splitwise