Microsoft Research представляет Splitwise, новый метод повышения эффективности графического процессора для больших языковых моделей

Главная » Microsoft

Значок времени чтения 2 минута. читать

Значок календаря Опубликовано 5 января 2024

by Прадип Вишвав

Опубликован в 5 января 2024

Читатели помогают поддержать MSpoweruser. Мы можем получить комиссию, если вы совершите покупку по нашим ссылкам.

Ключевые заметки

Splitwise — это прорыв в эффективности и устойчивости LLM-выводов.
Разделяя фазы запроса и токена, Splitwise открывает новый потенциал использования графического процессора и позволяет облачным провайдерам быстрее обслуживать больше запросов при том же бюджете мощности.

Большие языковые модели (LLM) трансформируют области обработки естественного языка и искусственного интеллекта, позволяя использовать такие приложения, как генерация кода, диалоговые агенты и обобщение текста. Однако эти модели также создают серьезные проблемы для поставщиков облачных услуг, которым необходимо развертывать все больше и больше графических процессоров (GPU), чтобы удовлетворить растущий спрос на логические выводы LLM.

Проблема в том, что графические процессоры не только дороги, но и энергоемки, а возможности по обеспечению электроэнергией, необходимой для их работы, ограничены. В результате поставщики облачных услуг часто сталкиваются с дилеммой: либо отклонять запросы пользователей, либо увеличивать свои эксплуатационные расходы и воздействие на окружающую среду.

Чтобы решить эту проблему, исследователи Microsoft Azure разработали новую технику под названием Splitwise, целью которого является сделать вывод LLM более эффективным и устойчивым за счет разделения вычислений на две отдельные фазы и распределения их между разными машинами. Подробно об этой технике вы можете прочитать в их «Разделение: эффективный генеративный вывод LLM с использованием разделения фаз" Научно-исследовательская работа.

Разделение основано на наблюдении, что вывод LLM состоит из двух фаз с разными характеристиками: фазы подсказки и фазы генерации токена. На этапе подсказки модель параллельно обрабатывает пользовательский ввод или подсказку, используя большие вычислительные ресурсы графического процессора. На этапе генерации токена модель генерирует каждый выходной токен последовательно, используя большую часть пропускной способности памяти графического процессора. Помимо разделения двух фаз вывода LLM на два отдельных машинных пула, Microsoft использовала третий машинный пул для смешанной пакетной обработки фаз приглашения и токена, размер которого динамически определялся в зависимости от вычислительных потребностей в реальном времени.

Используя Splitwise, Microsoft смогла добиться следующего:

Пропускная способность в 1.4 раза выше при стоимости на 20 % ниже, чем в существующих моделях.
Пропускная способность в 2.35 раза выше при тех же затратах и энергопотреблении.

Splitwise — это прорыв в эффективности и устойчивости LLM-выводов. Разделяя фазы запроса и токена, Splitwise открывает новый потенциал использования графического процессора и позволяет облачным провайдерам быстрее обслуживать больше запросов при том же бюджете мощности. Splitwise теперь является частью vLLM и может быть реализован с другими платформами. Исследователи из Microsoft Azure планируют продолжить работу над тем, чтобы сделать LLM-выводы более эффективными и устойчивыми, а также предполагают создание специализированных пулов машин, обеспечивающих максимальную пропускную способность, снижение затрат и энергоэффективность.

Подробнее о темах: LLM, Microsoft, исследование Microsoft, Splitwise

Прадип Вишвав

Эксперт по программному обеспечению и услугам

Прадип — выпускник компьютерных наук и инженерии. Он также был студенческим партнером Microsoft. В настоящее время работает в ведущей IT-компании.