Microsoft Research predstavuje Splitwise, novú techniku na zvýšenie efektivity GPU pre veľké jazykové modely

Domov » Microsoft

Ikona času čítania 2 min. čítať

Ikona kalendára Publikované dňa Januára 5, 2024

by Pradeep Viswav

publikované dňa Januára 5, 2024

Čítačky pomáhajú podporovať MSpoweruser. Ak nakupujete prostredníctvom našich odkazov, môžeme získať províziu.

Kľúčové poznámky

Splitwise je prielom v efektívnosti a udržateľnosti odvodzovania LLM.
Oddelením fáz výzvy a tokenu Splitwise odomyká nový potenciál v používaní GPU a umožňuje poskytovateľom cloudu rýchlejšie obsluhovať viac dopytov pri rovnakom rozpočte na výkon.

Veľké jazykové modely (LLM) transformujú oblasti spracovania prirodzeného jazyka a umelej inteligencie a umožňujú aplikácie, ako je generovanie kódu, konverzačné agenty a sumarizácia textu. Tieto modely však tiež predstavujú významné výzvy pre poskytovateľov cloudu, ktorí potrebujú nasadiť stále viac jednotiek grafického spracovania (GPU), aby uspokojili rastúci dopyt po odvodení LLM.

Problémom je, že GPU sú nielen drahé, ale aj energeticky náročné a kapacita na zabezpečenie elektriny potrebnej na ich prevádzku je obmedzená. Výsledkom je, že poskytovatelia cloudových služieb často čelia dileme buď odmietania požiadaviek používateľov, alebo zvyšovania ich prevádzkových nákladov a dopadu na životné prostredie.

Na vyriešenie tohto problému vyvinuli výskumníci v Microsoft Azure novú techniku tzv Splitwise, ktorej cieľom je zefektívniť a udržateľné vyvodenie LLM tým, že rozdelí výpočty do dvoch odlišných fáz a pridelí ich rôznym strojom. Podrobne si o tejto technike môžete prečítať v ich „Splitwise: Efektívna generatívna LLM inferencia pomocou fázového rozdelenia" výzkumná práca.

Splitwise je založený na pozorovaní, že odvodenie LLM pozostáva z dvoch fáz s rôznymi charakteristikami: fázy promptnej a fázy generovania tokenov. Vo fáze výzvy model spracováva vstup používateľa alebo výzvu paralelne s použitím veľkého množstva výpočtov GPU. Vo fáze generovania tokenov model generuje každý výstupný token postupne, pričom využíva veľkú šírku pásma pamäte GPU. Okrem oddelenia dvoch inferenčných fáz LLM do dvoch odlišných strojových oblastí, Microsoft použil tretiu strojovú oblasť na zmiešané dávkovanie vo fáze promptu a tokenu, pričom veľkosť bola dynamicky dimenzovaná na základe výpočtových požiadaviek v reálnom čase.

Pomocou Splitwise sa spoločnosti Microsoft podarilo dosiahnuť nasledovné:

1.4x vyššia priepustnosť pri o 20 % nižších nákladoch ako súčasné návrhy.
2.35-krát vyššia priepustnosť pri rovnakých rozpočtoch nákladov a energie.

Splitwise je prielom v efektívnosti a udržateľnosti odvodzovania LLM. Oddelením fáz výzvy a tokenu Splitwise odomyká nový potenciál v používaní GPU a umožňuje poskytovateľom cloudu rýchlejšie obsluhovať viac dopytov pri rovnakom rozpočte na výkon. Splitwise je teraz súčasťou vLLM a dá sa implementovať aj s inými rámcami. Výskumníci z Microsoft Azure plánujú pokračovať vo svojej práci na zefektívnení a udržateľnosti LLM inferencií a predstavia si prispôsobené strojové fondy, ktoré zabezpečia maximálnu priepustnosť, znížené náklady a energetickú účinnosť.

Viac o témach: LLM, microsoft, výskum spoločnosti Microsoft, Splitwise

Pradeep Viswav

Expert na softvér a služby

Pradeep je absolventom informatiky a inžinierstva. Bol tiež študentským partnerom spoločnosti Microsoft. V súčasnosti pracuje v poprednej IT spoločnosti.