Microsoft Research predstavuje Splitwise, novú techniku ​​na zvýšenie efektivity GPU pre veľké jazykové modely

Ikona času čítania 2 min. čítať


Čítačky pomáhajú podporovať MSpoweruser. Ak nakupujete prostredníctvom našich odkazov, môžeme získať províziu. Ikona popisu

Prečítajte si našu informačnú stránku a zistite, ako môžete pomôcť MSPoweruser udržať redakčný tím Čítaj viac

Kľúčové poznámky

  • Splitwise je prielom v efektívnosti a udržateľnosti odvodzovania LLM.
  • Oddelením fáz výzvy a tokenu Splitwise odomyká nový potenciál v používaní GPU a umožňuje poskytovateľom cloudu rýchlejšie obsluhovať viac dopytov pri rovnakom rozpočte na výkon.
Microsoft Splitwise

Veľké jazykové modely (LLM) transformujú oblasti spracovania prirodzeného jazyka a umelej inteligencie a umožňujú aplikácie, ako je generovanie kódu, konverzačné agenty a sumarizácia textu. Tieto modely však tiež predstavujú významné výzvy pre poskytovateľov cloudu, ktorí potrebujú nasadiť stále viac jednotiek grafického spracovania (GPU), aby uspokojili rastúci dopyt po odvodení LLM.

Problémom je, že GPU sú nielen drahé, ale aj energeticky náročné a kapacita na zabezpečenie elektriny potrebnej na ich prevádzku je obmedzená. Výsledkom je, že poskytovatelia cloudových služieb často čelia dileme buď odmietania požiadaviek používateľov, alebo zvyšovania ich prevádzkových nákladov a dopadu na životné prostredie.

Na vyriešenie tohto problému vyvinuli výskumníci v Microsoft Azure novú techniku ​​tzv Splitwise, ktorej cieľom je zefektívniť a udržateľné vyvodenie LLM tým, že rozdelí výpočty do dvoch odlišných fáz a pridelí ich rôznym strojom. Podrobne si o tejto technike môžete prečítať v ich „Splitwise: Efektívna generatívna LLM inferencia pomocou fázového rozdelenia" výzkumná práca.

Splitwise je založený na pozorovaní, že odvodenie LLM pozostáva z dvoch fáz s rôznymi charakteristikami: fázy promptnej a fázy generovania tokenov. Vo fáze výzvy model spracováva vstup používateľa alebo výzvu paralelne s použitím veľkého množstva výpočtov GPU. Vo fáze generovania tokenov model generuje každý výstupný token postupne, pričom využíva veľkú šírku pásma pamäte GPU. Okrem oddelenia dvoch inferenčných fáz LLM do dvoch odlišných strojových oblastí, Microsoft použil tretiu strojovú oblasť na zmiešané dávkovanie vo fáze promptu a tokenu, pričom veľkosť bola dynamicky dimenzovaná na základe výpočtových požiadaviek v reálnom čase. 

Pomocou Splitwise sa spoločnosti Microsoft podarilo dosiahnuť nasledovné:

  • 1.4x vyššia priepustnosť pri o 20 % nižších nákladoch ako súčasné návrhy.
  • 2.35-krát vyššia priepustnosť pri rovnakých rozpočtoch nákladov a energie.

Splitwise je prielom v efektívnosti a udržateľnosti odvodzovania LLM. Oddelením fáz výzvy a tokenu Splitwise odomyká nový potenciál v používaní GPU a umožňuje poskytovateľom cloudu rýchlejšie obsluhovať viac dopytov pri rovnakom rozpočte na výkon. Splitwise je teraz súčasťou vLLM a dá sa implementovať aj s inými rámcami. Výskumníci z Microsoft Azure plánujú pokračovať vo svojej práci na zefektívnení a udržateľnosti LLM inferencií a predstavia si prispôsobené strojové fondy, ktoré zabezpečia maximálnu priepustnosť, znížené náklady a energetickú účinnosť.

Viac o témach: LLM, microsoft, výskum spoločnosti Microsoft, Splitwise