Microsoft Research predstavlja Splitwise, novo tehniko za povečanje učinkovitosti GPE za velike jezikovne modele

Ikona časa branja 2 min. prebrati


Bralci pomagajo pri podpori MSpoweruser. Če kupujete prek naših povezav, lahko prejmemo provizijo. Ikona opisa orodja

Preberite našo stran za razkritje, če želite izvedeti, kako lahko pomagate MSPoweruser vzdrževati uredniško skupino Preberi več

Ključne opombe

  • Splitwise je preboj v učinkovitosti in trajnosti sklepanja LLM.
  • Z ločevanjem faz poziva in žetonov Splitwise sprosti nov potencial pri uporabi GPU in ponudnikom v oblaku omogoča, da hitreje strežejo več poizvedb z istim proračunom energije.
Microsoft Splitwise

Veliki jezikovni modeli (LLM) spreminjajo področja obdelave naravnega jezika in umetne inteligence ter omogočajo aplikacije, kot so generiranje kode, pogovorni agenti in povzemanje besedila. Vendar pa ti modeli predstavljajo tudi velike izzive za ponudnike oblakov, ki morajo uvesti vedno več grafičnih procesnih enot (GPE), da bi zadovoljili naraščajoče povpraševanje po sklepanju LLM.

Težava je v tem, da grafični procesorji niso samo dragi, ampak tudi požrešni, zmogljivost za zagotavljanje električne energije, potrebne za njihovo delovanje, pa je omejena. Posledično se ponudniki oblakov pogosto soočajo z dilemo, ali zavračajo uporabniške poizvedbe ali povečujejo svoje operativne stroške in vpliv na okolje.

Da bi rešili to težavo, so raziskovalci pri Microsoft Azure razvili novo tehniko, imenovano Razčlenjeno, katerega cilj je narediti LLM sklepanje bolj učinkovito in trajnostno z razdelitvijo izračuna v dve različni fazi in njuno dodelitvijo različnim strojem. O tej tehniki si lahko podrobno preberete v njihovem “Splitwise: Učinkovito generativno LLM sklepanje z uporabo fazne delitve" raziskovalna naloga.

Splitwise temelji na ugotovitvi, da je sklepanje LLM sestavljeno iz dveh faz z različnimi značilnostmi: faze poziva in faze generiranja žetonov. V fazi poziva model vzporedno obdeluje uporabniški vnos ali poziv, pri čemer uporablja veliko računanja GPE. V fazi generiranja žetonov model zaporedno generira vsak izhodni žeton, pri čemer uporablja veliko pasovne širine pomnilnika GPU. Poleg ločevanja dveh faz sklepanja LLM v dve različni strojni skupini je Microsoft uporabil tretjo strojno skupino za mešano serijsko obdelavo v fazah poziva in žetona, ki se dinamično spreminja glede na računalniške zahteve v realnem času. 

Z uporabo Splitwise je Microsoftu uspelo doseči naslednje:

  • 1.4-krat večja prepustnost pri 20 % nižji ceni od trenutnih modelov.
  • 2.35-krat večja pretočnost z enakimi proračuni za stroške in moč.

Splitwise je preboj v učinkovitosti in trajnosti sklepanja LLM. Z ločevanjem faz poziva in žetonov Splitwise sprosti nov potencial pri uporabi GPU in ponudnikom v oblaku omogoča, da hitreje strežejo več poizvedb z istim proračunom energije. Splitwise je zdaj del vLLM in ga je mogoče implementirati tudi z drugimi okviri. Raziskovalci pri Microsoft Azure nameravajo nadaljevati svoje delo na tem, da bi sklepanje LLM postalo bolj učinkovito in trajnostno, in predvidevajo prilagojene skupine strojev, ki zagotavljajo največjo prepustnost, nižje stroške in energetsko učinkovitost.

Več o temah: LLM, microsoft, Microsoftove raziskave, Razčlenjeno