Microsoft Research predstavlja Splitwise, novo tehniko za povečanje učinkovitosti GPE za velike jezikovne modele

Domov » Microsoft

Ikona časa branja 2 min. prebrati

Ikona koledarja Objavljeno dne Januar 5, 2024

by Pradeep Viswav

Objavljeno dne Januar 5, 2024

Bralci pomagajo pri podpori MSpoweruser. Če kupujete prek naših povezav, lahko prejmemo provizijo.

Ključne opombe

Splitwise je preboj v učinkovitosti in trajnosti sklepanja LLM.
Z ločevanjem faz poziva in žetonov Splitwise sprosti nov potencial pri uporabi GPU in ponudnikom v oblaku omogoča, da hitreje strežejo več poizvedb z istim proračunom energije.

Veliki jezikovni modeli (LLM) spreminjajo področja obdelave naravnega jezika in umetne inteligence ter omogočajo aplikacije, kot so generiranje kode, pogovorni agenti in povzemanje besedila. Vendar pa ti modeli predstavljajo tudi velike izzive za ponudnike oblakov, ki morajo uvesti vedno več grafičnih procesnih enot (GPE), da bi zadovoljili naraščajoče povpraševanje po sklepanju LLM.

Težava je v tem, da grafični procesorji niso samo dragi, ampak tudi požrešni, zmogljivost za zagotavljanje električne energije, potrebne za njihovo delovanje, pa je omejena. Posledično se ponudniki oblakov pogosto soočajo z dilemo, ali zavračajo uporabniške poizvedbe ali povečujejo svoje operativne stroške in vpliv na okolje.

Da bi rešili to težavo, so raziskovalci pri Microsoft Azure razvili novo tehniko, imenovano Razčlenjeno, katerega cilj je narediti LLM sklepanje bolj učinkovito in trajnostno z razdelitvijo izračuna v dve različni fazi in njuno dodelitvijo različnim strojem. O tej tehniki si lahko podrobno preberete v njihovem “Splitwise: Učinkovito generativno LLM sklepanje z uporabo fazne delitve" raziskovalna naloga.

Splitwise temelji na ugotovitvi, da je sklepanje LLM sestavljeno iz dveh faz z različnimi značilnostmi: faze poziva in faze generiranja žetonov. V fazi poziva model vzporedno obdeluje uporabniški vnos ali poziv, pri čemer uporablja veliko računanja GPE. V fazi generiranja žetonov model zaporedno generira vsak izhodni žeton, pri čemer uporablja veliko pasovne širine pomnilnika GPU. Poleg ločevanja dveh faz sklepanja LLM v dve različni strojni skupini je Microsoft uporabil tretjo strojno skupino za mešano serijsko obdelavo v fazah poziva in žetona, ki se dinamično spreminja glede na računalniške zahteve v realnem času.

Z uporabo Splitwise je Microsoftu uspelo doseči naslednje:

1.4-krat večja prepustnost pri 20 % nižji ceni od trenutnih modelov.
2.35-krat večja pretočnost z enakimi proračuni za stroške in moč.

Splitwise je preboj v učinkovitosti in trajnosti sklepanja LLM. Z ločevanjem faz poziva in žetonov Splitwise sprosti nov potencial pri uporabi GPU in ponudnikom v oblaku omogoča, da hitreje strežejo več poizvedb z istim proračunom energije. Splitwise je zdaj del vLLM in ga je mogoče implementirati tudi z drugimi okviri. Raziskovalci pri Microsoft Azure nameravajo nadaljevati svoje delo na tem, da bi sklepanje LLM postalo bolj učinkovito in trajnostno, in predvidevajo prilagojene skupine strojev, ki zagotavljajo največjo prepustnost, nižje stroške in energetsko učinkovitost.

Več o temah: LLM, microsoft, Microsoftove raziskave, Razčlenjeno

Pradeep Viswav

Strokovnjak za programsko opremo in storitve

Pradeep je diplomant računalništva in inženirstva. Bil je tudi Microsoftov študentski partner. Trenutno dela v vodilnem IT podjetju.