Microsoft Research predstavlja Splitwise, novu tehniku za povećanje učinkovitosti GPU-a za modele velikih jezika
2 min. čitati
Objavljeno na
Pročitajte našu stranicu za otkrivanje kako biste saznali kako možete pomoći MSPoweruseru da održi urednički tim Čitaj više
Ključne napomene
- Splitwise je napredak u učinkovitosti i održivosti LLM zaključivanja.
- Odvajanjem faze upita i tokena, Splitwise otključava novi potencijal u korištenju GPU-a i omogućuje pružateljima usluga u oblaku da brže poslužuju više upita pod istim proračunom energije.
Veliki jezični modeli (LLM) transformiraju polja obrade prirodnog jezika i umjetne inteligencije, omogućujući aplikacije kao što su generiranje koda, razgovorni agenti i sažimanje teksta. Međutim, ovi modeli također predstavljaju značajne izazove za pružatelje usluga u oblaku, koji trebaju implementirati sve više grafičkih procesorskih jedinica (GPU) kako bi zadovoljili sve veću potražnju za LLM zaključivanjem.
Problem je u tome što su grafički procesori ne samo skupi, već su i gladni energije, a kapacitet za opskrbu električnom energijom potrebnom za njihovo pokretanje je ograničen. Kao rezultat toga, pružatelji usluga oblaka često se suočavaju s dilemom odbijanja korisničkih upita ili povećanja operativnih troškova i utjecaja na okoliš.
Kako bi riješili ovaj problem, istraživači u Microsoft Azureu razvili su novu tehniku tzv Splitwise, čiji je cilj LLM zaključivanje učiniti učinkovitijim i održivijim dijeljenjem izračuna u dvije različite faze i njihovim dodjeljivanjem različitim strojevima. Detaljno o ovoj tehnici možete pročitati u njihovoj “Splitwise: Učinkovito generativno LLM zaključivanje korištenjem faznog razdvajanja" znanstveni rad.
Splitwise se temelji na zapažanju da se zaključivanje LLM-a sastoji od dvije faze s različitim karakteristikama: promptne faze i faze generiranja tokena. U fazi prompta, model paralelno obrađuje korisnički unos ili upit, koristeći puno GPU računanja. U fazi generiranja tokena, model generira svaki izlazni token sekvencijalno, koristeći veliku propusnost GPU memorije. Osim odvajanja dviju faza zaključivanja LLM-a u dva različita skupa strojeva, Microsoft je koristio treći skup strojeva za mješovito grupiranje u fazama prompta i tokena, veličine dinamički na temelju računalnih zahtjeva u stvarnom vremenu.
Koristeći Splitwise, Microsoft je uspio postići sljedeće:
- 1.4x veća propusnost uz 20% nižu cijenu od trenutnih dizajna.
- 2.35 puta veća propusnost uz isti trošak i proračune snage.
Splitwise je napredak u učinkovitosti i održivosti LLM zaključivanja. Odvajanjem faze upita i tokena, Splitwise otključava novi potencijal u korištenju GPU-a i omogućuje pružateljima usluga u oblaku da brže poslužuju više upita pod istim proračunom energije. Splitwise je sada dio vLLM-a i može se implementirati s drugim okvirima. Istraživači u Microsoft Azureu planiraju nastaviti svoj rad na tome da zaključivanje LLM-a učini učinkovitijim i održivijim i predviđaju prilagođene skupove strojeva koji pokreću maksimalnu propusnost, smanjene troškove i energetsku učinkovitost.