Microsoft Research predstavlja Splitwise, novu tehniku ​​za povećanje učinkovitosti GPU-a za modele velikih jezika

Ikona vremena čitanja 2 min. čitati


Čitatelji pomažu pri podršci MSpoweruser. Možda ćemo dobiti proviziju ako kupujete putem naših veza. Ikona opisa alata

Pročitajte našu stranicu za otkrivanje kako biste saznali kako možete pomoći MSPoweruseru da održi urednički tim Čitaj više

Ključne napomene

  • Splitwise je napredak u učinkovitosti i održivosti LLM zaključivanja.
  • Odvajanjem faze upita i tokena, Splitwise otključava novi potencijal u korištenju GPU-a i omogućuje pružateljima usluga u oblaku da brže poslužuju više upita pod istim proračunom energije.
Microsoft Splitwise

Veliki jezični modeli (LLM) transformiraju polja obrade prirodnog jezika i umjetne inteligencije, omogućujući aplikacije kao što su generiranje koda, razgovorni agenti i sažimanje teksta. Međutim, ovi modeli također predstavljaju značajne izazove za pružatelje usluga u oblaku, koji trebaju implementirati sve više grafičkih procesorskih jedinica (GPU) kako bi zadovoljili sve veću potražnju za LLM zaključivanjem.

Problem je u tome što su grafički procesori ne samo skupi, već su i gladni energije, a kapacitet za opskrbu električnom energijom potrebnom za njihovo pokretanje je ograničen. Kao rezultat toga, pružatelji usluga oblaka često se suočavaju s dilemom odbijanja korisničkih upita ili povećanja operativnih troškova i utjecaja na okoliš.

Kako bi riješili ovaj problem, istraživači u Microsoft Azureu razvili su novu tehniku ​​tzv Splitwise, čiji je cilj LLM zaključivanje učiniti učinkovitijim i održivijim dijeljenjem izračuna u dvije različite faze i njihovim dodjeljivanjem različitim strojevima. Detaljno o ovoj tehnici možete pročitati u njihovoj “Splitwise: Učinkovito generativno LLM zaključivanje korištenjem faznog razdvajanja" znanstveni rad.

Splitwise se temelji na zapažanju da se zaključivanje LLM-a sastoji od dvije faze s različitim karakteristikama: promptne faze i faze generiranja tokena. U fazi prompta, model paralelno obrađuje korisnički unos ili upit, koristeći puno GPU računanja. U fazi generiranja tokena, model generira svaki izlazni token sekvencijalno, koristeći veliku propusnost GPU memorije. Osim odvajanja dviju faza zaključivanja LLM-a u dva različita skupa strojeva, Microsoft je koristio treći skup strojeva za mješovito grupiranje u fazama prompta i tokena, veličine dinamički na temelju računalnih zahtjeva u stvarnom vremenu. 

Koristeći Splitwise, Microsoft je uspio postići sljedeće:

  • 1.4x veća propusnost uz 20% nižu cijenu od trenutnih dizajna.
  • 2.35 puta veća propusnost uz isti trošak i proračune snage.

Splitwise je napredak u učinkovitosti i održivosti LLM zaključivanja. Odvajanjem faze upita i tokena, Splitwise otključava novi potencijal u korištenju GPU-a i omogućuje pružateljima usluga u oblaku da brže poslužuju više upita pod istim proračunom energije. Splitwise je sada dio vLLM-a i može se implementirati s drugim okvirima. Istraživači u Microsoft Azureu planiraju nastaviti svoj rad na tome da zaključivanje LLM-a učini učinkovitijim i održivijim i predviđaju prilagođene skupove strojeva koji pokreću maksimalnu propusnost, smanjene troškove i energetsku učinkovitost.

Više o temama: LLMs, Microsoft, microsoft istraživanje, Splitwise