A Microsoft Research bemutatja a Splitwise-t, egy új technikát a GPU hatékonyságának növelésére a nagy nyelvű modelleknél

Kezdőlap » microsoft

Olvasási idő ikonra 2 perc olvas

Naptár ikonra Publikálva Január 5, 2024

by Pradeep Viswav

közzétették Január 5, 2024

Az olvasók segítenek az MSpoweruser támogatásában. Kaphatunk jutalékot, ha a linkjeinken keresztül vásárol.

Főbb megjegyzések

A Splitwise áttörést jelent az LLM következtetések hatékonyságában és fenntarthatóságában.
A prompt és a token fázisok szétválasztásával a Splitwise új lehetőségeket nyit meg a GPU-használatban, és lehetővé teszi a felhőszolgáltatók számára, hogy több lekérdezést gyorsabban kiszolgáljanak ugyanazon energiaköltségvetés mellett.

A nagy nyelvi modellek (LLM-ek) átalakítják a természetes nyelvi feldolgozás és a mesterséges intelligencia területét, lehetővé téve az olyan alkalmazásokat, mint a kódgenerálás, a párbeszédes ágensek és a szövegösszegzés. Ezek a modellek azonban jelentős kihívások elé állítják a felhőszolgáltatókat is, akiknek egyre több grafikus feldolgozó egységet (GPU) kell telepíteniük az LLM-következtetés iránti növekvő igény kielégítésére.

A probléma az, hogy a GPU-k nem csak drágák, hanem energiaéhesek is, és a működésükhöz szükséges villamosenergia-ellátás kapacitása korlátozott. Ennek eredményeként a felhőszolgáltatók gyakran szembesülnek azzal a dilemmával, hogy elutasítsák a felhasználói lekérdezéseket, vagy növeljék működési költségeiket és környezeti hatásaikat.

A probléma megoldására a Microsoft Azure kutatói kifejlesztettek egy új technikát, az úgynevezett Splitwise, melynek célja az LLM következtetések hatékonyabbá és fenntarthatóbbá tétele azáltal, hogy a számítást két különálló fázisra osztja, és azokat különböző gépekhez rendeli hozzá. Erről a technikáról részletesen a "Splitwise: Hatékony generatív LLM-következtetés fázisfelosztással" kutatási papír.

A Splitwise azon a megfigyelésen alapul, hogy az LLM következtetés két különböző jellemzőkkel rendelkező fázisból áll: a prompt fázisból és a token generálási fázisból. A prompt fázisban a modell párhuzamosan dolgozza fel a felhasználói bevitelt vagy promptot, sok GPU számítást használva. A tokengenerálási fázisban a modell minden kimeneti tokent szekvenciálisan generál, nagy GPU memória sávszélesség felhasználásával. Amellett, hogy a két LLM-következtetési fázist két különálló gépkészletre osztotta, a Microsoft egy harmadik gépkészletet is használt a prompt és token fázisok vegyes kötegeléséhez, amelyet dinamikusan méreteztek a valós idejű számítási igények alapján.

A Splitwise használatával a Microsoft a következőket tudta elérni:

1.4-szer nagyobb teljesítmény 20%-kal alacsonyabb költséggel, mint a jelenlegi tervek.
2.35-ször nagyobb átviteli sebesség azonos költség- és energiaköltségvetés mellett.

A Splitwise áttörést jelent az LLM következtetések hatékonyságában és fenntarthatóságában. A prompt és a token fázisok szétválasztásával a Splitwise új lehetőségeket nyit meg a GPU-használatban, és lehetővé teszi a felhőszolgáltatók számára, hogy több lekérdezést gyorsabban kiszolgáljanak ugyanazon energiaköltségvetés mellett. A Splitwise mostantól a vLLM része, és más keretrendszerekkel is megvalósítható. A Microsoft Azure kutatói azt tervezik, hogy folytatják az LLM-következtetés hatékonyabbá és fenntarthatóbbá tételén végzett munkát, és olyan személyre szabott gépkészleteket képzelnek el, amelyek maximális áteresztőképességet, alacsonyabb költségeket és energiahatékonyságot biztosítanak.

Bővebben a témákról: LLM-ek, microsoft, microsoft kutatás, Splitwise

Pradeep Viswav

Szoftver- és szolgáltatásszakértő

Pradeep számítástechnikai és mérnöki végzettségű. A Microsoft diákpartnere is volt. Jelenleg egy vezető informatikai cégnél dolgozik.