Microsoft Research esittelee Splitwisen, uuden tekniikan, joka parantaa GPU-tehokkuutta suurille kielimalleille

Lukuajan kuvake 2 min. lukea


Lukijat auttavat tukemaan MSpoweruseria. Saatamme saada palkkion, jos ostat linkkien kautta. Työkaluvihje-kuvake

Lue ilmoitussivumme saadaksesi selville, kuinka voit auttaa MSPoweruseria ylläpitämään toimitustiimiä Lue lisää

Keskeiset huomautukset

  • Splitwise on läpimurto LLM-päätelmien tehokkuudessa ja kestävyydessä.
  • Erottelemalla kehotteen ja token-vaiheen Splitwise avaa uusia mahdollisuuksia GPU-käytössä ja antaa pilvipalveluntarjoajille mahdollisuuden palvella enemmän kyselyitä nopeammin samalla tehobudjetilla.
Microsoft Splitwise

Suuret kielimallit (LLM) muuttavat luonnollisen kielen käsittelyn ja tekoälyn aloja mahdollistaen sovelluksia, kuten koodin luomisen, keskusteluagentit ja tekstin yhteenvedon. Nämä mallit asettavat kuitenkin myös merkittäviä haasteita pilvipalveluntarjoajille, joiden on otettava käyttöön yhä enemmän grafiikkasuoritusyksiköitä (GPU) vastatakseen LLM-päätelmien kasvavaan kysyntään.

Ongelmana on, että grafiikkasuorittimet eivät ole vain kalliita, vaan myös kuluttavat virtaa, ja kapasiteetti tuottaa niiden käyttämiseen tarvittavaa sähköä on rajallinen. Tämän seurauksena pilvipalveluntarjoajat kohtaavat usein dilemman joko hylätä käyttäjien kyselyt tai kasvattaa toimintakustannuksiaan ja ympäristövaikutuksiaan.

Tämän ongelman ratkaisemiseksi Microsoft Azuren tutkijat ovat kehittäneet uuden tekniikan nimeltä Splitwise, jonka tavoitteena on tehdä LLM-päätelmästä tehokkaampaa ja kestävämpää jakamalla laskenta kahteen erilliseen vaiheeseen ja allokoimalla ne eri koneille. Voit lukea tästä tekniikasta yksityiskohtaisesti heidän "Splitwise: Tehokas generatiivinen LLM-päätelmä vaihejakoa käyttämällä" tutkimus paperi.

Splitwise perustuu havaintoon, että LLM-päätelmä koostuu kahdesta vaiheesta, joilla on erilaiset ominaisuudet: kehotusvaihe ja merkkien luontivaihe. Kehotusvaiheessa malli käsittelee käyttäjän syötteen tai kehotteen rinnakkain käyttämällä paljon GPU-laskentaa. Tokenin luomisvaiheessa malli luo jokaisen lähtötunnisteen peräkkäin käyttämällä paljon GPU-muistin kaistanleveyttä. Sen lisäksi, että Microsoft erotti kaksi LLM-päätelmävaihetta kahdeksi erilliseksi konejoukoksi, Microsoft käytti kolmatta konepoolia sekoitettuun eräajoin kehotteen ja token-vaiheen välillä, mitoitettu dynaamisesti reaaliaikaisten laskentavaatimusten perusteella. 

Splitwisen avulla Microsoft onnistui saavuttamaan seuraavat asiat:

  • 1.4 kertaa suurempi suorituskyky 20 % halvemmalla kuin nykyiset mallit.
  • 2.35 kertaa enemmän suorituskykyä samoilla kustannus- ja tehobudjeteilla.

Splitwise on läpimurto LLM-päätelmien tehokkuudessa ja kestävyydessä. Erottelemalla kehotteen ja token-vaiheen Splitwise avaa uusia mahdollisuuksia GPU-käytössä ja antaa pilvipalveluntarjoajille mahdollisuuden palvella enemmän kyselyitä nopeammin samalla tehobudjetilla. Splitwise on nyt osa vLLM:ää ja se voidaan toteuttaa myös muiden kehysten kanssa. Microsoft Azuren tutkijat aikovat jatkaa työtään tehdäkseen LLM-päätelmästä tehokkaampaa ja kestävämpää ja kuvittelevat räätälöityjä konepooleja, jotka tuovat maksimaalisen suorituskyvyn, alentavat kustannuksia ja tehostavat tehokkuutta.

Lisää aiheista: LLM:t, microsoft, microsoft -tutkimus, Splitwise