Microsoft Research predstavlja Splitwise, novu tehniku za povećanje učinkovitosti GPU-a za modele velikih jezika

Naslovna » microsoft

Ikona vremena čitanja 2 min. čitati

Ikona kalendara Objavljeno na 5. 2024. XNUMX.

by Pradeep Viswav

objavljeno 5. 2024. XNUMX.

Čitatelji pomažu pri podršci MSpoweruser. Možda ćemo dobiti proviziju ako kupujete putem naših veza.

Ključne napomene

Splitwise je napredak u učinkovitosti i održivosti LLM zaključivanja.
Odvajanjem faze upita i tokena, Splitwise otključava novi potencijal u korištenju GPU-a i omogućuje pružateljima usluga u oblaku da brže poslužuju više upita pod istim proračunom energije.

Veliki jezični modeli (LLM) transformiraju polja obrade prirodnog jezika i umjetne inteligencije, omogućujući aplikacije kao što su generiranje koda, razgovorni agenti i sažimanje teksta. Međutim, ovi modeli također predstavljaju značajne izazove za pružatelje usluga u oblaku, koji trebaju implementirati sve više grafičkih procesorskih jedinica (GPU) kako bi zadovoljili sve veću potražnju za LLM zaključivanjem.

Problem je u tome što su grafički procesori ne samo skupi, već su i gladni energije, a kapacitet za opskrbu električnom energijom potrebnom za njihovo pokretanje je ograničen. Kao rezultat toga, pružatelji usluga oblaka često se suočavaju s dilemom odbijanja korisničkih upita ili povećanja operativnih troškova i utjecaja na okoliš.

Kako bi riješili ovaj problem, istraživači u Microsoft Azureu razvili su novu tehniku tzv Splitwise, čiji je cilj LLM zaključivanje učiniti učinkovitijim i održivijim dijeljenjem izračuna u dvije različite faze i njihovim dodjeljivanjem različitim strojevima. Detaljno o ovoj tehnici možete pročitati u njihovoj “Splitwise: Učinkovito generativno LLM zaključivanje korištenjem faznog razdvajanja" znanstveni rad.

Splitwise se temelji na zapažanju da se zaključivanje LLM-a sastoji od dvije faze s različitim karakteristikama: promptne faze i faze generiranja tokena. U fazi prompta, model paralelno obrađuje korisnički unos ili upit, koristeći puno GPU računanja. U fazi generiranja tokena, model generira svaki izlazni token sekvencijalno, koristeći veliku propusnost GPU memorije. Osim odvajanja dviju faza zaključivanja LLM-a u dva različita skupa strojeva, Microsoft je koristio treći skup strojeva za mješovito grupiranje u fazama prompta i tokena, veličine dinamički na temelju računalnih zahtjeva u stvarnom vremenu.

Koristeći Splitwise, Microsoft je uspio postići sljedeće:

1.4x veća propusnost uz 20% nižu cijenu od trenutnih dizajna.
2.35 puta veća propusnost uz isti trošak i proračune snage.

Splitwise je napredak u učinkovitosti i održivosti LLM zaključivanja. Odvajanjem faze upita i tokena, Splitwise otključava novi potencijal u korištenju GPU-a i omogućuje pružateljima usluga u oblaku da brže poslužuju više upita pod istim proračunom energije. Splitwise je sada dio vLLM-a i može se implementirati s drugim okvirima. Istraživači u Microsoft Azureu planiraju nastaviti svoj rad na tome da zaključivanje LLM-a učini učinkovitijim i održivijim i predviđaju prilagođene skupove strojeva koji pokreću maksimalnu propusnost, smanjene troškove i energetsku učinkovitost.

Više o temama: LLMs, Microsoft, microsoft istraživanje, Splitwise

Pradeep Viswav

Stručnjak za softver i usluge

Pradeep je diplomirao računarstvo i inženjerstvo. Bio je i Microsoftov studentski partner. Trenutno radi u vodećoj IT tvrtki.