Microsoft Research introduce Splitwise, una nuova tecnica per aumentare l'efficienza della GPU per modelli linguistici di grandi dimensioni

Icona del tempo di lettura 2 minuto. leggere


I lettori aiutano a supportare MSpoweruser. Potremmo ricevere una commissione se acquisti tramite i nostri link. Icona descrizione comando

Leggi la nostra pagina informativa per scoprire come puoi aiutare MSPoweruser a sostenere il team editoriale Per saperne di più

Note chiave

  • Splitwise rappresenta una svolta nell'efficienza e nella sostenibilità dell'inferenza LLM.
  • Separando le fasi di prompt e token, Splitwise sblocca un nuovo potenziale nell'uso della GPU e consente ai fornitori di servizi cloud di servire più query più velocemente con lo stesso budget energetico.
Microsoft diviso in modo diviso

I modelli linguistici di grandi dimensioni (LLM) stanno trasformando i campi dell'elaborazione del linguaggio naturale e dell'intelligenza artificiale, consentendo applicazioni come la generazione di codice, agenti conversazionali e riepilogo di testi. Tuttavia, questi modelli pongono anche sfide significative per i fornitori di servizi cloud, che devono implementare sempre più unità di elaborazione grafica (GPU) per soddisfare la crescente domanda di inferenza LLM.

Il problema è che le GPU non sono solo costose, ma anche assetate di energia, e la capacità di fornire l’elettricità necessaria per farle funzionare è limitata. Di conseguenza, i fornitori di servizi cloud spesso si trovano ad affrontare il dilemma se rifiutare le richieste degli utenti o aumentare i costi operativi e l’impatto ambientale.

Per risolvere questo problema, i ricercatori di Microsoft Azure hanno sviluppato una nuova tecnica chiamata Splitwise, che mira a rendere l'inferenza LLM più efficiente e sostenibile suddividendo il calcolo in due fasi distinte e assegnandole a macchine diverse. Puoi leggere questa tecnica in dettaglio nel loro "Splitwise: inferenza LLM generativa efficiente utilizzando la suddivisione delle fasi"documento di ricerca.

Splitwise si basa sull'osservazione che l'inferenza LLM è composta da due fasi con caratteristiche diverse: la fase di prompt e la fase di generazione del token. Nella fase di prompt, il modello elabora l'input dell'utente, o prompt, in parallelo, utilizzando molto calcolo della GPU. Nella fase di generazione dei token, il modello genera ciascun token di output in sequenza, utilizzando molta larghezza di banda della memoria della GPU. Oltre a separare le due fasi di inferenza LLM in due pool di macchine distinti, Microsoft ha utilizzato un terzo pool di macchine per il batching misto nelle fasi di prompt e token, dimensionato dinamicamente in base alle richieste di calcolo in tempo reale. 

Utilizzando Splitwise, Microsoft è stata in grado di ottenere quanto segue:

  • Produttività 1.4 volte superiore a un costo inferiore del 20% rispetto ai progetti attuali.
  • Produttività 2.35 volte maggiore con gli stessi costi e budget energetici.

Splitwise rappresenta una svolta nell'efficienza e nella sostenibilità dell'inferenza LLM. Separando le fasi di prompt e token, Splitwise sblocca un nuovo potenziale nell'uso della GPU e consente ai fornitori di servizi cloud di servire più query più velocemente con lo stesso budget energetico. Splitwise ora fa parte di vLLM e può essere implementato anche con altri framework. I ricercatori di Microsoft Azure intendono continuare il loro lavoro per rendere l'inferenza LLM più efficiente e sostenibile e prevedono pool di macchine su misura che garantiscono il massimo throughput, costi ridotti ed efficienza energetica.

Maggiori informazioni sugli argomenti: LLM, microsoft, ricerca Microsoft, Splitwise