Microsoft e NVIDIA annunciano il modello linguistico più grande e potente addestrato fino ad oggi

Icona del tempo di lettura 1 minuto. leggere

Icona del calendario Edizione del Ottobre 11, 2021

pubblicato su Ottobre 11, 2021

I lettori aiutano a supportare MSpoweruser. Potremmo ricevere una commissione se acquisti tramite i nostri link.

Microsoft e NVIDIA hanno annunciato oggi il modello Megatron-Turing Natural Language Generation (MT-NLG) basato su DeepSpeed e Megatron, il più grande e potente modello di linguaggio del trasformatore monolitico addestrato fino ad oggi. Questo modello include 530 miliardi di parametri, 3 volte il numero di parametri rispetto al modello più grande esistente, GPT-3. La formazione di un modello così grande comporta varie sfide. NVIDIA e Microsoft hanno lavorato a molte innovazioni e scoperte lungo tutti gli assi dell'IA.

Ad esempio, lavorando a stretto contatto, NVIDIA e Microsoft hanno raggiunto un'efficienza di formazione senza precedenti facendo convergere un'infrastruttura di formazione all'avanguardia con accelerazione GPU con uno stack software di apprendimento distribuito all'avanguardia. Abbiamo creato corpora di formazione in linguaggio naturale di alta qualità con centinaia di miliardi di token e sviluppato insieme ricette di formazione per migliorare l'efficienza e la stabilità dell'ottimizzazione.

Puoi saperne di più su questo progetto dai link sottostanti.

Fonte: Microsoft, Nvidia

Maggiori informazioni sugli argomenti: microsoft, nvidia

Pradeep Viswav

Esperto di software e servizi

Pradeep è un laureato in informatica e ingegneria. È stato anche Microsoft Student Partner. Attualmente lavora in un'importante azienda informatica.

Lascia un Commento