Microsoft a NVIDIA oznamujú najväčší a najvýkonnejší jazykový model, ktorý bol doteraz vyškolený
1 min. čítať
Publikované dňa
Prečítajte si našu informačnú stránku a zistite, ako môžete pomôcť MSPoweruser udržať redakčný tím Čítaj viac
Microsoft a NVIDIA dnes oznámili model Megatron-Turing Natural Language Generation (MT-NLG) poháňaný technológiou DeepSpeed a Megatron, ktorý je doteraz najväčším a najvýkonnejším monolitickým transformátorovým jazykovým modelom. Tento model obsahuje 530 miliárd parametrov, čo je 3x viac parametrov v porovnaní s existujúcim najväčším modelom GPT-3. Tréning takéhoto veľkého modelu zahŕňa rôzne výzvy. NVIDIA a Microsoft pracovali na mnohých inováciách a prelomoch pozdĺž všetkých osí AI.
Napríklad vďaka úzkej spolupráci NVIDIA a Microsoft dosiahli bezprecedentnú efektivitu školení konvergenciou najmodernejšej školiacej infraštruktúry s akceleráciou GPU s najmodernejším balíkom distribuovaného vzdelávacieho softvéru. Vybudovali sme vysokokvalitné korpusy na výučbu prirodzeného jazyka so stovkami miliárd tokenov a spoločne sme vyvinuli recepty na školenia na zlepšenie účinnosti a stability optimalizácie.
Viac o tomto projekte sa môžete dozvedieť z nižšie uvedených odkazov.