Maak kennis met Microsoft DeepSpeed, een nieuwe deep learning-bibliotheek die enorme modellen van 100 miljard parameters kan trainen

Pictogram voor leestijd 2 minuut. lezen

Kalender pictogram Bijgewerkt op 12 februari 2020

bijgewerkt 12 februari 2020

Lezers helpen MSpoweruser ondersteunen. We kunnen een commissie krijgen als u via onze links koopt.

Microsoft Research heeft vandaag DeepSpeed aangekondigd, een nieuwe bibliotheek voor deep learning-optimalisatie die enorme modellen van 100 miljard parameters kan trainen. In AI heb je grotere natuurlijke taalmodellen nodig voor een betere nauwkeurigheid. Maar het trainen van grotere natuurlijke taalmodellen is tijdrovend en de kosten die ermee gepaard gaan zijn erg hoog. Microsoft beweert dat de nieuwe DeepSpeed deep learning-bibliotheek snelheid, kosten, schaal en bruikbaarheid verbetert.

Microsoft vermeldde ook dat DeepSpeed taalmodellen mogelijk maakt met modellen tot 100 miljard parameters en dat het ZeRO (Zero Redundancy Optimizer) bevat, een geparallelliseerde optimizer die de middelen vermindert die nodig zijn voor model- en gegevensparallellisme, terwijl het aantal parameters dat kan worden getraind toeneemt. . Met behulp van DeepSpeed en ZeRO hebben Microsoft-onderzoekers de nieuwe Turing Natural Language Generation (Turing-NLG) ontwikkeld, het grootste taalmodel met 17 miljard parameters.

Hoogtepunten van DeepSpeed:

Scale: State-of-the-art grote modellen zoals OpenAI GPT-2, NVIDIA Megatron-LM en Google T5 hebben een grootte van respectievelijk 1.5 miljard, 8.3 miljard en 11 miljard parameters. ZeRO stage één in DeepSpeed biedt systeemondersteuning om modellen tot 100 miljard parameters uit te voeren, 10 keer groter.
Speed: We nemen een tot vijf keer hogere doorvoer waar dan state-of-the-art voor verschillende hardware. Op NVIDIA GPU-clusters met een lage bandbreedte-interconnect (zonder NVIDIA NVLink of Infiniband), bereiken we een doorvoerverbetering van 3.75x ten opzichte van het gebruik van alleen Megatron-LM voor een standaard GPT-2-model met 1.5 miljard parameters. Op NVIDIA DGX-2-clusters met interconnect met hoge bandbreedte zijn we voor modellen met 20 tot 80 miljard parameters drie tot vijf keer sneller.
Kosten: Verbeterde doorvoer kan worden vertaald in aanzienlijk lagere opleidingskosten. Om bijvoorbeeld een model met 20 miljard parameters te trainen, heeft DeepSpeed drie keer minder middelen nodig.
Usability: Er zijn slechts een paar regels codewijzigingen nodig om een PyTorch-model DeepSpeed en ZeRO te laten gebruiken. Vergeleken met de huidige parallellisme-bibliotheken van modellen, vereist DeepSpeed geen herontwerp van code of modelrefactoring.

Microsoft is zowel DeepSpeed als ZeRO open source, u kunt het bekijken hier op GitHub.

Bron: Microsoft

Meer over de onderwerpen: Diepe leren, diepe snelheid, microsoft, Microsoft onderzoek, Turing-NLG, nul

Pradeep Viswav

Software- en service-expert

Pradeep is afgestudeerd in computerwetenschappen en techniek. Hij was ook een Microsoft Student Partner. Momenteel werkt hij bij een toonaangevend IT-bedrijf.