Microsoft käyttää avoimen lähdekoodin Distributed Machine Learning Toolkit -työkalua tehostaakseen suurdatan tutkimusta
2 min. lukea
Julkaistu
Lue ilmoitussivumme saadaksesi selville, kuinka voit auttaa MSPoweruseria ylläpitämään toimitustiimiä Lue lisää
Mahdollistaakseen suurten mallien koulutuksen vaatimattomalla klusterilla ja tehokkaasti Microsoft julkaisi äskettäin Distributed Machine Learning Toolkit (DMTK), joka sisältää sekä algoritmisia että järjestelmäinnovaatioita. Tämä tekee big datan tutkimuksesta skaalautuvampaa, tehokkaampaa ja joustavampaa.
Työkalusarja, saatavilla nyt GitHubissa, on suunniteltu hajautettuun koneoppimiseen – useiden tietokoneiden rinnakkain ratkaisemiseksi monimutkainen ongelma. Se sisältää parametripalvelinpohjaisen ohjelmointikehyksen, joka tekee koneoppiminen suuren datan tehtävät erittäin skaalautuvat, tehokkaat ja joustavat. Se sisältää myös kaksi hajautettua koneoppimisalgoritmia, joiden avulla voidaan kouluttaa maailman nopein ja suurin aihemalli sekä suurin sanan upotusmalli.
Työkalupakki tarjoaa monipuolisia ja helppokäyttöisiä API:ita, jotka vähentävät esteitä hajautettu koneoppiminen, joten tutkijat ja kehittäjät voivat keskittyä koneoppimisen ydintehtäviin, kuten dataan, malliin ja koulutukseen.
DMTK:n nykyinen versio sisältää seuraavat komponentit (tuleviin versioihin lisätään komponentteja):
• DMTK Framework: joustava kehys, joka tukee yhtenäistä käyttöliittymää tietojen rinnakkaisuudelle, hybriditietorakennetta suuren mallin tallennusta varten, mallin ajoitusta suuren mallin koulutukseen ja automaattista liukuhihnaa korkean koulutustehokkuuden saavuttamiseksi.
• LightLDA, erittäin nopea ja skaalautuva aihemallialgoritmi, jossa on O(1) Gibbs-sampler ja tehokas hajautettu toteutus.
• Hajautettu (Multisense) Word Embedding, hajautettu versio (multi-sense) sanan upotusalgoritmista.
Koneoppimisen tutkijat ja harjoittajat voivat myös rakentaa omia hajautettuja koneoppimisalgoritmejaan puitteemme päälle tekemällä pieniä muutoksia olemassa oleviin yhden koneen algoritmeihinsa.