Microsoft käyttää avoimen lähdekoodin Distributed Machine Learning Toolkit -työkalua tehostaakseen suurdatan tutkimusta

Lukuajan kuvake 2 min. lukea

Kalenterikuvake Julkaistu Marraskuussa 14, 2015

Julkaistu Marraskuussa 14, 2015

Lukijat auttavat tukemaan MSpoweruseria. Saatamme saada palkkion, jos ostat linkkien kautta.

Mahdollistaakseen suurten mallien koulutuksen vaatimattomalla klusterilla ja tehokkaasti Microsoft julkaisi äskettäin Distributed Machine Learning Toolkit (DMTK), joka sisältää sekä algoritmisia että järjestelmäinnovaatioita. Tämä tekee big datan tutkimuksesta skaalautuvampaa, tehokkaampaa ja joustavampaa.

Työkalusarja, saatavilla nyt GitHubissa, on suunniteltu hajautettuun koneoppimiseen – useiden tietokoneiden rinnakkain ratkaisemiseksi monimutkainen ongelma. Se sisältää parametripalvelinpohjaisen ohjelmointikehyksen, joka tekee koneoppiminen suuren datan tehtävät erittäin skaalautuvat, tehokkaat ja joustavat. Se sisältää myös kaksi hajautettua koneoppimisalgoritmia, joiden avulla voidaan kouluttaa maailman nopein ja suurin aihemalli sekä suurin sanan upotusmalli.

Työkalupakki tarjoaa monipuolisia ja helppokäyttöisiä API:ita, jotka vähentävät esteitä hajautettu koneoppiminen, joten tutkijat ja kehittäjät voivat keskittyä koneoppimisen ydintehtäviin, kuten dataan, malliin ja koulutukseen.

DMTK:n nykyinen versio sisältää seuraavat komponentit (tuleviin versioihin lisätään komponentteja):

• DMTK Framework: joustava kehys, joka tukee yhtenäistä käyttöliittymää tietojen rinnakkaisuudelle, hybriditietorakennetta suuren mallin tallennusta varten, mallin ajoitusta suuren mallin koulutukseen ja automaattista liukuhihnaa korkean koulutustehokkuuden saavuttamiseksi.

• LightLDA, erittäin nopea ja skaalautuva aihemallialgoritmi, jossa on O(1) Gibbs-sampler ja tehokas hajautettu toteutus.

• Hajautettu (Multisense) Word Embedding, hajautettu versio (multi-sense) sanan upotusalgoritmista.

Koneoppimisen tutkijat ja harjoittajat voivat myös rakentaa omia hajautettuja koneoppimisalgoritmejaan puitteemme päälle tekemällä pieniä muutoksia olemassa oleviin yhden koneen algoritmeihinsa.

Lisää aiheista: Distributed Machine Learning Toolkit, DMTK, koneoppiminen, microsoft, avoimen lähdekoodin, tutkimus

Pradeep Viswav

Ohjelmisto- ja palveluasiantuntija

Pradeep on tietojenkäsittelytieteen ja tekniikan tutkinnon suorittanut. Hän oli myös Microsoft Student Partner. Tällä hetkellä hän työskentelee johtavassa IT-yrityksessä.

Jätä vastaus