Microsoft käyttää avoimen lähdekoodin Distributed Machine Learning Toolkit -työkalua tehostaakseen suurdatan tutkimusta

Lukuajan kuvake 2 min. lukea


Lukijat auttavat tukemaan MSpoweruseria. Saatamme saada palkkion, jos ostat linkkien kautta. Työkaluvihje-kuvake

Lue ilmoitussivumme saadaksesi selville, kuinka voit auttaa MSPoweruseria ylläpitämään toimitustiimiä Lue lisää

DMTK

Mahdollistaakseen suurten mallien koulutuksen vaatimattomalla klusterilla ja tehokkaasti Microsoft julkaisi äskettäin Distributed Machine Learning Toolkit (DMTK), joka sisältää sekä algoritmisia että järjestelmäinnovaatioita. Tämä tekee big datan tutkimuksesta skaalautuvampaa, tehokkaampaa ja joustavampaa.

Työkalusarja, saatavilla nyt GitHubissa, on suunniteltu hajautettuun koneoppimiseen – useiden tietokoneiden rinnakkain ratkaisemiseksi monimutkainen ongelma. Se sisältää parametripalvelinpohjaisen ohjelmointikehyksen, joka tekee koneoppiminen suuren datan tehtävät erittäin skaalautuvat, tehokkaat ja joustavat. Se sisältää myös kaksi hajautettua koneoppimisalgoritmia, joiden avulla voidaan kouluttaa maailman nopein ja suurin aihemalli sekä suurin sanan upotusmalli.

Työkalupakki tarjoaa monipuolisia ja helppokäyttöisiä API:ita, jotka vähentävät esteitä hajautettu koneoppiminen, joten tutkijat ja kehittäjät voivat keskittyä koneoppimisen ydintehtäviin, kuten dataan, malliin ja koulutukseen.

DMTK:n nykyinen versio sisältää seuraavat komponentit (tuleviin versioihin lisätään komponentteja):

• DMTK Framework: joustava kehys, joka tukee yhtenäistä käyttöliittymää tietojen rinnakkaisuudelle, hybriditietorakennetta suuren mallin tallennusta varten, mallin ajoitusta suuren mallin koulutukseen ja automaattista liukuhihnaa korkean koulutustehokkuuden saavuttamiseksi.

• LightLDA, erittäin nopea ja skaalautuva aihemallialgoritmi, jossa on O(1) Gibbs-sampler ja tehokas hajautettu toteutus.

• Hajautettu (Multisense) Word Embedding, hajautettu versio (multi-sense) sanan upotusalgoritmista.

Koneoppimisen tutkijat ja harjoittajat voivat myös rakentaa omia hajautettuja koneoppimisalgoritmejaan puitteemme päälle tekemällä pieniä muutoksia olemassa oleviin yhden koneen algoritmeihinsa.

Lisää aiheista: Distributed Machine Learning Toolkit, DMTK, koneoppiminen, microsoft, avoimen lähdekoodin, tutkimus

Jätä vastaus

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *