Microsoft open source Distributed Machine Learning Toolkit om big data-onderzoek efficiënter te maken

Pictogram voor leestijd 2 minuut. lezen

Kalender pictogram Uitgegeven op 14 november 2015

gepubliceerd op 14 november 2015

Lezers helpen MSpoweruser ondersteunen. We kunnen een commissie krijgen als u via onze links koopt.

Om het trainen van grote modellen met slechts een bescheiden cluster en op een efficiënte manier mogelijk te maken, heeft Microsoft onlangs de Distributed Machine Learning Toolkit (DMTK) uitgebracht, die zowel algoritmische als systeeminnovaties bevat. Dit maakt big data-onderzoek schaalbaarder, efficiënter en flexibeler.

de gereedschapskist, nu beschikbaar op GitHub, is ontworpen voor gedistribueerde machine learning - waarbij meerdere computers parallel worden gebruikt om een complex probleem op te lossen. Het bevat een op een parameterserver gebaseerd programmeerraamwerk, waardoor: machine learning taken op big data zeer schaalbaar, efficiënt en flexibel. Het bevat ook twee gedistribueerde machine learning-algoritmen, die kunnen worden gebruikt om het snelste en grootste onderwerpmodel en het grootste woordinbeddingsmodel ter wereld te trainen.

De toolkit biedt uitgebreide en gebruiksvriendelijke API's om de barrière van: gedistribueerde machine learning, zodat onderzoekers en ontwikkelaars zich kunnen concentreren op kerntaken voor machine learning, zoals gegevens, modellen en training.

De huidige versie van DMTK bevat de volgende componenten (meer componenten zullen worden toegevoegd aan toekomstige versies):

• DMTK Framework: een flexibel raamwerk dat een uniforme interface ondersteunt voor gegevensparallellisatie, hybride gegevensstructuur voor opslag van grote modellen, modelplanning voor training van grote modellen en automatische pipelining voor hoge trainingsefficiëntie.

• LightLDA, een extreem snel en schaalbaar onderwerpmodelalgoritme, met een O(1) Gibbs-sampler en een efficiënte gedistribueerde implementatie.

• Distributed (Multisense) Word Embedding, een gedistribueerde versie van het (multi-sense) word embedding-algoritme.

Onderzoekers en beoefenaars van machine learning kunnen ook hun eigen gedistribueerde algoritmen voor machine learning bouwen bovenop ons raamwerk met kleine aanpassingen aan hun bestaande algoritmen voor één machine.

Meer over de onderwerpen: Gedistribueerde toolkit voor machine learning, DMTK, machine learning, microsoft, open source, onderzoek

Pradeep Viswav

Software- en service-expert

Pradeep is afgestudeerd in computerwetenschappen en techniek. Hij was ook een Microsoft Student Partner. Momenteel werkt hij bij een toonaangevend IT-bedrijf.

Laat een reactie achter