Microsoft otvára zdroje Distributed Machine Learning Toolkit na zefektívnenie výskumu veľkých dát
2 min. čítať
Publikované dňa
Prečítajte si našu informačnú stránku a zistite, ako môžete pomôcť MSPoweruser udržať redakčný tím Čítaj viac
S cieľom umožniť trénovanie veľkých modelov pomocou skromného klastra a efektívnym spôsobom, Microsoft nedávno vydal Distributed Machine Learning Toolkit (DMTK), ktorý obsahuje algoritmické aj systémové inovácie. Vďaka tomu je výskum veľkých dát škálovateľnejší, efektívnejší a flexibilnejší.
súprava nástrojov, teraz k dispozícii na GitHub, je navrhnutý pre distribuované strojové učenie – pomocou viacerých počítačov paralelne vyriešiť zložitý problém. Obsahuje parametrický serverový programovací rámec, ktorý robí strojové učenie úlohy na veľkých dátach sú vysoko škálovateľné, efektívne a flexibilné. Obsahuje tiež dva distribuované algoritmy strojového učenia, ktoré možno použiť na trénovanie najrýchlejšieho a najväčšieho modelu témy a najväčšieho modelu vkladania slov na svete.
Sada nástrojov ponúka bohaté a ľahko použiteľné API na zníženie bariéry distribuované strojové učenie, takže výskumníci a vývojári sa môžu sústrediť na základné úlohy strojového učenia, ako sú dáta, model a školenia.
Aktuálna verzia DMTK obsahuje nasledujúce komponenty (ďalšie komponenty budú pridané do budúcich verzií):
• DMTK Framework: flexibilný rámec, ktorý podporuje jednotné rozhranie pre paralelizáciu údajov, hybridnú štruktúru údajov pre ukladanie veľkých modelov, plánovanie modelov pre tréning veľkých modelov a automatické prepojenie pre vysokú efektivitu tréningu.
• LightLDA, extrémne rýchly a škálovateľný algoritmus tematického modelu s O(1) Gibbsovým vzorkovačom a efektívnou distribuovanou implementáciou.
• Distributed (Multisense) Word Embedding, distribuovaná verzia (viaczmyslového) algoritmu na vkladanie slov.
Výskumní pracovníci a praktici strojového učenia môžu tiež vytvoriť svoje vlastné distribuované algoritmy strojového učenia na vrchole nášho rámca s malými úpravami svojich existujúcich algoritmov pre jeden stroj.