Microsoft otvára zdroje Distributed Machine Learning Toolkit na zefektívnenie výskumu veľkých dát

Ikona času čítania 2 min. čítať

Ikona kalendára Publikované dňa Novembra 14, 2015

publikované dňa Novembra 14, 2015

Čítačky pomáhajú podporovať MSpoweruser. Ak nakupujete prostredníctvom našich odkazov, môžeme získať províziu.

S cieľom umožniť trénovanie veľkých modelov pomocou skromného klastra a efektívnym spôsobom, Microsoft nedávno vydal Distributed Machine Learning Toolkit (DMTK), ktorý obsahuje algoritmické aj systémové inovácie. Vďaka tomu je výskum veľkých dát škálovateľnejší, efektívnejší a flexibilnejší.

súprava nástrojov, teraz k dispozícii na GitHub, je navrhnutý pre distribuované strojové učenie – pomocou viacerých počítačov paralelne vyriešiť zložitý problém. Obsahuje parametrický serverový programovací rámec, ktorý robí strojové učenie úlohy na veľkých dátach sú vysoko škálovateľné, efektívne a flexibilné. Obsahuje tiež dva distribuované algoritmy strojového učenia, ktoré možno použiť na trénovanie najrýchlejšieho a najväčšieho modelu témy a najväčšieho modelu vkladania slov na svete.

Sada nástrojov ponúka bohaté a ľahko použiteľné API na zníženie bariéry distribuované strojové učenie, takže výskumníci a vývojári sa môžu sústrediť na základné úlohy strojového učenia, ako sú dáta, model a školenia.

Aktuálna verzia DMTK obsahuje nasledujúce komponenty (ďalšie komponenty budú pridané do budúcich verzií):

• DMTK Framework: flexibilný rámec, ktorý podporuje jednotné rozhranie pre paralelizáciu údajov, hybridnú štruktúru údajov pre ukladanie veľkých modelov, plánovanie modelov pre tréning veľkých modelov a automatické prepojenie pre vysokú efektivitu tréningu.

• LightLDA, extrémne rýchly a škálovateľný algoritmus tematického modelu s O(1) Gibbsovým vzorkovačom a efektívnou distribuovanou implementáciou.

• Distributed (Multisense) Word Embedding, distribuovaná verzia (viaczmyslového) algoritmu na vkladanie slov.

Výskumní pracovníci a praktici strojového učenia môžu tiež vytvoriť svoje vlastné distribuované algoritmy strojového učenia na vrchole nášho rámca s malými úpravami svojich existujúcich algoritmov pre jeden stroj.

Viac o témach: Distribuovaná súprava nástrojov strojového učenia, DMTK, strojové učenie, microsoft, open source, výskum

Pradeep Viswav

Expert na softvér a služby

Pradeep je absolventom informatiky a inžinierstva. Bol tiež študentským partnerom spoločnosti Microsoft. V súčasnosti pracuje v poprednej IT spoločnosti.

Nechaj odpoveď