Microsoft z odprtokodnim orodjem Distributed Machine Learning Toolkit naredi raziskave velikih podatkov učinkovitejše

Ikona časa branja 2 min. prebrati

Ikona koledarja Objavljeno dne November 14, 2015

Objavljeno dne November 14, 2015

Bralci pomagajo pri podpori MSpoweruser. Če kupujete prek naših povezav, lahko prejmemo provizijo.

Da bi omogočili usposabljanje velikih modelov z uporabo le skromne gruče in na učinkovit način, je Microsoft pred kratkim izdal Distributed Machine Learning Toolkit (DMTK), ki vsebuje tako algoritemske kot sistemske inovacije. Zaradi tega so raziskave velikih podatkov bolj razširljive, učinkovite in prilagodljive.

Zbirka orodij, na voljo zdaj na GitHubu, je zasnovan za porazdeljeno strojno učenje – z uporabo več računalnikov vzporedno za reševanje zapletenega problema. Vsebuje strežniško zasnovano programsko ogrodje, ki omogoča strojno učenje naloge na velikih podatkih so zelo razširljive, učinkovite in prilagodljive. Vsebuje tudi dva porazdeljena algoritma strojnega učenja, ki ju je mogoče uporabiti za usposabljanje najhitrejšega in največjega tematskega modela ter največjega modela za vdelavo besed na svetu.

Zbirka orodij ponuja bogate in enostavne za uporabo API-je za zmanjšanje ovir porazdeljeno strojno učenje, tako da se lahko raziskovalci in razvijalci osredotočijo na osnovne naloge strojnega učenja, kot so podatki, model in usposabljanje.

Trenutna različica DMTK vključuje naslednje komponente (več komponent bo dodanih prihodnjim različicam):

• DMTK Framework: prilagodljiv okvir, ki podpira enoten vmesnik za paralelizacijo podatkov, hibridno strukturo podatkov za shranjevanje velikih modelov, načrtovanje modelov za usposabljanje velikih modelov in samodejno cevovode za visoko učinkovitost usposabljanja.

• LightLDA, izjemno hiter in razširljiv algoritem tematskega modela, z O(1) Gibbsovim vzorčevalnikom in učinkovito porazdeljeno izvedbo.

• Distributed (Multisense) Word Embedding, porazdeljena različica (večpomenskega) algoritma za vdelavo besed.

Raziskovalci in strokovnjaki za strojno učenje lahko na vrhu našega ogrodja z majhnimi spremembami svojih obstoječih algoritmov z enim strojem zgradijo lastne algoritme za strojno učenje.

Več o temah: Porazdeljeno orodje za strojno učenje, DMTK, strojno učenje, microsoft, open-source, Raziskave

Pradeep Viswav

Strokovnjak za programsko opremo in storitve

Pradeep je diplomant računalništva in inženirstva. Bil je tudi Microsoftov študentski partner. Trenutno dela v vodilnem IT podjetju.

Pustite Odgovori