Microsoft z odprtokodnim orodjem Distributed Machine Learning Toolkit naredi raziskave velikih podatkov učinkovitejše

Ikona časa branja 2 min. prebrati


Bralci pomagajo pri podpori MSpoweruser. Če kupujete prek naših povezav, lahko prejmemo provizijo. Ikona opisa orodja

Preberite našo stran za razkritje, če želite izvedeti, kako lahko pomagate MSPoweruser vzdrževati uredniško skupino Preberi več

DMTK

Da bi omogočili usposabljanje velikih modelov z uporabo le skromne gruče in na učinkovit način, je Microsoft pred kratkim izdal Distributed Machine Learning Toolkit (DMTK), ki vsebuje tako algoritemske kot sistemske inovacije. Zaradi tega so raziskave velikih podatkov bolj razširljive, učinkovite in prilagodljive.

Zbirka orodij, na voljo zdaj na GitHubu, je zasnovan za porazdeljeno strojno učenje – z uporabo več računalnikov vzporedno za reševanje zapletenega problema. Vsebuje strežniško zasnovano programsko ogrodje, ki omogoča strojno učenje naloge na velikih podatkih so zelo razširljive, učinkovite in prilagodljive. Vsebuje tudi dva porazdeljena algoritma strojnega učenja, ki ju je mogoče uporabiti za usposabljanje najhitrejšega in največjega tematskega modela ter največjega modela za vdelavo besed na svetu.

Zbirka orodij ponuja bogate in enostavne za uporabo API-je za zmanjšanje ovir porazdeljeno strojno učenje, tako da se lahko raziskovalci in razvijalci osredotočijo na osnovne naloge strojnega učenja, kot so podatki, model in usposabljanje.

Trenutna različica DMTK vključuje naslednje komponente (več komponent bo dodanih prihodnjim različicam):

• DMTK Framework: prilagodljiv okvir, ki podpira enoten vmesnik za paralelizacijo podatkov, hibridno strukturo podatkov za shranjevanje velikih modelov, načrtovanje modelov za usposabljanje velikih modelov in samodejno cevovode za visoko učinkovitost usposabljanja.

• LightLDA, izjemno hiter in razširljiv algoritem tematskega modela, z O(1) Gibbsovim vzorčevalnikom in učinkovito porazdeljeno izvedbo.

• Distributed (Multisense) Word Embedding, porazdeljena različica (večpomenskega) algoritma za vdelavo besed.

Raziskovalci in strokovnjaki za strojno učenje lahko na vrhu našega ogrodja z majhnimi spremembami svojih obstoječih algoritmov z enim strojem zgradijo lastne algoritme za strojno učenje.

Več o temah: Porazdeljeno orodje za strojno učenje, DMTK, strojno učenje, microsoft, open-source, Raziskave

Pustite Odgovori

Vaš e-naslov ne bo objavljen. Obvezna polja so označena *