A Microsoft nyílt forráskódú Distributed Machine Learning Toolkit segítségével hatékonyabbá teszi a big data kutatást
2 perc olvas
Publikálva
Olvassa el közzétételi oldalunkat, hogy megtudja, hogyan segítheti az MSPowerusert a szerkesztői csapat fenntartásában Tovább
A Microsoft a közelmúltban kiadta a Distributed Machine Learning Toolkit (DMTK), amely algoritmikus és rendszerinnovációkat is tartalmaz, nagy modellek csak szerény klaszter felhasználásával és hatékony képzése érdekében. Ez a big data kutatást skálázhatóbbá, hatékonyabbá és rugalmasabbá teszi.
Az eszközkészlet, már elérhető a GitHubon, elosztott gépi tanulásra készült – több számítógép párhuzamos használatával egy összetett probléma megoldására. Tartalmaz egy paraméteres szerver alapú programozási keretrendszert, amely lehetővé teszi gépi tanulás nagy adatokkal kapcsolatos feladatok nagymértékben méretezhető, hatékony és rugalmas. Két elosztott gépi tanulási algoritmust is tartalmaz, amelyek segítségével a világ leggyorsabb és legnagyobb témamodelljét és legnagyobb szóbeágyazó modelljét lehet betanítani.
Az eszköztár gazdag és könnyen használható API-kat kínál az akadályok csökkentése érdekében elosztott gépi tanulás, így a kutatók és a fejlesztők olyan alapvető gépi tanulási feladatokra összpontosíthatnak, mint az adatok, a modell és a képzés.
A DMTK jelenlegi verziója a következő összetevőket tartalmazza (további összetevők kerülnek hozzáadásra a jövőbeni verziókhoz):
• DMTK Framework: rugalmas keretrendszer, amely támogatja az egyesített interfészt az adatok párhuzamosításához, a hibrid adatstruktúrát a nagy modellek tárolására, a modell ütemezését a nagy modellek betanításához és az automatikus folyamatkezelést a magas betanítási hatékonyság érdekében.
• LightLDA, rendkívül gyors és méretezhető témamodell-algoritmus, O(1) Gibbs mintavevővel és hatékony elosztott implementációval.
• Elosztott (Multisense) szóbeágyazás, a (többértelmű) szóbeágyazó algoritmus elosztott változata.
A gépi tanulással foglalkozó kutatók és gyakorlati szakemberek saját, elosztott gépi tanulási algoritmusaikat a keretrendszerünkre építhetik, a meglévő egygépes algoritmusaik kis módosításával.