A Microsoft nyílt forráskódú Distributed Machine Learning Toolkit segítségével hatékonyabbá teszi a big data kutatást

Olvasási idő ikonra 2 perc olvas

Naptár ikonra Publikálva November 14, 2015

közzétették November 14, 2015

Az olvasók segítenek az MSpoweruser támogatásában. Kaphatunk jutalékot, ha a linkjeinken keresztül vásárol.

A Microsoft a közelmúltban kiadta a Distributed Machine Learning Toolkit (DMTK), amely algoritmikus és rendszerinnovációkat is tartalmaz, nagy modellek csak szerény klaszter felhasználásával és hatékony képzése érdekében. Ez a big data kutatást skálázhatóbbá, hatékonyabbá és rugalmasabbá teszi.

Az eszközkészlet, már elérhető a GitHubon, elosztott gépi tanulásra készült – több számítógép párhuzamos használatával egy összetett probléma megoldására. Tartalmaz egy paraméteres szerver alapú programozási keretrendszert, amely lehetővé teszi gépi tanulás nagy adatokkal kapcsolatos feladatok nagymértékben méretezhető, hatékony és rugalmas. Két elosztott gépi tanulási algoritmust is tartalmaz, amelyek segítségével a világ leggyorsabb és legnagyobb témamodelljét és legnagyobb szóbeágyazó modelljét lehet betanítani.

Az eszköztár gazdag és könnyen használható API-kat kínál az akadályok csökkentése érdekében elosztott gépi tanulás, így a kutatók és a fejlesztők olyan alapvető gépi tanulási feladatokra összpontosíthatnak, mint az adatok, a modell és a képzés.

A DMTK jelenlegi verziója a következő összetevőket tartalmazza (további összetevők kerülnek hozzáadásra a jövőbeni verziókhoz):

• DMTK Framework: rugalmas keretrendszer, amely támogatja az egyesített interfészt az adatok párhuzamosításához, a hibrid adatstruktúrát a nagy modellek tárolására, a modell ütemezését a nagy modellek betanításához és az automatikus folyamatkezelést a magas betanítási hatékonyság érdekében.

• LightLDA, rendkívül gyors és méretezhető témamodell-algoritmus, O(1) Gibbs mintavevővel és hatékony elosztott implementációval.

• Elosztott (Multisense) szóbeágyazás, a (többértelmű) szóbeágyazó algoritmus elosztott változata.

A gépi tanulással foglalkozó kutatók és gyakorlati szakemberek saját, elosztott gépi tanulási algoritmusaikat a keretrendszerünkre építhetik, a meglévő egygépes algoritmusaik kis módosításával.

Bővebben a témákról: Elosztott gépi tanulási eszközkészlet, DMTK, gépi tanulás, microsoft, nyílt forráskódú, kutatás

Pradeep Viswav

Szoftver- és szolgáltatásszakértő

Pradeep számítástechnikai és mérnöki végzettségű. A Microsoft diákpartnere is volt. Jelenleg egy vezető informatikai cégnél dolgozik.

Hagy egy Válaszol