A Microsoft új Machine Learning könyvtára termelékenyebbé teszi az adattudósokat az Apache Sparkban

Olvasási idő ikonra 2 perc olvas

Naptár ikonra Publikálva Június 8, 2017

közzétették Június 8, 2017

Az olvasók segítenek az MSpoweruser támogatásában. Kaphatunk jutalékot, ha a linkjeinken keresztül vásárol.

microsoft tegnap kiadott egy új könyvtárat az adattudósok számára, hogy hatékonyabbak legyenek az Apache Sparkban. A Microsoft Machine Learning könyvtár növeli a kísérletezés arányát, és a legkorszerűbb gépi tanulási technikákat hasznosítja nagyon nagy adathalmazokon. Egyszerűsített konzisztens API-kat biztosít a különböző típusú adatok, például szövegek vagy kategóriák kezelésére. Ezzel az új könyvtárral egyszerűen átadhatja az adatokat a modellnek, és a könyvtár gondoskodik a többiről. Lehetővé teszi továbbá a jellemzőterület és az algoritmus egyszerű megváltoztatását anélkül, hogy újra kellene kódolnia a folyamatot. Az MMLSpark képességei a következők:

DNN jellemzők: Az előre betanított modell használata nagyszerű megközelítés, ha az idő vagy a címkézett adatok mennyisége korlátozza. Használhat előre betanított, legkorszerűbb neurális hálózatokat, például a ResNet-et, hogy a képekből skálázható módon kinyerje a magas szintű szolgáltatásokat, majd ezeket a funkciókat átadja a hagyományos ML-modelleknek, például a logisztikai regressziónak vagy a döntési erdőknek.
Képzés GPU-csomóponton: Néha a probléma annyira tartományspecifikus, hogy egy előre betanított modell nem megfelelő, ezért saját DNN-modelljét kell betanítania. Használhatja a Spark dolgozói csomópontokat a nagy adatkészletek előfeldolgozására és sűrítésére a DNN betanítása előtt, majd az adatokat egy GPU virtuális gépre táplálhatja a gyorsított DNN betanításhoz, végül pedig a modellt továbbíthatja a dolgozói csomópontoknak a méretezhető pontozáshoz.
Méretezhető képfeldolgozó folyamatok: A képfeldolgozás teljes, végpontok közötti munkafolyamatához a DNN-integráció nem elegendő. Általában elő kell dolgoznia a képeket, hogy megfelelő formájúak és normalizálódjanak, mielőtt átadná őket a DNN-modelleknek. Az MMLSparkban OpenCV-alapú képátalakításokat használhat az adatok beolvasására és előkészítésére.

Tudjon meg róla részletesen itt.

Bővebben a témákról: Apache Spark, adatkutatók, Gépi tanulási könyvtár, microsoft, Microsoft ML könyvtár

Pradeep Viswav

Szoftver- és szolgáltatásszakértő

Pradeep számítástechnikai és mérnöki végzettségű. A Microsoft diákpartnere is volt. Jelenleg egy vezető informatikai cégnél dolgozik.