Setul de instrumente de învățare automată distribuită Microsoft open source pentru a eficientiza cercetarea datelor mari

Pictograma timp de citire 2 min. citit


Cititorii ajută la sprijinirea MSpoweruser. Este posibil să primim un comision dacă cumpărați prin link-urile noastre. Pictograma Tooltip

Citiți pagina noastră de dezvăluire pentru a afla cum puteți ajuta MSPoweruser să susțină echipa editorială Află mai multe

DMTK

Pentru a permite formarea modelelor mari folosind doar un cluster modest și într-o manieră eficientă, Microsoft a lansat recent Distributed Machine Learning Toolkit (DMTK), care conține atât inovații algoritmice, cât și inovații de sistem. Acest lucru face ca cercetarea de date mari să fie mai scalabilă, mai eficientă și mai flexibilă.

Trusa de instrumente, disponibil acum pe GitHub, este conceput pentru învățarea automată distribuită — folosind mai multe computere în paralel pentru a rezolva o problemă complexă. Conține un cadru de programare bazat pe server de parametri, care face masina de învățare sarcini de date mari foarte scalabile, eficiente și flexibile. De asemenea, conține doi algoritmi de învățare automată distribuiți, care pot fi utilizați pentru a antrena cel mai rapid și mai mare model de subiect și cel mai mare model de încorporare a cuvintelor din lume.

Setul de instrumente oferă API-uri bogate și ușor de utilizat pentru a reduce bariera învățarea automată distribuită, astfel încât cercetătorii și dezvoltatorii să se poată concentra pe sarcini de bază de învățare automată, cum ar fi datele, modelul și formarea.

Versiunea actuală a DMTK include următoarele componente (mai multe componente vor fi adăugate la versiunile viitoare):

• DMTK Framework: un cadru flexibil care acceptă interfață unificată pentru paralelizarea datelor, structură hibridă de date pentru stocarea modelelor mari, programarea modelelor pentru antrenamentul modelelor mari și pipelining automat pentru o eficiență ridicată a antrenamentului.

• LightLDA, un algoritm de model de subiect extrem de rapid și scalabil, cu un sampler O(1) Gibbs și o implementare eficientă distribuită.

• Încorporarea cuvântului distribuit (multisens), o versiune distribuită a algoritmului de încorporare a cuvintelor (multisens).

Cercetătorii și practicienii în domeniul învățării automate își pot construi propriii algoritmi de învățare automată distribuiți pe deasupra cadrului nostru, cu mici modificări la algoritmii lor existenți pentru o singură mașină.

Mai multe despre subiecte: Setul de instrumente pentru învățare automată distribuită, DMTK, masina de învățare, microsoft, open-source, cercetare

Lasă un comentariu

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate *