Microsoft open sources Distributed Machine Learning Toolkit pour rendre la recherche de données volumineuses plus efficace

Icône de temps de lecture 2 minute. lis


Les lecteurs aident à prendre en charge MSpoweruser. Nous pouvons recevoir une commission si vous achetez via nos liens. Icône d'info-bulle

Lisez notre page de divulgation pour savoir comment vous pouvez aider MSPoweruser à soutenir l'équipe éditoriale En savoir plus

DMTK

Afin de permettre la formation de grands modèles à l'aide d'un cluster modeste et de manière efficace, Microsoft a récemment publié Distributed Machine Learning Toolkit (DMTK), qui contient à la fois des innovations algorithmiques et système. Cela rend la recherche de mégadonnées plus évolutive, efficace et flexible.

La boîte à outils, disponible maintenant sur GitHub, est conçu pour l'apprentissage automatique distribué, c'est-à-dire l'utilisation de plusieurs ordinateurs en parallèle pour résoudre un problème complexe. Il contient un cadre de programmation basé sur un serveur de paramètres, qui rend machine learning tâches sur le big data hautement évolutives, efficaces et flexibles. Il contient également deux algorithmes d'apprentissage automatique distribués, qui peuvent être utilisés pour former le modèle de sujet le plus rapide et le plus grand et le plus grand modèle d'intégration de mots au monde.

La boîte à outils propose des API riches et faciles à utiliser pour réduire la barrière de apprentissage automatique distribué, afin que les chercheurs et les développeurs puissent se concentrer sur les principales tâches d'apprentissage automatique telles que les données, les modèles et la formation.

La version actuelle de DMTK comprend les composants suivants (d'autres composants seront ajoutés aux futures versions) :

• DMTK Framework : un cadre flexible qui prend en charge une interface unifiée pour la parallélisation des données, une structure de données hybride pour le stockage de gros modèles, la planification de modèles pour la formation de gros modèles et le pipelining automatique pour une efficacité de formation élevée.

• LightLDA, un algorithme de modèle de sujet extrêmement rapide et évolutif, avec un échantillonneur O(1) Gibbs et une implémentation distribuée efficace.

• Distributed (Multisense) Word Embedding, une version distribuée de l'algorithme d'incorporation de mots (multi-sens).

Les chercheurs et les praticiens de l'apprentissage automatique peuvent également créer leurs propres algorithmes d'apprentissage automatique distribué au-dessus de notre cadre avec de petites modifications à leurs algorithmes mono-machine existants.

En savoir plus sur les sujets : Boîte à outils d'apprentissage automatique distribué, DMTK, machine learning, microsoft, open-source, un article

Soyez sympa! Laissez un commentaire

Votre adresse email n'apparaitra pas. Les champs obligatoires sont marqués *