Microsoft открывает исходный код Distributed Machine Learning Toolkit, чтобы сделать исследования больших данных более эффективными
2 минута. читать
Опубликовано
Прочтите нашу страницу раскрытия информации, чтобы узнать, как вы можете помочь MSPoweruser поддержать редакционную команду. Читать далее
Чтобы обеспечить эффективное обучение больших моделей с использованием небольшого кластера, Microsoft недавно выпустила инструментарий распределенного машинного обучения (DMTK), который содержит как алгоритмические, так и системные инновации. Это делает исследования больших данных более масштабируемыми, эффективными и гибкими.
Инструментарий, уже доступно на GitHub, предназначен для распределенного машинного обучения — параллельного использования нескольких компьютеров для решения сложной задачи. Он содержит программную среду на основе сервера параметров, которая делает обучение с помощью машины задачи по большим данным масштабируемы, эффективны и гибки. Он также содержит два распределенных алгоритма машинного обучения, которые можно использовать для обучения самой быстрой и самой большой тематической модели и самой большой модели встраивания слов в мире.
Инструментарий предлагает богатые и простые в использовании API для снижения барьера распределенное машинное обучение, чтобы исследователи и разработчики могли сосредоточиться на основных задачах машинного обучения, таких как данные, модели и обучение.
Текущая версия DMTK включает следующие компоненты (в будущих версиях будет добавлено больше компонентов):
• DMTK Framework: гибкая платформа, поддерживающая унифицированный интерфейс для распараллеливания данных, гибридную структуру данных для хранения больших моделей, планирование моделей для обучения больших моделей и автоматическую конвейерную обработку для повышения эффективности обучения.
• LightLDA, чрезвычайно быстрый и масштабируемый алгоритм тематической модели, с сэмплером Гиббса O(1) и эффективной распределенной реализацией.
• Распределенное (многосмысловое) встраивание слов, распределенная версия (многосмыслового) алгоритма встраивания слов.
Исследователи и специалисты по машинному обучению также могут создавать свои собственные распределенные алгоритмы машинного обучения поверх нашей платформы с небольшими изменениями существующих алгоритмов для одной машины.