Microsoft открывает исходный код Distributed Machine Learning Toolkit, чтобы сделать исследования больших данных более эффективными

Значок времени чтения 2 минута. читать

Значок календаря Опубликовано 14 ноября 2015

Опубликован в 14 ноября 2015

Читатели помогают поддержать MSpoweruser. Мы можем получить комиссию, если вы совершите покупку по нашим ссылкам.

Чтобы обеспечить эффективное обучение больших моделей с использованием небольшого кластера, Microsoft недавно выпустила инструментарий распределенного машинного обучения (DMTK), который содержит как алгоритмические, так и системные инновации. Это делает исследования больших данных более масштабируемыми, эффективными и гибкими.

Инструментарий, уже доступно на GitHub, предназначен для распределенного машинного обучения — параллельного использования нескольких компьютеров для решения сложной задачи. Он содержит программную среду на основе сервера параметров, которая делает обучение с помощью машины задачи по большим данным масштабируемы, эффективны и гибки. Он также содержит два распределенных алгоритма машинного обучения, которые можно использовать для обучения самой быстрой и самой большой тематической модели и самой большой модели встраивания слов в мире.

Инструментарий предлагает богатые и простые в использовании API для снижения барьера распределенное машинное обучение, чтобы исследователи и разработчики могли сосредоточиться на основных задачах машинного обучения, таких как данные, модели и обучение.

Текущая версия DMTK включает следующие компоненты (в будущих версиях будет добавлено больше компонентов):

• DMTK Framework: гибкая платформа, поддерживающая унифицированный интерфейс для распараллеливания данных, гибридную структуру данных для хранения больших моделей, планирование моделей для обучения больших моделей и автоматическую конвейерную обработку для повышения эффективности обучения.

• LightLDA, чрезвычайно быстрый и масштабируемый алгоритм тематической модели, с сэмплером Гиббса O(1) и эффективной распределенной реализацией.

• Распределенное (многосмысловое) встраивание слов, распределенная версия (многосмыслового) алгоритма встраивания слов.

Исследователи и специалисты по машинному обучению также могут создавать свои собственные распределенные алгоритмы машинного обучения поверх нашей платформы с небольшими изменениями существующих алгоритмов для одной машины.

Подробнее о темах: Набор инструментов для распределенного машинного обучения, ДМТК, обучение с помощью машины, Microsoft, открытые источники, исследованиям

Прадип Вишвав

Эксперт по программному обеспечению и услугам

Прадип — выпускник компьютерных наук и инженерии. Он также был студенческим партнером Microsoft. В настоящее время работает в ведущей IT-компании.

Оставьте комментарий