Microsoft открывает исходный код Distributed Machine Learning Toolkit, чтобы сделать исследования больших данных более эффективными

Значок времени чтения 2 минута. читать


Читатели помогают поддержать MSpoweruser. Мы можем получить комиссию, если вы совершите покупку по нашим ссылкам. Значок подсказки

Прочтите нашу страницу раскрытия информации, чтобы узнать, как вы можете помочь MSPoweruser поддержать редакционную команду. Читать далее

ДМТК

Чтобы обеспечить эффективное обучение больших моделей с использованием небольшого кластера, Microsoft недавно выпустила инструментарий распределенного машинного обучения (DMTK), который содержит как алгоритмические, так и системные инновации. Это делает исследования больших данных более масштабируемыми, эффективными и гибкими.

Инструментарий, уже доступно на GitHub, предназначен для распределенного машинного обучения — параллельного использования нескольких компьютеров для решения сложной задачи. Он содержит программную среду на основе сервера параметров, которая делает обучение с помощью машины задачи по большим данным масштабируемы, эффективны и гибки. Он также содержит два распределенных алгоритма машинного обучения, которые можно использовать для обучения самой быстрой и самой большой тематической модели и самой большой модели встраивания слов в мире.

Инструментарий предлагает богатые и простые в использовании API для снижения барьера распределенное машинное обучение, чтобы исследователи и разработчики могли сосредоточиться на основных задачах машинного обучения, таких как данные, модели и обучение.

Текущая версия DMTK включает следующие компоненты (в будущих версиях будет добавлено больше компонентов):

• DMTK Framework: гибкая платформа, поддерживающая унифицированный интерфейс для распараллеливания данных, гибридную структуру данных для хранения больших моделей, планирование моделей для обучения больших моделей и автоматическую конвейерную обработку для повышения эффективности обучения.

• LightLDA, чрезвычайно быстрый и масштабируемый алгоритм тематической модели, с сэмплером Гиббса O(1) и эффективной распределенной реализацией.

• Распределенное (многосмысловое) встраивание слов, распределенная версия (многосмыслового) алгоритма встраивания слов.

Исследователи и специалисты по машинному обучению также могут создавать свои собственные распределенные алгоритмы машинного обучения поверх нашей платформы с небольшими изменениями существующих алгоритмов для одной машины.

Подробнее о темах: Набор инструментов для распределенного машинного обучения, ДМТК, обучение с помощью машины, Microsoft, открытые источники, исследованиям

Оставьте комментарий

Ваш электронный адрес не будет опубликован. Обязательные поля помечены * *