Набор инструментов вычислительной сети Microsoft превосходит Google TensorFlow по производительности распределенного глубокого обучения
2 минута. читать
Опубликовано
Прочтите нашу страницу раскрытия информации, чтобы узнать, как вы можете помочь MSPoweruser поддержать редакционную команду. Читать далее
В прошлом году Microsoft Research представила Computational Network Toolkit (CNTK), единую вычислительную сетевую структуру, которая описывает глубокие нейронные сети как серию вычислительных шагов с помощью ориентированного графа. Благодаря сочетанию CNTK и Microsoft Azure GPU Lab у Microsoft есть распределенная платформа GPU, которую сообщество может использовать для продвижения исследований в области искусственного интеллекта. С момента запуска CNTK в прошлом году команда MSR значительно повысила эффективность машинного обучения с помощью Azure GPU Lab. Фактически, CNTK теперь предлагает наиболее эффективную производительность распределенных вычислений, опережая Google TensorFlow и другие.
Мы считаем, что для критически важных исследований ИИ эффективность и производительность должны быть одними из самых важных критериев проектирования. Существует ряд наборов инструментов для глубокого обучения, доступных на факел, Theano и Кафе к недавно открытым наборам инструментов от Google и IBM. Мы сравнили CNTK с четырьмя популярными наборами инструментов. Мы сосредоточимся на сравнении исходной вычислительной эффективности различных наборов инструментов с использованием смоделированных данных с эффективным размером мини-пакета (8192), чтобы полностью использовать все графические процессоры. С полностью связанной 4-слойной нейронной сетью (см. тестовые скрипты), количество кадров, которое каждый набор инструментов может обрабатывать в секунду, показано на диаграмме. Мы включили две конфигурации на одной машине Linux с 1 и 4 графическими процессорами (Nvidia K40) соответственно. Мы также сообщаем о нашей скорости CNTK с 8 графическими процессорами в лаборатории графических процессоров Azure с 2 идентичными машинами Linux (2 x 4 графических процессора), которые использовались в базовом тесте. CNTK выгодно отличается по вычислительной эффективности для распределенного глубокого обучения (4 или 8 графических процессоров) на всех протестированных нами наборах инструментов. CNTK может легко масштабироваться за пределы 8 графических процессоров на нескольких машинах с превосходной производительностью распределенной системы.