Microsoft abre el kit de herramientas de aprendizaje automático distribuido para hacer que la investigación de big data sea más eficiente
2 minuto. leer
Publicado el
Lea nuestra página de divulgación para descubrir cómo puede ayudar a MSPoweruser a sostener el equipo editorial. Leer más
Con el fin de permitir el entrenamiento de modelos grandes utilizando solo un clúster modesto y de manera eficiente, Microsoft lanzó recientemente el kit de herramientas de aprendizaje automático distribuido (DMTK), que contiene innovaciones algorítmicas y de sistema. Esto hace que la investigación de big data sea más escalable, eficiente y flexible.
el juego de herramientas, disponible ahora en GitHub, está diseñado para el aprendizaje automático distribuido, utilizando varias computadoras en paralelo para resolver un problema complejo. Contiene un marco de programación basado en servidor de parámetros, lo que hace máquina de aprendizaje tareas sobre big data altamente escalables, eficientes y flexibles. También contiene dos algoritmos de aprendizaje automático distribuido, que se pueden usar para entrenar el modelo de tema más rápido y más grande y el modelo de incrustación de palabras más grande del mundo.
El kit de herramientas ofrece API ricas y fáciles de usar para reducir la barrera de aprendizaje automático distribuido, para que los investigadores y desarrolladores puedan centrarse en tareas básicas de aprendizaje automático como datos, modelos y formación.
La versión actual de DMTK incluye los siguientes componentes (se agregarán más componentes en las versiones futuras):
• Marco DMTK: un marco flexible que admite una interfaz unificada para la paralelización de datos, estructura de datos híbridos para almacenamiento de modelos grandes, programación de modelos para entrenamiento de modelos grandes y canalización automática para una alta eficiencia de entrenamiento.
• LightLDA, un algoritmo de modelo de tema extremadamente rápido y escalable, con un muestreador O(1) Gibbs y una implementación distribuida eficiente.
• Incrustación de palabras distribuidas (multisentido), una versión distribuida del algoritmo de incrustación de palabras (multisentido).
Los investigadores y profesionales del aprendizaje automático también pueden crear sus propios algoritmos de aprendizaje automático distribuido sobre nuestro marco con pequeñas modificaciones a sus algoritmos de una sola máquina existentes.