Microsoft abre el kit de herramientas de aprendizaje automático distribuido para hacer que la investigación de big data sea más eficiente

Icono de tiempo de lectura 2 minuto. leer


Los lectores ayudan a respaldar a MSpoweruser. Es posible que obtengamos una comisión si compra a través de nuestros enlaces. Icono de información sobre herramientas

Lea nuestra página de divulgación para descubrir cómo puede ayudar a MSPoweruser a sostener el equipo editorial. Leer más

DMTK

Con el fin de permitir el entrenamiento de modelos grandes utilizando solo un clúster modesto y de manera eficiente, Microsoft lanzó recientemente el kit de herramientas de aprendizaje automático distribuido (DMTK), que contiene innovaciones algorítmicas y de sistema. Esto hace que la investigación de big data sea más escalable, eficiente y flexible.

el juego de herramientas, disponible ahora en GitHub, está diseñado para el aprendizaje automático distribuido, utilizando varias computadoras en paralelo para resolver un problema complejo. Contiene un marco de programación basado en servidor de parámetros, lo que hace máquina de aprendizaje tareas sobre big data altamente escalables, eficientes y flexibles. También contiene dos algoritmos de aprendizaje automático distribuido, que se pueden usar para entrenar el modelo de tema más rápido y más grande y el modelo de incrustación de palabras más grande del mundo.

El kit de herramientas ofrece API ricas y fáciles de usar para reducir la barrera de aprendizaje automático distribuido, para que los investigadores y desarrolladores puedan centrarse en tareas básicas de aprendizaje automático como datos, modelos y formación.

La versión actual de DMTK incluye los siguientes componentes (se agregarán más componentes en las versiones futuras):

• Marco DMTK: un marco flexible que admite una interfaz unificada para la paralelización de datos, estructura de datos híbridos para almacenamiento de modelos grandes, programación de modelos para entrenamiento de modelos grandes y canalización automática para una alta eficiencia de entrenamiento.

• LightLDA, un algoritmo de modelo de tema extremadamente rápido y escalable, con un muestreador O(1) Gibbs y una implementación distribuida eficiente.

• Incrustación de palabras distribuidas (multisentido), una versión distribuida del algoritmo de incrustación de palabras (multisentido).

Los investigadores y profesionales del aprendizaje automático también pueden crear sus propios algoritmos de aprendizaje automático distribuido sobre nuestro marco con pequeñas modificaciones a sus algoritmos de una sola máquina existentes.

Más sobre los temas: Kit de herramientas de aprendizaje automático distribuido, DMTK, máquina de aprendizaje, microsoft, De código abierto, la investigación

Deje un comentario

Su dirección de correo electrónico no será publicada. Las areas obligatorias están marcadas como requeridas *