Microsoft abre el kit de herramientas de aprendizaje automático distribuido para hacer que la investigación de big data sea más eficiente

Icono de tiempo de lectura 2 minuto. leer

Icono de calendario Publicado el 14 de noviembre.

Publicado en 14 de noviembre.

Los lectores ayudan a respaldar a MSpoweruser. Es posible que obtengamos una comisión si compra a través de nuestros enlaces.

Con el fin de permitir el entrenamiento de modelos grandes utilizando solo un clúster modesto y de manera eficiente, Microsoft lanzó recientemente el kit de herramientas de aprendizaje automático distribuido (DMTK), que contiene innovaciones algorítmicas y de sistema. Esto hace que la investigación de big data sea más escalable, eficiente y flexible.

el juego de herramientas, disponible ahora en GitHub, está diseñado para el aprendizaje automático distribuido, utilizando varias computadoras en paralelo para resolver un problema complejo. Contiene un marco de programación basado en servidor de parámetros, lo que hace máquina de aprendizaje tareas sobre big data altamente escalables, eficientes y flexibles. También contiene dos algoritmos de aprendizaje automático distribuido, que se pueden usar para entrenar el modelo de tema más rápido y más grande y el modelo de incrustación de palabras más grande del mundo.

El kit de herramientas ofrece API ricas y fáciles de usar para reducir la barrera de aprendizaje automático distribuido, para que los investigadores y desarrolladores puedan centrarse en tareas básicas de aprendizaje automático como datos, modelos y formación.

La versión actual de DMTK incluye los siguientes componentes (se agregarán más componentes en las versiones futuras):

• Marco DMTK: un marco flexible que admite una interfaz unificada para la paralelización de datos, estructura de datos híbridos para almacenamiento de modelos grandes, programación de modelos para entrenamiento de modelos grandes y canalización automática para una alta eficiencia de entrenamiento.

• LightLDA, un algoritmo de modelo de tema extremadamente rápido y escalable, con un muestreador O(1) Gibbs y una implementación distribuida eficiente.

• Incrustación de palabras distribuidas (multisentido), una versión distribuida del algoritmo de incrustación de palabras (multisentido).

Los investigadores y profesionales del aprendizaje automático también pueden crear sus propios algoritmos de aprendizaje automático distribuido sobre nuestro marco con pequeñas modificaciones a sus algoritmos de una sola máquina existentes.

Más sobre los temas: Kit de herramientas de aprendizaje automático distribuido, DMTK, máquina de aprendizaje, microsoft, De código abierto, la investigación

Pradeep Viswav

Experto en Software y Servicios

Pradeep es un graduado en ingeniería y ciencias de la computación. También fue socio estudiantil de Microsoft. Actualmente trabaja en una empresa líder en TI.

Deje un comentario