Kit de ferramentas de aprendizado de máquina distribuído de código aberto da Microsoft para tornar a pesquisa de big data mais eficiente

Ícone de tempo de leitura 2 minutos. ler


Os leitores ajudam a oferecer suporte ao MSpoweruser. Podemos receber uma comissão se você comprar através de nossos links. Ícone de dica de ferramenta

Leia nossa página de divulgação para descobrir como você pode ajudar o MSPoweruser a sustentar a equipe editorial Saiba mais

DMTK

Para permitir o treinamento de grandes modelos usando apenas um cluster modesto e de maneira eficiente, a Microsoft lançou recentemente o Distributed Machine Learning Toolkit (DMTK), que contém inovações algorítmicas e de sistema. Isso torna a pesquisa de big data mais escalável, eficiente e flexível.

O kit de ferramentas, disponível agora no GitHub, foi projetado para aprendizado de máquina distribuído — usando vários computadores em paralelo para resolver um problema complexo. Ele contém uma estrutura de programação baseada em servidor de parâmetros, que torna aprendizado de máquina tarefas em big data altamente escaláveis, eficientes e flexíveis. Ele também contém dois algoritmos de aprendizado de máquina distribuídos, que podem ser usados ​​para treinar o modelo de tópico mais rápido e maior e o maior modelo de incorporação de palavras do mundo.

O kit de ferramentas oferece APIs ricas e fáceis de usar para reduzir a barreira de aprendizado de máquina distribuído, para que pesquisadores e desenvolvedores possam se concentrar nas principais tarefas de aprendizado de máquina, como dados, modelo e treinamento.

A versão atual do DMTK inclui os seguintes componentes (mais componentes serão adicionados às versões futuras):

• DMTK Framework: uma estrutura flexível que suporta interface unificada para paralelização de dados, estrutura de dados híbrida para armazenamento de grande modelo, agendamento de modelo para treinamento de grande modelo e pipeline automático para alta eficiência de treinamento.

• LightLDA, um algoritmo de modelo de tópico extremamente rápido e escalável, com um amostrador O(1) Gibbs e uma implementação distribuída eficiente.

• Incorporação de palavras distribuída (multisense), uma versão distribuída do algoritmo de incorporação de palavras (multisense).

Pesquisadores e profissionais de aprendizado de máquina também podem criar seus próprios algoritmos de aprendizado de máquina distribuídos em nossa estrutura com pequenas modificações em seus algoritmos de máquina única existentes.

Mais sobre os tópicos: Kit de ferramentas de aprendizado de máquina distribuído, DMTK, aprendizado de máquina, microsoft, de código aberto, pesquisa

Deixe um comentário

O seu endereço de e-mail não será publicado. Os campos obrigatórios são marcados com *