Kit de ferramentas de aprendizado de máquina distribuído de código aberto da Microsoft para tornar a pesquisa de big data mais eficiente

Ícone de tempo de leitura 2 minutos. ler

Ícone do calendário Publicado em 14 de novembro de 2015

publicado em 14 de novembro de 2015

Os leitores ajudam a oferecer suporte ao MSpoweruser. Podemos receber uma comissão se você comprar através de nossos links.

Para permitir o treinamento de grandes modelos usando apenas um cluster modesto e de maneira eficiente, a Microsoft lançou recentemente o Distributed Machine Learning Toolkit (DMTK), que contém inovações algorítmicas e de sistema. Isso torna a pesquisa de big data mais escalável, eficiente e flexível.

O kit de ferramentas, disponível agora no GitHub, foi projetado para aprendizado de máquina distribuído — usando vários computadores em paralelo para resolver um problema complexo. Ele contém uma estrutura de programação baseada em servidor de parâmetros, que torna aprendizado de máquina tarefas em big data altamente escaláveis, eficientes e flexíveis. Ele também contém dois algoritmos de aprendizado de máquina distribuídos, que podem ser usados para treinar o modelo de tópico mais rápido e maior e o maior modelo de incorporação de palavras do mundo.

O kit de ferramentas oferece APIs ricas e fáceis de usar para reduzir a barreira de aprendizado de máquina distribuído, para que pesquisadores e desenvolvedores possam se concentrar nas principais tarefas de aprendizado de máquina, como dados, modelo e treinamento.

A versão atual do DMTK inclui os seguintes componentes (mais componentes serão adicionados às versões futuras):

• DMTK Framework: uma estrutura flexível que suporta interface unificada para paralelização de dados, estrutura de dados híbrida para armazenamento de grande modelo, agendamento de modelo para treinamento de grande modelo e pipeline automático para alta eficiência de treinamento.

• LightLDA, um algoritmo de modelo de tópico extremamente rápido e escalável, com um amostrador O(1) Gibbs e uma implementação distribuída eficiente.

• Incorporação de palavras distribuída (multisense), uma versão distribuída do algoritmo de incorporação de palavras (multisense).

Pesquisadores e profissionais de aprendizado de máquina também podem criar seus próprios algoritmos de aprendizado de máquina distribuídos em nossa estrutura com pequenas modificações em seus algoritmos de máquina única existentes.

Mais sobre os tópicos: Kit de ferramentas de aprendizado de máquina distribuído, DMTK, aprendizado de máquina, microsoft, de código aberto, pesquisa

Pradeep Viswav

Especialista em Software e Serviços

Pradeep é graduado em Ciência da Computação e Engenharia. Ele também foi um parceiro estudantil da Microsoft. Atualmente, ele trabalha em uma empresa líder de TI.

Deixe um comentário