Microsoft는 빅 데이터 연구를 보다 효율적으로 만드는 Distributed Machine Learning Toolkit을 오픈 소스로 공개했습니다.

독서 시간 아이콘 2 분. 읽다


독자들은 MSpoweruser를 지원하는 데 도움을 줍니다. 당사의 링크를 통해 구매하시면 수수료를 받을 수 있습니다. 툴팁 아이콘

공개 페이지를 읽고 MSPoweruser가 편집팀을 유지하는 데 어떻게 도움을 줄 수 있는지 알아보세요. 자세히 보기

DMTK

적당한 클러스터를 사용하여 큰 모델을 효율적으로 훈련할 수 있도록 Microsoft는 최근 알고리즘 및 시스템 혁신을 모두 포함하는 DMTK(Distributed Machine Learning Toolkit)를 출시했습니다. 이는 빅 데이터 연구를 보다 확장 가능하고 효율적이며 유연하게 만듭니다.

툴킷, 지금 GitHub에서 사용 가능, 여러 컴퓨터를 병렬로 사용하여 복잡한 문제를 해결하는 분산 기계 학습을 위해 설계되었습니다. 여기에는 매개변수 서버 기반 프로그래밍 프레임워크가 포함되어 있어 기계 학습 확장성이 뛰어나고 효율적이며 유연하게 빅 데이터에 대한 작업을 수행합니다. 그것은 또한 세계에서 가장 빠르고 가장 큰 주제 모델과 가장 큰 단어 임베딩 모델을 훈련하는 데 사용할 수 있는 두 가지 분산 기계 학습 알고리즘을 포함합니다.

이 툴킷은 풍부하고 사용하기 쉬운 API를 제공하여 분산 머신 러닝, 따라서 연구원과 개발자는 데이터, 모델 및 교육과 같은 핵심 기계 학습 작업에 집중할 수 있습니다.

현재 버전의 DMTK에는 다음 구성 요소가 포함되어 있습니다(향후 버전에는 더 많은 구성 요소가 추가될 예정).

• DMTK 프레임워크: 데이터 병렬화를 위한 통합 인터페이스, 빅 모델 저장을 위한 하이브리드 데이터 구조, 빅 모델 트레이닝을 위한 모델 스케줄링, 높은 트레이닝 효율성을 위한 자동 파이프라이닝을 지원하는 유연한 프레임워크.

• O(1) Gibbs 샘플러와 효율적인 분산 구현을 포함하는 매우 빠르고 확장 가능한 주제 모델 알고리즘인 LightLDA.

• 분산(다중) 단어 임베딩, (다중) 단어 임베딩 알고리즘의 분산 버전.

기계 학습 연구원과 실무자는 기존 단일 기계 알고리즘을 약간 수정하여 프레임워크 위에 자체 분산 기계 학습 알고리즘을 구축할 수도 있습니다.

주제에 대한 추가 정보: 분산 머신 러닝 툴킷, DMTK, 기계 학습, 마이크로 소프트, 오픈 소스, 연구

댓글을 남겨주세요.

귀하의 이메일 주소는 공개되지 않습니다. *표시항목은 꼭 기재해 주세요. *