微軟開源分佈式機器學習工具包，讓大數據研究更高效

閱讀時間圖標 2分鐘讀

日曆圖標發表於 2015 年 11 月 14 日

發表於 2015 年 11 月 14 日

讀者幫助支持 MSpoweruser。如果您透過我們的連結購買，我們可能會獲得佣金。

為了能夠僅使用適度的集群並以高效的方式訓練大型模型，微軟最近發布了分佈式機器學習工具包 (DMTK)，其中包含算法和系統創新。這使得大數據研究更具可擴展性、高效性和靈活性。

工具包，現在在 GitHub 上可用，專為分佈式機器學習而設計 - 使用多台計算機並行解決複雜問題。它包含一個基於參數服務器的編程框架，它使機器學習大數據上的任務具有高度可擴展性、高效性和靈活性。它還包含兩種分佈式機器學習算法，可用於訓練世界上最快、最大的主題模型和最大的詞嵌入模型。

該工具包提供了豐富且易於使用的 API，以減少分佈式機器學習，因此研究人員和開發人員可以專注於核心機器學習任務，如數據、模型和訓練。

當前版本的 DMTK 包括以下組件（未來版本將添加更多組件）：

• DMTK Framework：一個靈活的框架，支持數據並行化統一接口，大模型存儲混合數據結構，大模型訓練模型調度，訓練效率高的自動流水線。

• LightLDA，一種極其快速且可擴展的主題模型算法，具有 O(1) Gibbs 採樣器和高效的分佈式實現。

• 分佈式（多義）詞嵌入，（多義）詞嵌入算法的分佈式版本。

機器學習研究人員和從業者還可以在我們的框架之上構建自己的分佈式機器學習算法，只需對他們現有的單機算法進行少量修改。

有關主題的更多資訊：分佈式機器學習工具包, 開發工具包, 機器學習, 微軟, 開放源碼, 研究

普拉迪普·維斯瓦夫

軟體和服務專家

Pradeep 是電腦科學與工程專業的畢業生。他還是微軟的學生夥伴。他目前在一家領先的 IT 公司工作。

發表評論