Nguồn mở Microsoft Bộ công cụ học máy phân tán để giúp nghiên cứu dữ liệu lớn hiệu quả hơn

Biểu tượng thời gian đọc 2 phút đọc


Bạn đọc giúp đỡ ủng hộ MSpoweruser. Chúng tôi có thể nhận được hoa hồng nếu bạn mua thông qua các liên kết của chúng tôi. Biểu tượng chú giải công cụ

Đọc trang tiết lộ của chúng tôi để tìm hiểu cách bạn có thể giúp MSPoweruser duy trì nhóm biên tập Tìm hiểu thêm

DMTK

Để cho phép đào tạo các mô hình lớn chỉ sử dụng một cụm khiêm tốn và theo cách hiệu quả, Microsoft gần đây đã phát hành Bộ công cụ học máy phân tán (DMTK), chứa cả những đổi mới về thuật toán và hệ thống. Điều này làm cho việc nghiên cứu dữ liệu lớn có thể mở rộng, hiệu quả và linh hoạt hơn.

Bộ công cụ, hiện có trên GitHub, được thiết kế cho việc học máy phân tán - sử dụng song song nhiều máy tính để giải quyết một vấn đề phức tạp. Nó chứa một khung lập trình dựa trên máy chủ tham số, làm cho học máy các tác vụ trên dữ liệu lớn có khả năng mở rộng cao, hiệu quả và linh hoạt. Nó cũng chứa hai thuật toán học máy phân tán, có thể được sử dụng để đào tạo mô hình chủ đề nhanh nhất và lớn nhất và mô hình nhúng từ lớn nhất trên thế giới.

Bộ công cụ cung cấp các API phong phú và dễ sử dụng để giảm rào cản của máy học phân tán, vì vậy các nhà nghiên cứu và nhà phát triển có thể tập trung vào các tác vụ máy học cốt lõi như dữ liệu, mô hình và đào tạo.

Phiên bản hiện tại của DMTK bao gồm các thành phần sau (nhiều thành phần hơn sẽ được thêm vào các phiên bản trong tương lai):

• DMTK Framework: một khuôn khổ linh hoạt hỗ trợ giao diện thống nhất cho song song dữ liệu, cấu trúc dữ liệu kết hợp để lưu trữ mô hình lớn, lập lịch mô hình cho đào tạo mô hình lớn và đường ống tự động để đạt hiệu quả đào tạo cao.

• LightLDA, một thuật toán mô hình chủ đề cực kỳ nhanh và có thể mở rộng, với bộ lấy mẫu O (1) Gibbs và triển khai phân tán hiệu quả.

• Nhúng từ phân tán (đa nghĩa), một phiên bản phân tán của thuật toán nhúng từ (đa nghĩa).

Các nhà nghiên cứu và thực hành học máy cũng có thể xây dựng các thuật toán học máy phân tán của riêng họ trên khuôn khổ của chúng tôi với các sửa đổi nhỏ đối với các thuật toán máy đơn hiện có của họ.

Thông tin thêm về các chủ đề: Bộ công cụ học máy được phân phối, DMTK, học máy, microsoft, mã nguồn mở, nghiên cứu

Bình luận

Chúng tôi sẽ không công khai email của bạn. Các ô đánh dấu * là bắt buộc *