Thư viện Machine Learning mới của Microsoft giúp các nhà khoa học dữ liệu làm việc hiệu quả hơn trên Apache Spark

Biểu tượng thời gian đọc 2 phút đọc

Biểu tượng lịch Được đăng trên 8 Tháng Sáu, 2017

Được xuất bản trên 8 Tháng Sáu, 2017

Bạn đọc giúp đỡ ủng hộ MSpoweruser. Chúng tôi có thể nhận được hoa hồng nếu bạn mua thông qua các liên kết của chúng tôi.

microsoft hôm qua đã phát hành một thư viện mới để các nhà khoa học dữ liệu làm việc hiệu quả hơn trên Apache Spark. Thư viện Machine Learning của Microsoft sẽ tăng tỷ lệ thử nghiệm và tận dụng các kỹ thuật machine learning tiên tiến trên các tập dữ liệu rất lớn. Nó cung cấp các API nhất quán được đơn giản hóa để xử lý các loại dữ liệu khác nhau như văn bản hoặc phân loại. Với thư viện mới này, bạn có thể chỉ cần chuyển dữ liệu đến mô hình và thư viện sẽ lo phần còn lại. Nó cũng cho phép bạn dễ dàng thay đổi không gian tính năng và thuật toán mà không cần phải mã hóa lại đường dẫn. Các khả năng của MMLSpark bao gồm:

Tính năng DNN: Sử dụng mô hình được đào tạo trước là một cách tiếp cận tuyệt vời khi bạn bị hạn chế về thời gian hoặc số lượng dữ liệu được gắn nhãn. Bạn có thể sử dụng các mạng thần kinh tiên tiến được đào tạo trước như ResNet để trích xuất các tính năng bậc cao từ hình ảnh theo cách có thể mở rộng, sau đó chuyển các tính năng này sang các mô hình ML truyền thống, chẳng hạn như hồi quy logistic hoặc rừng quyết định.
Đào tạo trên nút GPU: Đôi khi, vấn đề của bạn quá cụ thể về miền nên mô hình được đào tạo trước không phù hợp và bạn cần đào tạo mô hình DNN của riêng mình. Bạn có thể sử dụng các nút công nhân Spark để xử lý trước và cô đọng các tập dữ liệu lớn trước khi đào tạo DNN, sau đó cung cấp dữ liệu cho máy ảo GPU để đào tạo DNN tăng tốc và cuối cùng phát mô hình tới các nút công nhân để ghi điểm có thể mở rộng.
Đường ống xử lý hình ảnh có thể mở rộng: Để có quy trình xử lý hình ảnh hoàn chỉnh từ đầu đến cuối, tích hợp DNN là không đủ. Thông thường, bạn phải xử lý trước hình ảnh của mình để chúng có hình dạng và chuẩn hóa chính xác trước khi chuyển chúng sang mô hình DNN. Trong MMLSpark, bạn có thể sử dụng các phép biến đổi hình ảnh dựa trên OpenCV để đọc và chuẩn bị dữ liệu của mình.

Tìm hiểu chi tiết về nó tại đây.

Thông tin thêm về các chủ đề: Apache Spark, nhà khoa học dữ liệu, Thư viện máy học, microsoft, Thư viện ML của Microsoft

Pradeep Viswav

Chuyên gia phần mềm và dịch vụ

Pradeep là sinh viên tốt nghiệp Khoa học và Kỹ thuật Máy tính. Anh ấy cũng là Đối tác sinh viên của Microsoft. Hiện anh đang làm việc tại một công ty CNTT hàng đầu.