Microsoft thông báo về sự sẵn có công khai của hai tiện ích khoa học dữ liệu

Biểu tượng thời gian đọc 1 phút đọc


Bạn đọc giúp đỡ ủng hộ MSpoweruser. Chúng tôi có thể nhận được hoa hồng nếu bạn mua thông qua các liên kết của chúng tôi. Biểu tượng chú giải công cụ

Đọc trang tiết lộ của chúng tôi để tìm hiểu cách bạn có thể giúp MSPoweruser duy trì nhóm biên tập Tìm hiểu thêm

cortana-Intelligence-suite

Các nhà khoa học dữ liệu dành rất nhiều thời gian để viết mã tìm kiếm câu trả lời cho các câu hỏi bên dưới hầu hết thời gian.

  • Dữ liệu trông như thế nào? Lược đồ là gì?
  • Chất lượng của dữ liệu là gì? Mức độ nghiêm trọng của việc thiếu dữ liệu là gì?
  • Các biến riêng lẻ được phân phối như thế nào? Tôi có cần thực hiện chuyển đổi biến không?
  • Mức độ liên quan của dữ liệu với nhiệm vụ học máy? Bản thân nhiệm vụ học máy khó đến mức nào?
  • Biến nào có liên quan nhất đến mục tiêu học máy?
  • Có bất kỳ mẫu phân cụm cụ thể nào trong dữ liệu không?
  • Các mô hình ML trên dữ liệu sẽ hoạt động như thế nào? Những biến nào có ý nghĩa trong các mô hình?

Phần lớn mã có thể được tổng quát hóa thành các tiện ích khoa học dữ liệu có thể được sử dụng lại trong các dự án giúp các nhà khoa học dữ liệu làm việc trên các nhiệm vụ cụ thể trong một dự án ở chế độ được hướng dẫn, đảm bảo tính nhất quán và đầy đủ của các nhiệm vụ cơ bản. Để giúp các nhà khoa học dữ liệu, Microsoft đang phát hành hai tiện ích khoa học dữ liệu,

  1. Khám phá, phân tích và báo cáo dữ liệu tương tác (IDEAR) và
  2. Lập mô hình và báo cáo tự động (AMAR).

Hai tiện ích này, chạy trong CRAN-R, có thể được truy cập từ trang GitHub này.

Đọc thêm về các tiện ích này tại đây.

Thông tin thêm về các chủ đề: phân tích, Bộ thông minh Cortana, Thăm dò dữ liệu, Khoa học dữ liệu, học máy, microsoft