Microsoft annonce la disponibilité publique de deux utilitaires de science des données
1 minute. lis
Publié le
Lisez notre page de divulgation pour savoir comment vous pouvez aider MSPoweruser à soutenir l'équipe éditoriale En savoir plus
Les scientifiques des données passent la plupart du temps une quantité importante de temps à écrire du code à la recherche de réponses aux questions ci-dessous.
- À quoi ressemblent les données ? C'est quoi le schéma ?
- Quelle est la qualité des données ? Quelle est la gravité des données manquantes ?
- Comment les variables individuelles sont-elles distribuées ? Dois-je faire une transformation de variable ?
- Quelle est la pertinence des données pour la tâche d'apprentissage automatique ? Quelle est la difficulté de la tâche d'apprentissage automatique elle-même ?
- Quelles variables sont les plus pertinentes pour la cible de machine learning ?
- Existe-t-il un modèle de regroupement spécifique dans les données ?
- Comment les modèles ML sur les données fonctionneront-ils ? Quelles variables sont significatives dans les modèles ?
Une grande partie du code peut être généralisée dans des utilitaires de science des données qui peuvent être réutilisés dans tous les projets, aidant les scientifiques des données à travailler sur des tâches spécifiques dans un projet en mode guidé, garantissant la cohérence et l'exhaustivité des tâches sous-jacentes. Pour aider les scientifiques des données, Microsoft publie deux utilitaires de science des données,
- Exploration, analyse et création de rapports interactifs sur les données (IDEAR) et
- Modélisation et création de rapports automatisés (AMAR).
Ces deux utilitaires, qui s'exécutent dans CRAN-R, sont accessibles depuis ce site GitHub.
En savoir plus sur ces utilitaires ici.