Microsoft kunngjør offentlig tilgjengelighet av to datavitenskapsverktøy
1 min. lese
Publisert på
Les vår avsløringsside for å finne ut hvordan du kan hjelpe MSPoweruser opprettholde redaksjonen Les mer
Dataforskere bruker en betydelig mengde tid på å skrive kode på å søke svar på spørsmålene nedenfor mesteparten av tiden.
- Hvordan ser dataene ut? Hva er skjemaet?
- Hva er kvaliteten på dataene? Hva er alvorlighetsgraden av manglende data?
- Hvordan er individuelle variabler fordelt? Trenger jeg å gjøre variabel transformasjon?
- Hvor relevante er dataene for maskinlæringsoppgaven? Hvor vanskelig er selve maskinlæringsoppgaven?
- Hvilke variabler er mest relevante for maskinlæringsmålet?
- Er det noe spesifikt klyngemønster i dataene?
- Hvordan vil ML-modeller på data prestere? Hvilke variabler er signifikante i modellene?
Mye av koden kan generaliseres til datavitenskapelige verktøy som kan gjenbrukes på tvers av prosjekter som hjelper dataforskere med å jobbe med spesifikke oppgaver i et prosjekt i en guidet modus, for å sikre konsistens og fullstendighet av de underliggende oppgavene. For å hjelpe dataforskere slipper Microsoft to datavitenskapsverktøy,
- Interaktiv datautforskning, analyse og rapportering (IDEAR), og
- Automatisert modellering og rapportering (AMAR).
Disse to verktøyene, som kjører i CRAN-R, kan nås fra denne GitHub-siden.
Les mer om disse verktøyene her..