Microsoft объявляет о публичной доступности двух утилит для обработки данных
1 минута. читать
Опубликовано
Прочтите нашу страницу раскрытия информации, чтобы узнать, как вы можете помочь MSPoweruser поддержать редакционную команду. Читать далее
Исследователи данных тратят значительное количество времени на написание кода в поисках ответов на приведенные ниже вопросы.
- Как выглядят данные? Что за схема?
- Каково качество данных? Какова серьезность отсутствия данных?
- Как распределяются отдельные переменные? Нужно ли делать преобразование переменных?
- Насколько важны данные для задачи машинного обучения? Насколько сложна сама задача машинного обучения?
- Какие переменные наиболее важны для цели машинного обучения?
- Есть ли какой-то конкретный шаблон кластеризации данных?
- Как модели машинного обучения будут работать с данными? Какие переменные значимы в моделях?
Большую часть кода можно обобщить в утилиты обработки данных, которые можно повторно использовать в проектах, помогая специалистам по данным работать над конкретными задачами в проекте в управляемом режиме, обеспечивая согласованность и полноту базовых задач. Чтобы помочь специалистам по данным, Microsoft выпускает две утилиты для обработки данных.
- Интерактивное исследование данных, анализ и отчетность (IDEAR) и
- Автоматизированное моделирование и отчетность (AMAR).
Эти две утилиты, работающие в CRAN-R, доступны из этот сайт GitHub.
Подробнее об этих утилитах здесь.