Работа с реальной проблемой в науке о данных

Работать с реальным набором данных не так просто, как мы видим во время обучения. Работать с данными Kaggle, данными Zindi очень просто по сравнению с получением данных самостоятельно.

Когда вы работаете с реальной проблемой, у вас не всегда есть готовый набор данных. Первым шагом здесь является анализ ваших данных. Данные поступают в разных форматах, поэтому у нас есть несколько методов интеллектуального анализа данных.

Сбор данных

Сбор данных — самая важная часть науки о данных, сбор данных играет большую роль в определении того, насколько хорошо идет анализ данных. Данные поступают в другом формате, например csv, тсв, xlsx, html и так далее.

Методы сбора данных

  • Интервью
  • Анкеты и опросы
  • Наблюдения
  • Фокус группы
  • Этнографии, устная история и тематические исследования
  • Документы и записи
  • Веб-скрейпинг

Вот ссылка, где вы можете прочитать больше о нескольких методах сбора данных

Очистка данных

После того, как вы подготовите свои данные, следующее, что вам нужно сделать, это очистить ваши данные. Очистка данных — это процесс выявления и удаления нежелательных наблюдений из данных. Процесс очистки данных может заключаться в удалении нежелательных наблюдений, удалении выбросов, заполнении отсутствующих строк, создании вычисляемого столбца, символов.

Определите свой вопрос

При анализе данных вопросы должны быть измеримыми, ясными и краткими. Вопросы должны быть разработаны, чтобы уточнить или опровергнуть потенциальное решение проблемы. В рекламной индустрии задают такие вопросы, как «Влияет ли возраст на количество людей, подписывающихся на эту услугу», «Как пол влияет на тип рекламы, которую они хотели бы видеть?». Это сделано для того, чтобы лучше понять решение, над которым мы работаем. Это может помочь нацелить людей, которые могут использовать определенный продукт, людей, которые могут подписаться на определенный канал.

Установить четкий приоритет измерения

Это может произойти двумя разными способами:

  • Решите, что измерять
  • Решите, как измерить.

Одной из ключевых проблем управления эффективностью является выбор того, что следует измерять. Приоритет здесь состоит в том, чтобы сосредоточиться на количественных факторах, которые четко связаны с движущими силами успеха в бизнесе.

Проанализируйте свои данные

С данными можно было манипулировать различными способами, например отображать их, создавать сводные таблицы, группировать по определенной категории. Такие инструменты, как панды, превосходить, картина, сила би очень полезны при анализе данных.

Интерпретировать результат

После анализа данных следующим шагом является интерпретация анализа, на этом этапе делаются выводы о том, неверна ли гипотеза или принята.

Вывод

Как видите, данные не всегда доступны. Вы должны быть осторожны с конфиденциальностью и лицензиями. Зашифруйте все личные данные перед отправкой для общественности, прочитайте robot.txt веб-сайтов перед очисткой, удалите все токены доступа или ключи, прежде чем делиться своим кодом, данными с общественностью.

Спасибо за чтение.

Ваше здоровье!

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *