Как понять конвейер науки о данных
Прежде чем мы начнем устанавливать какое-либо программное обеспечение, нам нужно понять повторяемый набор шагов.
которые мы будем использовать для анализа данных
Как это сделать…
Следующие пять шагов являются ключевыми для анализа данных:
- Приобретение: Первым шагом в конвейере является получение данных из различных источников, включая реляционные базы данных, NoSQL и хранилища документов, веб-скрапинг и распределенные базы данных, такие как HDFS на платформе Hadoop, RESTful API, плоские
файлы или, надеюсь, это не так, PDF-файлы.
2.Исследование и понимание: Второй шаг — прийти к пониманию данных, которые вы будете использовать, и того, как они были собраны; это часто требует значительного
исследование.
Мунгинг, споры и манипуляциин: этот шаг часто является наиболее трудоемким и важным шагом в конвейере. Данные почти никогда не бывают нужными
форма для нужного анализа.Анализ и моделирование: это забавная часть, когда ученый данных изучает статистические отношения между переменными в данных и вытаскивает свой набор приемов машинного обучения для кластеризации, категоризации или классификации данных и создания
прогнозные модели, позволяющие заглянуть в будущее.
- Общение и операционализация: В конце конвейера нам нужно вернуть данные в убедительной форме и структуре, иногда самим себе, чтобы сообщить следующую итерацию, а иногда совершенно другой аудитории. Создаваемые продукты данных могут быть простым одноразовым отчетом или масштабируемым веб-продуктом, который будет использоваться
интерактивно миллионами.
Как это работает… Хотя предыдущий список является пронумерованным, не думайте, что каждый проект будет строго
придерживаться этой точной линейной последовательности. Фактически, гибкий специалисты по данным знают, что этот процесс
очень итеративным.
Часто,исследование данных информирует о том, как данные должны быть очищены, что затем позволяет проводить дополнительные исследования и более глубокое понимание. Какой из этих шагов будет первым, часто зависит от вашего первоначального знакомства с данными. Если вы работаете с системами, производящими и собирающими данные каждый день, начальный этап исследования и понимания данных может быть
довольно короткий, если только что-то не так с производственной системой.
И наоборот, если вам вручают набор данных без справочной информации, этап исследования и понимания данных
может потребоваться некоторое время
Как вы, вероятно, уже слышали или читали, обработка данных или споры часто могут занимать 80 или более процентов времени и ресурсов проекта. В идеальном мире нам всегда давали бы
идеальные данные.
К сожалению, это никогда не происходит, и количество проблем с данными, которые вы столкнетесь, практически бесконечно. Иногда словарь данных может измениться или может отсутствовать,
поэтому понять значения полей просто невозможно.
Некоторые поля данных могут содержать мусор или значения, которые были заменены другим полем. Обновление веб-приложения, прошедшее тестирование, может привести к небольшой ошибке, препятствующей сбору данных, что приведет к потере нескольких сотен тысяч строк. Если что-то и может пойти не так, то, вероятно, в какой-то момент это произошло; в
данные, которые вы анализируете, представляют собой сумму всех этих ошибок.
Последний шаг, коммуникация и операционализация, абсолютно критический, но с тонкостями
которые часто не оцениваются в полной мере.
Обратите внимание, что последний шаг в конвейере не называется визуализацией данных и не вращается вокруг простого создания чего-то красивого и/или привлекательного, что само по себе является сложной темой. Вместо этого визуализация данных станет частью более крупной истории, которую мы будем сплетать вместе с данными.
Некоторые идут еще дальше и говорят, что конечным результатом всегда является спор, поскольку нет смысла предпринимать все эти усилия, если вы не пытаетесь убедить кого-то или какую-то группу в определенной точке зрения.