Как и зачем я создал: проект парсинга веб-страниц для машинного обучения и визуализации данных
Обо мне
Я инженер-механик, увлекаюсь данными, машинным обучением, наукой о данных, искусственным интеллектом, визуализацией данных.
Проблема, которую я хотел решить
Эта модель была построена для того, чтобы решить проблему определения действительно хорошей (или даже безопасной) модели франшизы для инвестирования.
Что такое проект парсинга веб-страниц для машинного обучения и визуализации данных?
- Я создал проект веб-скрейпинга для машинного обучения и визуализации данных, поэтому в основном я сделал веб-скрейпинг на веб-сайте франшизы.
- Затем я применил машинное обучение, чтобы проверить, в какую модель франшизы стоит инвестировать.
- Итак, наконец, я сделал визуализацию данных в Power Bi, чтобы проанализировать все в диаграммах.
Стек технологий
Python: отличный инструмент для многих вещей, таких как просмотр веб-страниц, построение моделей машинного обучения и т. д.
HTML/CSS: сложно сделать глубокий веб-скрейпинг, не зная ни того, ни другого.
Power BI: на данный момент лучшее программное обеспечение для визуализации данных на рынке.
Процесс создания проекта парсинга веб-страниц для машинного обучения и визуализации данных
Это может показаться глупым вопросом, хотя у нас есть много применений для парсинга веб-страниц, поэтому я разобью по пунктам:
Компания или личные интересы.
МЛ
БИ
Компания: Первый пункт явно слишком общий, но давайте потренируем воображение. Что, если бы у каждой компании была возможность правильно очищать тонны данных из Интернета, например: компания электронной коммерции точно знает, как работает система Amazon, это, безусловно, будет большим преимуществом перед ее конкурентами, конечно, это зависит от сектора в которой работает компания.
Личный интерес: Представьте, что вы хотите купить дешевый билет на самолет в Лондон, как вам узнать лучшую цену, в какой день или час он будет доступен для продажи?
Определив цель/компанию/веб-сайт, вы можете построить свою модель с данными и ответами, которые вы получили, и открыть мир машинного обучения.
Зачем использовать BI-Business Intelligence после всей работы по очистке, построению модели машинного обучения (или даже запуску ее в производство) и уточнению модели? В большинстве случаев, конечно, если это не личный проект, вам придется показать, что вы сделали своему начальнику или тому, кого вы пытаетесь убедить в том, что ваша модель или идея хороши.
Итак, у нас есть несколько хороших вариантов визуализации данных, таких как power bi, looker, tableau и т. д.
Я рекомендую power bi, так как у него больше всего призов в соревнованиях по визуализации данных.
Проблемы, с которыми я столкнулся
сайты часто имеют плохую html конструкцию и структуру, т.к. они обычно не планируются, построение происходит по необходимости (как и города). Так много тегов, классов и т. д. плохо управляются, поэтому при парсинге этих тегов, классов или чего-либо внутри HTML вы столкнетесь с множеством проблем.
Например, веб-сайт с определенным продуктом может содержать четыре данных, например:
1 ) Цена
2) Запас
3) Цвет
4) Отзывы
Если тег запаса не заполнен, иногда у вас может быть вывод «Нет в наличии», но иногда вы можете иметь «Нет», потому что нет ничего похожего на то, что продукт никогда не существовал (только для целей html).
None для тега не вызывает ошибок во фреймворках, и это только первый шаг сложности.
В любом случае, в этом случае вы можете решить с помощью Try/Except в python.
Основные выводы
Веб-скрапинг очень полезен для роста компаний, любой, кто использует его с умом, наверняка получит большую прибыль по сравнению со своими конкурентами, но его также можно использовать в личных целях, например, просто для покупки самого дешевого билета на самолет.
Советы и советы
Если вы начинаете заниматься веб-скрейпингом, машинным обучением или визуализацией данных, я рекомендую сначала попробовать изучить Python или Power Bi, а затем перейти к моделям веб-скрейпинга/ML.
Потому что при просмотре веб-страниц вам требуются как минимум средние знания в python.
Заключительные мысли и следующие шаги
Первая часть этого проекта — веб-скрапинг.
Второй — машинное обучение, и, наконец, третий — визуализация через power bi.
Так что я продолжу этот проект.