Как и зачем я создал: проект парсинга веб-страниц для машинного обучения и визуализации данных

Обо мне

Я инженер-механик, увлекаюсь данными, машинным обучением, наукой о данных, искусственным интеллектом, визуализацией данных.

Проблема, которую я хотел решить

Эта модель была построена для того, чтобы решить проблему определения действительно хорошей (или даже безопасной) модели франшизы для инвестирования.

Что такое проект парсинга веб-страниц для машинного обучения и визуализации данных?

  1. Я создал проект веб-скрейпинга для машинного обучения и визуализации данных, поэтому в основном я сделал веб-скрейпинг на веб-сайте франшизы.
  2. Затем я применил машинное обучение, чтобы проверить, в какую модель франшизы стоит инвестировать.
  3. Итак, наконец, я сделал визуализацию данных в Power Bi, чтобы проанализировать все в диаграммах.

Стек технологий

  1. Python: отличный инструмент для многих вещей, таких как просмотр веб-страниц, построение моделей машинного обучения и т. д.

  2. HTML/CSS: сложно сделать глубокий веб-скрейпинг, не зная ни того, ни другого.

  3. Power BI: на данный момент лучшее программное обеспечение для визуализации данных на рынке.

Процесс создания проекта парсинга веб-страниц для машинного обучения и визуализации данных

Это может показаться глупым вопросом, хотя у нас есть много применений для парсинга веб-страниц, поэтому я разобью по пунктам:

  1. Компания или личные интересы.

  2. МЛ

  3. БИ

  4. Компания: Первый пункт явно слишком общий, но давайте потренируем воображение. Что, если бы у каждой компании была возможность правильно очищать тонны данных из Интернета, например: компания электронной коммерции точно знает, как работает система Amazon, это, безусловно, будет большим преимуществом перед ее конкурентами, конечно, это зависит от сектора в которой работает компания.

Личный интерес: Представьте, что вы хотите купить дешевый билет на самолет в Лондон, как вам узнать лучшую цену, в какой день или час он будет доступен для продажи?

  1. Определив цель/компанию/веб-сайт, вы можете построить свою модель с данными и ответами, которые вы получили, и открыть мир машинного обучения.

  2. Зачем использовать BI-Business Intelligence после всей работы по очистке, построению модели машинного обучения (или даже запуску ее в производство) и уточнению модели? В большинстве случаев, конечно, если это не личный проект, вам придется показать, что вы сделали своему начальнику или тому, кого вы пытаетесь убедить в том, что ваша модель или идея хороши.
    Итак, у нас есть несколько хороших вариантов визуализации данных, таких как power bi, looker, tableau и т. д.
    Я рекомендую power bi, так как у него больше всего призов в соревнованиях по визуализации данных.

Проблемы, с которыми я столкнулся

сайты часто имеют плохую html конструкцию и структуру, т.к. они обычно не планируются, построение происходит по необходимости (как и города). Так много тегов, классов и т. д. плохо управляются, поэтому при парсинге этих тегов, классов или чего-либо внутри HTML вы столкнетесь с множеством проблем.

Например, веб-сайт с определенным продуктом может содержать четыре данных, например:
1 ) Цена
2) Запас
3) Цвет
4) Отзывы

Если тег запаса не заполнен, иногда у вас может быть вывод «Нет в наличии», но иногда вы можете иметь «Нет», потому что нет ничего похожего на то, что продукт никогда не существовал (только для целей html).
None для тега не вызывает ошибок во фреймворках, и это только первый шаг сложности.

В любом случае, в этом случае вы можете решить с помощью Try/Except в python.

Основные выводы

Веб-скрапинг очень полезен для роста компаний, любой, кто использует его с умом, наверняка получит большую прибыль по сравнению со своими конкурентами, но его также можно использовать в личных целях, например, просто для покупки самого дешевого билета на самолет.

Советы и советы

Если вы начинаете заниматься веб-скрейпингом, машинным обучением или визуализацией данных, я рекомендую сначала попробовать изучить Python или Power Bi, а затем перейти к моделям веб-скрейпинга/ML.

Потому что при просмотре веб-страниц вам требуются как минимум средние знания в python.

Заключительные мысли и следующие шаги

Первая часть этого проекта — веб-скрапинг.
Второй — машинное обучение, и, наконец, третий — визуализация через power bi.

Так что я продолжу этот проект.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *