Простой способ получить данные с веб-страницы с помощью python
Можете ли вы угадать простой способ получения данных с веб-страницы? Это с помощью метода, называемого парсингом веб-страниц.
Если вы не знакомы с парсингом веб-страниц, вот объяснение:
«Веб-скрапинг — это программный метод извлечения информации с веб-сайтов».
«Веб-скрапинг фокусируется на преобразовании неструктурированных данных в Интернете, обычно в формате HTML, в структурированные данные, которые можно хранить и анализировать в центральной локальной базе данных или электронной таблице».
Некоторые веб-страницы облегчают вам жизнь, они предлагают что-то под названием API, они предлагают интерфейс, который вы можете использовать для загрузки данных. Такие веб-сайты, как Rotten Tomatoes и Twitter, предоставляют API для доступа к данным. Но если веб-страница не предоставляет API, вы можете использовать Python для сбора данных с этой веб-страницы.
Я буду использовать два модуля Python для очистки данных.
Итак, вы готовы очистить веб-страницу? Все, что вам нужно сделать, чтобы начать, это выполнить шаги, указанные ниже:
Понимание основ HTML
Скраппинг — это все о html-тегах. Поэтому вам нужно понимать html, чтобы парсить данные.
Это пример минимальной веб-страницы, определенной в HTML-тегах. Корневой тег, а затем у вас есть тег
,,,, и — это разные уровни заголовков.
Я рекомендую вам изучить веб-страницу и просмотреть ее исходный код, чтобы лучше понять html. Парсинг веб-страницы с помощью Beautiful Soup
,, и — это разные уровни заголовков.
Я рекомендую вам изучить веб-страницу и просмотреть ее исходный код, чтобы лучше понять html. Парсинг веб-страницы с помощью Beautiful Soup
и — это разные уровни заголовков.
Я рекомендую вам изучить веб-страницу и просмотреть ее исходный код, чтобы лучше понять html. Парсинг веб-страницы с помощью Beautiful Soup
Я рекомендую вам изучить веб-страницу и просмотреть ее исходный код, чтобы лучше понять html.
Парсинг веб-страницы с помощью Beautiful Soup
Я буду собирать данные с сайта bigdataexaminer.com. Я импортирую urllib2, красивый суп (bs4), Pandas и Numpy.
Что делает beautiful = urllib2.urlopen(url).read(), так это то, что он переходит на bigdataexaminer.com и получает весь HTML-текст. Затем я сохраняю его в переменной Beautiful.
Теперь мне нужно разобрать и очистить HTML-код. BeautifulSoup — действительно полезный модуль Python для анализа файлов HTML и XML. Beautiful Soup предоставляет объект BeautifulSoup, который представляет документ как вложенную структуру данных.
Приукрасить
Вы можете использовать функцию prettify() для отображения различных уровней HTML-кода.
Самый простой способ навигации по дереву синтаксического анализа — произнести имя нужного тега. Если вам нужен тэг
, просто скажите soap.h1.prettify(): Содержание
sup.tag.contents вернет содержимое тега в виде списка.
В[18] : суп.голова.содержимое
Следующая функция вернет заголовок, присутствующий внутри тега заголовка.
В[45] : x = суп.голова.название
Вне [45]: <название>название>
.string вернет строку, присутствующую внутри тега title эксперта больших данных. Поскольку у big dataexaminer.com нет заголовка, возвращается значение None.
Потомки
Потомки позволяют вам рекурсивно перебирать все дочерние теги.
Вы также можете посмотреть строки, используя генератор .strings
В[56]: суп.get_text()
извлекает весь текст из Big data examer.com
Найти все
Вы можете использовать Find_all(), чтобы найти все теги «a» на странице.
Чтобы получить первые четыре тега «a», вы можете использовать атрибут limit.
Чтобы найти определенный текст на веб-странице, вы можете использовать текстовый атрибут вместе с найти все. Здесь я ищу термин «данные» в эксперте по большим данным.
Дайте мне атрибут второго тега «а» в экзаменаторе больших данных.
Вы также можете использовать понимание списка, чтобы получить атрибуты первых 4 тегов a в экзаменаторе больших данных.
Вывод
Исследователь данных должен знать, как собирать данные с веб-сайтов, и я надеюсь, что эта статья оказалась полезной для вас как введение в парсинг веб-страниц с помощью Python. Помимо прекрасного супа, есть еще одна полезная библиотека Python, которая называется шаблон для парсинга веб-страниц. Я также нашел хороший учебник по очистке веб-страниц с использованием Python.
Вместо того, чтобы идти по сложному пути парсинга веб-страниц с использованием собственной установки, созданной вами с нуля, вы всегда можете безопасно доверить службе парсинга веб-страниц PromtCloud полное владение вашим проектом.
Веб-скрапинг — это не только «кодирование» как таковое, вам нужно разбираться в кодировании, интернет-протоколах, хранении баз данных, запросах на обслуживание, очистке кода, преобразовании неструктурированных данных в структурированные данные и даже в некотором машинном обучении в наши дни.