Простой способ получить данные с веб-страницы с помощью python

Можете ли вы угадать простой способ получения данных с веб-страницы? Это с помощью метода, называемого парсингом веб-страниц.
Если вы не знакомы с парсингом веб-страниц, вот объяснение:
«Веб-скрапинг — это программный метод извлечения информации с веб-сайтов».
«Веб-скрапинг фокусируется на преобразовании неструктурированных данных в Интернете, обычно в формате HTML, в структурированные данные, которые можно хранить и анализировать в центральной локальной базе данных или электронной таблице».
Некоторые веб-страницы облегчают вам жизнь, они предлагают что-то под названием API, они предлагают интерфейс, который вы можете использовать для загрузки данных. Такие веб-сайты, как Rotten Tomatoes и Twitter, предоставляют API для доступа к данным. Но если веб-страница не предоставляет API, вы можете использовать Python для сбора данных с этой веб-страницы.

Я буду использовать два модуля Python для очистки данных.

Итак, вы готовы очистить веб-страницу? Все, что вам нужно сделать, чтобы начать, это выполнить шаги, указанные ниже:

Понимание основ HTML
Скраппинг — это все о html-тегах. Поэтому вам нужно понимать html, чтобы парсить данные.
Это пример минимальной веб-страницы, определенной в HTML-тегах. Корневой тег, а затем у вас есть тег. Страница включает заголовок страницы, а также может содержать другую метаинформацию, например ключевые слова. Тег включает в себя фактическое содержимое страницы.

,

,

,

,

и

— это разные уровни заголовков.
Я рекомендую вам изучить веб-страницу и просмотреть ее исходный код, чтобы лучше понять html.

Парсинг веб-страницы с помощью Beautiful Soup

Я буду собирать данные с сайта bigdataexaminer.com. Я импортирую urllib2, красивый суп (bs4), Pandas и Numpy.

Что делает beautiful = urllib2.urlopen(url).read(), так это то, что он переходит на bigdataexaminer.com и получает весь HTML-текст. Затем я сохраняю его в переменной Beautiful.

Теперь мне нужно разобрать и очистить HTML-код. BeautifulSoup — действительно полезный модуль Python для анализа файлов HTML и XML. Beautiful Soup предоставляет объект BeautifulSoup, который представляет документ как вложенную структуру данных.

Приукрасить

Вы можете использовать функцию prettify() для отображения различных уровней HTML-кода.
Самый простой способ навигации по дереву синтаксического анализа — произнести имя нужного тега. Если вам нужен тэг

, просто скажите soap.h1.prettify():

Содержание

sup.tag.contents вернет содержимое тега в виде списка.
В[18] : суп.голова.содержимое
Следующая функция вернет заголовок, присутствующий внутри тега заголовка.
В[45] : x = суп.голова.название
Вне [45]: <название>
.string вернет строку, присутствующую внутри тега title эксперта больших данных. Поскольку у big dataexaminer.com нет заголовка, возвращается значение None.

Потомки
Потомки позволяют вам рекурсивно перебирать все дочерние теги.
Вы также можете посмотреть строки, используя генератор .strings
В[56]: суп.get_text()
извлекает весь текст из Big data examer.com

Найти все

Вы можете использовать Find_all(), чтобы найти все теги «a» на странице.
Чтобы получить первые четыре тега «a», вы можете использовать атрибут limit.
Чтобы найти определенный текст на веб-странице, вы можете использовать текстовый атрибут вместе с найти все. Здесь я ищу термин «данные» в эксперте по большим данным.

Дайте мне атрибут второго тега «а» в экзаменаторе больших данных.
Вы также можете использовать понимание списка, чтобы получить атрибуты первых 4 тегов a в экзаменаторе больших данных.

Вывод

Исследователь данных должен знать, как собирать данные с веб-сайтов, и я надеюсь, что эта статья оказалась полезной для вас как введение в парсинг веб-страниц с помощью Python. Помимо прекрасного супа, есть еще одна полезная библиотека Python, которая называется шаблон для парсинга веб-страниц. Я также нашел хороший учебник по очистке веб-страниц с использованием Python.

Вместо того, чтобы идти по сложному пути парсинга веб-страниц с использованием собственной установки, созданной вами с нуля, вы всегда можете безопасно доверить службе парсинга веб-страниц PromtCloud полное владение вашим проектом.

Веб-скрапинг — это не только «кодирование» как таковое, вам нужно разбираться в кодировании, интернет-протоколах, хранении баз данных, запросах на обслуживание, очистке кода, преобразовании неструктурированных данных в структурированные данные и даже в некотором машинном обучении в наши дни.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *