Анализ настроений в Твиттере | Кодементор

Twitter — популярная социальная сеть, где пользователи могут делиться мыслями. Получение впечатления людей от твита на самом деле отличная идея. Я действительно могу узнать, что люди думают о конкретном бренде, знаменитости, личности.

Получение данных Twitter стало очень простым с помощью Twitter API, вы можете прочитать мою первую статью с женской публикацией UB. здесь о том, как настроить приложение Twitter и сгенерировать потребительский ключ, потребительский секрет, токен доступа и секрет токена доступа.

consumerKey = ‘XXXXXXXXXXXXXX’
consumerSecret = ‘XXXXXXXXXXXXXX’
accessToken = ‘XXXXXXXXXXXXXX’
accessTokenSecret = ‘XXXXXXXXXXXXXX’

Я буду использовать Tweepy для доступа к данным Twitter. Tweepy — это библиотека Python для доступа к Twitter API. Следующим шагом является аутентификация API. API аутентификации позволяет вам управлять всеми аспектами идентификации пользователя при использовании Auth0.

auth = tweepy.OAuthHandler(consumerKey, consumerSecret)
auth.set_access_token(accessToken, accessTokenSecret)
api = tweepy.API(auth)

Теперь вы можете получить доступ к данным Twitter; я буду использовать api.search() от Tweepy, чтобы получить мой поиск, я также использую модуль Cursor,tweepy.Cursor() обрабатывает нумерацию страниц, поэтому я могу указать количество твитов, которые я хочу получить.

tweets = tweepy.Cursor(api.search, q=’davido’).items(200)

Теперь, когда у меня есть готовые твиты, я могу получить несколько атрибутов из твита, я могу получить твиты из определенного региона, языка, времени создания твита. Что мне нужно для этого проекта, так это твиты, написанные на английском языке, я получаю текст твита, используя tweet.text.

Я могу начать предварительную обработку своего текста, применяя различные методы предварительной обработки, такие как токенизация и лемматизация. Вы можете проверить мою статью о текстовой обработке здесь. Я буду использовать NLTK для предварительной обработки. NLTK (набор инструментов для обработки естественного языка) — это инструмент для создания программ Python для работы с данными человеческого языка.

Первое, что я сделаю, это удалю ненужные символы с помощью выражения регулярного выражения, токенизирую данные, удалю общие слова и верну каждое слово к его корневому уровню, лемматизируя текст. Лемматизация — это процесс превращения текста в его корневое слово. Давайте посмотрим на наши чистые данные.


корень_текст

После получения наших данных нам нужно классифицировать твиты на положительные и отрицательные. В этой серии я буду использовать TextBlob для классификации твитов по разным настроениям (положительные, отрицательные). Texblob — это библиотека для обработки текстовых данных. Она предоставляет простой API для погружения в общие задачи обработки естественного языка.


классифицировать твиты на положительные и отрицательные

Теперь мы закончили с нашим анализом настроений, следующим шагом будет сохранение и чтение данных.

Отсюда мы можем визуализировать, я визуализирую, чтобы лучше понимать данные.

Вывод:

Спасибо за чтение, я люблю отзывы, пожалуйста, дайте мне знать, что вы думаете. Вы можете получить доступ к полному коду здесь.

Ресурсы:

Документация Tweepy — документация tweepy 3.5.0
_Изменить описание_tweepy.readthedocs.io

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *