Анализ настроений в Твиттере | Кодементор
Twitter — популярная социальная сеть, где пользователи могут делиться мыслями. Получение впечатления людей от твита на самом деле отличная идея. Я действительно могу узнать, что люди думают о конкретном бренде, знаменитости, личности.
Получение данных Twitter стало очень простым с помощью Twitter API, вы можете прочитать мою первую статью с женской публикацией UB. здесь о том, как настроить приложение Twitter и сгенерировать потребительский ключ, потребительский секрет, токен доступа и секрет токена доступа.
consumerKey = ‘XXXXXXXXXXXXXX’
consumerSecret = ‘XXXXXXXXXXXXXX’
accessToken = ‘XXXXXXXXXXXXXX’
accessTokenSecret = ‘XXXXXXXXXXXXXX’
Я буду использовать Tweepy для доступа к данным Twitter. Tweepy — это библиотека Python для доступа к Twitter API. Следующим шагом является аутентификация API. API аутентификации позволяет вам управлять всеми аспектами идентификации пользователя при использовании Auth0.
auth = tweepy.OAuthHandler(consumerKey, consumerSecret)
auth.set_access_token(accessToken, accessTokenSecret)
api = tweepy.API(auth)
Теперь вы можете получить доступ к данным Twitter; я буду использовать api.search()
от Tweepy, чтобы получить мой поиск, я также использую модуль Cursor,tweepy.Cursor()
обрабатывает нумерацию страниц, поэтому я могу указать количество твитов, которые я хочу получить.
tweets = tweepy.Cursor(api.search, q=’davido’).items(200)
Теперь, когда у меня есть готовые твиты, я могу получить несколько атрибутов из твита, я могу получить твиты из определенного региона, языка, времени создания твита. Что мне нужно для этого проекта, так это твиты, написанные на английском языке, я получаю текст твита, используя tweet.text
.
Я могу начать предварительную обработку своего текста, применяя различные методы предварительной обработки, такие как токенизация и лемматизация. Вы можете проверить мою статью о текстовой обработке здесь. Я буду использовать NLTK для предварительной обработки. NLTK (набор инструментов для обработки естественного языка) — это инструмент для создания программ Python для работы с данными человеческого языка.
Первое, что я сделаю, это удалю ненужные символы с помощью выражения регулярного выражения, токенизирую данные, удалю общие слова и верну каждое слово к его корневому уровню, лемматизируя текст. Лемматизация — это процесс превращения текста в его корневое слово. Давайте посмотрим на наши чистые данные.
корень_текст
После получения наших данных нам нужно классифицировать твиты на положительные и отрицательные. В этой серии я буду использовать TextBlob для классификации твитов по разным настроениям (положительные, отрицательные). Texblob — это библиотека для обработки текстовых данных. Она предоставляет простой API для погружения в общие задачи обработки естественного языка.
классифицировать твиты на положительные и отрицательные
Теперь мы закончили с нашим анализом настроений, следующим шагом будет сохранение и чтение данных.
Отсюда мы можем визуализировать, я визуализирую, чтобы лучше понимать данные.
Вывод:
Спасибо за чтение, я люблю отзывы, пожалуйста, дайте мне знать, что вы думаете. Вы можете получить доступ к полному коду здесь.
Ресурсы:
Документация Tweepy — документация tweepy 3.5.0
_Изменить описание_tweepy.readthedocs.io