Представляем быстрый текст | Кодементор

Узнайте о fastText в этой статье Джойдипа Бхаттачарджи, главного инженера Nineleaps Technology Solutions, который в основном разрабатывает интеллектуальные системы, способные анализировать и обрабатывать данные для решения сложных рабочих задач.

Fasttext, как программный инструмент, представляет собой объединение передовых алгоритмов обработки естественного языка. Это библиотека, которая помогает вам генерировать эффективные представления слов и дает вам поддержку классификации текста из коробки. FastText утверждает, что он лучше с точки зрения еще неизвестных слов и может работать с разными языками, для которых могут быть недоступны достаточно большие источники данных и корпуса.

В современном взаимосвязанном мире множество текстовых данных генерируется по всему миру. Эта текстовая информация включает описания вещей. Возьмем, к примеру, людей, которые пишут о продуктах в обзорах на Amazon, или людей, которые пишут о своих мыслях в своих постах на Facebook. Обработка естественного языка (NLP) — это применение машинного обучения и других вычислительных методов для понимания и представления устного и письменного текста. Ниже перечислены основные проблемы, которые НЛП пытается решить:

• Моделирование темы: В основном, тексты имеют дело с темой. Тематическое моделирование часто используется для определения скрытых структур или «абстрактных тем», которые могут присутствовать в наборе документов. Эффективным применением тематического моделирования было бы подведение итогов. Например, юридические документы довольно сложны и многословны, и, следовательно, подобные системы помогут читателю понять суть документа и высокоуровневое описание того, что происходит.
• Классификация предложений. Классификация текста является важной задачей, когда мы можем брать фрагменты текста и классифицировать их по различным меткам. Например, система должна быть в состоянии правильно классифицировать что-то вроде «Шахрукх Кхан загорелся на мероприятии в Дубае» как относящееся к ярлыку «Развлечения», а другое предложение «Пожар вспыхнул в магазине напротив Breach Candy Hospital» как относящееся к категории «Развлечение». в категории «Новости».
• Машинный перевод: общее количество языков в мире составляет не менее 3000. Около половины из этих языков имеют менее 10 000 носителей, а около 25 процентов — менее 1 000 носителей. Следовательно, мы можем себе представить, что многие языки умирают, и когда язык умирает, мы все вместе теряем большую часть нашего культурного наследия. Лучшая система перевода на данный момент создана Google, но на момент написания она охватывает только 103 языка. предсказательная сила.
• Системы вопросов и ответов (QA). Основное внимание здесь уделяется созданию системы, которая автоматически отвечает на вопросы, основанные на вопросах, которые люди задают на естественном языке. Системы контроля качества, которые могут быть построены на основе систем с закрытыми доменами, могут быть очень точными, поскольку они могут извлекать документы и текст, которые имеют отношение к элементу поиска.
• Анализ настроений. Анализ настроений заключается в понимании потребностей и намерений, которые разделяют пользователи, говоря о чем-либо. Люди делают выбор на основе эмоций. Потребности многих людей в значительной степени эмоциональны, и, как правило, люди очень откровенны в своих чувствах. Создание системы, учитывающей это, всегда добавит большую ценность бизнесу.
• Извлечение событий. Примеры использования связаны с хранением большого количества данных в виде текста. Например, некоторый юридический текст может описывать событие «преступление», за которым следует событие «расследование», за которым следует несколько событий «слушания». Сами события могут быть вложены таким образом, что события «слушания» могут состоять из событий «представления аргументов» и событий «представления доказательств».
• Обнаружение именованных сущностей: при построении этой системы основное внимание уделяется извлечению и классификации сущностей или конкретной информации в соответствии с некоторыми предопределенными категориями, такими как люди, организация, география и т. д. Например, если мы возьмем следующий текст: «Мы привыкли к острой пище здесь, в Южном Техасе», мы можем понять, что «покупатель» любит «острую пищу», а его «география» — Южный Техас. Если из данных получены достаточные доказательства того, что покупатели в Южном Техасе любят острую пищу, им можно продавать больше таких продуктов.
• Обнаружение взаимосвязи: система обнаружения взаимосвязи анализирует текст и идентифицирует фокусы и агентов, а затем пытается найти взаимосвязь между ними. Например, предложение «У Майка грипп» можно преобразовать в Person-[RELATION:HAS]->Болезнь. Затем эти отношения можно исследовать в бизнес-контексте для создания интеллектуальных приложений.

В предыдущем списке есть много проблем, на которые нацелены специалисты НЛП. В зависимости от варианта использования вы можете выбрать любую из этих проблем и попытаться решить их в своем домене. Проблема со многими предыдущими подходами и методами моделирования заключается в том, что НЛП требует большого количества текстовых данных, а в данных содержится много контекстной информации. Для вычислительной модели довольно сложно эффективно понять все данные.

Модели НЛП до сих пор ориентированы только на английский язык, поскольку текстовые данные доступны на английском языке. Но только 20 процентов населения мира говорит по-английски, и даже среди них большинство не являются носителями языка. Самым большим препятствием для создания неанглоязычных моделей НЛП является отсутствие данных. Следовательно, нам отчаянно нужны библиотеки, которые могут создавать модели, даже когда данные ограничены. FastText может изменить все это. Команда fastText опубликовала предварительно обученные векторы слов для 294 языков. К тому времени, когда книга будет опубликована, в нее будет добавлено больше языков.

Fasttext легкий и не требует больших программных или аппаратных требований. В отличие от других инструментов машинного обучения, вам не нужны массивные кластеры графических процессоров для запуска fasttext. Fasttext работает на процессоре. Вы можете сжимать модели до размеров 1-2 МБ и загружать их на небольшие устройства, такие как мобильные или RPI. Он работает на всех популярных дистрибутивах, таких как Linux, Mac или Windows.

Однако у fastText есть свои проблемы:
• Алгоритмы в fasttext являются передовыми, и разработчики могут не захотеть переходить на новые алгоритмы.
• Программное обеспечение Fasttext в основном основано на командной строке, и немногие исследователи разбираются в командной строке.
• Отсутствуют инструменты интеграции с другими популярными инструментами машинного обучения.
Заглядывая в будущее, мы знаем, что векторы слов — это удивительно мощная концепция и технология, которая позволит совершить значительный прорыв в приложениях и исследованиях НЛП. Они подчеркивают силу усвоенных представлений входных данных в скрытых слоях. Создание лучших приложений NLP неизбежно требует хорошего понимания векторов слов, и fasttext очень поможет в укреплении этого понимания.

Если вы нашли эту статью интересной, вы можете изучить Краткое руководство по быстрой работе с текстом для эффективного быстрого представления текста и классификации с помощью библиотеки Facebook fastText. Краткое руководство по быстрой работе с текстом является идеальным введением в fastText. Вы можете научиться создавать модели fastText из командной строки без необходимости написания сложного кода.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *