Обработка естественного языка, о, я сбился с пути — часть 1

Всем привет,
Каждый, кто работает с технологиями, знает радость и боль быстрых обновлений/исследований в этой области.

Неважно, являетесь ли вы разработчиком, которому нужно изучать новые фреймворки каждые пару недель, специалистом по данным, который должен знать, как реализовать последние документы по глубокому обучению, или финансовым менеджером, которому необходимо знать последние способы лучше управлять активами — в любом случае. Дело в том, что вам нужно много читать и многому учиться, чтобы оставаться на вершине.
Область обработки естественного языка сегодня находится в огне — сотни исследовательских работ, выпуски кода GitHub, обновления инфраструктуры появляются каждую неделю.

Этот пост является первой частью серии постов, которые я буду размещать вместе с ресурсами, чтобы изучить их все. В основном я сосредоточусь на том, как Deep Learning используется для того, чтобы машины лучше понимали язык.

слова векторов

Векторы слов — это просто векторы чисел, которые представляют значение слова. По сути, традиционные подходы к НЛП, такие как однократное кодирование, не фиксируют синтаксические (структура) и семантические (значение) отношения между наборами слов и, следовательно, представляют язык очень наивным способом. как мы (я имею в виду машины) смотрим на слова.

Это все цифры, все остальное — иллюзия, — Data Scientist

  • Распределительная гипотеза :- Слова с похожими значениями, как правило, встречаются в похожем контексте.

  • Вложения слов предварительно обучаются путем оптимизации вспомогательной цели в большом немаркированном корпусе, например, предсказание слова на основе его контекста.

  • Векторы слов могут фиксировать общую синтаксическую и семантическую информацию.

  • Миколов и др. предложил модели непрерывного набора слов (CBOW) и пропуска грамм для эффективного построения высококачественных распределенных векторных представлений.
    WordVectors демонстрируют композиционность, т. е. добавление двух векторов слов приводит к вектору, который представляет собой семантический состав отдельных слов, например, «человек» + «королевский» = «король».

    • [CBOW]
    • [Skip — Gram]
    • [Glove]
  • Перчатка Пеннингтон и др. — еще один известный метод встраивания слов, который, по сути, является моделью, основанной на подсчете. Здесь матрица подсчета совпадений слов предварительно обрабатывается путем нормализации подсчетов и операции логарифмического сглаживания. Затем эта матрица факторизуется для получения представлений с более низкими размерностями, что достигается путем минимизации «потери при реконструкции».

  • В чем разница между WordVectors и Glove?

  • Ограничения :-

    • Неспособность представлять фразы :-
    • Вложения, основанные только на небольшом окне окружающих слов :-
      • Эти вложения группируют семантически похожие слова, которые имеют противоположные полярности настроений (например, хорошие и плохие). Это может быть проблематично в задаче семантического сходства.
      • Встраивание слов, специфичных для настроения (ССВЕ): —
    • Зависит от использования приложения:-
      • Использование помеченных данных :-
      • Отрицательная выборка :-
    • полисемия :- сосуществование многих возможных значений слова или фразы.
      • Например: банк означает учреждение, где мы храним деньги, или берег реки.
      • В недавней работе Upadhyay et al. предложил новаторский способ решения этого дефицита. Авторы использовали многоязычные параллельные данные для изучения встраивания многозначных слов. Например, английское слово «банк» при переводе на французский язык содержит два разных слова: «банк» и «банк», обозначающие финансовое и географическое значение соответственно. Такая многоязычная информация о распределении помогла им учесть полисемию.

Я надеюсь, вам понравился всесторонний обзор различных методов и того, что происходит в векторах слов. WordVectors — это просто ступенька, но важная 😉

Отдельное спасибо :-
Т. Янг и др.

Аншик

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *