Когда традиционный алгоритм классификации не работает?

Одна из самых интригующих проблем машинного обучения, с которой я столкнулся, возникла во время моего третьего года обучения в колледже, когда стартап под названием Quantta Analytics представил нам постановку задачи о компании по распределению электроэнергии, которая наблюдала значительную потерю доходов в течение периода время. Потеря дохода была в основном из-за возможного хищения электроэнергии злоумышленниками. Энергетическая компания прибегала к периодической бдительности потребителей путем отбора проб и создание базы данных только мошеннических клиентов пресечь эту практику. Компания хотела, чтобы процесс бдительности был более надежным и эффективным. Следовательно, цель постановки задачи состояла в том, чтобы развернуть алгоритм машинного обучения для предоставления списка клиентов, которые могут совершить мошенничество. Таким образом, проблема фактически была проблемой классификации ( с уловом! ) где, учитывая атрибуты клиента, мы должны были предсказать, где он, вероятно, совершит кражу электроэнергии или нет.

Чтобы оценить постановку задачи, давайте сначала рассмотрим известные известные алгоритмы классификации. Проблемы классификации пытаются решить ситуацию с двумя или несколькими классами. Цель состоит в том, чтобы различать тестовые данные между несколькими классами, используя обучающие данные, которые содержат образцы из всех возможных классов и тренировочные данные имеют разумный уровень баланса между различными классами. Теперь возникает вопрос — При каких уровнях дисбаланса использование традиционных классификаторов становится бесполезным?

Эта бумага провел наблюдения, проводя эксперименты с различными наборами данных из хранилища UCI и отслеживая эффективность традиционных классификаторов. Я перечисляю наиболее важные наблюдения, изложенные в статье:

Производительность традиционных классификаторов начинает снижаться, когда увеличивается дисбаланс между выходными классами и снижение становится заметным при соотношении 1:2,8.

В соотношении 1:10 производительность традиционных классификаторов настолько низкая, что им больше нельзя доверять.

На рисунке ниже показано начальное соотношение классов, присутствующих в наборе данных UCI, и соотношение, при котором производительность бинарных классификаторов начинает ухудшаться.

Таблица производительности алгоритма бинарной классификации

Теперь возникают вопросы: что, если у нас есть обучающие данные с дисбалансом между классами или данные только из одного класса? Зачем нам изучать такой случай? И есть ли ситуации, когда такие данные доступны?

Чтобы сначала ответить на последнее, да, есть много ситуаций, когда у нас есть данные только из одного класса. Рассмотрим случай с атомной электростанцией. У нас есть измерение условий установки, таких как температура, скорость реакции, когда установка находится в рабочем состоянии. Можно ли получить такие измерения в случае аварии? Нет. Теперь, если мы хотим спрогнозировать возможный сценарий поломки завода. Из приведенных выше наблюдений ясно, что традиционные алгоритмы классификации не будут работать хорошо. Некоторые другие случаи:

Обнаружение разлива нефти

В вычислительной биологии для предсказания мишени гена микроРНК

Есть 2 метода для решения случая, когда у нас есть данные только из одного класса:

Первый метод представляет собой очевидный подход к созданию искусственного второго класса и использованию традиционных алгоритмов классификации.

Второй — модифицировать существующие алгоритмы классификации для изучения данных только одного класса. Эти алгоритмы называются «алгоритмами классификации с одним классом» и включают в себя SVM с одним классом, K-средние с одним классом, K-ближайшие соседи с одним классом и гауссиан с одним классом.

Я подробно расскажу о двух вышеупомянутых методах в своем следующем сообщении в блоге. Большое спасибо, что зашли так далеко.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *