Создавайте более точные модели дерева решений с Tsallis Entropy

Мы уже давно используем деревья решений для задач регрессии и классификации. В процессе обучения рост дерева зависит от критериев разделения после случайного выбора выборок и признаков из обучающих данных. Мы использовали индекс Джини или энтропию Шеннона в качестве критериев разделения методов, разработанных на основе дерева решений. И его хорошо принятые критерии принятия решений во времени и в разных областях.

Было высказано предположение, что выбор между индексом Джини и энтропией Шеннона не имеет существенного значения. На практике мы предпочитаем индекс Джини энтропии Шеннона, чтобы избежать логарифмических вычислений.

Самая методичная часть дерева решений — разбиение узлов. Мы можем понять критичность измерения, которое мы выбираем для расщепления. Индекс Джини сработал для большинства решений, но что плохого в том, чтобы получить дополнительные несколько баллов точности.

Ближайшей альтернативой индексу Джини и энтропии Шеннона является энтропия Тсаллиса. На самом деле Тсаллис не альтернатива, а родитель Джини и Энтропии. Посмотрим как —

Энтропия Тсаллиса

Формула для энтропии Тсаллиса выглядит следующим образом, где p(xi) — вероятность класса. Параметр настройки энтропии Тсаллиса обозначается q.

E_1.png

Для этого изображения не указан замещающий текст
Теперь отвечая на открытый вопрос, который у нас был ранее, о том, как Tsallis является родительским индексом для индекса Джини и энтропии Шеннона.

Энтропия Тсаллиса является обобщенной параметрической формой индекса Джини и энтропии. Если мы поместим значение q, приближающееся к 1, это приведет к энтропии Шеннона, как объяснено ниже:

E_2.png

Для этого изображения не указан замещающий текст
И если значение q равно 2, выражение представляет индекс Джини, как показано ниже:

E_3.png

Для этого изображения не указан замещающий текст
Хотя индекс Джини и энтропия Шеннона кажутся частными случаями энтропии Тсаллиса, в них есть небольшая загвоздка. Существует несходство в аддитивной природе мер. Индекс Джини и энтропия Шеннона являются аддитивными по своей природе, как представлено в следующем уравнении.

E_4.png

Для этого изображения не указан замещающий текст
В то время как энтропия Тсаллиса является псевдоаддитивной по своей природе, как указано ниже —

E_5.png

Для этого изображения не указан замещающий текст
Поскольку q относится к области реальных значений, поиск оптимального q для модели зависит от нескольких итераций. Не существует стандартного способа нахождения оптимального значения q, дающего максимальную точность. Обычно графики точности и сложности строятся для разных значений q, чтобы найти оптимальное. Это та часть, которая создает помеху в принятии энтропии Цаллиса, экстенсивного режима ее расчета.

Поскольку теперь мы разработали несколько способов ускорить такие итерационные процессы, мы можем двигаться вперед к адаптации энтропии Тсаллиса.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *