Создавайте более точные модели дерева решений с Tsallis Entropy
Мы уже давно используем деревья решений для задач регрессии и классификации. В процессе обучения рост дерева зависит от критериев разделения после случайного выбора выборок и признаков из обучающих данных. Мы использовали индекс Джини или энтропию Шеннона в качестве критериев разделения методов, разработанных на основе дерева решений. И его хорошо принятые критерии принятия решений во времени и в разных областях.
Было высказано предположение, что выбор между индексом Джини и энтропией Шеннона не имеет существенного значения. На практике мы предпочитаем индекс Джини энтропии Шеннона, чтобы избежать логарифмических вычислений.
Самая методичная часть дерева решений — разбиение узлов. Мы можем понять критичность измерения, которое мы выбираем для расщепления. Индекс Джини сработал для большинства решений, но что плохого в том, чтобы получить дополнительные несколько баллов точности.
Ближайшей альтернативой индексу Джини и энтропии Шеннона является энтропия Тсаллиса. На самом деле Тсаллис не альтернатива, а родитель Джини и Энтропии. Посмотрим как —
Энтропия Тсаллиса
Формула для энтропии Тсаллиса выглядит следующим образом, где p(xi) — вероятность класса. Параметр настройки энтропии Тсаллиса обозначается q.
Для этого изображения не указан замещающий текст
Теперь отвечая на открытый вопрос, который у нас был ранее, о том, как Tsallis является родительским индексом для индекса Джини и энтропии Шеннона.
Энтропия Тсаллиса является обобщенной параметрической формой индекса Джини и энтропии. Если мы поместим значение q, приближающееся к 1, это приведет к энтропии Шеннона, как объяснено ниже:
Для этого изображения не указан замещающий текст
И если значение q равно 2, выражение представляет индекс Джини, как показано ниже:
Для этого изображения не указан замещающий текст
Хотя индекс Джини и энтропия Шеннона кажутся частными случаями энтропии Тсаллиса, в них есть небольшая загвоздка. Существует несходство в аддитивной природе мер. Индекс Джини и энтропия Шеннона являются аддитивными по своей природе, как представлено в следующем уравнении.
Для этого изображения не указан замещающий текст
В то время как энтропия Тсаллиса является псевдоаддитивной по своей природе, как указано ниже —
Для этого изображения не указан замещающий текст
Поскольку q относится к области реальных значений, поиск оптимального q для модели зависит от нескольких итераций. Не существует стандартного способа нахождения оптимального значения q, дающего максимальную точность. Обычно графики точности и сложности строятся для разных значений q, чтобы найти оптимальное. Это та часть, которая создает помеху в принятии энтропии Цаллиса, экстенсивного режима ее расчета.
Поскольку теперь мы разработали несколько способов ускорить такие итерационные процессы, мы можем двигаться вперед к адаптации энтропии Тсаллиса.