Распространенная ошибка науки о данных: предсказание/рекомендация путем манипулирования входными данными модели

«Мы обучили модель машинного обучения с высокой производительностью. Однако это не сработало и не пригодилось на практике». Эту фразу я слышал несколько раз, и каждый раз мне не терпелось узнать причину. Могут быть разные причины того, что модель не работает на практике. Поскольку эти вопросы обычно не рассматриваются в курсах по науке о данных, в этой статье я расскажу об одной из распространенных ошибок при разработке и развертывании модели машинного обучения.

В оставшейся части этой статьи, во-первых, я расскажу о путанице между корреляцией и причинно-следственной связью, которая приводит к неправильному использованию моделей машинного обучения. Проиллюстрирую обсуждение примером. После этого показаны различные возможности между входами и выходами модели. Наконец, я даю несколько советов, чтобы избежать этой ошибки.

Корреляция, а не причина
Ошибочная корреляция с причинно-следственной связью может привести к неправильным результатам. Примером путаницы между корреляцией и причинно-следственной связью является анализ фрикономики, в котором Иллинойс разослал книги студентам, потому что анализ показал, что книги, доступные дома, напрямую связаны с высокими оценками на тестах. Однако реальность такова, что в домах, где родители обычно покупают книги, царит веселая учебная среда. Дальнейший анализ показал, что учащиеся из семей, у которых есть несколько книг, показали лучшие результаты в учебе, даже если они никогда не читали этих книг. На самом деле, получение более высоких оценок не было результатом книг, но и то, и другое является результатом окружающей среды.

Возвращаясь к нашей теме, после разработки модели вы не можете манипулировать входными параметрами (признаками), чтобы увидеть эффект на выходе. Причина в том, что входной признак может быть следствием вывода и не обязательно является причиной вывода. Модель высокопроизводительного машинного обучения говорит вам, что существует корреляция между вводом и выводом. Вы не можете настроить входные данные, чтобы получить желаемый результат, а затем предоставить рекомендации на основе скорректированных входных данных.

Пример
Вот пример, в котором мы разрабатываем регрессионную модель, но модель дает ложный прогноз/рекомендацию. Предположим, у нас есть внешняя температура и температура в помещении. Мы можем разработать модель линейной регрессии для оценки температуры наружного воздуха на основе температуры в помещении.

T(снаружи)= C1*T(внутри)+C2

где C1 и C2 — постоянные коэффициенты, полученные из данных. Предположим, что эта модель имеет очень высокую производительность (например, более 99%).

Работая с моделью, получаем, что если внутренняя температура увеличится на 5С, то наружная температура повысится на 10С. Можем ли мы купить обогреватель для комнаты и увеличить температуру внутри, чтобы наслаждаться теплым днем??!! Конечно нет. Причина в том, что внутренняя температура является следствием, а не причиной. То же самое может произойти, когда специалист по данным манипулирует входными данными модели (например, внутренней температурой), чтобы получить желаемый результат (например, наружную температуру). Рекомендации, основанные на манипулировании входными данными, обычно бесполезны на практике.

Входные и выходные отношения
Теперь давайте рассмотрим разные случаи, когда существует корреляция между одним из признаков A и выходом B. На следующих рисунках показаны разные случаи.

Случай 1: А вызывает Б. Манипулирование А влияет на Б в реальном мире.

Случай 2: B вызывает A. Манипулирование A не влияет на B в реальном мире.

Случай 3: A вызывает B, а B вызывает A. Манипулирование A влияет на B, но не является прямым следствием.

Случай 4: A и B являются следствием общей причины C. Манипулирование A не влияет на B.

Понятно, что в случаях 2, 3 и 4 вывод модели для измененного значения A отличается от того, что мы видим в реальном мире. Следует отметить, что даже в случае 1 выходные данные могут отличаться, поскольку A может иметь некоторую корреляцию с другими входными данными модели. Это означает, что при изменении значения A другие входы также изменятся. Следовательно, неправильно изменять только один из входных признаков и исследовать его влияние.

Как избежать?
Во-первых, будьте в курсе этой проблемы. Вы должны знать, что, манипулируя входными данными, вы не можете предсказать результат. Помните об этом, и это повлияет на то, как вы разрабатываете свою модель и как выбираете будущее.

Во-вторых, если вы хотите разработать модель прогнозирования, вам необходимо иметь исторические данные, которые сообщают вашей модели эффект изменения входных данных. Имея моментальные снимки, вы не можете предсказать, что произойдет, если ввод изменится. В этом случае вы можете обучить модель на основе исторических данных. В нашем примере, когда мы хотим увидеть влияние комнатной температуры на наружную температуру, нам нужно иметь несколько образцов, которые включают изменения внутренней температуры и их влияние на наружную температуру (например, через 1 час). В этом случае модель узнает, что температура в помещении не влияет на температуру снаружи.

В-третьих, используйте свои знания в предметной области или поговорите с экспертами и посмотрите, имеют ли смысл ваши прогнозы/рекомендации. Это позволяет избежать не только этой ошибки, но и других логических ошибок. Например, в вашем коде могут быть ошибки, о которых вы не знаете. Проверка смысла может помочь вам проверить модель в целом.

Вывод
Разработка модели машинного обучения — сложная задача. Модель может не работать на практике, несмотря на высокую производительность на обучающих данных. В этой статье я обсудил неправильное использование модели машинного обучения, из-за которого прогнозы не работают в реальной ситуации. Другими причинами могут быть переобучение, дублированные выборки и объективные данные. Всегда хорошо использовать свои знания в предметной области или поговорить с некоторыми экспертами и посмотреть, имеют ли смысл ваши результаты прогноза / рекомендации или нет.

Оригинальная статья на сайте Toward Data Scientist
«

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *