Применение машинного обучения в рекламных технологиях

В последние годы программная реклама захватывает индустрию онлайн-рекламы. Многие компании, называемые DSP (Demand Side Platform), конкурируют за одно и то же рекламное место в Интернете. Успех DSP в доставке ценности рекламодателям оценивается по двум следующим критериям:

  1. Высокий рейтинг кликов = количество кликов / количество показанных объявлений.
  2. Высокий коэффициент конверсии = количество конверсий (например, покупка) / количество показанных объявлений.

Для достижения высокого CTR и коэффициента конверсии DSP в значительной степени полагаются на использование методов искусственного интеллекта и разрабатывают собственные алгоритмы машинного обучения. Проблема применения машинного обучения в Adtech во многом отличается от стандартной проблемы. документ Google Предсказание кликов по рекламе: взгляд из окопов и газета Facebook Практические уроки прогнозирования кликов по рекламе на Facebook подробно обсудили уроки, извлеченные при создании ИИ для индустрии рекламных технологий. В оставшейся записи блога я попытаюсь обобщить тонкости применения машинного обучения в рекламных технологиях и то, как это решается в целом:

Большой размер обучающего вектора: Каждая функция в модели ML является категориальной функцией, и кодирование их в числовую функцию увеличивает размер обучающего вектора до порядка миллиардов. Например, одной из наиболее важных функций модели ML является издатель веб-сайт, на котором будет отображаться реклама, что является категориальной функцией, и существуют миллионы издателей, поэтому использование одноразового кодирования приведет к обучающему вектору из миллионов записей.

Асимметрия обучающих данных: Как правило, CTR намного ниже 50% (как правило, CTR составляет около 1-2%), что означает, что положительные примеры (клики) относительно редки, поэтому возникает проблема асимметрии в обучающих данных.

Быстрые изменения в ландшафте онлайн-рекламы: Домен adtech — это очень динамичная среда, в которой распределение данных меняется со временем. Facebook провел эксперимент, в котором они обучали модель на одном дне данных и оценивали шесть дней подряд. Результаты показали, что производительность модели снижается по мере увеличения задержки между обучающей и тестовой выборкой. Таким образом, очень важно обновлять модель каждые несколько часов, чтобы она оставалась в реальном времени.

Скорость обучения по координатам: В большинстве стандартных задач машинного обучения скорость обучения является постоянной величиной. В adtech существует огромный дисбаланс количества обучающих экземпляров для каждой функции. Например, у известного издателя, такого как cnn.com, будет больше пользователей, а значит, и больше рекламных мест по сравнению с малоизвестным издателем, поэтому наши обучающие данные будут иметь огромное количество обучающих экземпляров для cnn.com. Поэтому мы хотим уменьшить скорость обучения для координаты по мере увеличения ее частоты в обучающих данных.

Использование прогрессивной проверки вместо перекрестной проверки: Проверка модели на наборе данных, который отстает от набора поездов на часы или дни, не является хорошей идеей, поскольку мы обсуждали выше, что характер набора данных меняется со временем. потеря журнала онлайн вместо этого является хорошим прокси для производительности модели, потому что он измеряет производительность только на самых последних данных, прежде чем мы на них тренируемся, это в точности аналогично тому, что происходит, когда модель находится в производстве. Это также гарантирует, что мы можем использовать 100% наших данных как для обучения, так и для тестирования.

Относительные изменения метрики по сравнению с абсолютной метрикой: Показатели кликов варьируются от страны к стране и от рекламного места к рекламному месту, поэтому показатели меняются в течение одного дня. Эксперименты Google показывают, что относительные изменения (по сравнению с базовой моделью) гораздо более стабильны с течением времени, поэтому относительное изменение потери журнала является лучшим показателем, чем средняя потеря журнала. Мы также заботимся только о том, чтобы сравнивать метрики, рассчитанные на основе одних и тех же данных.

Сегментированные метрики производительности вместо агрегированных метрик: Одна из вещей, на которую мы должны обратить внимание при анализе производительности моделей в рекламных технологиях, заключается в том, что агрегированные показатели производительности могут скрывать эффекты, характерные для определенных подмножеств данных. Например, высокий CTR на самом деле может быть вызван сочетанием низкого и высокого CTR на разных рекламных биржах. Это делает крайне важным визуализировать показатели производительности не только для совокупных данных, но и для различных срезов данных, таких как по рекламному обмену, по группам объявлений, по типу устройства, по каждому издателю.

В этом блоге собраны все уроки, полученные за время работы Data Scientist в компании AdTech. Дайте мне знать, если у вас есть дополнительные комментарии.

У вас есть вопросы?

Задавайте свои вопросы в комментариях ниже, и я сделаю все возможное, чтобы ответить.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *