Оптимизация рекламных кампаний в онлайн-маркетинге с использованием анализа пользовательского поведения и системно-интеллектуального подсказчика (СИП)

Научная статья
DOI:
https://doi.org/10.60797/IRJ.2025.160s.34
Выпуск: № 10 (160) S, 2025
Предложена:
22.08.2025
Принята:
22.08.2025
Опубликована:
24.10.2025
121
4
XML
PDF

Аннотация

В статье рассмотрена задача оптимизации рекламных кампаний в онлайн-маркетинге с использованием анализа пользовательского поведения и системно-интеллектуального подсказчика (СИП). Для анализа поведения пользователей предложен метод вычисления индекса вовлеченности, который учитывает не только количество выполненных целей, но и их значимость для бизнеса. Индекс вовлеченности рассчитывается на основе данных, собранных через API Яндекс.Метрики, и используется для обучения модели машинного обучения. Модель прогнозирует уровень вовлеченности пользователей и классифицирует их на группы, что позволяет оптимизировать рекламные кампании. Предложена концепция системно-интеллектуального подсказчика, который автоматически анализирует данные и предоставляет менеджеру рекомендации по оптимизации рекламных кампаний. Результаты исследования демонстрируют, что предложенный подход позволяет повысить эффективность рекламных кампаний и снизить затраты на привлечение клиентов. В частности, внедрение концепции СИП показало снижение расходов на рекламу на 5–10% при увеличении ключевых показателей эффективности, таких как конверсия и вовлеченность.

1. Введение

В условиях растущей конкуренции в онлайн-маркетинге эффективное распределение рекламных бюджетов становится ключевым фактором успеха. Компании стремятся минимизировать затраты на рекламу, при этом максимизируя вовлечённость пользователей и их конверсию в целевые действия. Однако традиционные методы оценки эффективности рекламы, основанные на анализе базовых метрик (количество кликов, визитов, конверсий), не позволяют учитывать поведенческие паттерны пользователей в полной мере

.

Одним из современных подходов к решению данной проблемы является использование аналитики пользовательского поведения и машинного обучения для построения предсказательных моделей, способных выявлять закономерности в данных и прогнозировать эффективность рекламных кампаний

,
,
. Однако ручной анализ данных о поведении пользователей имеет ряд существенных ограничений: высокая трудоёмкость, субъективность и невозможность оперативного реагирования на изменения. Маркетологам приходится вручную анализировать большие объёмы данных, при этом разные специалисты могут трактовать информацию по-разному, что приводит к несогласованным решениям. Кроме того, работа с данными требует значительных временных затрат, что снижает скорость принятия управленческих решений.

Для решения этих проблем в рамках работы была разработана методика оптимизации рекламных кампаний на основе анализа пользовательского поведения и системно-интеллектуального подсказчика (СИП). Разрабатываемая система не только автоматически анализирует накопленные данные, но и предоставляет маркетологам рекомендации по оптимальному распределению рекламного бюджета на основе прогнозной аналитики.

Основой методики является индекс вовлечённости, который учитывает не только факт выполнения пользователем целевого действия, но и его значимость для бизнеса. В отличие от традиционных подходов, где анализируется лишь конверсия по жёстко заданным метрикам, данный индекс позволяет гибко настраивать приоритетность различных типов взаимодействий, что даёт более точную оценку эффективности рекламных кампаний.

Для достижения поставленной цели решались следующие задачи:

1) разработка механизма автоматической выгрузки и обработки сырых данных из Яндекс Метрики для получения информации о взаимодействии пользователей с сайтом;

2) внедрение методики разметки интерактивных элементов сайта, при которой каждой кнопке, форме и ссылке присваивается определённый вес в расчёте индекса вовлечённости;

3) разработка модели машинного обучения для прогнозирования уровня вовлечённости пользователей с учётом источника трафика, времени посещения, типа устройства и поведенческих характеристик;

4) создание концепции системно-интеллектуального подсказчика (СИП), который на основе предсказаний модели анализирует рекламные кампании и генерирует рекомендации по их оптимизации;

5) оценка эффективности предложенного подхода на реальных данных, включая анализ точности модели, снижение затрат на рекламу и повышение ключевых показателей эффективности (CTR, CR, ROI).

Предложенный метод отличается от традиционных способов анализа эффективности рекламы за счёт комплексного подхода, включающего поведенческий анализ, машинное обучение и автоматизированные рекомендации. В отличие от классических маркетинговых методик, где решения принимаются на основе статичных отчётов, СИП позволяет динамически обновлять прогнозы эффективности рекламных кампаний на основе накопленных данных, что обеспечивает более точные и своевременные рекомендации.

2. Методы и принципы исследования

2.1. Сбор и предобработка данных

В рамках исследования использовались данные о выполненных целях (goalsID). Помимо стандартных метрик были интегрированы данные о поведении пользователей, собранные через API Яндекс.Метрики. В выгрузку входила информация о визитах, источниках трафика, устройствах, временных характеристиках сессий, UTM-метках, а также сведения о разметке интерактивных элементов сайта. Это позволило анализировать клики по кнопкам и учитывать такие параметры, как цена товара, категория предложения и другие коммерчески значимые характеристики.

Очистка данных от выбросов позволила исключить некорректные или нерелевантные сессии. Были удалены визиты с аномально коротким (менее 3 секунд) или слишком длинным временем пребывания (более 10 часов), дубликаты данных, а также записи с некорректными или отсутствующими UTM-метками, если источник визита невозможно определить.

Формирование дополнительных признаков включало в себя разбиение временных характеристик (день недели, час суток), категоризацию источников трафика (поиск, реклама, социальные сети, реферальные ссылки) и детализированную разметку кнопок сайта. Каждая кнопка получила уникальный идентификатор и была классифицирована по значимости (коммерческие кнопки типа «Купить»«Оформить заказ» и информационные кнопки типа «Подробнее», «Читать дальше»).

Кодирование категориальных признаков осуществлялось с использованием методов One-Hot Encoding для таких параметров, как источник трафика, тип устройства и день недели. UTM-метки и категории кнопок были закодированы через Label Encoding, так как имели смысловую градацию.

Масштабирование числовых данных проводилось для приведения всех числовых параметров к единому диапазону, что позволило улучшить работу алгоритмов машинного обучения.

Одним из ключевых этапов предобработки данных стал расчёт индекса вовлечённости. В отличие от стандартных метрик, индекс оценивает не только факт выполнения целевого действия, но и его значимость. Он рассчитывался по формуле:

(1)

где 

 — вес 
-го действия (например, клик по кнопке «Купить» имеет больший вес, чем «Подробнее»), 
 — бинарный индикатор (0 или 1), показывающий, совершил ли пользователь действие, n — количество возможных целевых действий.

В случае, если пользователь взаимодействовал с товарами, учитывалась стоимость продукта:

(2)

где 

  цена товара, с которым взаимодействовал пользователь, 
  бинарный индикатор взаимодействия с товаром, 
  количество товарных взаимодействий.

Для анализа качества трафика рассчитывался агрегированный индекс вовлечённости по источникам рекламы:

(3)

где 

 — число пользователей из данного источника, 
 — индекс вовлечённости 
-го пользователя.

На рисунке 1 представлено распределение агрегированного индекса вовлечённости по различным UTM-источникам. Видно, что наибольший индекс вовлечённости демонстрируют источники smm, map s и wa, что свидетельствует о высокой активности пользователей, пришедших с этих каналов. В то же время источники avito и print показывают более низкий индекс, что может указывать на менее эффективное взаимодействие аудитории с контентом сайта.

Топ 10 UTM-источников по агрегированному индексу вовлечённости

Рисунок 1 - Топ 10 UTM-источников по агрегированному индексу вовлечённости

Таким образом, в процессе предобработки данных была проведена очистка, формирование дополнительных признаков, кодирование и нормализация данных, а также расчёт индекса вовлечённости. В результате получен структурированный датасет (набор данных), содержащий как стандартные метрики Яндекс.Метрики, так и обогащённые поведенческие данные.

2.2. Оптимизация расчёта индекса вовлечённости с учётом источника трафика и типа пользователя 

Разработанный индекс вовлечённости позволяет оценивать ценность действий пользователя, однако его расчёт можно дополнительно оптимизировать за счёт учёта источника трафика, сегмента пользователей и их активности на сайте. Это необходимо, поскольку разные рекламные каналы приводят пользователей с различной предрасположенностью к совершению целевых действий, а поведение новых пользователей может существенно отличаться от поведения постоянных клиентов.

Для повышения точности оценки был введён коэффициент, отражающий эффективность источника трафика. Разные рекламные каналы могут приводить пользователей с разным уровнем вовлечённости. Например, посетители, пришедшие из органического поиска, часто уже заинтересованы в продукте, тогда как аудитория баннерной рекламы может демонстрировать более низкую активность. Чтобы учесть это различие, каждому источнику присваивается коэффициент, рассчитываемый на основе исторических данных. Он определяется как отношение суммарного индекса вовлечённости пользователей, пришедших из данного источника, к общему числу визитов из этого источника:

(4)

где 

  суммарный индекс вовлечённости пользователей из данного источника, 
  общее количество визитов из этого источника.

Добавление данного коэффициента позволяет учитывать, что источники с исторически низкой вовлечённостью (например, рекламные баннеры) не должны оказывать чрезмерное влияние на общий анализ эффективности рекламных кампаний.

Кроме источника трафика, важную роль играет различие между новыми и постоянными пользователями. Новые посетители тратят больше времени на ознакомление с сайтом и совершают целевые действия реже, чем те, кто уже взаимодействовал с ресурсом. В то же время постоянные пользователи более уверенно совершают конверсии. Для учёта этого фактора был введён коэффициент новизны пользователя, который корректирует индекс вовлечённости в зависимости от того, насколько пользователь знаком с сайтом:

(5)

  средний индекс вовлечённости постоянных пользователей, а 
  средний индекс вовлечённости новых пользователей.

На рисунке 2 представлено сравнение среднего индекса вовлечённости для новых и вернувшихся пользователей. Видно, что новые пользователи демонстрируют более высокий индекс вовлечённости, что объясняется спецификой сферы: в случае сайта интернет-провайдера значительная часть новых посетителей приходит с целью подключения или выбора тарифа, тогда как постоянные пользователи совершают менее ценные с точки зрения бизнеса действия — например, проверку состояния счёта или авторизацию.

Индекс вовлеченности по типу пользователя

Рисунок 2 - Индекс вовлеченности по типу пользователя

С учётом этих коэффициентов итоговая формула индекса вовлечённости принимает следующий вид:
(6)

где 

  вес i-го действия, 
  количество выполнений 
-й цели, 
  количество возможных целевых действий, 
  коэффициент, учитывающий источник трафика, 
  коэффициент, учитывающий новизну пользователя.

Добавление этих факторов позволяет учитывать влияние внешних переменных на оценку вовлечённости, делая её более точной. Коррекция по источнику трафика помогает выделить действительно эффективные рекламные каналы, а учёт типа пользователя позволяет более объективно оценивать его поведение. Такой подход помогает маркетологам принимать обоснованные решения по перераспределению рекламного бюджета и более точно измерять эффективность рекламных кампаний.

2.3. Машинное обучение

Для прогнозирования индекса вовлечённости и анализа факторов, влияющих на поведение пользователей, использовались методы машинного обучения. Основная задача заключалась в предсказании вероятности вовлечённости на основе поведенческих данных.

На этапе экспериментов были протестированы три модели: Random Forest, CatBoost и XGBoost

,
,
,
. Каждая модель обучалась на одном и том же наборе данных, включающем следующие признаки:

– индекс вовлечённости (engagement_index) рассчитанный ранее показатель, отражающий ценность действий пользователя;

– источник трафика (UTMSource, lastTrafficSource, detali_trafika) канал, по которому пользователь пришёл на сайт;

– характеристики визита (количество просмотренных страниц, длительность сеанса, день недели, час посещения) поведенческие факторы;

– тип устройства (deviceCategory) мобильное или десктопное.

– интерактивные действия (клики по кнопкам, выполненные цели) активность пользователя на сайте;

– регион пользователя (regionCityID) дополнительный фактор, связанный с географией;

– новизна пользователя (isNewUser) различие между новыми и постоянными посетителями; 

Прежде чем передавать данные в модель, они были предварительно обработаны. Категориальные признаки, такие как источник трафика и устройство, кодировались методами One-Hot Encoding и Label Encoding, а числовые показатели нормализовались для улучшения качества предсказаний.

Для выбора оптимальной модели использовался метод GridSearchCV, позволяющий подобрать наилучшие гиперпараметры. В ходе тестирования подбирались:

– глубина деревьев решений (max_depth);

– количество деревьев в ансамбле (n_estimators);

– скорость обучения (learning_rate);

– минимальное количество объектов в листе (min_samples_leaf). 

После обучения моделей их точность оценивалась с использованием ROC-AUC, которая измеряет качество предсказаний вероятности вовлечённости

,
. В таблице 1 представлены итоговые результаты.

Таблица 1 - Сравнение моделей машинного обучения по ROC-AUC

Модель

Подобранные параметры

ROC-AUC

Random Forest

max_depth=20, n_estimators=200

0.8746

CatBoost

depth=8, iterations=200, learning_rate=0.1

0.8808

XGBoost

learning_rate=0.1, max_depth=8, n_estimators=200

0.8826

Как видно из таблицы, модель XGBoost показала наилучший результат, что объясняется её способностью эффективно работать с категориальными признаками и учитывать нелинейные зависимости.

Одним из ключевых этапов исследования было изучение важности признаков. На рисунке 3 представлено влияние различных параметров на предсказание вероятности вовлечённости в модели XGBoost. Наиболее значимые факторы источник трафика (lastTrafficSource), детализированный источник (detali_trafika), новизна пользователя (isNewUser) и тип устройства (deviceCategory). Это подтверждает, что основными драйверами вовлечённости являются канал привлечения пользователя, его знакомство с сайтом и платформа, с которой он заходит.

Важность признаков

Рисунок 3 - Важность признаков

Дополнительно был построен график распределения предсказанной вероятности вовлечённости пользователей. На рисунке 4 видно, что распределение имеет два выраженных пика — большинство пользователей либо с крайне низкой вероятностью вовлечённости (в районе 0–0.1), либо с высокой (от 0.85 и выше). Значения в центральной части шкалы (0.3–0.7) встречаются реже, что свидетельствует о том, что модель уверенно разделяет пользователей на две основные категории: вовлечённых и невовлечённых. Такое поведение подтверждает надёжность построенной модели и её применимость для дальнейшей классификации и генерации рекомендаций в рамках СИП.
Распределение предсказанных вероятностей вовлечённости

Рисунок 4 - Распределение предсказанных вероятностей вовлечённости

Таким образом, проведённые эксперименты показали, что XGBoost является наиболее точной моделью для предсказания вовлечённости пользователей. Анализ важности признаков подтвердил, что на поведение пользователя на сайте больше всего влияет источник трафика, новизна визита и тип устройства. Полученные предсказания используются для оптимизации рекламных кампаний, позволяя маркетологам точнее оценивать качество трафика и корректировать рекламные стратегии.

2.4. Системно-интеллектуальный подсказчик (СИП)

Системно-интеллектуальный подсказчик (СИП) представляет собой автоматизированную систему, разработанную для анализа пользовательского поведения и предоставления рекомендаций по оптимизации рекламных кампаний. В основе работы СИП лежит обученная модель XGBoost, которая предсказывает вероятность вовлечённости пользователей на основе их поведенческих данных. Подсказчик использует историческую информацию о взаимодействиях пользователей с сайтом, оценивает значимость различных факторов и автоматически формирует рекомендации, которые помогают маркетологам эффективно перераспределять рекламный бюджет

.

Работа СИП начинается с получения актуальных данных о визитах пользователей через API Яндекс.Метрики. Эти данные включают информацию о трафике, источниках переходов, типах устройств, времени пребывания на сайте, количестве просмотренных страниц, а также выполненных целях. В дополнение к стандартным данным учитываются разметка кнопок и коммерчески значимые взаимодействия пользователей, что позволяет более точно оценивать их вовлечённость.

После сбора данных они подвергаются предобработке, включающей очистку от выбросов, заполнение пропущенных значений, кодирование категориальных признаков и нормализацию числовых данных. Далее предобработанный датасет используется для формирования предсказаний вовлечённости с помощью ранее обученной модели XGBoost. Модель загружается из сохранённого состояния и применяется к новым данным без необходимости повторного обучения, что значительно ускоряет процесс и снижает вычислительные затраты.

Предсказанные вероятности вовлечённости пользователей становятся основой для формирования рекомендаций. На этом этапе СИП анализирует, какие рекламные источники приводят наиболее вовлечённую аудиторию, а какие демонстрируют низкую эффективность. Сравнивается средний индекс вовлечённости пользователей, пришедших с различных UTM-источников, оценивается влияние региона и устройства на конверсию, а также анализируется динамика вовлечённости во времени. На основании этих данных формируются конкретные рекомендации, такие как перераспределение рекламного бюджета в пользу более эффективных каналов, корректировка ставок в рекламных системах, оптимизация рекламных креативов или изменение таргетинговых настроек.

Автоматизация работы СИП реализована через настройку DAG в Apache Airflow. DAG содержит последовательность задач, выполняемых по расписанию: сначала загружаются свежие данные из Яндекс.Метрики, затем выполняется их предобработка, далее модель XGBoost делает предсказания вовлечённости, после чего на основе полученных результатов формируются рекомендации. Итоговые данные загружаются в базу данных, откуда они автоматически обновляются в визуализации Power BI.

Для удобного анализа результатов СИП интегрирован с Power BI, где создан дашборд, позволяющий маркетологам отслеживать эффективность рекламных кампаний в динамике. Визуализация включает графики изменения вовлечённости пользователей, важность признаков в модели машинного обучения, распределение вовлечённости по рекламным источникам и регионам, а также таблицу с автоматически сформированными рекомендациями. Это позволяет в режиме реального времени видеть, какие рекламные каналы показывают наибольшую эффективность, а какие требуют оптимизации.

Разработанный СИП полностью автоматизирует процесс анализа рекламных кампаний, позволяя маркетологам на основе данных принимать обоснованные решения. Использование машинного обучения даёт возможность более точно оценивать эффективность каналов привлечения аудитории, выявлять закономерности в поведении пользователей и оперативно адаптировать маркетинговую стратегию. Благодаря автоматизации процесса в Airflow и интеграции с Power BI рекомендации обновляются ежедневно, обеспечивая актуальные данные для принятия решений.

3. Результаты

Проведённые эксперименты позволили оценить эффективность предложенного подхода к прогнозированию вовлечённости пользователей и оптимизации рекламных кампаний с использованием системно-интеллектуального подсказчика (СИП). В ходе исследования были получены данные, подтверждающие, что автоматизированный анализ и предсказательное моделирование позволяют повысить точность маркетинговых решений по сравнению с традиционными методами.

На первом этапе была проведена оценка точности предсказаний вовлечённости пользователей с помощью трёх моделей машинного обучения: Random Forest, CatBoost и XGBoost. В ходе тестирования на реальных данных модель XGBoost показала наилучший результат по метрике ROC-AUC (0.8826), что свидетельствует о высокой способности модели правильно ранжировать пользователей по вероятности вовлечённости. Это позволило выбрать XGBoost в качестве основной модели для внедрения в СИП.

После интеграции модели в систему предсказания были протестированы на новых данных, а полученные результаты сравнивались с решениями менеджеров по маркетингу. Анализ показал, что рекомендации, сформированные на основе предсказаний модели, в 83% случаев совпадали с решениями, принятыми вручную. Это указывает на высокий уровень согласованности между автоматическим анализом и экспертными оценками.

На рисунке 5 представлена динамика роста доли совпадений между рекомендациями системы интеллектуальных подсказок (СИП) и решениями маркетологов. На начальных этапах, при ограниченном числе рекомендаций, точность модели была нестабильной, что отражает отсутствие достаточной обучающей базы. Однако с увеличением объёма данных точность прогнозов значительно возрастала и к 30–40 итерации стабилизировалась на высоком уровне.

Для описания такой зависимости была использована математическая модель с эффектом насыщения, отражающая естественные ограничения любой обучающейся системы. Подобные модели часто применяются в биологии и экономике, где рост эффективности с течением времени или объёма ресурсов имеет предел. В нашем случае эта граница была определена эмпирически — она получена в результате подбора параметров модели к реальным данным.

Согласно результатам аппроксимации, при увеличении количества рекомендаций точность СИП стремится к пределу примерно в 88%. Это значение не задано заранее, а вытекает непосредственно из поведения данных: модель обучается всё лучше, но с определённого момента дополнительные рекомендации дают всё меньший прирост точности. Таким образом, 88% можно рассматривать как максимально достижимый уровень согласованности в текущих условиях — он формируется естественным образом, а не навязывается извне. Это позволяет рассматривать модель как устойчивую, а её прогнозы — как заслуживающие высокого уровня доверия.

Распределение предсказанных вероятностей вовлечённости

Рисунок 5 - Распределение предсказанных вероятностей вовлечённости

Однако в 17% случаев выявились различия: модель предлагала перераспределить рекламный бюджет в пользу каналов с высоким индексом вовлечённости, в то время как менеджеры ориентировались на метрики, связанные с числом кликов и видимостью объявлений. Дальнейший анализ показал, что рекомендации СИП в этих случаях приводили к снижению рекламных затрат на 5–10% при сохранении уровня конверсии.

Для оценки эффективности предложенной системы была проведена сравнительная характеристика двух подходов.

1. Ручной анализ маркетинговых данных традиционный метод, при котором менеджеры вручную собирают, агрегируют и анализируют данные из различных источников.

2. Использование СИП автоматизированная система, которая обрабатывает данные, обучает модель и формирует рекомендации.

Результаты сравнения приведены в таблице 2.

Таблица 2 - Сравнение эффективности методов анализа рекламных кампаний

Критерий

Ручной анализ

СИП

Время на анализ данных

4-6 часов в день

менее 30 минут в день

Учитываемые параметры

До 10

Более 30

Точность прогнозов вовлечённости

Средняя

Высокая (ROC-AUC 0.8826)

Экономия рекламного бюджета

-

до 10%

Адаптивность к изменениям

Низкая

Высокая

Автоматизация

Нет

Полная

Как видно из таблицы, использование СИП позволяет существенно снизить временные затраты на анализ и учесть большее количество факторов при принятии решений. Автоматизированный процесс даёт возможность не только повысить точность прогнозов, но и оптимизировать затраты на рекламу за счёт перераспределения бюджета в пользу наиболее эффективных каналов.

Дополнительно была проведена оценка производительности СИП. Благодаря тому, что модель XGBoost не переобучается каждый раз с нуля, а использует ранее сохранённое состояние, время на обработку новых данных и генерацию рекомендаций составляет в среднем 10–15 минут. В сравнении с ручным анализом, который может занимать несколько часов, это позволяет оперативно реагировать на изменения в рекламных кампаниях и корректировать их в режиме ежедневного обновления.

Таким образом, результаты экспериментов подтверждают, что СИП обладает преимуществами перед классическим машинным обучением и ручными методами анализа, обеспечивая более точные прогнозы, снижение затрат и ускорение принятия решений.

4. Заключение

Разработанный системно-интеллектуальный подсказчик демонстрирует высокую точность прогнозирования вовлечённости пользователей, что позволяет более эффективно распределять рекламный бюджет и оптимизировать маркетинговые кампании. По сравнению с традиционным подходом, основанным на ручном анализе данных, СИП обеспечивает сокращение временных затрат более чем в 10 раз, повышение точности прогнозов и возможность оперативного реагирования на изменения в пользовательском поведении.

Одним из ключевых преимуществ предложенной системы является автоматизация процесса принятия решений. Использование XGBoost в качестве основной модели машинного обучения позволило достичь ROC-AUC 0.8826, что свидетельствует о высокой точности предсказаний. Внедрение СИП в рабочий процесс маркетологов показало, что рекомендации, сформированные системой, в большинстве случаев совпадают с решениями специалистов, но при этом позволяют дополнительно снизить рекламные расходы на до 15% без потери уровня конверсии.

Экономичность модели была подтверждена в ходе тестирования: обновление данных, формирование предсказаний и генерация рекомендаций занимает не более 15 минут, что делает СИП подходящим инструментом для ежедневного обновления аналитики. Интеграция с Power BI обеспечивает удобный мониторинг результатов, позволяя маркетологам в реальном времени отслеживать эффективность рекламных кампаний и получать актуальные рекомендации.

Таким образом, разработанный СИП демонстрирует существенные преимущества перед традиционными методами, объединяя машинное обучение, автоматизацию анализа данных и предсказательное моделирование. Внедрение подобных интеллектуальных систем в маркетинговую аналитику позволяет не только оптимизировать затраты, но и значительно повысить эффективность цифровых рекламных кампаний.

Метрика статьи

Просмотров:121
Скачиваний:4
Просмотры
Всего:
Просмотров:121