MODEL COMPETITION IN INTERVAL FORECASTING: THE ‘LEADER SWITCH’ EFFECT IN LOGARITHMIC TRANSFORMATION
MODEL COMPETITION IN INTERVAL FORECASTING: THE ‘LEADER SWITCH’ EFFECT IN LOGARITHMIC TRANSFORMATION
Abstract
The article is devoted to the methodological issue of incorporating logarithmic (exponential) models into a model competition for interval forecasting of socio-economic indicators. On the example of short-term forecasting of the permanent population of Irkutsk Oblast, a comparison was carried out of four types of models: linear, quadratic, cubic and exponential (logarithmic). The ‘leader switch’ effect has been identified and described: a logarithmic model, which demonstrates the best accuracy indicators, may significantly deteriorate in its forecasting performance following inverse transformation (reversion) and give way to other models. The necessity of conducting the final selection of models only after reverse transformation to the original scale of indicators is substantiated in order to obtain reliable sociological and demographic conclusions.
1. Введение
Из-за сложности проведения контролируемых экспериментов основным инструментом анализа социально-экономических процессов является моделирование . Для предсказания социально-экономических и демографических изменений часто используют трендовые модели, которые показывают основную тенденцию изменения показателя со временем . Понимание этих тенденций позволяет не только описывать текущее состояние общества, но и прогнозировать будущие изменения в его структуре, что имеет высокую практическую значимость.
Для трендового моделирования наиболее востребованы полиномиальные модели первой, второй и третьей степени, экспоненциальные модели и S-образные кривые с пределом роста (кривая Гомперца и логистическая кривая) .
Результатом экстраполяции трендовой модели является некое прогнозное значение, например «наиболее вероятная численность постоянного населения региона в следующем году составит 2322292 человек». Однако вероятность такого точечного прогноза крайне мала . Современные методы прогнозирования не позволяют предсказать численность населения с точностью до каждого человека.
Чтобы сгладить очевидную неточность точечного прогноза, его можно округлить, например, до тысячи человек — «прогноз численности населения — 2322 тысячи человек». В этом случае неявно обозначается допустимая величина погрешности прогноза как половина цены последней значащей цифры, т.е. ±500 человек .
Если уравнение тренда рассматривать как выборочное, то есть подверженное ошибкам репрезентативности своих параметров, то можно вычислить доверительные интервалы, внутри которых с заданной высокой вероятностью проходит линия тренда в генеральной совокупности . Например, «с вероятностью 90% численность населения составит 2322292 ±15487 человек».
Методики оценки предельной ошибки прогноза основаны на полиномиальных моделях первой, второй и третьей степени. Но такие модели не подходят для описания процессов с постоянным темпом прироста или убыли, характерных для экспоненциальной модели:
где a и b — постоянные коэффициенты;
x — независимая переменная.
Экспоненциальная модель легко приводится к линейному виде при логарифмировании:
ln(y) = ln(a×b x) = ln(a) + x ln(b) = a1 + b1 x.
Логарифмированная форма модели удобна для регрессионного анализа и оценки предельной ошибки прогноза, а для самого прогноза применяется обратное преобразование (восстановление):
y = exp(a1 + b1 x).
Такой подход позволяет включить экспоненциальную модель в конкурс моделей при интервальном прогнозировании, однако существующие исследования не дают конкретных рекомендаций по этому вопросу.
Целью данной работы является выявление и описание методологических особенностей участия логарифмированных (экспоненциальных) моделей в конкурсе моделей при интервальном прогнозировании социально-демографических показателей, а также обоснование необходимости использования восстановленных моделей для корректной оценки точности прогноза и выбора оптимальной модели. Корректность математического выбора напрямую влияет на достоверность социологических выводов о динамике изучаемого процесса (в данном случае — демографической динамики региона).
В исследовании использовались метод регрессионного анализа, принцип вариативности интервалов наблюдения, метод логарифмического преобразования, статистические методы оценки значимости.
2. Основные результаты
Для выявления специфики участия логарифмированных моделей в конкурсе моделей интервального прогнозирования рассмотрим задачу краткосрочного прогнозирования численности постоянного населения Иркутской области (далее — численность населения). Данные о численности населения предоставлены официальной статистикой, опубликованной на сайте территориального органа Росстата по Иркутской области .
Выбран интервал наблюдения с 2011 по 2025 год, что составляет 15 лет (данные приведены в табл. 1).
Таблица 1 - Исходные данные
Год | Численность населения, кол-во чел. | Год | Численность населения, кол-во чел. | Год | Численность населения, кол-во чел. |
2011 | 2 427 954 | 2016 | 2 415 690 | 2021 | 2 380 759 |
2012 | 2 424 973 | 2017 | 2 412 359 | 2022 | 2 363 447 |
2013 | 2 423 212 | 2018 | 2 408 221 | 2023 | 2 344 360 |
2014 | 2 420 102 | 2019 | 2 402 358 | 2024 | 2 330 537 |
2015 | 2 417 235 | 2020 | 2 396 358 | 2025 | 2 322 292 |
В исследовании применялись четыре математические модели: линейная, квадратичная, кубическая и экспоненциальная.
Коэффициенты для этих моделей были определены с помощью регрессионного анализа. Коэффициенты регрессии логарифмированных моделей рассчитывались на основе логарифмированных исходных данных.
Для линейной и экспоненциальной функции с учетом с учетом количества степеней свободы использован переменный интервал наблюдения от 3 до 15 лет, что позволило получить по 13 вариантов регрессионных моделей Для квадратичной и кубической моделей число вариантов составило 12 и 11 соответственно.
Все 49 моделей достаточно хорошо описывают исходные данные: коэффициент детерминации R2 меняется в пределах от 0,86 до 0,99 (среднее значение 0,96).
По результатам проверки статистической значимости параметров уравнения регрессии с уровнем значимости α = 0,1 исключены из рассмотрения по 6 вариантов квадратичной и кубической моделей.
Для оставшихся вариантов моделей проведена оценка предельных значений ошибок прогноза D на следующий год при α = 0,1 на основе аналитических зависимостей, приведенных в работах В.В. Бучацкой
и В.Н. Наумова .Непосредственное сопоставление оценок ошибок прогноза полиномиальных и логарифмированных моделей некорректно, поэтому дополнительно:
1. Проверены значения коэффициентов детерминации R2 восстановленных после логарифмирования моделей (выявлены незначительные изменения в пределах 0,5%).
2. Из-за мультипликативности экспоненциальной функции ошибки прогноза восстановленных моделей Dв вычисляются как половина ширины доверительного интервала прогноза:
Dв ¹ exp(D),
Dв = 0,5(ymax – ymin) = 0,5(exp(yk + Dв) – exp(yk – Dв)),
где yk — точечный прогноз по логарифмированной модели.
Полученные результаты представлены в табл. 2 (минимальные значения выделены полужирным шрифтом).
Таблица 2 - Сравнение результатов моделирования
Длина интервала наблюдения | Оценка ошибки прогноза модели | ||||
линейная | квадратичная | кубическая | логарифмированная | восстановленная | |
3 года | 26250 | – | – | 6,32 | 25765 |
4 года | 27672 | 4113 | – | 2,93 | 16930 |
5 лет | 13231 | 12021 | – | 2,36 | 12709 |
6 лет | 10790 | – | – | 2,14 | 9649 |
7 лет | 10788 | – | 8100 | 2,02 | 10536 |
8 лет | 13559 | – | 16420 | 1,95 | 13394 |
9 лет | 16795 | – | 22069 | 1,90 | 16628 |
10 лет | 19678 | – | 24827 | 1,87 | 10161 |
11 лет | 12289 | 12308 | 24850 | 1,84 | 22299 |
12 лет | 24494 | – | – | 1,82 | 24260 |
13 лет | 25807 | 10712 | – | 1,82 | 25580 |
14 лет | 26975 | 10605 | – | 1,79 | 26755 |
15 лет | 27715 | 11071 | – | 1,78 | 27512 |
Примечание: минимальные значения выделены полужирным шрифтом
Нетрудно заметить существенную вариацию результатов моделирования: оценки ошибки прогноза модели изменяются в широких пределах от 4113 до 27715 (без учета логарифмированной модели).
Восстановленная модель оказалась лучше линейной: ошибка варианта модели для шестилетнего интервала наблюдения y = exp(14,7 – 0,00617 x) составляет 9649, что на 12% лучше результата 10788 для линейной модели с семилетним интервалом наблюдения y = 2421193 – 14580 x.
Лучшей в конкурсе оказалась квадратичная модель для четырехлетнего интервала наблюдения y = 2710,5 x2 – 27281,3 x + 2388034 с минимальной оценкой ошибки прогноза 4113. Второе место за кубической моделью для семилетнего интервала наблюдения y = 615 x3 – 7455 x2 + 11212 x + 2398197 с оценкой ошибки прогноза 8100.
В нашей работе мы столкнулись с интересным методологическим парадоксом, который можно назвать эффектом «смены лидера» — логарифмированная модель, которая выглядит лучшей по точности прогноза, при восстановлении может проиграть конкурс:
– в логарифмированном виде лучший вариант – для 15-ти летнего интервала наблюдения (D = 1,78);
– в восстановленном виде вариант модели для 15-ти летнего интервала наблюдения с первого места опустился на предпоследнее (Dв = 27512);
– вариант модели для шестилетнего интервала наблюдения в логарифмированном виде занимал 10 место (D = 2,14), а в восстановленном виде поднялся на первое (Dв = 9649).
Этот эффект имеет принципиальное значение для решения практических задач, особенно в контексте социологических исследований. Если на этапе анализа логарифмированных моделей выбрать кажущийся очевидным вариант для 15-летнего интервала, то оценка ошибки прогноза окажется в три раза больше, чем ошибка оптимального после восстановления варианта. Это приведет к неверной интерпретации демографической ситуации: исследователь сделает вывод о высокой неопределенности прогноза (высокой вариативности численности населения), хотя объективно (по восстановленной модели) динамика процесса более определенна.
Данный эффект обусловлен мультипликативностью экспоненциальной функции и нелинейностью логарифмического преобразования (сжимает шкалу для больших значений и растягивает для малых).
Рассчитаем доверительный интервал прогноза по квадратичной модели для четырехлетнего интервала наблюдения:
y(5)±D=2710,5·52 –27281,3·5+2388034±4113=2319390±4113.
Поучается, что численность населения на следующий год с вероятностью 90% окажется в диапазоне от 2315277 до 2323503 человек. Это уже не просто абстрактные цифры, а конкретный социальный факт, имеющий значение для планирования бюджетных расходов, социальных программ и т.д.
Таким образом, конкурс моделей в интервальном прогнозировании — не просто техническая процедура, а содержательный методологический этап, от которого зависит достоверность социологических выводов. Использование логарифмированных моделей требует от исследователя глубокого анализа: красивые цифры на промежуточных этапах могут быть обманчивыми. Только восстановленная модель, «возвращенная» в реальность исходных показателей, имеет право на участие в конкурсе и последующую интерпретацию.
3. Заключение
В математическом аспекте: в ходе исследования выявлен и экспериментально подтвержден методологический эффект «смены лидера». Он заключается в том, что модель, демонстрирующая наилучшие показатели точности в логарифмированном виде, после обратного преобразования в исходную шкалу может значительно ухудшить свои прогнозные характеристики и уступить лидерство другим моделям. Доказана необходимость проведения окончательного отбора моделей для интервального прогнозирования исключительно по восстановленным значениям, так как использование только логарифмированных моделей может привести к выбору заведомо неоптимального варианта.
В социологическом аспекте: корректный отбор математической модели имеет прямое влияние на достоверность выводов о социальных и демографических процессах. В применении к прогнозированию численности населения Иркутской области, наилучший результат (минимальная ошибка прогноза) показала квадратичная модель, что позволяет с наибольшей точностью определить границы доверительного интервала для планирования. Игнорирование эффекта «смены лидера» (выбор модели на основе логарифмированных данных) привело бы к трёхкратному завышению оценки неопределенности прогноза, что исказило бы представление о стабильности развития демографической ситуации. Следовательно, для получения объективных социальных данных необходим не просто расчет, а содержательный методологический контроль за процедурой преобразования моделей.
