КОНКУРС МОДЕЛЕЙ ПРИ ИНТЕРВАЛЬНОМ ПРОГНОЗИРОВАНИИ: ЭФФЕКТ «СМЕНЫ ЛИДЕРА» ПРИ ЛОГАРИФМИРОВАНИИ
КОНКУРС МОДЕЛЕЙ ПРИ ИНТЕРВАЛЬНОМ ПРОГНОЗИРОВАНИИ: ЭФФЕКТ «СМЕНЫ ЛИДЕРА» ПРИ ЛОГАРИФМИРОВАНИИ
Аннотация
Статья посвящена методологической проблеме участия логарифмированных (экспоненциальных) моделей в конкурсе моделей при интервальном прогнозировании социально-экономических показателей. На примере краткосрочного прогнозирования численности постоянного населения Иркутской области проведено сравнение четырёх типов моделей: линейной, квадратичной, кубической и экспоненциальной (логарифмированной). Выявлен и описан эффект «смены лидера»: логарифмированная модель, демонстрирующая наилучшие показатели точности, после обратного преобразования (восстановления) может значительно ухудшить свои прогнозные характеристики и уступить лидерство другим моделям. Обосновывается необходимость проведения окончательного отбора моделей только после обратного преобразования в исходную шкалу показателей для получения достоверных социологических и демографических выводов.
1. Введение
Из-за сложности проведения контролируемых экспериментов основным инструментом анализа социально-экономических процессов является моделирование . Для предсказания социально-экономических и демографических изменений часто используют трендовые модели, которые показывают основную тенденцию изменения показателя со временем . Понимание этих тенденций позволяет не только описывать текущее состояние общества, но и прогнозировать будущие изменения в его структуре, что имеет высокую практическую значимость.
Для трендового моделирования наиболее востребованы полиномиальные модели первой, второй и третьей степени, экспоненциальные модели и S-образные кривые с пределом роста (кривая Гомперца и логистическая кривая) .
Результатом экстраполяции трендовой модели является некое прогнозное значение, например «наиболее вероятная численность постоянного населения региона в следующем году составит 2322292 человек». Однако вероятность такого точечного прогноза крайне мала . Современные методы прогнозирования не позволяют предсказать численность населения с точностью до каждого человека.
Чтобы сгладить очевидную неточность точечного прогноза, его можно округлить, например, до тысячи человек — «прогноз численности населения — 2322 тысячи человек». В этом случае неявно обозначается допустимая величина погрешности прогноза как половина цены последней значащей цифры, т.е. ±500 человек .
Если уравнение тренда рассматривать как выборочное, то есть подверженное ошибкам репрезентативности своих параметров, то можно вычислить доверительные интервалы, внутри которых с заданной высокой вероятностью проходит линия тренда в генеральной совокупности . Например, «с вероятностью 90% численность населения составит 2322292 ±15487 человек».
Методики оценки предельной ошибки прогноза основаны на полиномиальных моделях первой, второй и третьей степени. Но такие модели не подходят для описания процессов с постоянным темпом прироста или убыли, характерных для экспоненциальной модели:
где a и b — постоянные коэффициенты;
x — независимая переменная.
Экспоненциальная модель легко приводится к линейному виде при логарифмировании:
ln(y) = ln(a×b x) = ln(a) + x ln(b) = a1 + b1 x.
Логарифмированная форма модели удобна для регрессионного анализа и оценки предельной ошибки прогноза, а для самого прогноза применяется обратное преобразование (восстановление):
y = exp(a1 + b1 x).
Такой подход позволяет включить экспоненциальную модель в конкурс моделей при интервальном прогнозировании, однако существующие исследования не дают конкретных рекомендаций по этому вопросу.
Целью данной работы является выявление и описание методологических особенностей участия логарифмированных (экспоненциальных) моделей в конкурсе моделей при интервальном прогнозировании социально-демографических показателей, а также обоснование необходимости использования восстановленных моделей для корректной оценки точности прогноза и выбора оптимальной модели. Корректность математического выбора напрямую влияет на достоверность социологических выводов о динамике изучаемого процесса (в данном случае — демографической динамики региона).
В исследовании использовались метод регрессионного анализа, принцип вариативности интервалов наблюдения, метод логарифмического преобразования, статистические методы оценки значимости.
2. Основные результаты
Для выявления специфики участия логарифмированных моделей в конкурсе моделей интервального прогнозирования рассмотрим задачу краткосрочного прогнозирования численности постоянного населения Иркутской области (далее — численность населения). Данные о численности населения предоставлены официальной статистикой, опубликованной на сайте территориального органа Росстата по Иркутской области .
Выбран интервал наблюдения с 2011 по 2025 год, что составляет 15 лет (данные приведены в табл. 1).
Таблица 1 - Исходные данные
Год | Численность населения, кол-во чел. | Год | Численность населения, кол-во чел. | Год | Численность населения, кол-во чел. |
2011 | 2 427 954 | 2016 | 2 415 690 | 2021 | 2 380 759 |
2012 | 2 424 973 | 2017 | 2 412 359 | 2022 | 2 363 447 |
2013 | 2 423 212 | 2018 | 2 408 221 | 2023 | 2 344 360 |
2014 | 2 420 102 | 2019 | 2 402 358 | 2024 | 2 330 537 |
2015 | 2 417 235 | 2020 | 2 396 358 | 2025 | 2 322 292 |
В исследовании применялись четыре математические модели: линейная, квадратичная, кубическая и экспоненциальная.
Коэффициенты для этих моделей были определены с помощью регрессионного анализа. Коэффициенты регрессии логарифмированных моделей рассчитывались на основе логарифмированных исходных данных.
Для линейной и экспоненциальной функции с учетом с учетом количества степеней свободы использован переменный интервал наблюдения от 3 до 15 лет, что позволило получить по 13 вариантов регрессионных моделей Для квадратичной и кубической моделей число вариантов составило 12 и 11 соответственно.
Все 49 моделей достаточно хорошо описывают исходные данные: коэффициент детерминации R2 меняется в пределах от 0,86 до 0,99 (среднее значение 0,96).
По результатам проверки статистической значимости параметров уравнения регрессии с уровнем значимости α = 0,1 исключены из рассмотрения по 6 вариантов квадратичной и кубической моделей.
Для оставшихся вариантов моделей проведена оценка предельных значений ошибок прогноза D на следующий год при α = 0,1 на основе аналитических зависимостей, приведенных в работах В.В. Бучацкой
и В.Н. Наумова .Непосредственное сопоставление оценок ошибок прогноза полиномиальных и логарифмированных моделей некорректно, поэтому дополнительно:
1. Проверены значения коэффициентов детерминации R2 восстановленных после логарифмирования моделей (выявлены незначительные изменения в пределах 0,5%).
2. Из-за мультипликативности экспоненциальной функции ошибки прогноза восстановленных моделей Dв вычисляются как половина ширины доверительного интервала прогноза:
Dв ¹ exp(D),
Dв = 0,5(ymax – ymin) = 0,5(exp(yk + Dв) – exp(yk – Dв)),
где yk — точечный прогноз по логарифмированной модели.
Полученные результаты представлены в табл. 2 (минимальные значения выделены полужирным шрифтом).
Таблица 2 - Сравнение результатов моделирования
Длина интервала наблюдения | Оценка ошибки прогноза модели | ||||
линейная | квадратичная | кубическая | логарифмированная | восстановленная | |
3 года | 26250 | – | – | 6,32 | 25765 |
4 года | 27672 | 4113 | – | 2,93 | 16930 |
5 лет | 13231 | 12021 | – | 2,36 | 12709 |
6 лет | 10790 | – | – | 2,14 | 9649 |
7 лет | 10788 | – | 8100 | 2,02 | 10536 |
8 лет | 13559 | – | 16420 | 1,95 | 13394 |
9 лет | 16795 | – | 22069 | 1,90 | 16628 |
10 лет | 19678 | – | 24827 | 1,87 | 10161 |
11 лет | 12289 | 12308 | 24850 | 1,84 | 22299 |
12 лет | 24494 | – | – | 1,82 | 24260 |
13 лет | 25807 | 10712 | – | 1,82 | 25580 |
14 лет | 26975 | 10605 | – | 1,79 | 26755 |
15 лет | 27715 | 11071 | – | 1,78 | 27512 |
Примечание: минимальные значения выделены полужирным шрифтом
Нетрудно заметить существенную вариацию результатов моделирования: оценки ошибки прогноза модели изменяются в широких пределах от 4113 до 27715 (без учета логарифмированной модели).
Восстановленная модель оказалась лучше линейной: ошибка варианта модели для шестилетнего интервала наблюдения y = exp(14,7 – 0,00617 x) составляет 9649, что на 12% лучше результата 10788 для линейной модели с семилетним интервалом наблюдения y = 2421193 – 14580 x.
Лучшей в конкурсе оказалась квадратичная модель для четырехлетнего интервала наблюдения y = 2710,5 x2 – 27281,3 x + 2388034 с минимальной оценкой ошибки прогноза 4113. Второе место за кубической моделью для семилетнего интервала наблюдения y = 615 x3 – 7455 x2 + 11212 x + 2398197 с оценкой ошибки прогноза 8100.
В нашей работе мы столкнулись с интересным методологическим парадоксом, который можно назвать эффектом «смены лидера» — логарифмированная модель, которая выглядит лучшей по точности прогноза, при восстановлении может проиграть конкурс:
– в логарифмированном виде лучший вариант – для 15-ти летнего интервала наблюдения (D = 1,78);
– в восстановленном виде вариант модели для 15-ти летнего интервала наблюдения с первого места опустился на предпоследнее (Dв = 27512);
– вариант модели для шестилетнего интервала наблюдения в логарифмированном виде занимал 10 место (D = 2,14), а в восстановленном виде поднялся на первое (Dв = 9649).
Этот эффект имеет принципиальное значение для решения практических задач, особенно в контексте социологических исследований. Если на этапе анализа логарифмированных моделей выбрать кажущийся очевидным вариант для 15-летнего интервала, то оценка ошибки прогноза окажется в три раза больше, чем ошибка оптимального после восстановления варианта. Это приведет к неверной интерпретации демографической ситуации: исследователь сделает вывод о высокой неопределенности прогноза (высокой вариативности численности населения), хотя объективно (по восстановленной модели) динамика процесса более определенна.
Данный эффект обусловлен мультипликативностью экспоненциальной функции и нелинейностью логарифмического преобразования (сжимает шкалу для больших значений и растягивает для малых).
Рассчитаем доверительный интервал прогноза по квадратичной модели для четырехлетнего интервала наблюдения:
y(5)±D=2710,5·52 –27281,3·5+2388034±4113=2319390±4113.
Поучается, что численность населения на следующий год с вероятностью 90% окажется в диапазоне от 2315277 до 2323503 человек. Это уже не просто абстрактные цифры, а конкретный социальный факт, имеющий значение для планирования бюджетных расходов, социальных программ и т.д.
Таким образом, конкурс моделей в интервальном прогнозировании — не просто техническая процедура, а содержательный методологический этап, от которого зависит достоверность социологических выводов. Использование логарифмированных моделей требует от исследователя глубокого анализа: красивые цифры на промежуточных этапах могут быть обманчивыми. Только восстановленная модель, «возвращенная» в реальность исходных показателей, имеет право на участие в конкурсе и последующую интерпретацию.
3. Заключение
В математическом аспекте: в ходе исследования выявлен и экспериментально подтвержден методологический эффект «смены лидера». Он заключается в том, что модель, демонстрирующая наилучшие показатели точности в логарифмированном виде, после обратного преобразования в исходную шкалу может значительно ухудшить свои прогнозные характеристики и уступить лидерство другим моделям. Доказана необходимость проведения окончательного отбора моделей для интервального прогнозирования исключительно по восстановленным значениям, так как использование только логарифмированных моделей может привести к выбору заведомо неоптимального варианта.
В социологическом аспекте: корректный отбор математической модели имеет прямое влияние на достоверность выводов о социальных и демографических процессах. В применении к прогнозированию численности населения Иркутской области, наилучший результат (минимальная ошибка прогноза) показала квадратичная модель, что позволяет с наибольшей точностью определить границы доверительного интервала для планирования. Игнорирование эффекта «смены лидера» (выбор модели на основе логарифмированных данных) привело бы к трёхкратному завышению оценки неопределенности прогноза, что исказило бы представление о стабильности развития демографической ситуации. Следовательно, для получения объективных социальных данных необходим не просто расчет, а содержательный методологический контроль за процедурой преобразования моделей.
