Практическая значимость интервальных оценок: переход от «точка-прогноз» к «коридор-прогнозу» на примере анализа NDVI в Хабаровском крае

Научная статья
DOI:
https://doi.org/10.60797/IRJ.2026.166.11
EDN:
MBBLWR
Предложена:
04.03.2026
Принята:
27.03.2026
Опубликована:
17.04.2026
Выпуск: № 4 (166), 2026
Правообладатель: авторы. Лицензия: Attribution 4.0 International (CC BY 4.0)
14
1
XML
PDF

Аннотация

В статье рассматривается проблема неопределенности прогнозов в задачах агромониторинга и дистанционного зондирования Земли. Традиционные точечные оценки, несмотря на их широкое распространение, не учитывают погрешности измерений и естественную изменчивость природных процессов, что может приводить к ошибочным управленческим решениям. Обосновывается необходимость перехода от парадигмы «точка-прогноз» к «коридор-прогнозу» с использованием методов интервального анализа. На примере данных спутникового сервиса ВЕГА-Science по Хабаровскому краю проведен сравнительный анализ пяти методов интервальной регрессии: метод центров, метод минимакса, метод центров и радиусов, линейная и параметризованная модели. Вычислительные эксперименты на синтетических и реальных данных демонстрируют, что более сложные методы эффективны при контролируемой неопределенности, тогда как на реальных данных с инструментальными погрешностями наилучшие результаты показывает метод минимакса. Особое внимание уделено прогнозированию временных рядов вегетационного индекса NDVI на основе многолетних наблюдений. Доказано, что использование исторических интервалов (5–10 лет) позволяет строить прогнозные коридоры, с высокой вероятностью накрывающие фактические значения, даже при применении относительно простых аппроксимирующих функций. Полученные результаты подтверждают, что интервальный подход является не просто математическим уточнением, а необходимым инструментом для повышения достоверности прогнозов и оценки рисков в сельском хозяйстве и экологическом мониторинге.

1. Введение

Традиционные методы прогнозирования в науках о Земле, включая агрометеорологию и экологический мониторинг, долгое время оперировали точечными оценками. Исследователь, получив значение вегетационного индекса NDVI, равное 0,77, или прогноз урожайности 45 ц/га, склонен воспринимать эти числа как истинные. Однако любое измерение содержит погрешность, а любой прогноз — неопределенность. Точечная оценка, будучи «наилучшим предположением» модели, не дает представления о том, насколько этому предположению можно доверять.

В данной работе рассматривается переход от парадигмы точечного прогнозирования к интервальному, когда результат представляется не одним числом, а диапазоном значений — «коридором прогноза». Этот подход, опирающийся на методы интервального анализа, позволяет учитывать как инструментальные погрешности измерений, так и естественную вариабельность геофизических процессов.

Интервальный прогноз представляет собой диапазон значений, который покрывает истинное значение прогнозируемой переменной. В отличие от точечного прогноза, который собирает всю информацию в одно число, интервальный прогноз явным образом количественно оценивает неопределенность

.

Точечный прогноз обладает существенным недостатком — он скрывает неопределенность модели. Например, прогноз температуры 25°C не дает информации о том, может ли реальная температура колебаться в диапазоне 20–30°C. В системах высокой ответственности (управление сельскохозяйственным производством, прогнозирование урожайности, оценка рисков засухи) отсутствие оценки надежности прогноза может приводить к критическим ошибкам. Исследования показывают, что волатильность исходных данных увеличивает смещение в точечных прогнозах, но не влияет на смещение в интервальных прогнозах

. Более того, усреднение двух точечных прогнозов снижает шум до уровня, характерного для интервального прогнозирования.

Применительно к задачам дистанционного зондирования и агромониторинга интервальный подход приобретает особую значимость. Измерения температуры, осадков и вегетационных индексов всегда сопровождаются погрешностями. В соответствии с нормативными документами и научными исследованиями:

– температура воздуха измеряется с точностью ±0,5 °С

;

– количество осадков — с относительной погрешностью 3–7%

;

– значение NDVI — с погрешностью порядка ±0,005

.

Если эти погрешности игнорировать и оперировать только точечными значениями, итоговая модель может создавать ложное впечатление точности там, где ее нет. Интервальный анализ предлагает иной подход: вместо попыток угадать будущее значение показателя определяется допустимое множество возможных значений.

2. Методы и принципы исследования

Интервалом называют множество вещественных чисел, расположенных между двумя числами — границами интервала:

где

и
— нижняя и верхняя границы интервала.

Важнейшими характеристиками интервала, помимо его границ, также являются его середина (центр), ширина и радиус

:

Целью регрессионного анализа является описание зависимости исследуемого показателя от одного или нескольких факторов в виде функции

. В случае интервального анализа каждое значение как исследуемого показателя, так и факторов является интервальным. Рассмотрим основные методы нахождения коэффициентов регрессии для интервальных данных
.

В методе центров для вычисления вектора коэффициентов используются центры интервалов зависимой и независимых переменных:

(1)

где

,
.

Полученные значения используются для оценки нижней и верхней границ:

Метод достаточно прост в применении. Сначала интервальные значения заменяются точечными, путем вычисления середины интервалов, а после используется стандартный способ нахождения коэффициентов для множественной линейной регрессии. Однако у данного метода есть большой недостаток — зачастую нижняя граница может оказаться больше верхней, что недопустимо.

В отличие от предыдущего метода, в методе минимакса коэффициенты для оценки нижней и верхней границ вычисляются по отдельности следующим образом:

Это позволяет более точно описать поведение зависимой переменной, по сравнению с предыдущим методом. Однако метод минимакса обладает тем же недостатком, что и метод центров. Также он неэффективен, если нет четкой зависимости между границами зависимой и независимых переменных.

Метод центров и радиусов является улучшением метода центров. Здесь, помимо центра, берется во внимание радиус интервалов. По формуле (1) вычисляется вектор коэффициентов для центров. Аналогичным образом вычисляется вектор коэффициентов радиусов (соответственно вместо

и
в формулу подставляются
и
). Далее оцениваются центры и радиусы зависимой переменной:

Затем на основании полученных оценок вычисляются границы:

Данный метод эффективен, если между радиусами зависимой и независимых переменных существует линейная зависимость.

Метод линейной модели учитывает как нижние, так и верхние границы независимых переменных, а также их радиусы для оценки границ зависимой переменной, что значительно повышает его гибкость. Вычисления проводятся в два шага. Сначала находится вектор

:

где

,
,
,
.

На втором шаге вычисляются оценки верхней и нижней границ:

Следует уточнить, что отрицательные значения коэффициентов

и
приводят к перевернутым границам интервалов
, при этом в методе не предусмотрен способ избежать этого, а применение модулей данных коэффициентов не позволяет получить адекватную модель.

В отличие от предыдущих методов, где использовались такие конкретные значения, как центр, радиус и границы интервалов, метод параметризованной модели выделяет наилучшие исходные точки из интервалов независимых переменных, на основе которых оцениваются нижняя и верхняя границы зависимой переменной по формулам

Для оценки точности полученных результатов используются известные метрики:

1) среднеквадратическая ошибка (Root Mean Square Error) для левой и правой границ интервалов, вычисляемая по формулам:

2) средняя абсолютная ошибка (Mean Absolute Error) для левой и правой границ интервалов, вычисляемая как

3) средняя величина относительной ошибки (Mean Magnitude of Relative Error), включающая оценку ошибки по верхней и нижней границам,

3. Основные результаты и обсуждение

Пример 1. Модельный (синтетический) набор интервальных данных.

Для проведения вычислительных экспериментов сформированы наборы данных следующей структуры:

– две независимые переменные

;

– зависимая величина

.

Все величины являются интервальными. Параметр

— случайное вещественное число в диапазоне от -20 до 20,
— случайное вещественное число в диапазоне от 0 до 1. Значение
определяется по формуле линейной регрессии
, где значения коэффициентов
задаются также случайным образом.

В полученные значения вносятся реалистичные шумы (ошибки) для имитации неточности измерений или влияния неучтенных факторов. Тем самым формируются верхние и нижние границы интервала значения интервальной величины. Для

нижние границы получаем уменьшением
на величину, которая составляет до 5 % от самого
верхние границы — увеличением на аналогичные значения. Для параметра
разброс составляет от -20% до +20% от самого
.

В таблице 1 приведены значения метрик для различных методов регрессионного анализа, полученных при обработке синтетического набора данных.

Таблица 1 - Оценка моделей сгенерированных данных

​Метод

​Метод центров

2,345

2,408

​1,7

​2,408

​0,0118

Метод минимакса​

2,284

2,402

1,732​

2,402​

​0,0116

Метод центров и радиусов​

2,4

2,28

​1,781

2,28​

​0,116

​Линейная модель

1,06

0,93​

0,841​

0,931​

​0,0052

​Параметризованная модель

1,04

0,92​

0,838​

0,916​

0,0051​

На сгенерированных данных, где структура неопределенности контролируется, наиболее точные результаты показали линейная модель и параметризованная модель, Линейная модель и параметризованная модель оказались в два раза точнее методов центров и минимакса (RMSE ~1,04 против 2,34). Это демонстрирует, что более сложные методы интервального анализа, учитывающие структуру неопределенности, позволяют существенно повысить точность прогнозов по сравнению с упрощенными подходами, сводящими интервалы к точкам.

Пример 2. Набор данных, полученных по данным спутникового сервиса.

Для исследования использованы данные спутникового сервиса ВЕГА-Science для Хабаровского края за 2023 год

. Сервис ВЕГА-Science предоставляет точечные данные о температуре, осадках и NDVI. Индекс NDVI (Normalized Difference Vegetation Index) — это индекс, который служит показателем здоровья растений. С его помощью определяют, сколько активной биомассы в них содержится, поэтому данный показатель активно используется в исследованиях и разработках, связанных с сельским хозяйством, экологией, горным делом и др. Рассчитывается индекс NDVI с помощью значений интенсивности красного и инфракрасного цветов, полученных при анализе мультиспектральных спутниковых снимков.

Данные, полученные от ВЕГА-Science, преобразованы в интервальные с учетом инструментальных погрешностей. Пример такого преобразования показан в таблице 2.

Таблица 2 - Преобразование точечных значений в интервальные

Параметр

Точечное значение​

Погрешность​

Интервальное представление​

​Температура

2,53 °С

0,5 °С

[2,03; 3,03] °С

​Осадки

0,8355 кг/м²

7%

[0,777; 0,894] кг/м²

​NDVI

0,293

0,005

[0,288; 0,298]

Как видно из таблицы, точечные значения представляют собой лишь одну точку внутри интервала возможных значений. Использование только центров интервалов приводит к потере информации о степени неопределенности исходных данных.

В таблице 3 показаны полученные значения метрик для различных методов регрессии. Заметим, что оценки линейной модели отсутствуют. Это связано с тем, что из-за того, что ширина всех интервалов одной из зависимых переменных равна единице, матрица X является вырожденной. В этом случае невозможно вычислить вектор коэффициентов линейной модели. Этот пример наглядно демонстрирует, что переход к интервальному анализу требует не только модификации методов, но и учета специфики данных. В некоторых случаях структура интервальных данных может создавать математические проблемы, не встречающиеся при работе с точечными значениями.

Таблица 3 - Оценка моделей регрессии для реальных данных

​Метод

​Метод центров

0,0592

0,0616

0,0446

0,0616

0,1048

Метод минимакса​

0,0591

0,0615

0,0451

0,0615

0,1047

​Метод центров и радиусов

0,0595

0,0619

0,0442

0,0619

0,1051

Линейная модель

​-

-​

-​

​-

​-

Параметризованная модель

0,0707​

0,0771​

​0,0538

0,056​

0,1342​

Пример 3. Анализ данных многолетних наблюдений временных рядов NDVI.

В предыдущем примере для получения интервальных значений из точечных использовалась погрешность измерений. Однако интервальное представление данных позволяет учитывать не только погрешности, но и диапазоны значений за определенный временной период, что позволяет обрабатывать данные сразу за несколько лет.

Для демонстрации возможности применения интервалов для анализа многолетних наблюдений использованы данные о значениях NDVI для Хабаровского края c 2014 по 2024 год, полученные с помощью спутникового сервиса ВЕГА-Science.

Проведем регрессионный анализ, используя в качестве исходных интервалов значения NDVI в разные временные периоды. В качестве метода регрессионного анализа выбран метод минимакса, так как данный метод оказался наиболее точным при анализе реальных данных.

Прежде чем приступить к регрессионному анализу многолетних наблюдений, убедимся, что данных за один год было бы недостаточно. Попробуем спрогнозировать значения индекса NDVI на 2024 год, используя точечные данные за предыдущий год. Как видно на рисунке 1, предсказанные значения сильно отличаются от фактических фактическими, следовательно, необходимо расширить временной диапазон.

Прогнозирование значений индекса NDVI на 2024 год на основе данных за 2023 год

Прогнозирование значений индекса NDVI на 2024 год на основе данных за 2023 год

На рисунках 2–4 приведены результаты сравнения прогнозных и фактических значений при условии, что для составления прогноза использовался «коридор значений» — т.е. интервалы, построенные за трех-, пяти- и десятилетний период наблюдений.
 Прогнозирование значений индекса NDVI на 2024 год на основе данных за 2021–2023 года

Прогнозирование значений индекса NDVI на 2024 год на основе данных за 2021–2023 года

Прогнозирование значений индекса NDVI на 2024 год на основе данных за 2019–2023 года

Прогнозирование значений индекса NDVI на 2024 год на основе данных за 2019–2023 года

 Прогнозирование значений индекса NDVI на 2024 год на основе данных за 2014–2023 года

Прогнозирование значений индекса NDVI на 2024 год на основе данных за 2014–2023 года

По результатам вычислений видно, что расширение временного диапазона повышает вероятность попадания фактического значения в предсказанный диапазон. Так, например, данных за три года (рис. 2) оказалось недостаточно, не все фактические значения попали в предсказанные интервалы. Расширение диапазона до 5 лет (рис. 3) позволило охватить ранее не попавшие значения. Однако расширение временных диапазонов в некоторых случаях может привести к потере ценности полученного прогноза. Это происходит в задачах, в которых расширение интервалов наблюдаемых значений происходит постоянно, что может привести к слишком широким прогнозным коридорам. Заметим, что в рассматриваемых в данной работе примерах такой проблемы не возникает, так как значения естественным образом ограничены климатическими и прочими условиями региона.

Пример 4. Выбор аппроксимирующей функции для временных рядов NDVI.

Анализируя рисунки 2–4, можно заметить, что изменение фактических значений индекса NDVI (точки на рисунках) во времени имеет более сложный характер, чем аппроксимирующая функция (красные линии). Задача выбора вида функции для аппроксимации данных достаточно хорошо исследована. Если рассматривать ее в контексте данных, использованных авторами, то можно отметить работу

, основной целью которой явилась оценка возможности аппроксимации временных рядов индексов вегетации пахотных земель Хабаровского края с использованием нелинейных функций. Для аппроксимации временных рядов NDVI в
использованы следующие функции: Гаусса, двойная гауссиана, двойная синусоида, ряд Фурье (первые четыре слагаемых), двойная логистическая. Расчеты проводились на данных временного ряда NDVI для полей гречихи, залежи, многолетних трав, пара, сои Хабаровского края за 2021 год.

На рисунке 5 показаны результаты применения сложных функций для аппроксимации интервальных данных сезонных значений индекса NDVI для посадок картофеля. Результаты расчетов показывают, что использование интервала значений вместо одной точечной оценки позволяет значительно точнее описать сезонную динамику вегетационного индекса. Цветными линиями на рисунке показаны результаты аппроксимации интервала значений с помощью различных нелинейных функций. Видно, что сложные функции (двойная гауссиана, ряд Фурье) способны уловить основные тренды сезонного развития культуры — фазы всходов, активной вегетации и увядания. Однако ключевым преимуществом интервального подхода здесь является то, что модель оценивает не просто линию тренда, а целый «коридор» возможных состояний. Это позволяет с большей надежностью планировать агротехнические мероприятия (например, сроки внесения удобрений или полива), так как становится понятен диапазон, в котором может варьироваться состояние посевов под влиянием неучтенных факторов, Аппроксимирующие функции, таким образом, описывают не только ожидаемое среднее значение индекса, но и границы его возможной изменчивости в каждый момент времени.

Прогнозирование значений индекса NDVI для полей картофеля

Прогнозирование значений индекса NDVI для полей картофеля

4. Заключение

Проведенное исследование демонстрирует преимущества интервального подхода к прогнозированию в задачах агромониторинга по сравнению с традиционной парадигмой точечных оценок. Сравнительный анализ пяти методов интервальной регрессии на синтетических и реальных спутниковых данных сервиса ВЕГА-Science позволил выявить их сильные и слабые стороны. В частности, установлено, что усложненные методы (линейная и параметризованная модели) наиболее эффективны при работе с контролируемой структурой неопределенности, в то время как на реальных данных, преобразованных с учетом инструментальных погрешностей, метод минимакса показал наилучшие результаты.

Практический результат работы заключается в обосновании перехода от иллюзорно-точных «точка-прогнозов» к реалистичным «коридор-прогнозам». Это особенно важно для управления сельскохозяйственным производством в регионах с суровыми и изменчивыми климатическими условиями, таких как Хабаровский край. Интервальный прогноз, в отличие от точечного, количественно оценивает неопределенность, предоставляя лицу, принимающему решения, диапазон возможных значений. Как показали эксперименты с многолетними данными, использование исторических интервалов (5–10 лет) позволяет строить прогнозные коридоры, которые с высокой вероятностью накрывают фактические значения даже при использовании относительно простых аппроксимирующих функций. Это открывает возможности для более надежной оценки рисков (засух, неурожаев) и планирования агротехнических мероприятий. Таким образом, интервальный анализ является не просто математическим уточнением, а необходимым инструментом для получения достоверных и практически значимых результатов в условиях естественной неопределенности природных систем.

Метрика статьи

Просмотров:14
Скачиваний:1
Просмотры
Всего:
Просмотров:14