Особенности построения регрессионной модели для оценки и прогноза уровня озера Ловозеро

Научная статья
DOI:
https://doi.org/10.60797/IRJ.2024.145.67
Выпуск: № 7 (145), 2024
Предложена:
15.05.2024
Принята:
13.06.2024
Опубликована:
17.07.2024
21
4
XML
PDF

Аннотация

В статье приведен обзор методов многомерного статистического анализа и примеров их применения в гидрометеорологии. Исследовался уровенный режим озера Ловозеро с применением корреляционного и регрессионного анализа. Описаны используемые исходные данные, обоснована выбранная месячная дискретизация. Проведен корреляционный анализ гидрометеорологических характеристик с поэтапным исключением предикторов, создающих эффект мультиколлинеарности. Проведен нестандартизированный регрессионный анализ с исключением предикторов, оказывающих слабое влияние на зависимую переменную (уровень озера) и не удовлетворяющих критерию значимости коэффициента регрессии. По полученной регрессионной модели выполнен расчет уровней воды на зависимом материале, также выведено уравнение для прогноза с заблаговременностью один месяц. Для уравнений рассчитаны и оценены критерии эффективности. Выполнена стандартизация параметров уравнения регрессии, которая позволила оценить степень влияния параметров уравнения на функцию отклика – уровень озера. Сделан вывод о нецелесообразности проведения процедуры стандартизации в конкретном случае. По итогу всего исследования сделан вывод о влиянии на уровненный режим Ловозера метеорологических параметров – общая облачность и облачность нижнего яруса. Приведены комплексные графики, позволяющие проанализировать синхронность хода гидрометеорологических параметров: уровень воды, атмосферные осадки, общая облачность и облачность нижнего яруса. Проведена процедура фильтрации методом скользящего среднего для значений облачности с целью исключения высокочастотной составляющей для более удобного анализа. Сделан вывод о выполнимости критериев эффективности полученных регрессионных уравнений и, как следствие, возможности их применения для прогноза уровней воды оз. Ловозеро.

1. Введение

Многомерный статистический анализ используется для оценки гидрометеорологических процессов и полей и включает различные методы, которые можно разделить на два крупных класса: методы, направленные на снижение размерности пространства переменных (например, регрессионный анализ, факторный анализ, метод главных компонент), методы, позволяющие объединять объекты в единообразные группы (например, методы дискриминантного и кластерного анализа). Методы широко применяются для решения практических и теоретических задач в гидрометеорологии.

Так, например, в работе Воронцова А. А. и др.

применен метод главных компонент, с помощью которого были выявлены синхронные и асинхронные колебания в полях среднемесячных значений температур воздуха. Был сделан вывод, что поля синхронных колебаний подобны среднемноголетнему полю. Главная синхронная компонента была аппроксимирована аналитическим выражением и спрогнозирована с помощью метода авторегрессий.

Методы спектрального анализа активно применяются в гидрометеорологии для оценки разномасштабной изменчивости тех или иных параметров рассматриваемой системы. Например, в работе Долгоносова Б. М. и Корчагина К. А

был получен спектр мощности речного стока, который может быть использован для анализа процессов переноса примесей с водосбора, что важно для оценки экологических последствий химического и бактериального загрязнения речного бассейна.

Авторы Рожков В. А. и Сухих Н. А. в своей работе

использовали векторный дисперсионный анализ для изучения изменчивости течений в Печорском море. Статистический анализ изменчивости по времени, пространству и глубине скоростей течений в Печорском море выявил наличие годовой ритмики и приливных колебаний, параметры которых также изменяются по глубине и в пространстве. Для количественной характеристики различий этих параметров необходимо использовать векторный дисперсионный анализ.

Применение регрессионного анализа в области наук о Земле хорошо отражено в работе Пяткина Ф. В. и др.

. Ученые рассмотрели регрессионный метод выбора каналов гиперспектральных сенсоров для определения характеристик атмосферы. Метод применялся для расчетов концентрации углекислого газа для инфракрасного Фурье-спектрометра ИКФС-2 и интегрального содержания водяного пара в атмосфере. В работе использовался универсальный подход для определения предикторов и коэффициентов уравнения. Разработанная авторами методика интерпретации спутниковых данных для определения запасов водяного пара в атмосфере над безоблачной поверхностью океана дала хорошие результаты со стабильным среднеквадратическим отклонением линии регрессии от фактических данных.

Также содержательным примером возможности и необходимости применения регрессионного анализа в гидрометеорологии является исследование коллектива авторов из Российского государственного гидрометеорологического университета. В статье

авторы рассматривают методику долгосрочного прогнозирования стока рек Арктической зоны Российской Федерации, основанную на построении регрессионных зависимостей с различным набором предикторов. В результате расчетного эксперимента получен удовлетворительный результат прогнозов при учете взаимосвязей слоя стока весеннего половодья с наивысшим уровнем воды, максимальными снегозапасами, влажностью воздуха и температурой почвы на глубине 0,2 м. Метод регрессионного анализа позволил вывести прогнозное уравнение с минимальной заблаговременность в один месяц с перспективой увеличения до двух месяцев.

В настоящей же статье представлены результаты использования регрессионного анализа для обоснования набора предикторов, с оценкой их статистической значимости, с целью получения достоверной регрессионной модели для описания и прогноза процесса изменения уровня воды в водоеме.

2. Исходные данные и методы исследования

2.1. Исходные данные

В качестве объекта исследования выбрано озеро Ловозеро с озерным гидрологическим постом (ОГП) с. Ловозеро с рядом наблюдений за уровнем воды (Н) с 1932 года по настоящее время, но только с 2008 по 2021 гг. данные наблюдений имеются в открытом доступе на ресурсе АИС ГМВО

.

Влияющими на уровенный режим озера факторами являются расходы воды впадающих в озеро рек (Q) и метеорологические параметры, которые в совокупности своей являются приходными и расходными характеристиками уравнения водного баланса, позволяющего рассчитать коэффициент водообмена (КВ), который, в свою очередь, является наиболее показательным при изучении озер и используется при оценке структуры уровенных рядов и режима стока вытекающих из озер рек

,
.

Гидрологическая информация представлена среднесуточными и среднемесячными расходами воды по притоку р. Сергевань в оз. Ловозеро.

В качестве метеорологических факторов были взяты среднемесячные значения: атмосферных осадков, температуры воздуха, общей облачности и облачности нижнего яруса, упругости водяного пара, продолжительности солнечного сияния, относительной влажности воздуха и атмосферного давления на уровне метеостанции (МС) Краснощелье.

В статье рассматривалась месячная дискретизация, то есть диапазон сезонной изменчивости в многолетнем разрезе, с переходом, в перспективе, на анализ синоптической изменчивости. Такой масштаб был выбран в связи с необходимостью изучения внутригодовых колебаний оз. Ловозеро и гидрометеорологических параметров, формирующих его уровенный режим и имеющих свою уникальную ритмику годовой цикличности

. Таким образом, можно отследить ежегодные периоды максимального и минимального стояния уровней воды в Ловозере.

Для исследования был выбран весь имеющийся в свободном доступе период наблюдений. Метеорологическая информация бралась за этот же период с 2008 по 2021 гг. Однако в рядах гидрологической информации были обнаружены большие пропуски, поэтому был взят совместный период наблюдений за среднемесячными гидрометеорологическими параметрами с 2015 по 2021 год.

Хронологический график изменения рассматриваемых гидрометеорологических параметров представлен на рисунке 1.

Комплексный график изменения гидрометеорологических параметров

Рисунок 1 - Комплексный график изменения гидрометеорологических параметров

2.2. Методы исследования

Для описания и анализа связей гидрометеорологических процессов и явлений используется аппарат корреляционного и регрессионного анализа.

Задача корреляционного анализа – выявление связи между переменными и оценка ее тесноты. Тесноту статистических связей между двумя рядами характеризует коэффициент корреляции, который является параметрическим показателям и изменяется в переделах –1 ≤ r ≤ 1.

Задача регрессионного анализа – изучение формы и установление зависимости между переменными. Статистическое уравнение множественной линейной регрессии имеет вид:

img
(1)

где:

xi – значения предикторов; а– коэффициенты регрессии; a0 – свободный член уравнения; img – остатки, не описываемые уравнением. Для определения неизвестных коэффициентов аi – применяется метод наименьших квадратов. Величина коэффициента регрессии ai показывает, насколько в среднем изменится зависимая переменная y при изменении переменной x на единицу своего измерения.

Уравнение регрессии можно получить по стандартизированным данным

:

img
(2)

где:

img – стандартизированные значения зависимой переменной, коэффициента регрессии и независимой переменной соответственно; img – вектор остатков. Преимущество стандартизированного коэффициента регрессии img в том, что он показывает относительную роль переменной x в описании изменчивости функции отклика – y. Например, если |β1| > |β2|, то x1 оказывает на y большее влияние, чем x2. Нестандартизированные коэффициенты ai таким свойством не обладают.

3. Результаты исследования

3.1. Множественная линейная регрессия по нестандартизированным данным

Построение регрессионной модели начинается с анализа взаимосвязей между предикторами и предиктантом, который можно осуществить по корреляционной матрице (см. табл. 1) и геометрическому ее аналогу – графу корреляции (см. рис. 2).

Таблица 1 - Корреляционная матрица среднемесячных гидрометеорологических характеристик

Анализ корреляционной матрицы и графа корреляции выявил следующее:

1. Наличие высокой связи между предиктантом (уровень воды в озере) и многими предикторами: упругость водяного пара, температура воздуха, относительная влажность воздуха, продолжительность солнечного сияния, атмосферное давление на уровне метеостанции.

2. Выявлены предикторы, которые не будут участвовать в дальнейшей проверке ввиду наличия относительно высокого коэффициента корреляции с предиктантом и отсутствия мультиколлинеарности, а именно: расходы воды, атмосферные осадки и температура воздуха (отмечены в табл. 1 зеленым цветом).

3. Оценивался мультиколлинеарный эффект между переменными, так называемая ложная корреляция, которая может заключаться, во-первых, в физически необоснованной корреляции между предикторами; во-вторых, в опосредующем или обуславливающем влиянии двух и более предикторов на прогнозируемый элемент

,
. Пример ложной корреляции отмечен в табл. 1 красным цветом. В рассматриваемом случае один из предикторов (упругость водяного пара и температура воздуха) можно исключить, предварительно оценив степень влияния каждого на предиктант. Теоретически логично, что можно наблюдать сильную связь между упругостью водяного пара и температурой воздуха, так как, чем выше температура, тем больше воздух может содержать водяного пара
. В таком случае имеет смысл исключить из числа предикторов упругость водяного пара, так как этот показатель является следствием от изменения температуры, которая оказывает большее влияние на уровень воды в озере с соответственно сопутствующими процессами.

Граф корреляции среднемесячных гидрометеорологических характеристик

Рисунок 2 - Граф корреляции среднемесячных гидрометеорологических характеристик

Примечание: Q – расход воды; H – уровень воды; X – атмосферные осадки; T – температура воздуха; P – давление на уровне станции; % – относительная влажность воздуха; Cloud1 – общая облачность; Cloud2 – облачность нижнего яруса; Sun – продолжительность солнечного сияния; гПа – упругость водяного пара

Для дальнейшего отбора предикторов выполняется регрессионный анализ с последовательным исключением и/или добавлением переменных.

При первом «прогоне» использовались все имеющиеся в наличии предикторы. Потребовалось пять итераций с различными наборами параметров, в результате которых было получено регрессионное уравнение, давшее наилучший результат, из пяти предикторов, а именно: среднемесячный расход воды (Q, м3/с), атмосферные осадки (мм), температура воздуха (°С), а также общая облачность и облачность нижнего яруса в баллах. Соответствующие процессу перебора коэффициенты множественной регрессии R и стандартные ошибки представлены в таблице 2.

Таблица 2 - Результаты регрессионного анализа

 

Количество предикторов

9

8

7

7

6

5

Множественный R

0,910

0,909

0,901

0,907

0,907

0,907

R2

0,828

0,827

0,812

0,823

0,823

0,823

Стандартная ошибка, см

11,72

11,66

12,05

11,70

11,61

11,52

В гидрологии полученная регрессионная зависимость может использоваться для практических расчетов, если регрессия объясняет более 50 % разброса относительно предиктанта, т. е. |R| ≥ 0,7 => R2≈ 0,5

. Поскольку указанные два условия соблюдались для каждого набора предикторов, то в качестве критерия отбора параметров уравнения использовалась стандартная ошибка.

Полученное регрессионное уравнение имеет вид (R = 0,907):

img
(3)

где:

где Н – среднемесячный уровень воды оз. Ловозеро; X1 – среднемесячные расходы воды р. Сергевань (Q, м3/с); X2 – среднемесячные атмосферные осадки (мм); X3 – температура воздуха (°С); X4 – общая облачность в баллах; X5 – облачность нижнего яруса в баллах.

Полученное уравнение регрессии может использоваться в качестве прогностической зависимости, однако это корректно только в том случае, если уравнение является надежным. Поэтому для уравнения (3) оценивались следующие статистические характеристики с целью проверки соблюдения требований, предъявляемых в гидрологии к уравнению линейной регрессии:

· σR – стандартная ошибка коэффициента парной корреляции;

· σa – стандартная ошибка коэффициента регрессии (далее будут приведены результаты проверки, где a1 – среднемесячные расходы воды р. Сергевань; a2среднемесячные атмосферные осадки; a3температура воздуха; a4 – общая облачность; a5 – облачность нижнего яруса);

· σb – стандартная ошибка свободного члена.

Регрессионное уравнение (3) и его параметры проверялись на соблюдение следующих условий: n > 10, |R| > 0,7, |R|/σR ≥ 2, |a|/σa ≥ 2, |b|/σb ≥ 2. В результате проверки получены следующие выводы: длина исследуемого ряда n = 72; |R| = 0,907; |R|/σR = 43; |a1|/σa1 = 12,39; |a2|/σa2 = 0,23; |a3|/σa3 = 0,87; |a4|/σa4 = 1,99; |a5|/σa5 = 2,89; |b|/σb = 6,17.

Для выведенного уравнения регрессии (3) соблюдаются практически все условия для того, чтобы его можно было использовать в прогностических целях. Однако, несмотря на такой хороший результат, встает вопрос, что делать с предикторами, неудовлетворяющими требованиям: среднемесячные атмосферные осадки, температура воздуха и общая облачность.

Было принято решение выполнить регрессионный анализ, исключив предиктор X2 среднемесячные атмосферные осадки (мм) и X3 – температура воздуха (°С), оставив при этом параметр X4 – общая облачность в баллах, поскольку он близок к выполнению требования |a|/σa ≥ 2. Результаты анализа и проверки условий приведены в таблице 3.

Таблица 3 - Оценка требований уравнения линейной регрессии с тремя предикторами

n > 10

|R| > 0,7

|R|/σR ≥ 2

|a|/σa ≥ 2

|b|/σb ≥ 2

72

0,906

42

a1

16,96

a2

2,07

a3

2,89

b

6,17

Примечание: среднемесячные расходы воды a1, общая облачность a2, облачность нижнего яруса a3

Таким образом, исключив из регрессионного анализа два неудовлетворяющих условиям надежности предиктора (среднемесячные атмосферные осадки и температуру воздуха) – весомо повысили значимость остальных параметров.

Сокращенная регрессионная модель имеет вид:

img
(4)

где:

X1 – среднемесячные расходы воды (Q, м3/с); X2 – общая облачность в баллах; X3 – облачность нижнего яруса в баллах.

Итоговое уравнение проверялось на независимом материале. Эффективность методики оценивалась с помощью критерия S/σ, где S – средняя квадратическая погрешность проверочных прогнозов, σ – среднее квадратическое отклонение прогнозируемого значения элемента от среднего

.

Поверочный период составил один год – 2021. На рисунке 3 представлен совместный график хода фактических и поверочных (рассчитанных по уравнению регрессии) среднемесячных уровней воды оз. Ловозеро за 2021 год. Длина ряда n < 15, отношение S/σ < 0,70, применяемую методику (регрессионную модель) можно считать удовлетворительной.

График изменения фактических и прогнозных уровней воды оз. Ловозеро, 2021 год

Рисунок 3 - График изменения фактических и прогнозных уровней воды оз. Ловозеро, 2021 год

Также была разработана регрессионная модель с учетом заблаговременности в 1 месяц (т.е. в уравнение подставлялись предикторы за предыдущий месяц):
img
(5)

На рисунке 4 и 5 представлен график изменения фактических и расчетных уровней воды оз. Ловозеро на зависимом материале и график поверочного прогноза с оценками эффективности методики (на независимом материале) с заблаговременностью 1 месяц.

График изменений фактических и расчетных уровней воды оз. Ловозеро с заблаговременностью 1 месяц

Рисунок 4 - График изменений фактических и расчетных уровней воды оз. Ловозеро с заблаговременностью 1 месяц

График изменений фактических и прогнозных уровней воды оз. Ловозеро с заблаговременностью 1 месяц, 2021 год

Рисунок 5 - График изменений фактических и прогнозных уровней воды оз. Ловозеро с заблаговременностью 1 месяц, 2021 год

Как видно из приведенных на графиках критериев S/σ, методика дает удовлетворительный результат как на зависимом, так и на независимом материале, при заблаговременности месяц с учетом выбранных предикторов.

3.2. Множественная линейная регрессия по стандартизированным данным

Для сравнения имеющегося набора данных и удобства их анализа применяется процесс стандартизации данных, в результате которого выводятся стандартизированные коэффициенты регрессии. Эти коэффициенты βi  используются для оценки силы влияния независимой переменной на зависимую.

Стандартизация рядов проводилась для отобранных предикторов и предиктанта. После анализа результатов сделан вывод, что процедура стандартизации не влияет на конечный результат и ей можно пренебречь. Однако, стандартизация выбранных параметров уравнения позволила выяснить следующее: при наборе таких гидрометеорологических характеристик как среднемесячный расход воды, общая облачность и облачность нижнего яруса влияние предиктора X3 (облачность нижнего яруса) выражено сильнее, чем X2 (общая облачность), при составлении прогнозного уравнения без учета заблаговременности. Обратная ситуация наблюдается при наличии заблаговременности в 1 месяц. Тогда влияние общей облачности X2 несколько больше, чем облачности нижнего яруса X3.

Если же рассматривать уравнение, состоящее из пяти предикторов (среднемесячные расходы воды, среднемесячные атмосферные осадки и температура воздуха, общая облачность и облачность нижнего яруса), стандартизация показывает в обоих случаях (с заблаговременностью и без) доминирующее влияние облачности нижнего яруса над общей облачностью в описании процесса изменения уровенного режима оз. Ловозеро.

Для удобства анализа критериев S/σ, которые послужили индексом качества выведенных уравнений регрессии, приведена в таблице 4.

Таблица 4 - Сводная таблица критериев S/σ для уравнений (4), (5)

n ≤ 15 => S/σ ≤ 0,7

S

n > 25 => S/σ ≤ 0,85

Без заблаговременности

зависимый материал (n=72)

0,43

поверочный прогноз (n=12)

0,70

Заблаговременность 1 месяц

зависимый материал (n=72)

0,66

поверочный прогноз (n=12)

0,46

4. Дискуссия (обсуждение)

Анализируя полученные результаты (см. табл. 1), можно заметить, что «численный» вклад общей облачности и облачности нижнего яруса в изменение уровенного режима совершенно невелик. Однако в процессе перебора предикторов было установлено, что отсутствие этих характеристик сильно ухудшает ситуацию с оправдываемостью прогноза и другими критериями, оценивающими тесноту связи.

Ниже представлены графики хода гидрометеорологических величин, которые немного прояснили вопрос появления в регрессионных уравнениях таких предикторов как облачность нижнего яруса и общая облачность (см. рис. 6).

На рисунке 6 можно заметить, что реакция характеристик идет с некоторым запаздыванием. Сначала наблюдается формирование облачности, причем ход облачности нижнего яруса выражен лучше, чем общая облачность, а затем выпадают осадки, вызывая подъем уровня воды.

Однако, ход облачности достаточно «зашумлен». Чтобы понять, действительно ли есть цикличность в периодах высокой и низкой балльности облачности, была проведена статистическая фильтрация. Применялось, для сравнения, два вида фильтрации: скользящее среднее (СС) и экспоненциальное сглаживание.

Был выбран метод скользящего среднего из следующих соображений: данные по облачности предоставляются ВНИИГМИ-МЦД

в срочном формате, в сутках восемь сроков, и для получения месячного значения облачности эти данные осредняются. Также в пользу фильтра скользящего среднего по сравнению с экспоненциальным сглаживанием идет факт величины отклонений фактических значений облачности от спрогнозированных. В методе СС при различных комбинациях ширины окна сглаживания значения отклонений σ находятся в интервале 0 ≤ σ ≤ 2. Тогда как при применении экспоненциального сглаживания при различных вариантах значения константы сглаживания отклонения σ варьируются от 0 до 3 (0 ≤ σ ≥ 3) и выше.

Для исследуемой метеорологической характеристики (облачность) экспериментальным путем

выбрана ширина окна n=4, поскольку показала наилучший результат сглаживания и дала наименьшие отклонения от фактических значений облачности.

Комплексный график хода гидрометеорологических характеристик

Рисунок 6 - Комплексный график хода гидрометеорологических характеристик

Из графиков на рисунке 6 видно, что наиболее выраженный ход и влияние на уровень воды оз. Ловозеро имеет облачность нижнего яруса, это же доказывает и проведенный выше регрессионный анализ.

5. Заключение

В результате использования регрессионного анализа для обоснования набора предикторов с целью получения достоверной регрессионной модели для описания и прогноза уровенного режима водоема сделан следующий вывод: для оценки процесса изменения уровня озера Ловозеро с месячной дискретизацией будет достаточен учет трех нестандартизированных предикторов – среднемесячные расходы воды притока, общая облачность и облачность нижнего яруса.

Полученные регрессионные модели показывают удовлетворительные результаты с заблаговременностью один месяц. Для увеличения заблаговременности прогнозов необходимо учитывать дополнительные предикторы, описывающие циркуляцию атмосферы и другие характеристики водосборов

.

Планируется расширенное исследование по комплексной оценке роли облачности при прогнозе изменений гидрологических характеристик на озерно-речных системах Карелии и Северо-Западного Федерального округа.

Метрика статьи

Просмотров:21
Скачиваний:4
Просмотры
Всего:
Просмотров:21