A regression model constructing features for assessing and forecasting the level of Lake Lovozero

Research article
DOI:
https://doi.org/10.60797/IRJ.2024.145.67
Issue: № 7 (145), 2024
Suggested:
15.05.2024
Accepted:
13.06.2024
Published:
17.07.2024
22
4
XML
PDF

Abstract

The article provides an overview of methods of multivariate statistical analysis and examples of their application in hydrometeorology. The level regime of Lake Lovozero was studied using correlation and regression analysis. The initial data used is described, and the selected monthly discretization is justified. A correlation analysis of hydrometeorological characteristics was carried out with the step-by-step exception of predictors that create the effect of multicollinearity. An unstandardized regression analysis was carried out with the exclusion of predictors that have a weak effect on the dependent variable (lake level) and do not satisfy the criterion of significance of the regression coefficient. Using the resulting regression model, water levels on the dependent material were calculated, and an equation for forecasting with a lead time of one month was also derived. Efficiency criteria were calculated and evaluated for the equations. The parameters of the regression equation were standardized, which made it possible to assess the degree of influence of the equation parameters on the response function – lake level. It is concluded that it is inappropriate to carry out the standardization procedure in a particular case. Based on the results of the entire study, a conclusion was made about the influence of meteorological parameters on the level regime of Lovozero – total cloudiness and low-level cloudiness. Complex graphs are presented that allow one to analyze the synchronicity of hydrometeorological parameters: water level, precipitation, total cloudiness and lower cloudiness. A filtering procedure was carried out using the moving average method for cloudiness values in order to exclude the high-frequency component for more convenient analysis. A conclusion is made about the feasibility of the efficiency criteria of the obtained regression equations and, as a consequence, the possibility of their use for forecasting water levels in Lake Lovozero.

1. Введение

Многомерный статистический анализ используется для оценки гидрометеорологических процессов и полей и включает различные методы, которые можно разделить на два крупных класса: методы, направленные на снижение размерности пространства переменных (например, регрессионный анализ, факторный анализ, метод главных компонент), методы, позволяющие объединять объекты в единообразные группы (например, методы дискриминантного и кластерного анализа). Методы широко применяются для решения практических и теоретических задач в гидрометеорологии.

Так, например, в работе Воронцова А. А. и др.

применен метод главных компонент, с помощью которого были выявлены синхронные и асинхронные колебания в полях среднемесячных значений температур воздуха. Был сделан вывод, что поля синхронных колебаний подобны среднемноголетнему полю. Главная синхронная компонента была аппроксимирована аналитическим выражением и спрогнозирована с помощью метода авторегрессий.

Методы спектрального анализа активно применяются в гидрометеорологии для оценки разномасштабной изменчивости тех или иных параметров рассматриваемой системы. Например, в работе Долгоносова Б. М. и Корчагина К. А

был получен спектр мощности речного стока, который может быть использован для анализа процессов переноса примесей с водосбора, что важно для оценки экологических последствий химического и бактериального загрязнения речного бассейна.

Авторы Рожков В. А. и Сухих Н. А. в своей работе

использовали векторный дисперсионный анализ для изучения изменчивости течений в Печорском море. Статистический анализ изменчивости по времени, пространству и глубине скоростей течений в Печорском море выявил наличие годовой ритмики и приливных колебаний, параметры которых также изменяются по глубине и в пространстве. Для количественной характеристики различий этих параметров необходимо использовать векторный дисперсионный анализ.

Применение регрессионного анализа в области наук о Земле хорошо отражено в работе Пяткина Ф. В. и др.

. Ученые рассмотрели регрессионный метод выбора каналов гиперспектральных сенсоров для определения характеристик атмосферы. Метод применялся для расчетов концентрации углекислого газа для инфракрасного Фурье-спектрометра ИКФС-2 и интегрального содержания водяного пара в атмосфере. В работе использовался универсальный подход для определения предикторов и коэффициентов уравнения. Разработанная авторами методика интерпретации спутниковых данных для определения запасов водяного пара в атмосфере над безоблачной поверхностью океана дала хорошие результаты со стабильным среднеквадратическим отклонением линии регрессии от фактических данных.

Также содержательным примером возможности и необходимости применения регрессионного анализа в гидрометеорологии является исследование коллектива авторов из Российского государственного гидрометеорологического университета. В статье

авторы рассматривают методику долгосрочного прогнозирования стока рек Арктической зоны Российской Федерации, основанную на построении регрессионных зависимостей с различным набором предикторов. В результате расчетного эксперимента получен удовлетворительный результат прогнозов при учете взаимосвязей слоя стока весеннего половодья с наивысшим уровнем воды, максимальными снегозапасами, влажностью воздуха и температурой почвы на глубине 0,2 м. Метод регрессионного анализа позволил вывести прогнозное уравнение с минимальной заблаговременность в один месяц с перспективой увеличения до двух месяцев.

В настоящей же статье представлены результаты использования регрессионного анализа для обоснования набора предикторов, с оценкой их статистической значимости, с целью получения достоверной регрессионной модели для описания и прогноза процесса изменения уровня воды в водоеме.

2. Исходные данные и методы исследования

2.1. Исходные данные

В качестве объекта исследования выбрано озеро Ловозеро с озерным гидрологическим постом (ОГП) с. Ловозеро с рядом наблюдений за уровнем воды (Н) с 1932 года по настоящее время, но только с 2008 по 2021 гг. данные наблюдений имеются в открытом доступе на ресурсе АИС ГМВО

.

Влияющими на уровенный режим озера факторами являются расходы воды впадающих в озеро рек (Q) и метеорологические параметры, которые в совокупности своей являются приходными и расходными характеристиками уравнения водного баланса, позволяющего рассчитать коэффициент водообмена (КВ), который, в свою очередь, является наиболее показательным при изучении озер и используется при оценке структуры уровенных рядов и режима стока вытекающих из озер рек

,
.

Гидрологическая информация представлена среднесуточными и среднемесячными расходами воды по притоку р. Сергевань в оз. Ловозеро.

В качестве метеорологических факторов были взяты среднемесячные значения: атмосферных осадков, температуры воздуха, общей облачности и облачности нижнего яруса, упругости водяного пара, продолжительности солнечного сияния, относительной влажности воздуха и атмосферного давления на уровне метеостанции (МС) Краснощелье.

В статье рассматривалась месячная дискретизация, то есть диапазон сезонной изменчивости в многолетнем разрезе, с переходом, в перспективе, на анализ синоптической изменчивости. Такой масштаб был выбран в связи с необходимостью изучения внутригодовых колебаний оз. Ловозеро и гидрометеорологических параметров, формирующих его уровенный режим и имеющих свою уникальную ритмику годовой цикличности

. Таким образом, можно отследить ежегодные периоды максимального и минимального стояния уровней воды в Ловозере.

Для исследования был выбран весь имеющийся в свободном доступе период наблюдений. Метеорологическая информация бралась за этот же период с 2008 по 2021 гг. Однако в рядах гидрологической информации были обнаружены большие пропуски, поэтому был взят совместный период наблюдений за среднемесячными гидрометеорологическими параметрами с 2015 по 2021 год.

Хронологический график изменения рассматриваемых гидрометеорологических параметров представлен на рисунке 1.

Комплексный график изменения гидрометеорологических параметров

Рисунок 1 - Комплексный график изменения гидрометеорологических параметров

2.2. Методы исследования

Для описания и анализа связей гидрометеорологических процессов и явлений используется аппарат корреляционного и регрессионного анализа.

Задача корреляционного анализа – выявление связи между переменными и оценка ее тесноты. Тесноту статистических связей между двумя рядами характеризует коэффициент корреляции, который является параметрическим показателям и изменяется в переделах –1 ≤ r ≤ 1.

Задача регрессионного анализа – изучение формы и установление зависимости между переменными. Статистическое уравнение множественной линейной регрессии имеет вид:

img
(1)

где:

xi – значения предикторов; а– коэффициенты регрессии; a0 – свободный член уравнения; img – остатки, не описываемые уравнением. Для определения неизвестных коэффициентов аi – применяется метод наименьших квадратов. Величина коэффициента регрессии ai показывает, насколько в среднем изменится зависимая переменная y при изменении переменной x на единицу своего измерения.

Уравнение регрессии можно получить по стандартизированным данным

:

img
(2)

где:

img – стандартизированные значения зависимой переменной, коэффициента регрессии и независимой переменной соответственно; img – вектор остатков. Преимущество стандартизированного коэффициента регрессии img в том, что он показывает относительную роль переменной x в описании изменчивости функции отклика – y. Например, если |β1| > |β2|, то x1 оказывает на y большее влияние, чем x2. Нестандартизированные коэффициенты ai таким свойством не обладают.

3. Результаты исследования

3.1. Множественная линейная регрессия по нестандартизированным данным

Построение регрессионной модели начинается с анализа взаимосвязей между предикторами и предиктантом, который можно осуществить по корреляционной матрице (см. табл. 1) и геометрическому ее аналогу – графу корреляции (см. рис. 2).

Таблица 1 - Корреляционная матрица среднемесячных гидрометеорологических характеристик

Анализ корреляционной матрицы и графа корреляции выявил следующее:

1. Наличие высокой связи между предиктантом (уровень воды в озере) и многими предикторами: упругость водяного пара, температура воздуха, относительная влажность воздуха, продолжительность солнечного сияния, атмосферное давление на уровне метеостанции.

2. Выявлены предикторы, которые не будут участвовать в дальнейшей проверке ввиду наличия относительно высокого коэффициента корреляции с предиктантом и отсутствия мультиколлинеарности, а именно: расходы воды, атмосферные осадки и температура воздуха (отмечены в табл. 1 зеленым цветом).

3. Оценивался мультиколлинеарный эффект между переменными, так называемая ложная корреляция, которая может заключаться, во-первых, в физически необоснованной корреляции между предикторами; во-вторых, в опосредующем или обуславливающем влиянии двух и более предикторов на прогнозируемый элемент

,
. Пример ложной корреляции отмечен в табл. 1 красным цветом. В рассматриваемом случае один из предикторов (упругость водяного пара и температура воздуха) можно исключить, предварительно оценив степень влияния каждого на предиктант. Теоретически логично, что можно наблюдать сильную связь между упругостью водяного пара и температурой воздуха, так как, чем выше температура, тем больше воздух может содержать водяного пара
. В таком случае имеет смысл исключить из числа предикторов упругость водяного пара, так как этот показатель является следствием от изменения температуры, которая оказывает большее влияние на уровень воды в озере с соответственно сопутствующими процессами.

Граф корреляции среднемесячных гидрометеорологических характеристик

Рисунок 2 - Граф корреляции среднемесячных гидрометеорологических характеристик

Примечание: Q – расход воды; H – уровень воды; X – атмосферные осадки; T – температура воздуха; P – давление на уровне станции; % – относительная влажность воздуха; Cloud1 – общая облачность; Cloud2 – облачность нижнего яруса; Sun – продолжительность солнечного сияния; гПа – упругость водяного пара

Для дальнейшего отбора предикторов выполняется регрессионный анализ с последовательным исключением и/или добавлением переменных.

При первом «прогоне» использовались все имеющиеся в наличии предикторы. Потребовалось пять итераций с различными наборами параметров, в результате которых было получено регрессионное уравнение, давшее наилучший результат, из пяти предикторов, а именно: среднемесячный расход воды (Q, м3/с), атмосферные осадки (мм), температура воздуха (°С), а также общая облачность и облачность нижнего яруса в баллах. Соответствующие процессу перебора коэффициенты множественной регрессии R и стандартные ошибки представлены в таблице 2.

Таблица 2 - Результаты регрессионного анализа

 

Количество предикторов

9

8

7

7

6

5

Множественный R

0,910

0,909

0,901

0,907

0,907

0,907

R2

0,828

0,827

0,812

0,823

0,823

0,823

Стандартная ошибка, см

11,72

11,66

12,05

11,70

11,61

11,52

В гидрологии полученная регрессионная зависимость может использоваться для практических расчетов, если регрессия объясняет более 50 % разброса относительно предиктанта, т. е. |R| ≥ 0,7 => R2≈ 0,5

. Поскольку указанные два условия соблюдались для каждого набора предикторов, то в качестве критерия отбора параметров уравнения использовалась стандартная ошибка.

Полученное регрессионное уравнение имеет вид (R = 0,907):

img
(3)

где:

где Н – среднемесячный уровень воды оз. Ловозеро; X1 – среднемесячные расходы воды р. Сергевань (Q, м3/с); X2 – среднемесячные атмосферные осадки (мм); X3 – температура воздуха (°С); X4 – общая облачность в баллах; X5 – облачность нижнего яруса в баллах.

Полученное уравнение регрессии может использоваться в качестве прогностической зависимости, однако это корректно только в том случае, если уравнение является надежным. Поэтому для уравнения (3) оценивались следующие статистические характеристики с целью проверки соблюдения требований, предъявляемых в гидрологии к уравнению линейной регрессии:

· σR – стандартная ошибка коэффициента парной корреляции;

· σa – стандартная ошибка коэффициента регрессии (далее будут приведены результаты проверки, где a1 – среднемесячные расходы воды р. Сергевань; a2среднемесячные атмосферные осадки; a3температура воздуха; a4 – общая облачность; a5 – облачность нижнего яруса);

· σb – стандартная ошибка свободного члена.

Регрессионное уравнение (3) и его параметры проверялись на соблюдение следующих условий: n > 10, |R| > 0,7, |R|/σR ≥ 2, |a|/σa ≥ 2, |b|/σb ≥ 2. В результате проверки получены следующие выводы: длина исследуемого ряда n = 72; |R| = 0,907; |R|/σR = 43; |a1|/σa1 = 12,39; |a2|/σa2 = 0,23; |a3|/σa3 = 0,87; |a4|/σa4 = 1,99; |a5|/σa5 = 2,89; |b|/σb = 6,17.

Для выведенного уравнения регрессии (3) соблюдаются практически все условия для того, чтобы его можно было использовать в прогностических целях. Однако, несмотря на такой хороший результат, встает вопрос, что делать с предикторами, неудовлетворяющими требованиям: среднемесячные атмосферные осадки, температура воздуха и общая облачность.

Было принято решение выполнить регрессионный анализ, исключив предиктор X2 среднемесячные атмосферные осадки (мм) и X3 – температура воздуха (°С), оставив при этом параметр X4 – общая облачность в баллах, поскольку он близок к выполнению требования |a|/σa ≥ 2. Результаты анализа и проверки условий приведены в таблице 3.

Таблица 3 - Оценка требований уравнения линейной регрессии с тремя предикторами

n > 10

|R| > 0,7

|R|/σR ≥ 2

|a|/σa ≥ 2

|b|/σb ≥ 2

72

0,906

42

a1

16,96

a2

2,07

a3

2,89

b

6,17

Примечание: среднемесячные расходы воды a1, общая облачность a2, облачность нижнего яруса a3

Таким образом, исключив из регрессионного анализа два неудовлетворяющих условиям надежности предиктора (среднемесячные атмосферные осадки и температуру воздуха) – весомо повысили значимость остальных параметров.

Сокращенная регрессионная модель имеет вид:

img
(4)

где:

X1 – среднемесячные расходы воды (Q, м3/с); X2 – общая облачность в баллах; X3 – облачность нижнего яруса в баллах.

Итоговое уравнение проверялось на независимом материале. Эффективность методики оценивалась с помощью критерия S/σ, где S – средняя квадратическая погрешность проверочных прогнозов, σ – среднее квадратическое отклонение прогнозируемого значения элемента от среднего

.

Поверочный период составил один год – 2021. На рисунке 3 представлен совместный график хода фактических и поверочных (рассчитанных по уравнению регрессии) среднемесячных уровней воды оз. Ловозеро за 2021 год. Длина ряда n < 15, отношение S/σ < 0,70, применяемую методику (регрессионную модель) можно считать удовлетворительной.

График изменения фактических и прогнозных уровней воды оз. Ловозеро, 2021 год

Рисунок 3 - График изменения фактических и прогнозных уровней воды оз. Ловозеро, 2021 год

Также была разработана регрессионная модель с учетом заблаговременности в 1 месяц (т.е. в уравнение подставлялись предикторы за предыдущий месяц):
img
(5)

На рисунке 4 и 5 представлен график изменения фактических и расчетных уровней воды оз. Ловозеро на зависимом материале и график поверочного прогноза с оценками эффективности методики (на независимом материале) с заблаговременностью 1 месяц.

График изменений фактических и расчетных уровней воды оз. Ловозеро с заблаговременностью 1 месяц

Рисунок 4 - График изменений фактических и расчетных уровней воды оз. Ловозеро с заблаговременностью 1 месяц

График изменений фактических и прогнозных уровней воды оз. Ловозеро с заблаговременностью 1 месяц, 2021 год

Рисунок 5 - График изменений фактических и прогнозных уровней воды оз. Ловозеро с заблаговременностью 1 месяц, 2021 год

Как видно из приведенных на графиках критериев S/σ, методика дает удовлетворительный результат как на зависимом, так и на независимом материале, при заблаговременности месяц с учетом выбранных предикторов.

3.2. Множественная линейная регрессия по стандартизированным данным

Для сравнения имеющегося набора данных и удобства их анализа применяется процесс стандартизации данных, в результате которого выводятся стандартизированные коэффициенты регрессии. Эти коэффициенты βi  используются для оценки силы влияния независимой переменной на зависимую.

Стандартизация рядов проводилась для отобранных предикторов и предиктанта. После анализа результатов сделан вывод, что процедура стандартизации не влияет на конечный результат и ей можно пренебречь. Однако, стандартизация выбранных параметров уравнения позволила выяснить следующее: при наборе таких гидрометеорологических характеристик как среднемесячный расход воды, общая облачность и облачность нижнего яруса влияние предиктора X3 (облачность нижнего яруса) выражено сильнее, чем X2 (общая облачность), при составлении прогнозного уравнения без учета заблаговременности. Обратная ситуация наблюдается при наличии заблаговременности в 1 месяц. Тогда влияние общей облачности X2 несколько больше, чем облачности нижнего яруса X3.

Если же рассматривать уравнение, состоящее из пяти предикторов (среднемесячные расходы воды, среднемесячные атмосферные осадки и температура воздуха, общая облачность и облачность нижнего яруса), стандартизация показывает в обоих случаях (с заблаговременностью и без) доминирующее влияние облачности нижнего яруса над общей облачностью в описании процесса изменения уровенного режима оз. Ловозеро.

Для удобства анализа критериев S/σ, которые послужили индексом качества выведенных уравнений регрессии, приведена в таблице 4.

Таблица 4 - Сводная таблица критериев S/σ для уравнений (4), (5)

n ≤ 15 => S/σ ≤ 0,7

S

n > 25 => S/σ ≤ 0,85

Без заблаговременности

зависимый материал (n=72)

0,43

поверочный прогноз (n=12)

0,70

Заблаговременность 1 месяц

зависимый материал (n=72)

0,66

поверочный прогноз (n=12)

0,46

4. Дискуссия (обсуждение)

Анализируя полученные результаты (см. табл. 1), можно заметить, что «численный» вклад общей облачности и облачности нижнего яруса в изменение уровенного режима совершенно невелик. Однако в процессе перебора предикторов было установлено, что отсутствие этих характеристик сильно ухудшает ситуацию с оправдываемостью прогноза и другими критериями, оценивающими тесноту связи.

Ниже представлены графики хода гидрометеорологических величин, которые немного прояснили вопрос появления в регрессионных уравнениях таких предикторов как облачность нижнего яруса и общая облачность (см. рис. 6).

На рисунке 6 можно заметить, что реакция характеристик идет с некоторым запаздыванием. Сначала наблюдается формирование облачности, причем ход облачности нижнего яруса выражен лучше, чем общая облачность, а затем выпадают осадки, вызывая подъем уровня воды.

Однако, ход облачности достаточно «зашумлен». Чтобы понять, действительно ли есть цикличность в периодах высокой и низкой балльности облачности, была проведена статистическая фильтрация. Применялось, для сравнения, два вида фильтрации: скользящее среднее (СС) и экспоненциальное сглаживание.

Был выбран метод скользящего среднего из следующих соображений: данные по облачности предоставляются ВНИИГМИ-МЦД

в срочном формате, в сутках восемь сроков, и для получения месячного значения облачности эти данные осредняются. Также в пользу фильтра скользящего среднего по сравнению с экспоненциальным сглаживанием идет факт величины отклонений фактических значений облачности от спрогнозированных. В методе СС при различных комбинациях ширины окна сглаживания значения отклонений σ находятся в интервале 0 ≤ σ ≤ 2. Тогда как при применении экспоненциального сглаживания при различных вариантах значения константы сглаживания отклонения σ варьируются от 0 до 3 (0 ≤ σ ≥ 3) и выше.

Для исследуемой метеорологической характеристики (облачность) экспериментальным путем

выбрана ширина окна n=4, поскольку показала наилучший результат сглаживания и дала наименьшие отклонения от фактических значений облачности.

Комплексный график хода гидрометеорологических характеристик

Рисунок 6 - Комплексный график хода гидрометеорологических характеристик

Из графиков на рисунке 6 видно, что наиболее выраженный ход и влияние на уровень воды оз. Ловозеро имеет облачность нижнего яруса, это же доказывает и проведенный выше регрессионный анализ.

5. Заключение

В результате использования регрессионного анализа для обоснования набора предикторов с целью получения достоверной регрессионной модели для описания и прогноза уровенного режима водоема сделан следующий вывод: для оценки процесса изменения уровня озера Ловозеро с месячной дискретизацией будет достаточен учет трех нестандартизированных предикторов – среднемесячные расходы воды притока, общая облачность и облачность нижнего яруса.

Полученные регрессионные модели показывают удовлетворительные результаты с заблаговременностью один месяц. Для увеличения заблаговременности прогнозов необходимо учитывать дополнительные предикторы, описывающие циркуляцию атмосферы и другие характеристики водосборов

.

Планируется расширенное исследование по комплексной оценке роли облачности при прогнозе изменений гидрологических характеристик на озерно-речных системах Карелии и Северо-Западного Федерального округа.

Article metrics

Views:22
Downloads:4
Views
Total:
Views:22