VECTOR RANDOM SEQUENCES ANALYSIS IN CASE OF METEOROLOGICAL DATA
Новицкий Г.С.1, Сирота Е.А.2 Матвеев М.Г.1
1Аспирант;
2Кандидат технических наук;
3Доктор технических наук,
Воронежский государственный университет
АНАЛИЗ ВЕКТОРНЫХ СЛУЧАЙНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ НА ПРИМЕРЕ МЕТЕОРОЛОГИЧЕСКИХ ДАННЫХ
Аннотация
В рамках данной статьи проводится анализа подходов к построению модели прогнозирования векторных случайных процессов и предлагается новый комбинированный подход для решения задачи моделирования нестационарного векторного случайного процесса на примере метеорологических данных.
Ключевые слова: метеорология, авторегрессия, моделирование.
Novitsky G.S.1, Sirotova E.A.2, Matveev M.G.3
1Postgraduate student;
2PhD in Engeneering;
3Doctor of Enegneearing, Voronezh State University
VECTOR RANDOM SEQUENCES ANALYSIS IN CASE OF METEOROLOGICAL DATA
Abstract
The article considers analysis of different widespread approaches to vector random sequences modelling and describes a modified approach which can be used for vector random sequences modelling and approximation in case of meteorological data.
Keywords: meteorology, autoregression, modelling.
Случайный процесс
Моделирование поведения случайных последовательностей и использование моделей для прогнозирования их поведения является универсальной задачей, которая ставится в разных условиях и на основании различных (экономических, метеорологических и др.) данных. Случайные последовательности требуют первоначального исследования, анализа зависимостей и выбора наиболее приемлемого подхода. Существует несколько наиболее широко распространенных подходов к описанию случайных последовательностей, каждый из которых имеет свои особенности.
Случайный процесс в общем случае представляет собой функцию двух разнородных величин: случайной величины w и времени t: y(w,t), t = 0, ±1, ±2,..., ±t,.... Временной ряд образуется в результате наблюдений за случайным процессом, выполняемых в фиксированные промежутки времени. Предполагается, что временной ряд представляет собой выборку yt, t T, из последовательности случайных величин y(w,t), t = 0, ±1 ±2,..., ±t,....
При моделировании реальных процессов приходится решать следующую задачу: имеется реализация ряда и нужно подобрать модель, которая могла бы породить такую реализацию (модель, генерирующую данные).
Свойства стационарного процесса не изменяются во времени. Его значения колеблются вокруг некоторого постоянного среднего значения, дисперсия, характеризующая размах этих колебаний, постоянна, значения автокорреляционной функции уменьшаются с увеличением времени между наблюдениями.
Среднее и/или дисперсия нестационарного процесса зависят от времени, дисперсия его со временем стремится к бесконечности, автокорреляционная функция не уменьшается с увеличением времени между наблюдениями, в конечных выборках выборочная автокорреляционная функция медленно затухает.
Типичные временные ряды могут включать четыре составляющие [1]:
- тренд или систематическое движение;
- колебания относительно тренда;
- сезонные изменения;
- "несистематическая" или "нерегулярная" "случайная" составляющая.
Математическое описание временного ряда представляет собой сумму нескольких составляющих или просто одну из них. Существует несколько разных подходов к моделированию временных рядов – выделению каждой из составляющих. Успешность и уместность применения каждого из подходов зависит от типа процесса.
Определение типа процесса является необходимым этапом при построении коинтеграции - стационарной линейной комбинации нестационарных процессов, так как она возможна только в случае, если оба процесса - интегрированные одного порядка.
Для каждого из типов процессов используются свои сценарии обработки, неверное определение типа процесса при анализе приводит к нежелательным последствиям [3].
Структурно-детерминированный подход
При построении параметрической модели нестационарных рядов обычно предварительно выполняется процедура "остационаривания" ряда, которая может проводиться либо путем выделения стационарного тренда, заключающегося в оценке параметров функции тренда методом наименьших квадратов и вычитании ее значений из исходного ряда, либо посредством применения к исходному ряду разностного оператора. Выбор процедуры "остационаривания" ряда зависит от типа нестационарного процесса. [1]
Однако если операцию дифференцирования применять к стационарному или тренд-стационарному процессу, то в результате можно получить процесс типа скользящего среднего, для которого не существует авторегрессионного представления. В этом случае продифференцированный ряд оказывается автокоррелированным, несмотря на то, что исходный ряд представляет собой сумму детерминированного линейного тренда и белого шума (эффект Слутского)
После определения типа процесса и выделения составляющих следует понимать, что при моделировании временного ряда и, особенно, использовании модели для прогнозирования его дальнейшего поведения нужно максимально точно определить параметры модели.
Рассмотрим примитивный пример приведенной модели случайного процесса,
где М это модель, описывающая поведение случайного процесса,
T – функция, описывающая трендовую составляющую случайного процесса, возьмем в качестве примера самый простой случай, где – линейная функция от времени t.
C – функция, описывающая колебательную составляющую модели случайного процесса.
S – функция, описывающая сезонную составляющую модели.
Даже в приведенном примитивном виде данная модель содержит такое количество параметров модели (), для точного определения которых понадобится максимально большой срез статистических данных.
Обычный подход к проблеме нестационарных данных состоял в том, чтобы формулировать статистические модели в виде соотношений между первыми разностями, т.е. темпами прироста. Но статистическая модель, основанная исключительно на разностях, может улавливать только краткосрочную динамику процесса и не позволяет анализировать долгосрочные связи между переменными. Задача разработки методов, отслеживающих возможные долгосрочные связи, скрытые помехами краткосрочных колебаний, решается с помощью выявления факта, что определенная комбинация двух (или более) нестационарных рядов может быть стационарной. Например, экономическая теория часто делает именно такие предсказания: если имеются равновесные соотношения между двумя экономическими переменными, то они могут отклоняться от равновесия в краткосрочном аспекте, но будут стремиться к равновесию в более долгосрочном.[2]
Коинтеграция
Коинтеграция – это стационарная комбинация нестационарных переменных. Проверка стационарности и коинтеграции являются стандартными процедурами, с которых начинается спецификация динамических эконометрических моделей. Коинтеграционный анализ оказался особенно ценен для анализа систем, в которых на краткосрочную динамику влияют большие случайные возмущения, в то время как долгосрочные колебания ограничены общими экономическими равновесными соотношениями.
Коинтеграция может существовать только между нестационарными процессами одинакового порядка интеграции, между стационарными процессами возможны корреляционные связи, между процессами различных типов связь отсутствует, при попытке установить ее может возникнуть ложная регрессия
Для построения моделей многомерных временных рядов Симе разработал конструкцию, получившую название векторные авторегрессионные модели (VAR).
Yt=A0+A1Yt-1+…+ApYt-p+Et
где A0 - вектор констант, A1…Ap - матрицы коэффициентов, a Et - вектор серийно некоррелированных ошибок, о которых предполагается, что они имеют среднее ноль и матрицу ковариаций .
Различают три различных формы VAR-модели: приведенная форма VAR, рекурсивная VAR и структурная VAR. Все три являются динамическими линейными моделями, которые связывают текущие и прошлые значения n-мерного вектора временного ряда. При построении приведенной и рекурсивной VAR не используются никакие ограничения экономической теории за исключением выбора переменных, при построении структурной VAR используются ограничения, полученные из макроэкономической теории.
Для оценивания параметров приведенной формы VAR используется метод наименьших квадратов (МНК), применяемый по отдельности к каждому из уравнений.
Однако, VAR не учитывает нестационарности протекания процесса.
Большинство разработанных методов проверки типа процесса и коинтеграции основано на предположении постоянства процесса в интервале наблюдения. Однако в реальных системах под воздействием внешней среды и времени закономерности поведения процесса могут изменяться. Изменения свойств процессов называются структурными разрывами. [3]
Структурные разрывы представляют собой изменения свойств процесса, отражающиеся в изменениях коэффициентов параметрической модели процесса и/или параметров распределения случайной составляющей. В результате структурных разрывов могут изменяться: тип процесса, среднее значение процесса или его разностей, дисперсия процесса или его разностей, наклон тренда процесса, коэффициенты описывающей его параметрической модели.
При наличии структурных разрывов в процессе
- изменяется параметрическая модель системы; если изменения в параметрах модели игнорируются, то оценки параметров становятся незначимыми и прогнозы теряют точность;
- усложняется процедура проверки критериев, предназначенных для определения типа процесса;
- усложняется процедура проверки наличия коинтеграции.
В нашем случае векторный случайный процесс представляет собой данные о среднесуточной температуре в узлах сетки параллелей и меридиан с шагом 2.5°
Рис. 1 - Фрагмент схемы измерения метеорологических показателей, шаг сетки по параллелям и меридианам составляет 2,5°
В данных условиях не представляется возможным применение вышеописанных подходов. В условиях метеорологических данных, помимо зависимости между xi,j(t) и xi,j(t-1) существует корреляция таких временных рядов как xi,j(t), xi,j-1(t), xi,j+1(t), xi+1,j(t), xi-1,j(t).
Исходя из этого, было принято решение использовать модификацию VAR подхода, для описания данного нестационарного векторного случайного процесса.
Запишем авторегрессионное уравнение для x(t):
xi,j(t) = a1 xi,j(t-1)+ a2 xi-1,j(t-1)+ a3xi+1,j(t-1)+ a4 xi,j-1(t-1)+ a5 xi,j+1(t-1)
Данная форма записи не подразумевает нестационарности, поэтому необходимо ввести зависимость параметров от времени. Однако, чтобы сохранить свойства VAR, нужно установить параметрам модели a зависимость от температурных показателей x(t). Иными словами
ai= ai(t)= ai(x(t))= ai(x)
Таким образом, модель учитывает нестационарность процесса и условия взаимной корреляции между рядами смежных узлов. В то же время параметры моделей зависят только от входных данных и эти данные могут быть сгруппированы по критериям однородности, при том,ж чем больше статистики будет в распоряжении, тем большее количество классов можно будет выделить и тем более точных значений параметров для каждого из классов можно будет добиться.
В качестве универсального аппроксиматора может быть выбран любой инструмент, отвечающий требованиям задачи, например искусственная нейронная сеть, с четырьмя входами и одним выходом.
Таким образом, в данной работе был приведен обзор существующих доступных подходов к моделированию нестационарных временных рядов и предложен комбинированный подход, отвечающий требованиям стоящей задачи моделирования нестационарного векторного случайного процесса в условиях метеорологических данных.
Литература
- Гребенюк Е.А. Методы анализа нестационарных временных рядов с неявными изменениями свойств (обзор). Автоматика и Телемеханика. 2005. №12, стр. 1-28.
- Чураков Е.П. Прогнозирование эконометрических временных рядов. М.: Финансы и статистика, 2008.
- Айвазян С.А. и др. Прикладная статистика: исследование зависимостей - М.: Финансы и статистика, 1985.
- Использование модели Сугено для прогнозирования метеорологических показателей. / М.Г. Матвеев, В.В. Михайлов, М.Е. Семенов // Вестник ВГУ, серия «Системный анализ и информационные технологии», научный журнал, №2, 2011.- стр. 164-169.
- Матвеев Л.Т. Курс общей физики атмосферы. 2-е изд. Л.: Гидрометеоиздат, 1984. – 687 с.