ПРОГНОЗИРОВАНИЕ ВРЕМЕННЫХ РЯДОВ С ПРИМЕНЕНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ НА ПРИМЕРЕ ГРАФИКА ВЫДАЧИ МОЩНОСТИ ЭЛЕКТРИЧЕСКОЙ СТАНЦИИ
ПРОГНОЗИРОВАНИЕ ВРЕМЕННЫХ РЯДОВ С ПРИМЕНЕНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ НА ПРИМЕРЕ ГРАФИКА ВЫДАЧИ МОЩНОСТИ ЭЛЕКТРИЧЕСКОЙ СТАНЦИИ
Научная статья
Шишков Е.М.1, *, Проничев А.В.2, Савельев А.А.3
1 ORCID: 0000-0003-3723-0080;
2 ORCID: 0000-0001-5436-7228;
3 ORCID: 0000-0003-2268-2957;
1, 2 Филиал Самарского государственного технического университета в г. Новокуйбышевске, Новокуйбышевск, Россия;
3 Самарский государственный технический университет, Самара, Россия
* Корреспондирующий автор (e.m.shishkov[at]ieee.org)
АннотацияВ работе освещен подход к прогнозированию генерации тепловой электрической станции с использованием методов машинного обучения. В ходе работы проведена генерация признаков на основе электрических величин, данных о времени и погодных условиях и их последующий отбор, построены трехуровневые ансамбли моделей на основе линейной регрессии и градиентного бустинга над решающими деревьями. Полученные метрики качества позволяют судить о принципиальной возможности использования рассмотренного метода для решения как данной, так и смежных задач, связанных с прогнозированием временных рядов.
Ключевые слова: машинное обучение; прогнозный диспетчерский график; линейная регрессия; градиентный бустинг; временные ряды.
FORECASTING TIME SERIES VIA MACHINE LEARNING METHODS BASED ON THE POWER OUTPUT SCHEDULE OF AN ELECTRIC POWER STATION
Research article
Shishkov E.M.1,*, Pronichev A.V.2,Savelyev A.A.3
1ORCID: 0000-0003-3723-0080;
2ORCID: 0000-0001-5436-7228;
3ORCID: 0000-0003-2268-2957;
1, 2 Novokuibyshevsk branch of Samara State Technical University, Novokuibyshevsk, Russia;
3Samara State Technical University, Samara, Russia
* Corresponding author (e.m.shishkov[at]ieee.org)
Abstract
The paper discusses an approach to predicting the generation of a thermal power plant using machine learning methods. In the course of the research, the authors carry out the generation of features based on electrical quantities, time and weather data and their subsequent selection as well as construct three-level ensembles of models based on linear regression and gradient boosting over decision trees. The obtained quality metrics allow the authors to assess the fundamental possibility of using the considered method to solve both this particular problem and other problems related to time series forecasting.
Keywords: machine learning; predictive dispatch schedule; linear regression; gradient boosting; time series.
Введение
На текущий момент в электроэнергетике не теряет актуальность применение современных информационно-телекоммуникационных технологий, что обусловлено распространением концепций интеллектуальной (SmartGrid) и цифровой энергетики. Одним из наиболее перспективных подходов в этом направлении является использование технологий машинного обучения, которые показали хорошие результаты в других областях [1], [3], [5], [8].
Целью данной работы является оценка возможности применения методов машинного обучения для предсказания временных рядов, в частности генерации электрической станции на несколько суток вперед. Такого рода предсказания в перспективе позволят наиболее полно использовать имеющиеся ретроспективные данные и тем самым усовершенствовать процесс построения прогнозного диспетчерского графика.
Постановка задачи
В настоящее время для целей определения предварительного баланса ЕЭС (Единой энергетической системы) России на предстоящие операционные сутки X с использованием электроэнергетической расчетной модели в сутки X-2 выполняется расчет предварительно энергетического режима. Расчет производится на одни сутки на основании прогноза потребления и известных на момент расчета плановых и аварийных ремонтов сетевого и генерирующего оборудования. Результаты расчета позволяют уточнить предварительно выбранный в рамках технологии ВСВГО (выбора состава включенного генерирующего оборудования) состав генерирующего оборудования на рассматриваемые операционные сутки. Прогнозный диспетчерский график содержит отнесенные к узлам расчетной модели почасовые значения активной мощности включенного генерирующего оборудования, данные о потреблении, а также параметры рассчитанного сбалансированного режима. Однако любые изменения потребления электроэнергии, состояния генерирующего и сетевого оборудования, введение сетевых ограничений носят стохастический характер, поэтому их невозможно спрогнозировать заранее с абсолютной точностью [9], [10].
В качестве объекта исследования выступает тепловая электрическая станция (ТЭС). Она имеет 3 отходящие линии с классом напряжения 500 кВ и 6 линий с классом 220 кВ. Для данной станции мы располагаем данными о напряжениях на шинах распределительных устройств и перетоках мощности по отходящим от нее линиям с дискретностью в один час и глубиной в 3 года. В качестве дополнительных также использовались данные о погодных условиях в соответствующие периоды времени.
Методы и принципы исследования
Для прогнозирования генерации электрической станции используется модель с тремя последовательными уровнями – на 72 часа вперед, на 48 часов вперед и на 24 часа вперед. Каждый уровень (кроме первого) для предсказания использует результат с предыдущих (см. рисунок 1). В качестве результата модель выдает предсказание графика мощности электрической станции с дискретностью 1 час на целевые сутки X. Для модели каждого уровня организована индивидуальная подготовка данных с соответствующей задержкой в часах.
Рис. 1 – Схема подготовки данных для моделей
Использование данных в том виде, в котором они представлены изначально, некорректно ввиду того, что данные для соответствующего момента времени не будут известны на момент совершения предсказания. В связи с этим была произведена генерация новых признаков путем агрегации имеющихся данных с соответствующей задержкой. В частности, для каждой точки были рассчитаны скользящие средние и медианные значения и стандартные отклонения перетоков мощности и напряжений при ширине окна в 3, 6, 12, 24, 48 и 72 часа (216 новых признаков).
Данные о погодных условиях использовались без изменений, так как для обучения данные о погоде принимались в качестве фактических, а для предсказания – в качестве прогнозных (7 новых признаков).
Для учета сезонности данных дополнительно были сгенерированы признаки на основе даты и времени, а именно: час в сутках, день в неделе, день в месяце, месяц в году (6 новых признаков).
Таким образом, с учетом всех озвученных выше этапов генерации признаков – атрибутный состав данных расширился до 229 признаков. Далее в работе
Для оценки качества полученной модели использовались следующие метрики качества:
- MAE (mean absolute error) – средняя абсолютная ошибка;
- RMSE (rootmeansquarederror) – корень из среднеквадратичной ошибки;
- MAPE (mean absolute percentage error) – средняя абсолютная ошибка в процентах;
- R2-score – коэффициент детерминации. Метрика, определяющая соответствие модели данным. В общем случае находится в диапазоне [0÷1], где 1 – идеальное соответствие, однако в случае с неадекватной моделью может принимать отрицательные значения;
- t-MAE (thresholdMAE) – метрика, определяющая стабильность предсказания модели, находится в диапазоне [0÷1], где 1 соответствует идеальной модели.
Метрики MAE и RMSE отражают ошибку предсказания в именованных единицах, и позволяют оценить ошибку непосредственно в мегаваттах. Метрика MAPE позволяет рассчитать отклонение у в относительных единицах, что упрощает оценку качества с точки зрения нормативных документов. R2-score и t-MAE позволяют в общем виде оценить адекватность полученной модели [11].
В качестве функции потерь используется MSE (meansquarederror) – среднеквадратичная ошибка. Выбор данной метрики обусловлен тем, что при ее расчете разница между истинным и предсказанным значением возводится в квадрат, что предотвращает компенсацию положительных отклонений за счет отрицательных. То есть в рамках решения данной задачи при предсказании необходимо стремиться к минимуму ошибки как при превышении предсказанного значения реальным, так и наоборот.
Моделирование производилось на высокоуровневом языке Python. Для предсказания используются модели линейной регрессии (реализация PyTorch) и модели градиентного бустинга над решающими деревьями c экспертными и подобранными в ходе оптимизации гипер параметрами (реализации CatBoost и LightGBM). Применение данных алгоритмов обусловлено применением фреймворка LightAutoML, позволяющего проводить быстрое прототипирование.
Для обучения и валидации имеющиеся данные были поделены на две части в соотношении 2 к 1. Таким образом, для обучения использовались данные за два года, для валидации – за 1 год. При обучении модели использован скользящий контроль (k-fold) с разбиением на k=8. Результаты прогноза моделей, полученные на 8 выборках, усреднялись.
По результатам обучения моделей были произведены расчеты метрик качества как для обучающей выборки (out-of-fold - OOF), так и для валидационной выборки (Test).
В первую очередь производилось обучение с учетом всех сгенерированных ранее признаков (229 признаков) (см. таблицу 1).
Таблица 1 – Результаты расчета метрик качества для моделей, обученных на всех признаках
Метрика качества | Прогноз на 3-е сутки | Прогноз на 2-е сутки | Прогноз на сутки | |||
OOF | Test | OOF | Test | OOF | Test | |
MAE | 18,5 | 166,3 | 8,9 | 167,6 | 6,9 | 167,3 |
RMSE | 26,3 | 228,9 | 12,7 | 230,6 | 9,7 | 230,3 |
MAPE | 3,4 | 32,7 | 1,7 | 32,8 | 1,3 | 32,8 |
R2-score | 0,99 | 0,48 | 0,99 | 0,47 | 0,97 | 0,47 |
t-MAE | 0,93 | 0,82 | 0,96 | 0,82 | 0,97 | 0,82 |
Полученные на отложенной выборке результаты оказались неудовлетворительными, о чем свидетельствует R2-score, который оказался меньше 0,5. Далее представлены результаты моделирования для одних суток (см. рисунок 2). Из графика видно, что модель довольно четко усвоила сезонность данных как минимум внутри суток.
Рис. 2 – Сравнение фактических и предсказанных значений внутри суток для модели, обученной на всех признаках
Для повышения качества предсказания из всех имеющихся признаков по результатам первого этапа моделирования были отобраны 50 наиболее значимых. Затем произведено повторное моделирование с учетом только отобранных признаков (см. таблицу 2, рисунок 3).
Таблица 2 – Результаты расчета метрик качества для моделей, обученных на наиболее значимых признаках
Метрика качества | Прогноз на 3-е сутки | Прогноз на 2-е сутки | Прогноз на сутки | |||
OOF | Test | OOF | Test | OOF | Test | |
MAE | 26,3 | 121,5 | 14,8 | 120,4 | 12,3 | 119,1 |
RMSE | 37,8 | 168,9 | 21,8 | 169,8 | 17,5 | 168,9 |
MAPE | 5,1 | 22,9 | 2,9 | 22,0 | 2,4 | 21,6 |
R2-score | 0,98 | 0,72 | 0,99 | 0,72 | 0,99 | 0,72 |
t-MAE | 0,93 | 0,85 | 0,94 | 0,85 | 0,94 | 0,86 |
Снижение количества признаков в модели привело к значительному росту метрик качества на валидационной выборке. В среднем ошибка предсказания в мегаваттах снизилась на 60, в процентах – на 10%. Далее представлены веса предсказаний по каждому типу моделей (см. таблицу 3).
Рис. 3 – Сравнение фактических и предсказанных значений внутри суток для модели, обученной на наиболее значимых признакахТаблица 3 – Вклад моделей в предсказание
Модель | Вес прогноза модели | ||
Прогноз на 3-е сутки | Прогноз на 2-е сутки | Прогноз на сутки | |
Линейная регрессия | 0 | 0 | 0,738 |
LightGBM с экспертными параметрами | 0 | 0,509 | 0,262 |
LightGBM с подобранными параметрами | 0,779 | 0,491 | 0 |
CatBoost с подобранными параметрами | 0,221 | 0 | 0 |
Повышение качества моделирования обусловлено снижением количества признаков, шумовая составляющая которых значительно преобладает над информационной. Примечательным оказался факт того, что при прогнозе на 3-е суток вперед наиболее точными оказались предсказания моделей градиентного бустинга, а при прогнозировании на сутки вперед наибольший вклад вносит линейная регрессия. Такой результат возможно интерпретировать следующим образом. При прогнозировании на меньший горизонт зависимость между величинами имеет более простой, линейный характер, в то время как прогнозирование на больший горизонт напротив имеет сложные нелинейные зависимости.
Основные результаты
В ходе работы была произведена предобработка данных о перетоках мощности в линиях электропередачи, напряжениях на шинах распределительных устройств. Дополнительно получены данные о погодных условиях. Произведена генерация признаков на основе даты и времени, а также путем агрегации электрических величин.
Для предсказания генерации тепловой электрической станции выполнено построение двух ансамблей моделей машинного обучения на основе линейной регрессии и градиентного бустинга над решающими деревьями – без отбора и с отбором наиболее значимых признаков.
Результаты моделирования без отбора признаков показали неудовлетворительные результаты, а именно коэффициент детерминации на валидационной выборке равный 0,48.
Отбор признаков привел к существенному повышению метрик качества модели, в частности коэффициент детерминации на валидационной выборке составил 0,72.
Для модели прогноза на двое и трое суток вперед в числе наиболее значимых признаков оказались данные о погодных условиях и данные, полученные из даты и времени. Для модели прогноза на сутки вперед наиболее значимыми оказались признаки, полученные путем агрегации электрических величин и предсказания предыдущих уровней модели.
Заключение
Для дальнейшего повышения качества моделирования необходимо как увеличивать глубину исходных данных, так и расширять состав признаков. К примеру, наибольший интерес вызывают признаки, связанные с техническим состоянием оборудования, ценообразованием, а также составом включенного генерирующего оборудования.
Представленный в ходе решения данной задачи метод возможно применить также в аналогичных задачах прогнозирования, например, для предсказания нагрузки собственных нужд электрических станций или различных метрик показателей качества электроэнергии для последующего определения аномальных состояний электрической сети.
Конфликт интересов Не указан. | Conflict of Interest None declared. |
Список литературы / References
- Chen J. Research on High Performance Computing of Power System Based on Machine Learning Algorithm /J. Chen, Y. Chen, Z. Guo et al. // International Conference on Computer Information and Big Data Applications (CIBDA), 2020, 204-207;
- Power System Frequency Situation Prediction Method Based on Transfer Learning /X. He, Q. Liu, J. Tang, Q. Ma et al. // 12th IEEE PES Asia-Pacific Power and Energy Engineering Conference (APPEEC), 2020, pp. 1-5;
- Xu R. Continuous Modeling of Power Plant Performance with Regularized Extreme Learning Machine /R. Xu, W. Yan // International Joint Conference on Neural Networks (IJCNN), 2019, pp. 1-8;
- Goswami T. Predictive Model for Classification of Power System Faults using Machine Learning /T. Goswami, B. Roy // 2019 IEEE Region 10 Conference (TENCON), 2019, pp. 1881-1885;
- Analysis of Network Loss Energy Measurement Based on Machine Learning /S. Wang, H. Chen, B. Pu et al. // IEEE International Conference on Information and Automation (ICIA), 2018, pp. 1113-1117;
- Pathan A. Some Case Studies of Power Outages with Possible Machine Learning Strategies for their Predictions / Pathan, J. Timmerberg, S. Mylvaganam // 28th EAEEIE Annual Conference (EAEEIE), 2018, pp. 1-9;
- Peng X.A very short term wind power prediction approach based on Multilayer Restricted Boltzmann Machine /Xiaosheng Peng et al. // IEEE PES Asia-Pacific Power and Energy Engineering Conference (APPEEC), 2016, pp. 2409-2413;
- Массель Л.В. Использование машинного обучения в ситуационном управлении применительно к задачам электроэнергетики / Л.В.Массель, О.М.Гергет, А.Г.Массель и др. // Информационные и математические технологии в науке и управлении. 2019. №3 (15). – С. 6-10;
- Ведерников А.С. Планирование режимов работы электроэнергетических систем / А.С.Ведерников, А.В.Гофман, Л.А.Кеткин и др. // Международный журнал экспериментального образования. – 2016. – № 12-1. – С. 79-80;
- Киреев С.В. Рынок на сутки вперёд: концепция, ценообразование, фундаментальные факторы / С.В.Киреев, И.Б. Тюнин // Аудит и финансовый анализ — №2, 2011. С. 1-4.
- Hastie T. The Elements of Statistical Learning /T.Hastie, R.Tibshirani, J. Friedman. Springer, 2014. - pp. 50-52.
Список литературы на английском языке / References in English
- Chen J. Research on High Performance Computing of Power System Based on Machine Learning Algorithm /J. Chen, Y. Chen, Z. Guo et al. // International Conference on Computer Information and Big Data Applications (CIBDA), 2020, 204-207;
- Power System Frequency Situation Prediction Method Based on Transfer Learning /X. He, Q. Liu, J. Tang, Q. Ma et al. // 12th IEEE PES Asia-Pacific Power and Energy Engineering Conference (APPEEC), 2020, pp. 1-5;
- Xu R. Continuous Modeling of Power Plant Performance with Regularized Extreme Learning Machine /R. Xu, W. Yan // International Joint Conference on Neural Networks (IJCNN), 2019, pp. 1-8;
- Goswami T. Predictive Model for Classification of Power System Faults using Machine Learning /T. Goswami, B. Roy // 2019 IEEE Region 10 Conference (TENCON), 2019, pp. 1881-1885;
- Analysis of Network Loss Energy Measurement Based on Machine Learning /S. Wang, H. Chen, B. Pu et al. // IEEE International Conference on Information and Automation (ICIA), 2018, pp. 1113-1117;
- Pathan A. Some Case Studies of Power Outages with Possible Machine Learning Strategies for their Predictions / Pathan, J. Timmerberg, S. Mylvaganam // 28th EAEEIE Annual Conference (EAEEIE), 2018, pp. 1-9;
- Peng X. A very short term wind power prediction approach based on Multilayer Restricted Boltzmann Machine /Xiaosheng Peng et al. // IEEE PES Asia-Pacific Power and Energy Engineering Conference (APPEEC), 2016, pp. 2409-2413;
- Massel L.V. Ispol'zovanie mashinnogo obuchenija v situacionnom upravlenii primenitel'no k zadacham jelektrojenergetiki[The use of machine learning in situational management in relation to the tasks of the electric power industry] / L.V. Massel, O.M. Gerget, A.G. Massel et al. // Informacionnye i matematicheskie tehnologii v nauke i upravlenii[Information and mathematical technologies in science and management]. 2019. No. 3 (15). - pp. 6-10;
- Vedernikov A.S. Planirovanie rezhimov raboty jelektrojenergeticheskih sistem[Planning of operating modes of electric power systems] / A.S. Vedernikov, A.V. Hoffman, L.A. Ketkin et al. // Mezhdunarodnyj zhurnal jeksperimental'nogo obrazovanija[International Journal of Experimental Education]. - 2016. - No. 12-1. - pp. 79-80;
- Kireev S.V. Rynok na sutki vperjod: koncepcija, cenoobrazovanie, fundamental'nye faktory [The market for the day ahead: concept, pricing, fundamental factors] / S.V. Kireev,I.B. Tyunin // Audit i finansovyj analiz [Audit and financial analysis] - No.2, 2011. pp. 1-4.
- Hastie T. The Elements of Statistical Learning /T.Hastie, R.Tibshirani, J. Friedman. Springer, 2014. - pp. 50-52.