APPLICATION OF MACHINE LEARNING METHODS FOR PRELIMINARY ANALYSES OF FOREST FIRES DATA IN THE REPUBLIC OF BURYATIA
APPLICATION OF MACHINE LEARNING METHODS FOR PRELIMINARY ANALYSES OF FOREST FIRES DATA IN THE REPUBLIC OF BURYATIA
Abstract
The article is devoted to a preliminary analysis of data on forest fires in the Republic of Buryatia based on information from the Geoinformation Portal ‘Nature of Buryatia’. In the process of research, the spatial and temporal distribution of forest fires was constructed. The dynamics of fires for the period from 2015 to 2024 was provided, as well as the structure of the causes of fires, the analysis of which showed the predominance of anthropogenic natural factors in the form of thunderstorms. The concentration of fire centres and the intensity of fires were studied based on the construction of a heat map. Analysis of the informativity of the available data and their visualisation was carried out using machine learning methods. The data were analysed using software developed in the Python programming language using Pandas, Scikit-Learn, MatplotLib, Folium libraries.
1. Введение
Пожары представляют собой одну из самых серьезных угроз для экосистем, человеческой жизни и материальных ценностей. В последние десятилетия в Бурятии наблюдается рост числа и интенсивности лесных пожаров, что подчеркивает необходимость глубокого анализа данных о пожарах для разработки эффективных стратегий их предотвращения и реагирования. С учетом изменения климата, увеличения урбанизации и человеческой деятельности, понимание причин и последствий пожаров становится более актуальным, чем когда-либо.
Анализ данных о пожарах включает в себя сбор, обработку и интерпретацию информации, связанной с различными аспектами возникновения и распространения огня. Это может включать данные о погодных условиях, типах растительности, географическом положении, а также информацию о предыдущих инцидентах. С помощью современных методов анализа данных, таких как машинное обучение и статистические модели, можно выявлять основные паттерны и аномалии, которые могут помочь в понимании причин и последствий пожаров, а также предсказать вероятность возникновения пожара и его потенциальную интенсивность.
В выполнен анализ динамики лесных пожаров в Республике Бурятия за период с 2013 по 2019 год, включая их причины, последствия и уязвимость территории. Основное внимание уделено антропогенным факторам возникновения пожаров, а также влиянию климатических условий и видового состава лесов. Анализ проведен с использованием программного средства Microsoft Excel.
Другое направление исследования пожаров посвящено влиянию дорожной инфраструктуры на возникновение, распространение и тушение лесных пожаров в Восточно-Сибирской тайге, используя комбинацию данных дистанционного зондирования и наблюдений местных сообществ .
В статье применяется кластерный анализ для обработки статистических данных о лесных пожарах вблизи железнодорожной инфраструктуры на примере Республики Бурятия. Авторы исследуют взаимосвязь между антропогенной нагрузкой, вызванной железнодорожными объектами, и возникновением пожаров, используя метеорологические данные, характеристики лесных массивов и пространственное распределение пожаров.
В работе проанализированы данные Республики Бурятия: выявляются статистические связи между погодными факторами (наземными и спутниковыми измерениями, включая влажность почвы) и статистикой лесных пожаров. Авторы показывают, как сочетание метеорологических параметров коррелирует с возникновением пожаров, что помогает оценивать пожарную опасность на основе локальных условий в Бурятии.
Исследование посвящено региону Юго-Восточной Сибири (включая Байкальский/Забайкальский регионы, сходные по условиям с Бурятией). Авторы разработали модель глубокого обучения для выявления влияния климатических аномалий на пожары и прогнозирования их интенсивности. Модель выявила, например, что положительная фаза североатлантической тропической осцилляции весной усиливает сушь и таяние снега, что приводит к резкому росту площади весенних пожаров в регионе. Прогнозы показывают возможное усиление экстремальных пожаров в будущем при изменении климата.
В предложен комплексный подход к прогнозированию возникновения лесных пожаров, объединяющий разнообразные данные (метеоусловия, Геопространственные факторы, антропогенные показатели) и современные алгоритмы машинного обучения. Авторы разработали единую конвейерную систему сбора и предобработки данных и протестировали несколько моделей — случайный лес, градиентный бустинг (XGBoost), автоэнкодер для поиска аномалий, ConvLSTM для временных рядов, Attention-MLP и сверточную сеть RegNetX.
Целью данной статьи является предоставление результатов предварительного анализа данных о пожарах в Республике Бурятия путем исследования ключевых факторов, способствующих их возникновению и распространению, с использованием исторических данных Геоинформационного портала «Природа Бурятии»
за период с 2015 по 2024 гг. и современных методов анализа таких, как методы машинного обучения и визуализации данных.В процессе предварительного анализа исходных данных были выявлены проблемы в их структуре: несогласованность названий признаков; существенное сокращение признаков в данных за 2021–2022 гг.; сокращённые заголовки в данных за 2021 и 2023 гг.
Такой подход демонстрирует важность предварительной обработки исходных данных и их визуализации как инструмента для улучшения понимания динамики пожаров и повышения готовности к ним. А также являются основой для дальнейших исследований.
2. Методы и принципы исследования
Для предварительного анализа данных о пожарах Республики Бурятия использовался метод кластеризации k-means . Этот метод относится к технологии машинного обучения. Он использовался для группировки пожаров по схожим признакам. В качестве метрики расстояния между центроидами использовалась метрика «Евклидово расстояние», вычисляемое по формуле
где p и q — координаты двух точек на плоскости.
Оптимизация количества кластеров выполнялась по методу локтя
с применением метрики SSE (сумма квадратов расстояний), которая измеряет, насколько близко точки находятся к центрам своих кластеров. Суть данного метода заключается в том, чтобы найти точку, в которой добавление дополнительных кластеров перестает значительно уменьшать сумму квадратов расстояний между точками и центрами кластеров.Для визуализации исходных данных в задаче предварительного анализа данных о пожарах были построены диаграммы по различным признакам. Также была построена тепловая карта пожаров, которая позволяет быстро и наглядно оценить распределение и интенсивность пожаров по районам Республики Бурятия.
Для анализа и визуализации исходных данных о пожарах было разработано программное средство на языке программирования Python с использованием таких библиотек, как Pandas, Scikit-Learn, MatplotLib, Folium
.3. Результаты анализа

Рисунок 1 - Динамика пожаров с 2015 по 2024 гг

Рисунок 2 - Структура причин пожаров

Рисунок 3 - Способы обнаружения пожаров

Рисунок 4 - Пространственный анализ пожаров

Рисунок 5 - Распределение пожаров по месяцам

Рисунок 6 - Распределение пожаров по часам суток

Рисунок 7 - Распределение пожаров по дням недели

Рисунок 8 - Распределение пожаров по дням недели в топ-5 районах

Рисунок 9 - Тепловая карта пожаров по данным 2015-2024 гг
Был проведён кластерный анализ с использованием 7 признаков, выделенных из исходных данных, которые представлены в таблице 1. Всего было определено 5 кластеров с количеством пожаров в каждом из них.
Анализ кластеров показал, что такие признаки, как: «Категория земель» (преобладает значение «Естественные насаждения»); «Тип покрова» (доминирует «Травяной»); «Характер» (в основном «Хвойные насаждения»); «Порода» (большое количество схожих значений) — имеют низкую информативность и не способствуют выделению уникальных кластеров. Отсюда следует вывод, что не следует их использовать в дальнейшем анализе.

Рисунок 10 - Результаты кластерного анализа
Таблица 1 - Характеристики кластеров
Характеристики | Кластер 0 | Кластер 1 | Кластер 2 | Кластер 3 | Кластер 4 |
Количество пожаров | 206 | 168 | 78 | 122 | 60 |
Причина | По вине населения | От гроз | От гроз | От гроз | От гроз |
% | 58,8 | 98,2 | 87,2 | 92,6 | 91,7 |
Способ обнаружения | Наземное патрулирование | Лесоавиационные работы | Дистанционное зондирование Земли | Дистанционное зондирование Земли | Лесоавиационные работы |
% | 56,3 | 58,9 | 100 | 77,9 | 43,3 |
Тип покрова | Травяной | Травяной | Травяной | Травяной | Лишайники |
% | 93,7 | 97,6 | 80,8 | 77,9 | 51,7 |
Категория лесов | Эксплуатационный | Защитный | Резерв | Эксплуатационный | Защитный |
% | 52,4 | 71,4 | 80,8 | 74,6 | 61,7 |
Категория земель | Естественные насаждения | Естественные насаждения | Естественные насаждения | Естественные насаждения | Естественные насаждения |
% | 96,1 | 100 | 82,2 | 98,4 | 85,0 |
Характер | Хвойный | Хвойный | Лиственный | Хвойный | Хвойный |
% | 85,4 | 96,6 | 78,2 | 95,9 | 76,6 |
Порода | Сосна | Сосна | Кустарники | Лиственница | Кедровый стланик |
% | 74,8 | 68,5 | - | 60,3 | 31,7 |
После исключения признаков с низкой информативностью был проведён повторный кластерный анализ, в результате которого определены 5 кластеров:
- кластер 0 — пожары, вызванные антропогенным фактором;
- кластеры 1–3 — пожары, возникшие вследствие гроз;
- кластер 4 — пожары с иных земель.
В таблице 2 представлены уточненные характеристики кластеров такие, ка «Количество пожаров», «Способ обнаружения», «Категория лесов»
На карте рисунка 11 представлены обновлённые кластеры, более точно отражающие типы и природу пожаров.

Рисунок 11 - Кластеры с уточненными характеристиками
Таблица 2 - Уточненные характеристики кластеров
Характеристики | Кластер 0 | Кластер 1 | Кластер 2 | Кластер 3 | Кластер 4 |
Количество пожаров | 127 | 173 | 95 | 201 | 38 |
Причина | По вине населения | От гроз | От гроз | От гроз | Пожар с иных земель |
% | 98,4 | 100 | 88,4 | 98,0 | 84,2 |
Способ обнаружения | Наземное патрулирование | Лесоавиационные работы | Дистанционное зондирование Земли | Лесоавиационные работы | Наземное патрулирование |
% | 44,9 | 36,4 | 96,8 | 33,8 | 63,2 |
Категория лесов | Защитный | Защитный | Резерв | Эксплуатационный | Защитный |
% | 50,4 | 98,3 | 93,7 | 99,5 | 89,5 |
4. Обсуждение
Данное исследование выполнялось в рамках республиканского гранта «Развитие методов предупреждения лесных пожаров на территории Республики Бурятия». Была поставлена конкретная цель предварительного анализа данных Геоинформационного портала «Природа Бурятии», на основе которой были определены и решаются задачи для более глубокого анализа ситуации о лесных пожарах в Республике Бурятия, в том числе и препроцессинг исходных данных.
Проведенный предварительный анализ лесных пожаров в Республике Бурятия по историческим данных Геоинформационного портала «Природа Бурятии» показал, что наиболее частые очаги возгорания лесных массивов, находящихся вблизи населенных пунктов, происходят по причине антропогенных факторов. Природные факторы, такие как грозы, являются причиной возгорания в лесных массивах, удаленных от населенных пунктов, и горных местностях. Наиболее частые пожары возникают в определенные временные интервалы: это начало летних месяцев (июнь), когда население активизируется в связи с началом сельскохозяйственных работ, во время отпусков, по дням недели — это конец рабочей недели, когда население выезжает отдыхать на природу, а также по времени суток – это дневные часы. Распределение пожаров по районам республики показывает наиболее уязвимые районы.
Тепловая карта демонстрирует интенсивность и частоту возгораний в центральной и северно-восточной частях республики. Для более глубокого анализа причин возгорания и точного определения конкретных мест необходимо проведение дополнительных исследований с использованием спутниковых снимков для применения эффективных методов машинного обучения и графовых нейронных сетей.
При решении задачи кластеризации методом k-Means были использованы данные за 2024 без отсутствующих значений. При реализации алгоритма k-Means для инициализации центроидов был использован метод k-Meanss++, при этом первый центроид выбирался случайным образом, а каждый последующий посредством метрики «Евклидово расстояние». Всего было выполнено 3000 итераций. Оптимальное количество кластеров определено с помощью метода локтя.
Кластеризация исходных данных позволила выявить основные признаки, по которым нужно проводить дальнейший анализ. Получено пять кластеров, демонстрирующие группировку данных по семи признакам, анализ которых показывает, что информативность некоторых признаков таких, как «Категория земель» и «Тип покрова» является низкой и не способствует выделению уникальных кластеров по этим признакам. Это связано с тем, что на территории Республики Бурятия доминирует категория земель «Естественные насаждения» и тип покрова «Травяной». Поэтому была проведена повторная кластеризация без низкоинформативных признаков, и в результате было получено также пять кластеров.
Обзор литературных источников позволил ознакомиться с текущей ситуацией исследований в области анализа лесных пожаров на территории Республики Бурятия и других близ лежащих к ней регионов, а также определиться с методами дальнейшего исследования по анализу и предсказания лесных пожаров в Республике Бурятия.
5. Заключение
Анализ данных о пожарах в Республике Бурятия за период с 2015 по 2024 гг. показал, что:
– наблюдается колебание числа пожаров с пиком в 2015 г. и повторным ростом в 2023–2024 гг.;
– пожары чаще происходят летом, днём и в выходные дни;
– основными причинами остаются антропогенные факторы и грозы;
– пространственное распределение пожаров указывает на то, что они сосредоточены в центральной и северо-восточной части республики;
– кластеризация позволила выделить 5 типов пожаров с разной природой возникновения.
В дальнейшем полученные результаты будут использованы для построения карты рисков с расчетом вероятности возникновения лесных пожаров на территории Республики Бурятия с учетом текущих пространственных и временных данных на основе машинного обучения и графовых нейронных сетей.