Forest Cutting Segmentation from Satellite Image Data Based on MaskFormer Model

Research article
DOI:
https://doi.org/10.23670/IRJ.2023.136.16
Issue: № 10 (136), 2023
Suggested:
29.06.2023
Accepted:
26.09.2023
Published:
17.10.2023
747
16
XML
PDF

Abstract

The work demonstrates the application of deep neural networks for detection of deforestation using satellite images. Sentinel-2 data, acquired in the forests of Krasnoyarsk Krai, were used. In order to select a cutting segmentation model, a comparative performance analysis of MaskFormer, Attention U-Net and U-Net architectures was carried out. As the experimental results show, the MaskFormer model is more effective for the selection of cutting masks with average pixel F1 values of 0.9733 and 0.9497 for each of the two datasets used in this work. The IoU metric on the test portion of the dataset produced values of 0.9423 for the Siberian dataset and 0.9624 for the Amazon dataset. In addition, this model showed better results in detecting non-forest polygons, which further indicates the effectiveness of the proposed approach.

1. Введение

Вырубка лесов в Сибири имеет масштабные последствия, которые негативно влияют на экологию и климат Сибири, а также планеты в целом

. Согласно данным Глобального лесного наблюдательного центра, в период с 2001 по 2020 годы в России было потеряно за счет вырубок более 79 млн га леса, что составляет более 7% от общей площади всех лесов страны
. При этом более 50% потерь леса из-за рубок произошло именно в Сибири. Соблюдение законности выполнения рубок, контроль за территориями рубок и за их размером позволит сократить негативное влияние возникающих потерь леса. Однако, в связи с нехваткой специалистов контролирующих организаций и с тем, что вырубка лесов часто происходит на труднодоступных территориях
, обработка космических снимков в автоматизированном режиме может помочь контролировать рубки лесов. Применение технологий машинного обучения для классификации объектов на спутниковых снимках является современным и актуальным подходом для решения задачи обнаружения рубок. Первым этапом разработки системы автоматизированного мониторинга рубок по спутниковым снимкам является обнаружение вырубленных лесных участков.

Цель работы – использование технологий глубокого обучения для сегментации областей рубок по данным спутниковых снимков.

Задачи работы:

1. Анализ существующего состояния предметной области сегментации рубок;

2. Выбор модели глубокого обучения для решения задачи семантической сегментации рубок по данным спутниковых снимков;

3. Создание набора данных рубок Сибирского региона и применение моделей для выделения объектов интереса;

4. Проведение экспериментальных исследований.

Вырубка лесов имеет масштабные экологические последствия, которые негативно влияют на экологию и климат конкретного региона, а также планеты в целом. В связи с нехваткой специалистов и с тем, что вырубка лесов происходит на территориях, которые не всегда доступны для наблюдения, использование космических снимков и технологий машинного обучения может существенно улучшить контроль за вырубкой лесных массивов, оценить корректность территорий, на которых выполнена рубка, а также отследить незаконные лесные вырубки. Применение машинного обучения и глубинных нейронных сетей для решения задачи обнаружения рубок по данным спутниковых снимков поможет решить проблему контроля за рубками и является актуальным подходом.

2. Предыдущие работы

Задача обнаружения рубок относится к задаче семантической сегментации объектов интереса на изображениях. Наиболее популярным способом обнаружения рубок является обработка спутниковых снимков, так как этот способ позволяет отслеживать рубки на значительных территориях дистанционным способом. При этом может производиться обработка данных различного разрешения и полученных с различных аппаратур. Это могут быть данные аппаратуры Landsat с разрешением от 15 до 60 метров на точку

, данные Sentinel
, SPOT
, снимки Российских спутников, таких как Ресурс-П
или даже изображения, полученные с беспилотных летательных аппаратов
.

Современным способом классификации этих данных являются технологии глубокого обучения. При этом рубки как объект интереса на различных лесных территориях могут иметь значительные визуальные особенности из-за рельефа местности, породного состава леса, особенностей обрабатываемых данных. Поэтому для каждой местности требуется настраивать модели на распознавание специфических признаков рубок, как следствие, отсутствует универсальный способ обнаружения рубок, для каждой территории разрабатывается свой набор данных, а экспериментальные исследования проводятся с использованием разных моделей. Так, на территориях влажнотропических вечнозелёных широколиственных лесов в долине реки Амазонка для сегментации рубок по данным GeoEye успешно применяют модели U-Net

и ResU-Net
. В работе
для задачи обнаружения рубок на тех же лесных территориях по данным Sentinel-2 показан сравнительный анализ результатов моделей U-Net и Attention U-Net. На территориях лесостепных отрогов восточно-европейской возвышенной равнины для обнаружения рубок также используют модель U-Net
. На лесных территориях России также ведется работа по дистанционному обнаружению рубок с помощью технологий глубоких нейронных сетей, модель U-Net успешно применяется для обнаружения рубок по данным Sentinel-2
,
. Кроме популярных U-Net и Attention U-Net для обнаружения рубок применяют и другие модели
,
.

3. Сегментация рубок

Для решения задачи сегментации рубок по данным спутниковых снимков необходимо учитывать особенности мультиспектральных изображений. Такие особенности накладывают следующие требования к методу принятия решений: простота настройки параметров, устойчивость к наличию «шума» в данных, высокое быстродействие при обработке больших массивов данных

. В задаче семантической сегментации для выделения объектов интереса
не учитывают отношения соседства пикселей или их положение на изображении, а относят их к разным кластерам на основе их близости в пространстве признаков. Для отнесения пикселей изображения к пикселям, содержащим вырубку и пикселям без нее в настоящей работе использована модель MaskFormer
, позволяющая выполнять сегментацию на основе предсказания набора бинарных масок, каждая из которых связана с одним предсказанием метки глобального класса. Именно модель MaskFormer позволяет эффективно сегментировать рубки несмотря на значительный размер модели и высокие требования к ресурсам вычислительной машины. Являясь моделью трансформер MaskFormer оптимизирован для задачи сегментации и, сочетая преимущества сверточных нейронных сетей и сетей-трансформеров, MaskFormer показывает наилучший результат при семантической сегментации объектов интереса. Для сегментации рубок, как объектов интереса, сверточные нейронные сети позволяют извлекать локальные признаки, а трансформеры для выделять глобальные зависимости.

Основная идея MaskFormer заключается в том, что для каждого объекта на изображении алгоритм предсказывает бинарную маску, которая отображает, где объект находится на изображении. Эта маска связывается с меткой глобального класса, которая определяет тип объекта, таким образом архитектура MaskFormer предсказывает набор бинарных масок, каждая из которых связана с меткой класса Модель MaskFormer (рис. 1) включает в себя сверточную нейронную сеть, состоящую из нескольких слоев, и декодер, который преобразует выходные данные сети в маски объектов. В MaskFormer используется механизм внимания – attention, который позволяет модели учитывать важность различных частей изображения при предсказании масок. Кроме того, в MaskFormer используются механизмы аугментации данных, которые позволяют увеличить количество обучающих примеров и повысить качество модели.

Схема архитектуры MaskFormer

Рисунок 1 - Схема архитектуры MaskFormer

Для выполнения семантической сегментации с использованием модели MaskFormer необходимо настроить сеть: определить ее гиперпаметры и другие характеристики. В настоящей работе применен проход мини-пакетам внутри каждый эпохи обучения. При этом для каждого батча происходит обнуление градиента, прямой проход через модель, вычисление функции потерь и обратное распространение ошибки, а также оптимизация весов модели. В качестве оптимизатора использован Adam. Графики функции потерь и точности показаны на рис. 2(а) и рис. 2(б) соответственно.
График потерь и точности при обучении и проверке Maskformer: а) функция потерь б) точность модели

Рисунок 2 - График потерь и точности при обучении и проверке Maskformer: а) функция потерь б) точность модели

Анализ графиков точности и функции потерь в процессе обучения модели показал, что на 27-30 эпохах достигнуты минимальные значения функции потерь и максимальные значения точности. Исходя из этого, количество эпох не было увеличено, чтобы избежать переобучения модели.

4. Экспериментальные исследования

Для проведения экспериментальных исследований использовано два набора данных: Amazon dataset

и набор данных самостоятельно полученных спутниковых снимков на территории Красноярского края по данным аппаратуры Sentinel-2
, Siberian dataset. Площадь лесов Красноярского края является самой большой среди всех регионов Сибирского федерального округа и составляет 158 743,3 тыс. га., кроме того, ее размер сопоставим со всеми лесами Китайской народной республики. Поэтому контроль за деятельностью лесной промышленности и лесозаготовителей на территории Красноярского края имеют первостепенное значение. Именно поэтому для обучения нейронной сети использован набор данных лесных рубок, полученной на этой территории. Так как объектом интереса в настоящей работе являются рубки, а не леса, дополнительно использован набор данных тропических лесов, Amazon dataset с лесом, кардинально отличающимся по породному составу от Сибирских лесов, но содержащим вырубленные территории. При составлении Siberian dataset использован ресурс SentinelHub, позволяющий получить данные Sentinel-2, сохранённые в композите каналов 2, 3 и 4. Примеры снимков из Amazon dataset и Siberian dataset приведены на рисунке 3 (а) и 3(б). На изображениях присутствуют различные объекты как природного, так и антропогенного происхождения, такие как различные водные объекты, поврежденные лесные участки, в том числе гари, различные поседения.

Примеры снимков: а) из Siberian dataset; б) из Amazon dataset

Рисунок 3 - Примеры снимков:

а) из Siberian dataset; б) из Amazon dataset

Данные в наборах данных Amazon и Siberian размечены масками с местами расположения рубок на снимках. В самостоятельно построенном наборе данных снимков лесных территорий Красноярского края содержится 500 изображений. Из набора данных Amazon использовано 700 изображений. Суммарный набор данных составлен путем объединения Siberian dataset и Amazon dataset. Общий набор данных далее был разбит на три группы: тренировочную, валидационную и тестовую в соотношении: 88,67, 10 и 1,33% Программная реализация моделей выполнена на платформе машинного обучения Pytorch. Мы использовали среду Python Google Colaboratory и графический процессор NVIDIA Tesla P100.

Для оценки результатов сегментации рубок использованы метрики вычислили оценку F1 и индекс Жаккарда (IoU). 

При расчете метрики F1 производится сравнение двух масок: предсказания модели и истинной маски. Метрика F1 является гармоническим средним между точностью (accuracy) и полнотой (recall) модели:

img
(1)

где Accuracy и Recall рассчитываются классическим способом

. А именно, точность (accuracy) рассчитывается как отношение числа верно классифицированных пикселей к числу всех пикселей, которые модель отметила как объект:

img
(2)

где TP – число верно классифицированных пикселей, FP – число пикселей, которые модель отметила как объект, но которые не являются объектами на истинной маске сегментации. Полнота (recall) рассчитывается как отношение числа верно классифицированных пикселей к числу всех пикселей, которые являются объектами на истинной маске сегментации:

img
(3)

где FN – число пикселей, которые являются объектами на истинной маске сегментации, но которые модель не отметила как объект.

Метрика IoU позволяет оценить сходство между прогнозируемыми полигонами вырубки лесов и действительными полигонами на местности. При вычислении IoU сравнение масок выполняется аналогичным метрике F1 способом: выполняется сравнение истинной маски и предсказания модели

. IoU рассчитывается как отношение площади пересечения между масками к площади их объединения:

img
(4)

где B1 – площадь маски, которую предсказала модель, B2 - площадь истинной маски сегментации. Чем ближе значение IoU к единице, тем точнее модель предсказала рубку на снимке.

Дополнительно выполнено сравнение качества работы алгоритма семантической сегментации рубок на основе модели MaskFormer с моделями U-Net

и Attention U-Net
, именно этим модели чаще всего используются при решении такого типа задач. Для архитектуры U-Net выбрана скорость обучения 0,0001, для Attention U-Net и MaskFormer – 0,0005. Такие значения скорости обучения показали себя самыми эффективными по точности работы моделей. При этом количество эпох обучения у U-Net и MaskFormer равно тридцати, а для Attention пятьдесят.

В таблице 1 приведены результаты семантической сегментации рубок для тестовой части наборов данных Siberian dataset и Amazon dataset по метрикам IoU и F1 для различных моделей.

Таблица 1 - Значение IoU и F1

Модель

Siberian dataset

Amazon dataset

IoU

F1

IoU

F1

U-Net

0,9133

0,9161

0,9513

0,9642

Attention U-Net

0,9342

0,9364

0,9601

0,9724

MaskFormer

0,9423

0,9497

0,9624

0,9733

Как видно из результатов тестирования моделей, все исследованные архитектуры показали приемлемый результат сегментации рубок по данным спутниковых снимков. Однако качество работы модели MaskFormer выше, чем у других архитектур, что позволяет рекомендовать ее для семантической сегментации рубок по космоснимкам. Значения метрики оценки качества работы моделей для Amazon dataset немного выше, чем для Siberian dataset, что объясняется большим количеством снимков в нем. Результат работы различных алгоритмов семантической сегментации рубок по данным спутниковых снимков показан на рисунке 4.

Результат работы различных алгоритмов семантической сегментации рубок по данным спутниковых снимков:а) истинная маска рубки; б) модель U-Net; в) модель Attention U-Net; г) модель MaskFormer

Рисунок 4 - Результат работы различных алгоритмов семантической сегментации рубок по данным спутниковых снимков:

а) истинная маска рубки; б) модель U-Net; в) модель Attention U-Net; г) модель MaskFormer

Таким образом, использование глубоких нейронных сетей для решения задачи семантической сегментации рубок является эффективным подходом. Наилучшее качество работы алгоритма выделения вырубленных лесных территорий является использование модели MaskFormer. Эта модель показала в среднем лучшие значения метрик, что может оказывать существенное значение для мониторинга рубок и вычисления корректности площади вырубленного леса.

5. Заключение

В работе проведено исследование эффективности применения различных специализированных моделей нейронных сетей, предназначенных для сегментации объектов. Выполнено сравнение моделей U-net, Attention U-net и MaskFormer, являющихся наиболее рекомендуемыми классификаторами в литературных источниках для анализа данных такого типа. Экспериментальные исследования подтверждают эффективность использования нейронных сетей для задачи обнаружения рубок по данным спутниковых снимков.

Article metrics

Views:747
Downloads:16
Views
Total:
Views:747