COMPUTER VISION TECHNOLOGIES FOR DETECTING PEOPLE IN FOREST-STEPPE AREAS
COMPUTER VISION TECHNOLOGIES FOR DETECTING PEOPLE IN FOREST-STEPPE AREAS
Abstract
Objective. Recognition of people in forest areas based on images using convolutional neural network models.
Research methods and materials. The effectiveness of human detection algorithms was analysed using a labelled dataset of images obtained as part of the Digital Breakthrough initiative. A distinctive feature of the dataset was the complexity of the visual scenes, which were forest landscapes. A comprehensive approach was used to solve the problems, including the use of artificial intelligence systems, data augmentation techniques to improve model robustness, and automatic hyperparameter optimisation to achieve optimal neural network performance.
Results. Deep learning methods based on convolutional neural network architecture were used in this work. The concept of 'transfer learning' was applied, allowing the neural network to be trained using the YOLOv5 algorithm, which is specialised for recognising people in aerial photographs of forest areas.
As a result of training, the neural network achieved an accuracy of 0.8795 on the test sample, measured using the F1-score metric. The F1-score is the harmonic mean of precision and recall, which takes into account both correct predictions and missed objects. An accuracy of 0.8795 indicates that the model is reliable enough for practical application.
The novelty of detecting people in forest-steppe areas using neural networks and unmanned aerial vehicles (UAVs) lies in the automation of the search process. This allows: automating the analysis of UAV images using neural networks, which speeds up the search and reduces the labour intensity of manual processing habr.comgraphicon.runa-journal.ru; taking into account the characteristics of the terrain — for example, recognise people through foliage and tree branches, in conditions of limited visibility using search drones that can move under tree heads.
Conclusion. A dataset of images of people in the forest was prepared, including more than 20,000 images with terrain coordinates marked. The coordinates of the bounding rectangle on the image are available for each person. Based on this information, a convolutional neural network model was built and trained using software tools to solve the problem of object detection from images. The experiments showed that the detection accuracy with augmentation, according to the F1-score with a threshold value of 0.5, was 0.91 on the training sample and 0.8795 on the test sample.
1. Введение
Спасение заблудившихся, больных или раненых людей часто включает в себя поиск по густо заросшей лесом местности. Солнечный свет в основном загораживается деревьями и другой растительностью, а лесная почва отражает мало света. Большинство поисково-спасательных работ в лесу выполняется с помощью вертолетов. Для обнаружения человека с вертолета применяются тепловизионные камеры, которые предназначены для выделения различий в температуре тела, что позволяет спасателям различать людей и окружающую их среду. Однако порой устройства выходят из строя в жаркую погоду, а также не всегда способны распознать человека по некоторым позам и в замаскированной униформе . Все это создает проблему точности обнаружения человека в лесу.
В последнее время все более распространенными становятся алгоритмы обнаружения лиц людей по видео и изображениям с камеры в реальном времени , с помощью беспилотных летательных аппаратов. Однако обычно используемые классификаторы реального времени (такие как YOLO) дают полезные выходные данные для целых изображений, где в то же время выдают плохие результаты для отдельных изображений, такие как невысокие средние значения точности и скорость обнаружения .
Актуальной задачей является создание эффективной и достоверной компьютерной системы, предназначенной для идентификации людей на основе анализа изображений. Она позволит снизить количество ошибок, вызванных человеческим фактором, поможет быстрее находить пропавших в лесостепной местности людей.
2. Методы и принципы исследования
В работе основным исходным материалом для проведения научных исследований стали изображения людей, находящихся в лесной местности, которые были собраны с открытых источников на платформе Цифровой прорыв (hacks-ai.ru). Эти фотографии имеют размеченные координаты, что позволяет точно определять местоположение объектов на изображениях.
Методы исследования включают в себя несколько ключевых аспектов. Во-первых, мы используем теорию проектирования и разработки систем искусственного интеллекта, что позволяет нам систематизировать процесс создания алгоритмов и моделей. Это включает в себя выбор архитектуры нейронной сети, оптимизацию ее структуры и определение необходимых компонентов для достижения наилучших результатов.
Во-вторых, аугментация изображений играет важную роль в задачах компьютерного зрения. Этот процесс включает в себя модификацию исходных изображений для увеличения объема обучающего набора данных. Например, мы можем изменять яркость, контрастность, поворачивать или обрезать изображения, а также добавлять различные шумы. Это позволяет моделям лучше обобщать информацию и повышает их устойчивость к различным условиям.
Кроме того, мы применяем алгоритмы настройки гиперпараметров для обучения моделей нейронной сети. Гиперпараметры, такие как скорость обучения, количество слоев и размер пакета, существенно влияют на качество обучения. Используя методы, такие как сеточный поиск и случайный поиск, мы находим оптимальные значения гиперпараметров, что, в свою очередь, приводит к улучшению производительности модели.
В результате сочетание тщательно подобранных методов и качественного исходного материала позволяет нам достигать высоких показателей в области распознавания объектов и анализа изображений.
3. Анализ существующих исследований
Проведен анализ научных исследований в области обнаружения людей с помощью технологий компьютерного зрения.
В работе рассматривается усовершенствованный алгоритм обнаружения людей YOLOv5 с использованием двух новых эталонных наборов данных: HERIDAL и SARD, специально разработанных для беспилотных летательных аппаратов SARwith при поисково-спасательных операциях в горах и дикой природы лесистой местности Хорватии и Боснии-Герцеговины. Данный алгоритм обеспечивает обнаружение людей за очень короткий промежуток времени, обеспечивая тем самым быструю организацию спасения.
В работе исследуется комбинация расширенных сверток с сетью агрегации путей (PAN) в качестве нового алгоритма обнаружения человека на основе глубокой нейронной сети в режиме реального времени. Подход обеспечивает как высокую точность (средняя точность (mAP) 88,0%), так и работу в режиме реального времени (67,0 кадров в секунду (FPS)) на готовой коммерческой платформе ПК.
В работе рассматривается использование интеграции изображений с помощью бортового оптического секционирования (AOS) — метода визуализации с синтетической апертурой, в котором используются беспилотные камеры для захвата неструктурированных полей теплового света аппаратов на территории Австрии. Метод подразумевает точность и полноту определения 96% и 93% соответственно.
Идея создания автономного дрона представлена в работе , в рассмотрении которой находится обработка тепловых изображений, классификация и динамическая адаптация траектории полета на борту беспилотника в режиме реального времени. Дрон позволяет проводить поисково-спасательные операции в удаленных районах без стабильного подключения к сети, передавая спасательной команде только результаты классификации, указывающие на обнаружение, что позволяет работать с прерывистыми соединениями с минимальной пропускной способностью (например, через спутник).
В работе предлагается использовать рой беспилотных летательных аппаратов, летающих под кронами деревьев. Рой представляет собой централизованную систему управления с «лидером» — основным беспилотником, передающий остальным информацию в режиме реального времени через порты MAVLink. Местоположение GPS основного дрона корректируется и отправляется другим беспилотным летательным аппаратам в виде серии динамических путевых точек. В качестве системы обнаружения данного подхода используется сверточная нейронная сеть (основанная на одноступенчатых алгоритмах YOLO). Качественные характеристики данного подхода в статье не представлены.
В работе выдвигается подход к обнаружению людей на аэрофотоснимках высокого разрешения HERIDAL. Глубокая нейронная сеть EfficientDET обучается с использованием созданной базы данных для поисково-спасательной операции. Предложенный метод был сравнен с системой, используемой хорватскими поисковыми группами в горах, где результат достиг максимальной точности 93,29% mAP.
В статье рассматривается применение нейронных сетей для диагностики заболеваний маниока с использованием методов компьютерного зрения. В рамках данного исследования для классификации болезней растения по изображениям была применена нейронная сеть ResNet50, успешно справившаяся с задачей и достигшая значения F1-score, равного 0,93.
В исследовании акцент сделан на задаче идентификации отдельных особей оленей по их изображениям с помощью сверточных нейронных сетей (CNN). Используя архитектуру Faster R-CNN ResNet50, была обучена модель, которая достигает высокой точности определения присутствия оленей на изображениях, составляя 0,91 по метрике F1-score при пороге соответствия 0,6.
Эти исследования демонстрируют потенциал компьютерного зрения и нейронных сетей в решении задач автоматической детекции и классификации различных объектов, что позволяет оптимизировать процессы мониторинга, диагностики и контроля.
4. Обсуждение
Открытый датасет записей видеокамеры с видом сверху на перекрестках кампуса Стэнфордского университета с разметкой пешеходов . Общий объем датасета составляет 69 ГБ. Датасет содержит видеозаписи с аннотацией расположения пешеходов и иных объектов на каждом кадре. Было выбрано 15 000 изображений с наличием пешеходов. Ракурс камеры схож ракурсом БПЛА, поэтому данный датасет подходит для целей исследования.
Также использовался открытый датасет из размеченных изображений лесистой местности, снятых с БПЛА для участников Хакатона цифровой прорыв .
Для обнаружения людей на изображениях был создан датасет, состоящий из JPG-файлов размером 1024x1024 пикселя. Положение каждого человека на изображении определено с помощью ограничивающего прямоугольника, также известного как bounding box. Информация о положении этих bounding boxes (координаты углов и размеры) сохранена в файле формата CSV. В качестве основы для обучения модели обнаружения использовалась архитектура YOLOv5l.
Изображения людей сняты с верхнего и удаленного ракурса. Большинство известных предобученных моделей обучены на изображениях людей более крупным планом и преимущественно с бокового ракурса. Также, при виде человека сверху, существенную роль играет одежда и головное покрытие человека. Наличие головного убора может полностью скрыть признаки человека. В лесистой местности часто носится маскирующая одежда, зрительно схожая с окружающей средой. В разные сезоны года одежда сильно варьируется. Требуется обучение модели на дополнительном датасете. Изображения могут быть получены в различные времена года. Также необходимо увеличить датасет за счет изображений в зимний и другие сезоны.
Предварительное обучение выявило следующие проблемы. Так как в обучающей выборке было мало изображений с наличием и людей и животных, то модель в тестовой выборке классифицировала животных как человека, причем с высоким уровнем уверенности (выше, чем людей на тех же изображениях). Нейронная сеть идентифицирует животное как человека. Показатель уверенности достигает 0.98, при пороговом значении 0.5.
Для уменьшения ошибочной классификации животных в датасет было добавлено 150 изображений с наличием животных. В том числе были добавлены изображения с животными в различных климатических условиях.
В общей сложности для улучшения датасета были добавлены также 2000 изображений с наличием людей в разных местностях. Изображения подбирались из открытых источников (изображения с БПЛА, воздушных шаров, панорамных камер высотных зданий). Критерием отбора изображений было наличие людей, и преимущественно с наличием растительности. Также особое внимание уделялось формированию пула изображений с наличием животных (собака, коровы, козы и др). Датасет был размечен в сервисе Roboflow.
В нашем случае для задачи детекции объектов мы выбрали предобученную модель YOLOv5l, которая демонстрирует высокую точность и скорость обработки.
Технология transfer learning с использованием модели YOLOv5l обеспечивает мощный и эффективный инструмент для решения задач детекции объектов, позволяя оптимизировать процесс обучения и достичь высоких результатов.
Для расширения обучающего набора данных и повышения точности модели распознавания объектов, мы прибегли к использованию техники аугментации изображений. Эта методика позволяет искусственно увеличить количество данных, имитируя различные вариации исходных изображений. В нашем случае, применялись несколько эффективных методов аугментации, реализованных с помощью библиотеки Albumentations. Во-первых, мы использовали вертикальное зеркалирование изображений — простое, но эффективное преобразование, которое помогает модели научиться распознавать объекты в разных ориентациях, не переобучаясь на конкретную позицию объекта в кадре. Далее, мы применяли повороты изображений на 90 градусов по и против часовой стрелки. Это позволяет модели стать более инвариантной к поворотам объекта на изображении. Важно отметить, что мы также экспериментировали с более тонкой аугментацией: поворотом только ограничивающего прямоугольника (bounding box), описывающего объект, на 90 и 180 градусов. Это позволяет увеличить разнообразие данных, не изменяя при этом само изображение, фокусируясь лишь на изменении ориентации объекта внутри него. Это особенно полезно в случаях, когда сам фон изображения важен для процесса распознавания.
Процесс обучения модели проводился в течение 30 эпох с использованием метода стохастического градиентного спуска (SGD). Размер батча был установлен на 3 изображения, что представляет собой компромисс между скоростью обучения и объёмом памяти, доступной видеокарте. Использовались изображения размером 1920x1920 пикселей, что позволило захватить достаточное количество деталей для точного распознавания. Шаг обучения был экспериментально подобран и установлен на 0.01. Это значение было определено после ряда пробных запусков обучения с различными значениями шага, и именно оно показало наилучший баланс между скоростью сходимости и предотвращением расхождения градиентов.
В качестве функции потерь мы использовали Intersection over Union (IoU), метрику, которая измеряет степень перекрытия между предсказанным и истинным ограничивающим прямоугольником объекта. Выбор IoU обусловлен тем, что она напрямую отражает точность определения местоположения объекта на изображении, что является ключевым показателем в задаче обнаружения объектов. Обучение производилось на высокопроизводительной видеокарте NVIDIA Tesla T4, что значительно сократило время обучения.
Эффективность модели оценивалась путем стандартного разделения исходных данных на две группы: обучающую (80%) и тестовую (20%). Основным показателем служила метрика F1-score (пороговое значение 0,5). На начальном этапе, без применения аугментации данных, были получены следующие результаты: F1-score составил 0,81 на обучающей и 0,78 на тестовой выборках. Внедрение методов аугментации привело к существенному росту качества: F1-score увеличился до 0,91 и 0,8795, соответственно, для обучающей и тестовой выборок. Полученные результаты свидетельствуют о действенности примененных подходов к аугментации, а также об улучшении способности модели к обобщению, что, в свою очередь, положительно сказывается на её возможности правильно классифицировать неизвестные ранее изображения. Таким образом, использование аугментации данных позволило добиться значительного повышения точности обнаружения объектов и надежности модели.
5. Обсуждение
Пропажа людей в лесных массивах — это трагическое явление, которое, к сожалению, случается слишком часто. От скорости и эффективности поиска зависит жизнь заблудившегося человека. Зачастую, поиск человека в лесу напоминает поиск иголки в стоге сена — огромная территория, густая растительность, ограниченный набор поисковых ресурсов, все это делает задачу поисково-спасательной операции крайне сложной.
Следует отметить, что поиск людей в лесной местности весьма затруднен из-за плохой видимости сквозь густую крону деревьев. Потерявшийся человек обычно стремится выйти на открытое место, включая опушки и просеки, и поэтому предлагаемый способ на практике пригоден. Также данную технологию можно использовать с поисковыми дронами, которые умеют перемещаться под кронами деревьев. Поисковой дрон с помощью бортовой сверточной нейронной сети YOLOv51 распознает человека и передает обработанное изображение и GPS координаты ретранслятору.
6. Заключение
Ежегодно спасатели выходят на поиски десятков тысяч пропавших людей в диких условиях. Успешное осуществление спасения человека без применения современных технологий искусственного интеллекта представляет собой весьма сложную и трудоемкую задачу, которая сопровождается высокой вероятностью ошибок. Данная работа направлена на улучшение процесса поиска заблудившихся людей с помощью автоматизированной системы на основе глубокого обучения и сверточных нейронных сетей, анализирующих изображения. Для этого применялся общедоступный набор данных, содержащий более 20000 изображений людей, что позволяет добиться более качественного обучения модели. Глубокая сверточная нейронная сеть была обучена с целью точного определения местоположения человека на изображениях, что позволило достичь высокой точности распознавания, равной 0,8795. В процессе работы также был исследован подход, основанный на применении методов глубокого обучения для автоматизированного поиска людей, которые потерялись в лесу, используя только визуальные данные.
Важным аспектом работы является детальное описание методики подготовки изображений для этапов обучения и валидации модели. Это включает в себя процесс аугментации данных, который помогает увеличить разнообразие обучающего набора и улучшить обобщающие способности модели. Аугментация может включать в себя различные трансформации изображений, такие как повороты, изменения масштаба, обрезка и изменение яркости, что позволяет модели быть более устойчивой к различным условиям.
Кроме того, в работе подробно рассматривается процедура обучения сверточной нейронной сети, включая этапы настройки гиперпараметров, что является критически важным для достижения максимальной производительности модели. Гиперпараметры, такие как скорость обучения, количество эпох и размер батча, играют ключевую роль в том, как хорошо модель будет обучаться и адаптироваться к данным. Таким образом, данное исследование демонстрирует не только теоретические аспекты, но и практические шаги, необходимые для успешной реализации системы поиска заблудившихся людей с использованием методов глубокого обучения.
