Разработка способа аудиоидентификации внутри помещений

Усачева Д. Д.; Харитонов А. Ю.

doi:10.23670/IRJ.2024.142.119

Разработка способа аудиоидентификации внутри помещений

Научная статья

Усачева Д. Д.

DOI:

https://doi.org/10.23670/IRJ.2024.142.119

Выпуск: № 4 (142), 2024

Предложена:

21.01.2024

Принята:

22.03.2024

Опубликована:

17.04.2024

422

12

XML

PDF

Аннотация

В данной статье проанализированы существующие методы аудиоидентификации в закрытом пространстве как в помещениях с хорошей слышимостью, так и в помещениях с шумным окружением. Основное внимание уделено преодолению сложностей, связанных с акустическими искажениями в закрытых пространствах. Предложен способ аудиоидентификации, который включает использование таких методов, как выделение тройных пиков и применение хеширования.

Предлагаемый способ мобильной локализации, основанный на аудиоидентификации, решает несколько ключевых проблем в области навигации внутри помещений. Во-первых, он преодолевает ограничения GPS-систем внутри зданий, где сигналы спутников ослаблены или не проникают. Во-вторых, использование сигналов, излучаемых обычными громкоговорителями, делает способ более доступным и универсальным, поскольку он не требует дополнительной инфраструктуры. В-третьих, внедрение методов аудиоидентификации, таких как тройки выдающихся пиков и бинарные идентификационные маркеры, обеспечивает устойчивость к различным искажениям звука и повышает точность определения местоположения даже в шумных средах, что на данный момент является актуальной проблемой для многих существующих систем.

Таким образом, внедрение данной системы приведет к заметному улучшению навигации внутри зданий и позволит использовать ее в различных типах помещений, например, торговых центрах, аэропортах и музеях.

Ключевые слова:

аудио-локализация, шумоподавление, определение местоположения, идентификационные маркеры.

1. Введение

В современном мире возрастает потребность в точной локализации в закрытом пространстве. Данное исследование предлагает способ аудиоидентификации, который повышает эффективность системы локализации внутри помещений. Путем использования сигналов, излучаемых близкими к пользователю громкоговорителями, предлагаемый способ преодолевает шумы в различных условиях и помогает определять местоположение и ориентацию пользователя в пространствах разного масштаба. Это имеет практическое значение для развития быстрых и надежных систем навигации внутри помещений, что может быть полезно для создания локационно-ориентированных сервисов на мобильных устройствах в торговых центрах, музеях, аэропортах и подобных местах.

Цель данной работы заключается в разработке и апробации способа аудиоидентификации, способного повысить точность внутренней локализации внутри помещений. В работе описано несколько методов исследования, включая применение разделения звука на разные планы, создание бинарных ИМ, а также анализ результатов экспериментов в помещениях.

В рамках данной работы разработаны способы аудио-разделения на «передний» и «фоновый» планы для создания бинарных и хэш-идентификационных маркеров звука, а также проведены эксперименты для подтверждения устойчивости способа в различных условиях шума. Кроме этого, зафиксированы его способности определения местоположения пользователя внутри больших помещений.

Современные мобильные коммуникационные устройства со встроенными возможностями для распознавания и анализа звуковых сигналов предлагают новые возможности для разработки новаторских способов локализации внутри помещений. Именно поэтому предложенная в данном исследовании аудиоидентификация является перспективным способом к решению этой проблемы.

2. Обзор существующих решений по теме исследования

В настоящее время достижение точной локализации внутри помещений является большой проблемой в исследованиях и технологическом развитии. Тем не менее существуют различные методы и подходы, которые используются для решения этой задачи.

GPS (Global Positioning System, или система глобального позиционирования) – это система спутниковой навигации (рисунок 1), которая позволяет определить местоположение устройства с GPS-приёмником на Земле и в околоземном космическом пространстве .

Рисунок 1 - GPS позиционирование в пространстве

GPS имеет много преимуществ, таких как глобальное охватывание, широкий спектр применения и непрерывное обслуживание, что объясняет его широкое использование в разных областях. Однако у GPS есть свои ограничения. Например, система может работать некорректно внутри зданий или при плохой погоде, а сигнал может быть искажен или заблокирован. Кроме того, высокое потребление энергии и ограниченная точность в определенных случаях также могут повлиять на эффективность системы. Таким образом, несмотря на многочисленные преимущества, GPS не всегда является универсальным решением и требует использования дополнительных методов для достижения точного и надежного местоположения в различных условиях.

Помимо GPS, существуют различные подходы к внутренней локализации, такие как использование Wi-Fi, Bluetooth и инфраструктурных методов

. Эти технологии могут быть использованы для определения местоположения на основе сигналов от беспроводных точек доступа или устройств с Bluetooth. Однако они имеют свои недостатки, такие как ограниченная точность и воздействие окружающей среды.

Также известны инфраструктурные методы, которые включают в себя установку датчиков, и других устройств внутри здания для сбора данных и определения местоположения. Таким образом, инфраструктурные методы могут обеспечивать более точные результаты в условиях, где GPS неэффективен. Однако эти методы требуют создания дополнительной инфраструктуры и относительно больших затрат.

3. Архитектура разрабатываемой системы

В ходе исследования была разработана архитектура системы внутренней локализации (рис. 2).

Рисунок 2 - Архитектура системы

База данных карты – база данных, в которой хранится информация о соответствии между определенными местоположениями (на карте) и именами музыкальных композиций в музыкальной базе данных. Таким образом, каждая точка в пространстве связана с определенной композицией, которая воспроизводится в этом местоположении через громкоговоритель.

На сервере внутренней локализации находятся музыкальные композиции. Название каждой музыкальной композиции в базе данных музыки, связанно с временем планирования воспроизведения и соответствует названию точки местоположения в картографической базе данных, где установлен определенный громкоговоритель.

Из музыкальных композиций извлекаются идентификационные маркеры троек пиков и идентификационные маркеры звука. Это характеристики аудио-сигналов, полученные в результате процесса аудиоидентификации. Данные идентификационные маркеры (ИМ) могут включать в себя такие параметры, как частотные характеристики, пики спектра, характеристики шума и т. д. Сопоставление множества таких ИМ позволяет системе определить совпадения и, таким образом, принять решения о местоположении.

Извлеченные ИМ сохраняются в базе данных. При этом ИМ незаметно для человека внедрены в каждую музыкальную композицию. Поскольку ИМ позволяют внедрены в звук, который звучит из каждого громкоговорителя, то они обеспечивают локализацию носимого мобильного устройства.

4. Компоненты разрабатываемой системы

Система аудиоидентификации состоит из двух основных компонентов: множественного извлечения и множественного сопоставления ИМ.

На рисунке 3 показан процесс множественного извлечения, включающий шесть основных блоков

Рисунок 3 - Процесс множественного извлечения ИМ

Модулированное комплексное наложенное преобразование (МКНП) или модулированное сложное преобразование с перекрытием – это метод анализа сигналов, который используется для преобразования сигнала из временной области в частотную. Этот метод обычно применяется в обработке звука и изображений. МКНП является комбинацией комплексного наложенного преобразования и метода модуляции, что позволяет получить представление сигнала в частотной области, сохраняя при этом фазовую информацию.

Расчет отношения «передний план / фон» аудиосигнала означает определение соотношения между звуковыми компонентами, являющимися основными и преобладающими в аудиосигнале, и компонентами, представляющими фоновый шум или второстепенные звуки. Этот расчет играет роль в процессе генерации ИМ в аудиофайлах.

Генерация ИМ на основе хэшей пиковых триплетов представляет собой процесс создания уникальных последовательностей (хэшей) на основе особенностей звукового сигнала, таких как триплеты пиков

. Триплеты пиков представляют собой группы трех близко расположенных максимумов амплитуды в спектре аудиосигнала. Эти хэши используются для последующего сравнения и идентификации аудиофайлов в системе.

Создание двоичных ИМ на основе выдающегося тона (примечательного высокочастотного компонента) означает формирование уникальных последовательностей битов (двоичных ИМ), полученных из выдающихся частотных компонентов в аудиосигнале. Эти двоичные ИМ затем используются для идентификации аудиофайлов в рамках системы.

5. Разделение аудиосигнала

В начале процесса аудиосигнал, записанный на устройстве (например, на телефоне), преобразуется в «моно» и его частота дискретизации уменьшается до 16 кГц. Затем преобразованный сигнал делится на перекрывающиеся фреймы с использованием оконного преобразования Фурье. Для выявления спектральных пиков к каждому фрейму (1024 выборки) применяется МКНП. Спектрограмма МКНП, обозначаемая как V(k,l) (где k – индекс частотного бина, а l – индекс фрейма), часто имеет структуры, где повторяющаяся фоновая аудио-часть перекрывается изменяющейся неповторяющейся частью переднего плана.

Для разделения каждой повторяющейся музыкальной фоновой части и каждой неповторяющейся части переднего плана из спектрограммы МКНП применяется метод разделения аудио на передний и задний план с использованием техники извлечения «повторяющегося узора»

. Метод идентифицирует повторяющиеся/похожие элементы в спектрограмме МКНП с использованием косинусного сходства между транспонированной V(k,l) и V(k,l), чтобы построить модель повторяющегося фона с использованием двумерного медианного фильтра.

Затем эта модель используется для создания маски времени-частоты для разделения повторяющегося музыкального фона B(k,l) от неповторяющейся части переднего плана F(k,l). Полученная область переднего плана F(k,l) содержит гармонические спектральные пики, тогда как область фона содержит повторяющиеся части.

6. Полученные результаты

Для проверки работы полученного способа было проведено тестирование в помещении среднего размера с тремя комнатами. В каждой комнате были включены определенные музыкальные композиции. Уровень звука был настроен для комфортного пребывания в помещении. Носимое мобильное устройство (смартфон) было размещено в трех метрах от громкоговорителя. Полученные идентификационные маркеры были извлечены из записанных аудиоданных, отправлены на предварительно настроенный сервер через Wi-Fi и использованы для определения местоположения пользователя в помещении. Для создания разнообразных сценариев тестирования были сделаны несколько запросов на сервер с добавлением различных видов шума разной интенсивности. К базе данных было искусственно добавлено пять типов шума (шум разговоров, звуки движущейся машины, белый шум, розовый шум и шум вентилятора компьютера) с различным уровнем шума.

Для оценки эффективности методов аудиоидентификации были реализованы шесть методов:

1. Метод аудиоидентификации с использованием подмаскировки идентификационного маркера, на основе выделения преобладающего тона (SMAF)

. Были протестированы параметры для извлечения тона и различные размеры маски, а также выбраны оптимальные.

2. Метод аудиоидентификации с использованием двунаправленного обнаружения пиков (WPAF)

. Обнаруженные пики объединяются в пары в целевой области. Были оптимизированы различные параметры, используемые в методе Ванга-Ландау, для достижения различимой идентификации.

3. Метод аудиоидентификации с использованием выделения «выдающихся» пиков на основе разделения аудио на передний и задний план (PPAF).

4. Аудиоидентификация с использованием хэширования троек пиков на основе разделения аудио на передний и задний план (PTHAF).

5. Комбинированный метод аудиоидентификации, основанный на сочетании метода 3 и метода 4 (CHAF).

6. Комбинированный метод аудиоидентификации с использованием расчета отношения аудио переднего и заднего плана (FBR).

Таблица 1 - Результаты идентификации метода PPAF по сравнению с методом SMAF

DOI:10.23670/IRJ.2024.142.119.4

SNR (dB)	PPAF 3s	PAF 5s	PAF 10s	PAF 15s	MAF 3s	SMAF 5s	MAF 10s	MAF 15s
Без шумов	97,6	100	100	100	92,1	95,8	100	100
12	92,1	99,6	100	100	85,4	93,2	98,1	100
6	87,3	94,4	98,3	100	80,4	90,7	95,7	98,8
0	69,3	78,1	89,3	98,4	61,2	71,5	82,2	94,4
-6	34,1	46,3	70,1	87,5	26,3	38,3	61,3	82,2
-12	10,4	17,2	25,1	40,2	6,6	10,7	18,7	31,6
Среднее	65,1	72,7	80,4	87,6	58,3	66,9	76,2	84,6

Таблица 1 представляет результаты идентификации метода PPAF по сравнению с методом SMAF в пяти различных шумовых средах при использовании аудио-запросов длиной в три, пять, десять и пятнадцать секунд.

Показатель идентификации указывает на процент запросов, идентифицированных как соответствующие музыкальной композиции или песне с наибольшим количеством совпадающих идентификационных маркеров.

Рисунок 4 - Диаграмма идентификации метода PPAF по сравнению с методом SMAF

Результаты подсчитаны для оценки в пяти различных шумовых средах. Как видно из Таблицы 1, производительность идентификации увеличивается с увеличением длины запроса и с уменьшением уровня добавленного шума. Все показатели идентификации PPAF выше, чем у SMAF, особенно в шумных средах (см. рис. 4). Лучшая точность идентификации составляет 100%, что говорит о том, что тестовые аудио-запросы были полностью правильно распознаны. Эти результаты ясно показывают, что выделение выдающихся пиков на фоне шумоподавленной спектрограммы MCLT повышает точность аудиоидентификации в шумной среде.

Таблица 2 - Результаты идентификации метода PTHAF по сравнению с методом WPAF

DOI:10.23670/IRJ.2024.142.119.6

SNR (dB)	PTHAF 3s	PTHAF 5s	PTHAF 10s	PTHAF 15s	WPAF 3s	WPAF 5s	WPAF 10s	WPAF 15s
Без шумов	97,4	100	100	100	91,4	96,4	99,6	100
12	93,5	99,2	100	100	85,5	92,6	98,4	99,6
6	87,9	96,3	98,4	100	76,3	87,6	95,2	98,5
0	72,3	81,5	90,8	98,8	56,5	64,3	79,4	91,7
-6	37,5	49,2	73,5	89,6	18,3	29,4	54,5	77,4
-12	12,8	21,3	27,7	45,3	2,5	7,3	11,7	25,6
Среднее	67	74,7	81,7	89	55,1	63	73,2	82,2

Таблица 2 показывает результаты идентификации метода PTHAF по сравнению с методом WPAF. Метод PTHAF в целом также превосходит WPAF по точности идентификации в шумных средах (см. рис. 5). Это обусловлено тем, что хэши троек пиков, извлеченные из не повторяющегося аудио переднего плана, более устойчивы к различным условиям шума и различным расстояниям до громкоговорителей по сравнению с хэшами пар пиков WPAF.

Рисунок 5 - Идентификации метода PTHAF по сравнению с методом WPAF

Таблица 3 - Результаты комбинированных методов с и без использования FBR

DOI:10.23670/IRJ.2024.142.119.8

SNR (dB)	CHAF 3s	CHAF 5s	CHAF 10s	CHAF 15s	HFBR
Без шумов	99,4	100	100	100	100
12	95,8	100	100	100	100
6	90,5	98,7	100	100	100
0	78,4	85,6	95,7	100	98,4
-6	42,2	56,3	78,5	96,5	95,6
-12	17,5	26,7	36,6	56,5	56,6
Среднее	70,6	78	85,1	92,2	91,8

Таблица 3 представляет результаты комбинированных методов с и без использования FBR. Результаты метода без FBR также представлены на рисунке 6.

Рисунок 6 - Результаты комбинированных методов с и без использования FBR

На основе проведенных экспериментов с шестью различными методами аудиоидентификации, можно подчеркнуть несколько ключевых выводов. Сравнение между PPAF и SMAF демонстрирует, что PPAF проявляет более высокую производительность идентификации в шумных средах, особенно при увеличении длины аудио-запроса. Следующее сравнение между PTHAF и WPAF подтверждает, что спектральные хеши тройных пиков, извлеченные из не повторяющегося фонового звука, показывают хорошие результаты в условиях различных видов шума и расстояний до источника звука.

В контексте комбинированных методов с использованием или без использования FBR выявлено, что результаты без FBR превосходят те, которые включают FBR. Однако метод с FBR автоматически устанавливает требования к времени записи для каждого запроса в соответствии с условиями шума, обеспечивая высокую точность идентификации.

Эти результаты подчеркивают эффективность предложенного способа аудиоидентификации в условиях шумного окружения и поддерживают возможность использования аудиоидентификации для точного определения местоположения внутри помещений.

7. Заключение

В данной статье были рассмотрены методы аудиоидентификации в помещениях, представляющих собой шумные и динамичные среды. Предложен способ, который включает в себя использование характеристик звука, таких как выделение тройных пиков и хеширование, для создания эффективных и точных методов аудиоидентификации.

Исследование рассматривает возможность применения аудиоидентификации в больших торговых центрах, музеях и аэропортах, где инфраструктура обычно включает в себя громкоговорители и другие аудиосистемы. Вместо традиционных методов локализации, таких как GPS, предложенный способ аудиоидентификации особенно полезен в условиях, где добавление дополнительной инфраструктуры может быть проблематичным или невозможным.

Экспериментальные результаты показали успешный результат работы способа в условиях различных видов шума. Алгоритмы PPAF и PTHAF продемонстрировали более высокую точность и устойчивость по сравнению с существующими подходами. Это исследование открывает перспективы для развития более эффективных и точных систем локализации внутри помещений, что может иметь важное значение в различных областях, включая торговлю, безопасность и развлечения.

Дополнительные материалы

Не указаны

Финансирование

Авторы не получали финансовой поддержки для проведения исследования, написания и публикации статьи

Благодарности

Не указаны

Конфликт интересов

Не указаны

Список литературы

Гривал М.С. Системы глобального позиционирования, инерциальная навигация и интеграция / М.С. Гривал, Л.Р. Уилл, А.П. Эндрюс — Нью-Йорк: Джон Уайли и Сыновья, 2007. — 348 с.
Гаврилова Ю. Как работает GPS / Ю. Гаврилова // skillbox.ru. — 2023 — URL: https://skillbox.ru/media/code/kak-rabotaet-gps/ (дата обращения: 21.01.2024)
Мартин Э. Точная внутренняя локализация с использованием смартфонов / Э. Мартин, О. Виньялс, Г. Фридленд и др. // Сборник трудов Международной конференции по мультимедиа. — 2019. — 25. — с. 787-790.
Митилинеос С.А. Локализация внутри помещений с использованием беспроводных сетей датчиков / С.А. Митилинеос, Д.М. Кириазанос, О.Е. Сегу и др. // Прогресс в электромагнитных исследованиях. — 2022. — 109. — с. 441-474.
Салим Ф. Визуализация беспроводных сетей датчиков с использованием индикатора уровня принимаемого сигнала Zigbee (RSSI) для внутренней локализации и отслеживания / Ф. Салим, М. Уильямс, Н. Сони и др. // Сборник трудов Международной конференции по всеобъемлющим вычислениям и связи IEEE; — Будапешт: IEEE, 2014.
Малвар Х. Быстрый алгоритм для модулированного комплексного наложенного преобразования / Х. Малвар // Письма по обработке сигналов IEEE. — 2003. — Т. 10. — № 1. — с. с. 8-10.
Пат. 20150341890 Соединенные Штаты Америки, МПК20150341890 A1. Метод и система аудиолокации с использованием аудио-отпечатков и аудиоводяных знаков / Корбеллини Г.; заявитель и патентообладатель Корбеллини Г. — № 20150341890; заявл. 2024-01-22; опубл. 2015-11-01, США. — 20 с.
Рафии З. Техника извлечения повторяющихся паттернов (REPET): простой метод разделения музыки/голоса / З. Рафии, Б. Пардо // Транзакции IEEE по аудио, речи и языку. — 2022. — Т. 21. — № 1. — с. с. 73-84.
Чандразекхар В. Обзор и оценка схем аудио-идентификации для мобильных приложений поиска по образцу / В. Чандразекхар, М. Шарифи, Д.А. Росс // Сборник трудов 12-й международной конференции по поиску информации в музыке; — Майами: IEEE, 2021. — с. 801-806.
Корбеллини Г. Плакат: гибридная система внутренней аудио-локализации / Г. Корбеллини, С. Мангольд, В. Вукадинович // Сборник трудов 13-й международной конференции по мобильным системам, приложениям и услугам. — 2015. — 13. — с. 483-483.

Рецензия

Рецензент:Артамонов Владимир Афанасьевич

1 раунд рецензирования

Информация об авторах

Аффилиация:Университет ИТМО, Санкт-Петербург, Российская Федерация

Роль:Руководство

ORCID:0000-0002-8826-8583

ELIBRARY AUTHOR ID:851371

RESEARCHER ID:B-7514-2016

Аффилиация:Университет ИТМО, Санкт-Петербург, Российская Федерация

Роль:Автор

Метрика статьи

Скачиваний:12

ПросмотрыСкачивания

Просмотры

Всего: