Development of a Method for Indoor Audio Identification

Usacheva D. D.; Kharytonov A. Y.

doi:10.23670/IRJ.2024.142.119

Development of a Method for Indoor Audio Identification

Research article

Usacheva D. D.

DOI:

https://doi.org/10.23670/IRJ.2024.142.119

Issue: № 4 (142), 2024

Suggested:

21.01.2024

Accepted:

22.03.2024

Published:

17.04.2024

308

12

XML

PDF

Abstract

This article analyses the existing methods for audio identification in closed spaces, both in spaces with good audibility and in spaces with noisy environments. The focus is on overcoming the difficulties associated with acoustic distortion in closed spaces. A method of audio identification is proposed which includes the use of techniques such as triple peak extraction and the application of hashing.

The proposed mobile localization method based on audio identification solves several key challenges in indoor navigation. Firstly, it overcomes the limitations of GPS systems inside buildings where satellite signals are weakened or do not transmit. Second, the use of signals emitted by conventional loudspeakers makes the method more accessible and versatile, as it does not require additional infrastructure. Third, the implementation of audio identification techniques, such as prominent peak triples and binary identification markers, provides robustness to various audio distortions and improves location accuracy even in noisy environments, which is currently a current challenge for many existing systems.

Thus, the implementation of this system will lead to a marked improvement in navigation within buildings and will allow its use in different types of spaces such as shopping centres, airports and museums.

Keywords:

audio localization, noise cancellation, location detection, identification markers.

1. Введение

В современном мире возрастает потребность в точной локализации в закрытом пространстве. Данное исследование предлагает способ аудиоидентификации, который повышает эффективность системы локализации внутри помещений. Путем использования сигналов, излучаемых близкими к пользователю громкоговорителями, предлагаемый способ преодолевает шумы в различных условиях и помогает определять местоположение и ориентацию пользователя в пространствах разного масштаба. Это имеет практическое значение для развития быстрых и надежных систем навигации внутри помещений, что может быть полезно для создания локационно-ориентированных сервисов на мобильных устройствах в торговых центрах, музеях, аэропортах и подобных местах.

Цель данной работы заключается в разработке и апробации способа аудиоидентификации, способного повысить точность внутренней локализации внутри помещений. В работе описано несколько методов исследования, включая применение разделения звука на разные планы, создание бинарных ИМ, а также анализ результатов экспериментов в помещениях.

В рамках данной работы разработаны способы аудио-разделения на «передний» и «фоновый» планы для создания бинарных и хэш-идентификационных маркеров звука, а также проведены эксперименты для подтверждения устойчивости способа в различных условиях шума. Кроме этого, зафиксированы его способности определения местоположения пользователя внутри больших помещений.

Современные мобильные коммуникационные устройства со встроенными возможностями для распознавания и анализа звуковых сигналов предлагают новые возможности для разработки новаторских способов локализации внутри помещений. Именно поэтому предложенная в данном исследовании аудиоидентификация является перспективным способом к решению этой проблемы.

2. Обзор существующих решений по теме исследования

В настоящее время достижение точной локализации внутри помещений является большой проблемой в исследованиях и технологическом развитии. Тем не менее существуют различные методы и подходы, которые используются для решения этой задачи.

GPS (Global Positioning System, или система глобального позиционирования) – это система спутниковой навигации (рисунок 1), которая позволяет определить местоположение устройства с GPS-приёмником на Земле и в околоземном космическом пространстве .

Рисунок 1 - GPS позиционирование в пространстве

GPS имеет много преимуществ, таких как глобальное охватывание, широкий спектр применения и непрерывное обслуживание, что объясняет его широкое использование в разных областях. Однако у GPS есть свои ограничения. Например, система может работать некорректно внутри зданий или при плохой погоде, а сигнал может быть искажен или заблокирован. Кроме того, высокое потребление энергии и ограниченная точность в определенных случаях также могут повлиять на эффективность системы. Таким образом, несмотря на многочисленные преимущества, GPS не всегда является универсальным решением и требует использования дополнительных методов для достижения точного и надежного местоположения в различных условиях.

Помимо GPS, существуют различные подходы к внутренней локализации, такие как использование Wi-Fi, Bluetooth и инфраструктурных методов

. Эти технологии могут быть использованы для определения местоположения на основе сигналов от беспроводных точек доступа или устройств с Bluetooth. Однако они имеют свои недостатки, такие как ограниченная точность и воздействие окружающей среды.

Также известны инфраструктурные методы, которые включают в себя установку датчиков, и других устройств внутри здания для сбора данных и определения местоположения. Таким образом, инфраструктурные методы могут обеспечивать более точные результаты в условиях, где GPS неэффективен. Однако эти методы требуют создания дополнительной инфраструктуры и относительно больших затрат.

3. Архитектура разрабатываемой системы

В ходе исследования была разработана архитектура системы внутренней локализации (рис. 2).

Рисунок 2 - Архитектура системы

База данных карты – база данных, в которой хранится информация о соответствии между определенными местоположениями (на карте) и именами музыкальных композиций в музыкальной базе данных. Таким образом, каждая точка в пространстве связана с определенной композицией, которая воспроизводится в этом местоположении через громкоговоритель.

На сервере внутренней локализации находятся музыкальные композиции. Название каждой музыкальной композиции в базе данных музыки, связанно с временем планирования воспроизведения и соответствует названию точки местоположения в картографической базе данных, где установлен определенный громкоговоритель.

Из музыкальных композиций извлекаются идентификационные маркеры троек пиков и идентификационные маркеры звука. Это характеристики аудио-сигналов, полученные в результате процесса аудиоидентификации. Данные идентификационные маркеры (ИМ) могут включать в себя такие параметры, как частотные характеристики, пики спектра, характеристики шума и т. д. Сопоставление множества таких ИМ позволяет системе определить совпадения и, таким образом, принять решения о местоположении.

Извлеченные ИМ сохраняются в базе данных. При этом ИМ незаметно для человека внедрены в каждую музыкальную композицию. Поскольку ИМ позволяют внедрены в звук, который звучит из каждого громкоговорителя, то они обеспечивают локализацию носимого мобильного устройства.

4. Компоненты разрабатываемой системы

Система аудиоидентификации состоит из двух основных компонентов: множественного извлечения и множественного сопоставления ИМ.

На рисунке 3 показан процесс множественного извлечения, включающий шесть основных блоков

Рисунок 3 - Процесс множественного извлечения ИМ

Модулированное комплексное наложенное преобразование (МКНП) или модулированное сложное преобразование с перекрытием – это метод анализа сигналов, который используется для преобразования сигнала из временной области в частотную. Этот метод обычно применяется в обработке звука и изображений. МКНП является комбинацией комплексного наложенного преобразования и метода модуляции, что позволяет получить представление сигнала в частотной области, сохраняя при этом фазовую информацию.

Расчет отношения «передний план / фон» аудиосигнала означает определение соотношения между звуковыми компонентами, являющимися основными и преобладающими в аудиосигнале, и компонентами, представляющими фоновый шум или второстепенные звуки. Этот расчет играет роль в процессе генерации ИМ в аудиофайлах.

Генерация ИМ на основе хэшей пиковых триплетов представляет собой процесс создания уникальных последовательностей (хэшей) на основе особенностей звукового сигнала, таких как триплеты пиков

. Триплеты пиков представляют собой группы трех близко расположенных максимумов амплитуды в спектре аудиосигнала. Эти хэши используются для последующего сравнения и идентификации аудиофайлов в системе.

Создание двоичных ИМ на основе выдающегося тона (примечательного высокочастотного компонента) означает формирование уникальных последовательностей битов (двоичных ИМ), полученных из выдающихся частотных компонентов в аудиосигнале. Эти двоичные ИМ затем используются для идентификации аудиофайлов в рамках системы.

5. Разделение аудиосигнала

В начале процесса аудиосигнал, записанный на устройстве (например, на телефоне), преобразуется в «моно» и его частота дискретизации уменьшается до 16 кГц. Затем преобразованный сигнал делится на перекрывающиеся фреймы с использованием оконного преобразования Фурье. Для выявления спектральных пиков к каждому фрейму (1024 выборки) применяется МКНП. Спектрограмма МКНП, обозначаемая как V(k,l) (где k – индекс частотного бина, а l – индекс фрейма), часто имеет структуры, где повторяющаяся фоновая аудио-часть перекрывается изменяющейся неповторяющейся частью переднего плана.

Для разделения каждой повторяющейся музыкальной фоновой части и каждой неповторяющейся части переднего плана из спектрограммы МКНП применяется метод разделения аудио на передний и задний план с использованием техники извлечения «повторяющегося узора»

. Метод идентифицирует повторяющиеся/похожие элементы в спектрограмме МКНП с использованием косинусного сходства между транспонированной V(k,l) и V(k,l), чтобы построить модель повторяющегося фона с использованием двумерного медианного фильтра.

Затем эта модель используется для создания маски времени-частоты для разделения повторяющегося музыкального фона B(k,l) от неповторяющейся части переднего плана F(k,l). Полученная область переднего плана F(k,l) содержит гармонические спектральные пики, тогда как область фона содержит повторяющиеся части.

6. Полученные результаты

Для проверки работы полученного способа было проведено тестирование в помещении среднего размера с тремя комнатами. В каждой комнате были включены определенные музыкальные композиции. Уровень звука был настроен для комфортного пребывания в помещении. Носимое мобильное устройство (смартфон) было размещено в трех метрах от громкоговорителя. Полученные идентификационные маркеры были извлечены из записанных аудиоданных, отправлены на предварительно настроенный сервер через Wi-Fi и использованы для определения местоположения пользователя в помещении. Для создания разнообразных сценариев тестирования были сделаны несколько запросов на сервер с добавлением различных видов шума разной интенсивности. К базе данных было искусственно добавлено пять типов шума (шум разговоров, звуки движущейся машины, белый шум, розовый шум и шум вентилятора компьютера) с различным уровнем шума.

Для оценки эффективности методов аудиоидентификации были реализованы шесть методов:

1. Метод аудиоидентификации с использованием подмаскировки идентификационного маркера, на основе выделения преобладающего тона (SMAF)

. Были протестированы параметры для извлечения тона и различные размеры маски, а также выбраны оптимальные.

2. Метод аудиоидентификации с использованием двунаправленного обнаружения пиков (WPAF)

. Обнаруженные пики объединяются в пары в целевой области. Были оптимизированы различные параметры, используемые в методе Ванга-Ландау, для достижения различимой идентификации.

3. Метод аудиоидентификации с использованием выделения «выдающихся» пиков на основе разделения аудио на передний и задний план (PPAF).

4. Аудиоидентификация с использованием хэширования троек пиков на основе разделения аудио на передний и задний план (PTHAF).

5. Комбинированный метод аудиоидентификации, основанный на сочетании метода 3 и метода 4 (CHAF).

6. Комбинированный метод аудиоидентификации с использованием расчета отношения аудио переднего и заднего плана (FBR).

Таблица 1 - Результаты идентификации метода PPAF по сравнению с методом SMAF

DOI:10.23670/IRJ.2024.142.119.4

SNR (dB)	PPAF 3s	PAF 5s	PAF 10s	PAF 15s	MAF 3s	SMAF 5s	MAF 10s	MAF 15s
Без шумов	97,6	100	100	100	92,1	95,8	100	100
12	92,1	99,6	100	100	85,4	93,2	98,1	100
6	87,3	94,4	98,3	100	80,4	90,7	95,7	98,8
0	69,3	78,1	89,3	98,4	61,2	71,5	82,2	94,4
-6	34,1	46,3	70,1	87,5	26,3	38,3	61,3	82,2
-12	10,4	17,2	25,1	40,2	6,6	10,7	18,7	31,6
Среднее	65,1	72,7	80,4	87,6	58,3	66,9	76,2	84,6

Таблица 1 представляет результаты идентификации метода PPAF по сравнению с методом SMAF в пяти различных шумовых средах при использовании аудио-запросов длиной в три, пять, десять и пятнадцать секунд.

Показатель идентификации указывает на процент запросов, идентифицированных как соответствующие музыкальной композиции или песне с наибольшим количеством совпадающих идентификационных маркеров.

Рисунок 4 - Диаграмма идентификации метода PPAF по сравнению с методом SMAF

Результаты подсчитаны для оценки в пяти различных шумовых средах. Как видно из Таблицы 1, производительность идентификации увеличивается с увеличением длины запроса и с уменьшением уровня добавленного шума. Все показатели идентификации PPAF выше, чем у SMAF, особенно в шумных средах (см. рис. 4). Лучшая точность идентификации составляет 100%, что говорит о том, что тестовые аудио-запросы были полностью правильно распознаны. Эти результаты ясно показывают, что выделение выдающихся пиков на фоне шумоподавленной спектрограммы MCLT повышает точность аудиоидентификации в шумной среде.

Таблица 2 - Результаты идентификации метода PTHAF по сравнению с методом WPAF

DOI:10.23670/IRJ.2024.142.119.6

SNR (dB)	PTHAF 3s	PTHAF 5s	PTHAF 10s	PTHAF 15s	WPAF 3s	WPAF 5s	WPAF 10s	WPAF 15s
Без шумов	97,4	100	100	100	91,4	96,4	99,6	100
12	93,5	99,2	100	100	85,5	92,6	98,4	99,6
6	87,9	96,3	98,4	100	76,3	87,6	95,2	98,5
0	72,3	81,5	90,8	98,8	56,5	64,3	79,4	91,7
-6	37,5	49,2	73,5	89,6	18,3	29,4	54,5	77,4
-12	12,8	21,3	27,7	45,3	2,5	7,3	11,7	25,6
Среднее	67	74,7	81,7	89	55,1	63	73,2	82,2

Таблица 2 показывает результаты идентификации метода PTHAF по сравнению с методом WPAF. Метод PTHAF в целом также превосходит WPAF по точности идентификации в шумных средах (см. рис. 5). Это обусловлено тем, что хэши троек пиков, извлеченные из не повторяющегося аудио переднего плана, более устойчивы к различным условиям шума и различным расстояниям до громкоговорителей по сравнению с хэшами пар пиков WPAF.

Рисунок 5 - Идентификации метода PTHAF по сравнению с методом WPAF

Таблица 3 - Результаты комбинированных методов с и без использования FBR

DOI:10.23670/IRJ.2024.142.119.8

SNR (dB)	CHAF 3s	CHAF 5s	CHAF 10s	CHAF 15s	HFBR
Без шумов	99,4	100	100	100	100
12	95,8	100	100	100	100
6	90,5	98,7	100	100	100
0	78,4	85,6	95,7	100	98,4
-6	42,2	56,3	78,5	96,5	95,6
-12	17,5	26,7	36,6	56,5	56,6
Среднее	70,6	78	85,1	92,2	91,8

Таблица 3 представляет результаты комбинированных методов с и без использования FBR. Результаты метода без FBR также представлены на рисунке 6.

Рисунок 6 - Результаты комбинированных методов с и без использования FBR

На основе проведенных экспериментов с шестью различными методами аудиоидентификации, можно подчеркнуть несколько ключевых выводов. Сравнение между PPAF и SMAF демонстрирует, что PPAF проявляет более высокую производительность идентификации в шумных средах, особенно при увеличении длины аудио-запроса. Следующее сравнение между PTHAF и WPAF подтверждает, что спектральные хеши тройных пиков, извлеченные из не повторяющегося фонового звука, показывают хорошие результаты в условиях различных видов шума и расстояний до источника звука.

В контексте комбинированных методов с использованием или без использования FBR выявлено, что результаты без FBR превосходят те, которые включают FBR. Однако метод с FBR автоматически устанавливает требования к времени записи для каждого запроса в соответствии с условиями шума, обеспечивая высокую точность идентификации.

Эти результаты подчеркивают эффективность предложенного способа аудиоидентификации в условиях шумного окружения и поддерживают возможность использования аудиоидентификации для точного определения местоположения внутри помещений.

7. Заключение

В данной статье были рассмотрены методы аудиоидентификации в помещениях, представляющих собой шумные и динамичные среды. Предложен способ, который включает в себя использование характеристик звука, таких как выделение тройных пиков и хеширование, для создания эффективных и точных методов аудиоидентификации.

Исследование рассматривает возможность применения аудиоидентификации в больших торговых центрах, музеях и аэропортах, где инфраструктура обычно включает в себя громкоговорители и другие аудиосистемы. Вместо традиционных методов локализации, таких как GPS, предложенный способ аудиоидентификации особенно полезен в условиях, где добавление дополнительной инфраструктуры может быть проблематичным или невозможным.

Экспериментальные результаты показали успешный результат работы способа в условиях различных видов шума. Алгоритмы PPAF и PTHAF продемонстрировали более высокую точность и устойчивость по сравнению с существующими подходами. Это исследование открывает перспективы для развития более эффективных и точных систем локализации внутри помещений, что может иметь важное значение в различных областях, включая торговлю, безопасность и развлечения.

Additional materials

Not specified

Financing

Авторы не получали финансовой поддержки для проведения исследования, написания и публикации статьи

Acknowledgements

Not specified

Conflicts of interests

Not specified

References

Grival M.S. Sistemy global'nogo pozitsionirovanija, inertsial'naja navigatsija i integratsija [Global Positioning Systems, Inertial Navigation and Integration] / М.S. Grewal, L.R. Will, A.P. Andrews — New York: John Wiley and Sons, 2007. — 348 p. [in Russian]
Gavrilova Ju. Kak rabotaet GPS [How GPS works] / Ju. Gavrilova // skillbox.ru. — 2023 — URL: https://skillbox.ru/media/code/kak-rabotaet-gps/ (accessed: 21.01.2024) [in Russian]
Martin E. Tochnaja vnutrennjaja lokalizatsija s ispol'zovaniem smartfonov [Indoor Localization Using Smartphones] / E. Martin, O. Vin'jals, G. Fridlend et al. // International Conference on Multimedia: Theses. — 2019. — 25. — p. 787-790. [in Russian]
Mitilineos S.A. Lokalizatsija vnutri pomeschenij s ispol'zovaniem besprovodnyh setej datchikov [Indoor Localization Using Wireless Sensor Networks] / S.A. Mitilineos, D.M. Kiriazanos, O.E. Segu et al. // Progress in Electromagnetic Research. — 2022. — 109. — p. 441-474. [in Russian]
Salim F. Vizualizatsija besprovodnyh setej datchikov s ispol'zovaniem indikatora urovnja prinimaemogo signala Zigbee (RSSI) dlja vnutrennej lokalizatsii i otslezhivanija [Visualize Wireless Sensor Networks Using Zigbee Received Signal Strength Indicator (RSSI) for Indoor Localization and Tracking] / F. Salim, M. Uil'jams, N. Soni et al. // Proceedings of the IEEE International Conference on Pervasive Computing and Communications; — Budapesht: IEEE, 2014. [in Russian]
Malvar H. Bystryj algoritm dlja modulirovannogo kompleksnogo nalozhennogo preobrazovanija [Fast Algorithm for Modulated Complex Superimposed Transform] / H. Malvar // IEEE Signal Processing Letters. — 2003. — Vol. 10. — № 1. — p. с. 8-10. [in Russian]
Pat. 20150341890 USA, MPK20150341890 A1. Metod i sistema audiolokatsii s ispol'zovaniem audio-otpechatkov i audiovodjanyh znakov [Audio location method and system using audio fingerprints and audio watermarks] / Korbellini G.; the applicant and the patentee Korbellini G. — № 20150341890; appl. 2024-01-22; publ. 2015-11-01, SShA. — 20 p. [in Russian]
Rafii Z. Tehnika izvlechenija povtorjajuschihsja patternov (REPET): prostoj metod razdelenija muzyki/golosa [Repeated Pattern Extraction Technique (REPET): A simple method for separating music/voice] / Z. Rafii, B. Pardo // IEEE Transactions on Audio, Speech and Language. — 2022. — Vol. 21. — № 1. — p. с. 73-84. [in Russian]
Chandrazekhar V. Obzor i otsenka shem audio-identifikatsii dlja mobil'nyh prilozhenij poiska po obraztsu [Review and Evaluation of Audio Identification Schemes for Pattern Search Mobile Applications] / V. Chandrazekhar, M. Sharifi, D.A. Ross // Proceedings of the 12th International Conference on Information Retrieval in Music; — Majami: IEEE, 2021. — p. 801-806. [in Russian]
Korbellini G. Plakat: gibridnaja sistema vnutrennej audio-lokalizatsii [Hybrid Indoor Audio Localization System] / G. Korbellini, S. Mangol'd, V. Vukadinovich // Proceedings of the 13th International Conference on Mobile Systems, Applications and Services. — 2015. — 13. — p. 483-483. [in Russian]

Review

Reviewer:Артамонов Владимир Афанасьевич

1 review round

Author information

Affiliation:ITMO University, Saint-Petersburg, Russian Federation

Role:Management

ORCID:0000-0002-8826-8583

ELIBRARY AUTHOR ID:851371

RESEARCHER ID:B-7514-2016

Affiliation:ITMO University, Saint-Petersburg, Russian Federation

Role:Author

Article metrics

Downloads:12

ViewsDownloads

Views

Total: