Development of a Method for Indoor Audio Identification

Research article
DOI:
https://doi.org/10.23670/IRJ.2024.142.119
Issue: № 4 (142), 2024
Suggested:
21.01.2024
Accepted:
22.03.2024
Published:
17.04.2024
122
7
XML
PDF

Abstract

This article analyses the existing methods for audio identification in closed spaces, both in spaces with good audibility and in spaces with noisy environments. The focus is on overcoming the difficulties associated with acoustic distortion in closed spaces. A method of audio identification is proposed which includes the use of techniques such as triple peak extraction and the application of hashing.

The proposed mobile localization method based on audio identification solves several key challenges in indoor navigation. Firstly, it overcomes the limitations of GPS systems inside buildings where satellite signals are weakened or do not transmit. Second, the use of signals emitted by conventional loudspeakers makes the method more accessible and versatile, as it does not require additional infrastructure. Third, the implementation of audio identification techniques, such as prominent peak triples and binary identification markers, provides robustness to various audio distortions and improves location accuracy even in noisy environments, which is currently a current challenge for many existing systems.

Thus, the implementation of this system will lead to a marked improvement in navigation within buildings and will allow its use in different types of spaces such as shopping centres, airports and museums.

1. Введение

В современном мире возрастает потребность в точной локализации в закрытом пространстве. Данное исследование предлагает способ аудиоидентификации, который повышает эффективность системы локализации внутри помещений. Путем использования сигналов, излучаемых близкими к пользователю громкоговорителями, предлагаемый способ преодолевает шумы в различных условиях и помогает определять местоположение и ориентацию пользователя в пространствах разного масштаба. Это имеет практическое значение для развития быстрых и надежных систем навигации внутри помещений, что может быть полезно для создания локационно-ориентированных сервисов на мобильных устройствах в торговых центрах, музеях, аэропортах и подобных местах.

Цель данной работы заключается в разработке и апробации способа аудиоидентификации, способного повысить точность внутренней локализации внутри помещений. В работе описано несколько методов исследования, включая применение разделения звука на разные планы, создание бинарных ИМ, а также анализ результатов экспериментов в помещениях.

В рамках данной работы разработаны способы аудио-разделения на «передний» и «фоновый» планы для создания бинарных и хэш-идентификационных маркеров звука, а также проведены эксперименты для подтверждения устойчивости способа в различных условиях шума. Кроме этого, зафиксированы его способности определения местоположения пользователя внутри больших помещений.

Современные мобильные коммуникационные устройства со встроенными возможностями для распознавания и анализа звуковых сигналов предлагают новые возможности для разработки новаторских способов локализации внутри помещений. Именно поэтому предложенная в данном исследовании аудиоидентификация является перспективным способом к решению этой проблемы.

2. Обзор существующих решений по теме исследования

В настоящее время достижение точной локализации внутри помещений является большой проблемой в исследованиях и технологическом развитии. Тем не менее существуют различные методы и подходы, которые используются для решения этой задачи.

GPS (Global Positioning System, или система глобального позиционирования) – это система спутниковой навигации (рисунок 1), которая позволяет определить местоположение устройства с GPS-приёмником на Земле и в околоземном космическом пространстве
.
GPS позиционирование в пространстве

Рисунок 1 - GPS позиционирование в пространстве

GPS имеет много преимуществ, таких как глобальное охватывание, широкий спектр применения и непрерывное обслуживание, что объясняет его широкое использование в разных областях. Однако у GPS есть свои ограничения. Например, система может работать некорректно внутри зданий или при плохой погоде, а сигнал может быть искажен или заблокирован. Кроме того, высокое потребление энергии и ограниченная точность в определенных случаях также могут повлиять на эффективность системы. Таким образом, несмотря на многочисленные преимущества, GPS не всегда является универсальным решением и требует использования дополнительных методов для достижения точного и надежного местоположения в различных условиях.

Помимо GPS, существуют различные подходы к внутренней локализации, такие как использование Wi-Fi, Bluetooth и инфраструктурных методов

. Эти технологии могут быть использованы для определения местоположения на основе сигналов от беспроводных точек доступа или устройств с Bluetooth. Однако они имеют свои недостатки, такие как ограниченная точность и воздействие окружающей среды.

Также известны инфраструктурные методы, которые включают в себя установку датчиков, и других устройств внутри здания для сбора данных и определения местоположения. Таким образом, инфраструктурные методы могут обеспечивать более точные результаты в условиях, где GPS неэффективен. Однако эти методы требуют создания дополнительной инфраструктуры и относительно больших затрат.

3. Архитектура разрабатываемой системы

В ходе исследования была разработана архитектура системы внутренней локализации (рис. 2).

Архитектура системы

Рисунок 2 - Архитектура системы

База данных карты – база данных, в которой хранится информация о соответствии между определенными местоположениями (на карте) и именами музыкальных композиций в музыкальной базе данных. Таким образом, каждая точка в пространстве связана с определенной композицией, которая воспроизводится в этом местоположении через громкоговоритель.

На сервере внутренней локализации находятся музыкальные композиции. Название каждой музыкальной композиции в базе данных музыки, связанно с временем планирования воспроизведения и соответствует названию точки местоположения в картографической базе данных, где установлен определенный громкоговоритель.

Из музыкальных композиций извлекаются идентификационные маркеры троек пиков и идентификационные маркеры звука. Это характеристики аудио-сигналов, полученные в результате процесса аудиоидентификации. Данные идентификационные маркеры (ИМ) могут включать в себя такие параметры, как частотные характеристики, пики спектра, характеристики шума и т. д. Сопоставление множества таких ИМ позволяет системе определить совпадения и, таким образом, принять решения о местоположении.

Извлеченные ИМ сохраняются в базе данных. При этом ИМ незаметно для человека внедрены в каждую музыкальную композицию. Поскольку ИМ позволяют внедрены в звук, который звучит из каждого громкоговорителя, то они обеспечивают локализацию носимого мобильного устройства.

4. Компоненты разрабатываемой системы

Система аудиоидентификации состоит из двух основных компонентов: множественного извлечения и множественного сопоставления ИМ.

На рисунке 3 показан процесс множественного извлечения, включающий шесть основных блоков
Процесс множественного извлечения ИМ

Рисунок 3 - Процесс множественного извлечения ИМ

Модулированное комплексное наложенное преобразование (МКНП) или модулированное сложное преобразование с перекрытием – это метод анализа сигналов, который используется для преобразования сигнала из временной области в частотную. Этот метод обычно применяется в обработке звука и изображений. МКНП является комбинацией комплексного наложенного преобразования и метода модуляции, что позволяет получить представление сигнала в частотной области, сохраняя при этом фазовую информацию.

Расчет отношения «передний план / фон» аудиосигнала означает определение соотношения между звуковыми компонентами, являющимися основными и преобладающими в аудиосигнале, и компонентами, представляющими фоновый шум или второстепенные звуки. Этот расчет играет роль в процессе генерации ИМ в аудиофайлах.

Генерация ИМ на основе хэшей пиковых триплетов представляет собой процесс создания уникальных последовательностей (хэшей) на основе особенностей звукового сигнала, таких как триплеты пиков

. Триплеты пиков представляют собой группы трех близко расположенных максимумов амплитуды в спектре аудиосигнала. Эти хэши используются для последующего сравнения и идентификации аудиофайлов в системе.

Создание двоичных ИМ на основе выдающегося тона (примечательного высокочастотного компонента) означает формирование уникальных последовательностей битов (двоичных ИМ), полученных из выдающихся частотных компонентов в аудиосигнале. Эти двоичные ИМ затем используются для идентификации аудиофайлов в рамках системы.

5. Разделение аудиосигнала

В начале процесса аудиосигнал, записанный на устройстве (например, на телефоне), преобразуется в «моно» и его частота дискретизации уменьшается до 16 кГц. Затем преобразованный сигнал делится на перекрывающиеся фреймы с использованием оконного преобразования Фурье. Для выявления спектральных пиков к каждому фрейму (1024 выборки) применяется МКНП. Спектрограмма МКНП, обозначаемая как V(k,l) (где k – индекс частотного бина, а l – индекс фрейма), часто имеет структуры, где повторяющаяся фоновая аудио-часть перекрывается изменяющейся неповторяющейся частью переднего плана.

Для разделения каждой повторяющейся музыкальной фоновой части и каждой неповторяющейся части переднего плана из спектрограммы МКНП применяется метод разделения аудио на передний и задний план с использованием техники извлечения «повторяющегося узора»

. Метод идентифицирует повторяющиеся/похожие элементы в спектрограмме МКНП с использованием косинусного сходства между транспонированной V(k,l) и V(k,l), чтобы построить модель повторяющегося фона с использованием двумерного медианного фильтра.

Затем эта модель используется для создания маски времени-частоты для разделения повторяющегося музыкального фона B(k,l) от неповторяющейся части переднего плана F(k,l). Полученная область переднего плана F(k,l) содержит гармонические спектральные пики, тогда как область фона содержит повторяющиеся части.

6. Полученные результаты

Для проверки работы полученного способа было проведено тестирование в помещении среднего размера с тремя комнатами. В каждой комнате были включены определенные музыкальные композиции. Уровень звука был настроен для комфортного пребывания в помещении. Носимое мобильное устройство (смартфон) было размещено в трех метрах от громкоговорителя. Полученные идентификационные маркеры были извлечены из записанных аудиоданных, отправлены на предварительно настроенный сервер через Wi-Fi и использованы для определения местоположения пользователя в помещении. Для создания разнообразных сценариев тестирования были сделаны несколько запросов на сервер с добавлением различных видов шума разной интенсивности. К базе данных было искусственно добавлено пять типов шума (шум разговоров, звуки движущейся машины, белый шум, розовый шум и шум вентилятора компьютера) с различным уровнем шума.

Для оценки эффективности методов аудиоидентификации были реализованы шесть методов:

1. Метод аудиоидентификации с использованием подмаскировки идентификационного маркера, на основе выделения преобладающего тона (SMAF)

. Были протестированы параметры для извлечения тона и различные размеры маски, а также выбраны оптимальные.

2. Метод аудиоидентификации с использованием двунаправленного обнаружения пиков (WPAF)

. Обнаруженные пики объединяются в пары в целевой области. Были оптимизированы различные параметры, используемые в методе Ванга-Ландау, для достижения различимой идентификации.

3. Метод аудиоидентификации с использованием выделения «выдающихся» пиков на основе разделения аудио на передний и задний план (PPAF).

4. Аудиоидентификация с использованием хэширования троек пиков на основе разделения аудио на передний и задний план (PTHAF).

5. Комбинированный метод аудиоидентификации, основанный на сочетании метода 3 и метода 4 (CHAF).

6. Комбинированный метод аудиоидентификации с использованием расчета отношения аудио переднего и заднего плана (FBR).

Таблица 1 - Результаты идентификации метода PPAF по сравнению с методом SMAF

SNR (dB)

PPAF 3s

PAF 5s

PAF 10s

PAF 15s

MAF 3s

SMAF 5s

MAF 10s

MAF 15s

Без шумов

97,6

100

100

100

92,1

​95,8

100

100

​12

92,1

​99,6

100

100

​85,4

​93,2

​98,1

100

​6

​87,3

​94,4

​98,3

100

​80,4

​90,7

​95,7

​98,8

​0

​69,3

​78,1

​89,3

​98,4

​61,2

​71,5

​82,2

​94,4

​-6

​34,1

​46,3

​70,1

​87,5

​26,3

​38,3

​61,3

​82,2

​-12

​10,4

​17,2

​25,1

​40,2

​6,6

​10,7

​18,7

​31,6

Среднее

​65,1

​72,7

​80,4

​87,6

​58,3

​66,9

​76,2

​84,6

Таблица 1 представляет результаты идентификации метода PPAF по сравнению с методом SMAF в пяти различных шумовых средах при использовании аудио-запросов длиной в три, пять, десять и пятнадцать секунд.

Показатель идентификации указывает на процент запросов, идентифицированных как соответствующие музыкальной композиции или песне с наибольшим количеством совпадающих идентификационных маркеров.

Диаграмма идентификации метода PPAF по сравнению с методом SMAF

Рисунок 4 - Диаграмма идентификации метода PPAF по сравнению с методом SMAF

Результаты подсчитаны для оценки в пяти различных шумовых средах. Как видно из Таблицы 1, производительность идентификации увеличивается с увеличением длины запроса и с уменьшением уровня добавленного шума. Все показатели идентификации PPAF выше, чем у SMAF, особенно в шумных средах (см. рис. 4). Лучшая точность идентификации составляет 100%, что говорит о том, что тестовые аудио-запросы были полностью правильно распознаны. Эти результаты ясно показывают, что выделение выдающихся пиков на фоне шумоподавленной спектрограммы MCLT повышает точность аудиоидентификации в шумной среде.

Таблица 2 - Результаты идентификации метода PTHAF по сравнению с методом WPAF

SNR (dB)

PTHAF 3s

PTHAF 5s

PTHAF 10s

PTHAF 15s

WPAF 3s

WPAF 5s

WPAF 10s

WPAF 15s

Без шумов

97,4

100

100

100

91,4

​96,4

99,6

100

​12

93,5

​99,2

100

100

​85,5

​92,6

​98,4

​99,6

​6

​87,9

​96,3

​98,4

100

76,3

87,6

​95,2

​98,5

​0

​72,3

​81,5

90,8

​98,8

56,5

64,3

79,4

​91,7

​-6

​37,5

​49,2

​73,5

​89,6

18,3

29,4

54,5

77,4

​-12

​12,8

​21,3

​27,7

​45,3

​2,5

7,3

​11,7

25,6

Среднее

​67

​74,7

​81,7

​89

​55,1

​63

​73,2

​82,2

Таблица 2 показывает результаты идентификации метода PTHAF по сравнению с методом WPAF. Метод PTHAF в целом также превосходит WPAF по точности идентификации в шумных средах (см. рис. 5). Это обусловлено тем, что хэши троек пиков, извлеченные из не повторяющегося аудио переднего плана, более устойчивы к различным условиям шума и различным расстояниям до громкоговорителей по сравнению с хэшами пар пиков WPAF.
Идентификации метода PTHAF по сравнению с методом WPAF

Рисунок 5 - Идентификации метода PTHAF по сравнению с методом WPAF

Таблица 3 - Результаты комбинированных методов с и без использования FBR

SNR (dB)

CHAF 3s

CHAF 5s

CHAF 10s

CHAF 15s

HFBR

Без шумов

99,4

100

100

100

100

​12

​95,8

​100

​100

​100

​100

​6

​90,5

​98,7

​100

​100

​100

​0

​78,4

​85,6

​95,7

​100

​98,4

​-6

​42,2

​56,3

​78,5

​96,5

​95,6

​-12

​17,5

​26,7

​36,6

​56,5

​56,6

​Среднее

​70,6

​78

​85,1

​92,2

​91,8

Таблица 3 представляет результаты комбинированных методов с и без использования FBR. Результаты метода без FBR также представлены на рисунке 6.

Результаты комбинированных методов с и без использования FBR

Рисунок 6 - Результаты комбинированных методов с и без использования FBR

На основе проведенных экспериментов с шестью различными методами аудиоидентификации, можно подчеркнуть несколько ключевых выводов. Сравнение между PPAF и SMAF демонстрирует, что PPAF проявляет более высокую производительность идентификации в шумных средах, особенно при увеличении длины аудио-запроса. Следующее сравнение между PTHAF и WPAF подтверждает, что спектральные хеши тройных пиков, извлеченные из не повторяющегося фонового звука, показывают хорошие результаты в условиях различных видов шума и расстояний до источника звука.

В контексте комбинированных методов с использованием или без использования FBR выявлено, что результаты без FBR превосходят те, которые включают FBR. Однако метод с FBR автоматически устанавливает требования к времени записи для каждого запроса в соответствии с условиями шума, обеспечивая высокую точность идентификации.

Эти результаты подчеркивают эффективность предложенного способа аудиоидентификации в условиях шумного окружения и поддерживают возможность использования аудиоидентификации для точного определения местоположения внутри помещений.

7. Заключение

В данной статье были рассмотрены методы аудиоидентификации в помещениях, представляющих собой шумные и динамичные среды. Предложен способ, который включает в себя использование характеристик звука, таких как выделение тройных пиков и хеширование, для создания эффективных и точных методов аудиоидентификации.

Исследование рассматривает возможность применения аудиоидентификации в больших торговых центрах, музеях и аэропортах, где инфраструктура обычно включает в себя громкоговорители и другие аудиосистемы. Вместо традиционных методов локализации, таких как GPS, предложенный способ аудиоидентификации особенно полезен в условиях, где добавление дополнительной инфраструктуры может быть проблематичным или невозможным.

Экспериментальные результаты показали успешный результат работы способа в условиях различных видов шума. Алгоритмы PPAF и PTHAF продемонстрировали более высокую точность и устойчивость по сравнению с существующими подходами. Это исследование открывает перспективы для развития более эффективных и точных систем локализации внутри помещений, что может иметь важное значение в различных областях, включая торговлю, безопасность и развлечения.

Article metrics

Views:122
Downloads:7
Views
Total:
Views:122