ИССЛЕДОВАНИЕ МЕТОДОВ ИДЕНТИФИКАЦИИ АУДИОКОНТЕНТА ПО ЕГО РИТМУ
Макаров А.С.1, Лясин Д.Н.2
1Студент-бакалавр; 2кандидат технических наук, доцент, Волжский Политехнический Институт (филиал) ВолгГТУ
ИССЛЕДОВАНИЕ МЕТОДОВ ИДЕНТИФИКАЦИИ АУДИОКОНТЕНТА ПО ЕГО РИТМУ
Аннотация
Целью работы является усовершенствование одного из рассмотренных алгоритмов идентификации аудиоконтента и разработка собственного приложения, способного показывать лучшие результаты при тестировании и впоследствии использовании.
Ключевые слова: Идентификация, аудио, АЧХ, ритм.
Makarov A.S.1, Lyasin D.N.2
1Bachelor student; 2Candidate of Technical Sciences, docent, Volzhsky Polytechnic Institute (branch) VSTU
RESEARCH OF METHODS FOR IDENTIFICATION AUDIO CONTENT ON HIS RHYTHM
Abstract
Purpose is to improve one of the considered methods audio content identification and development of custom application that can show the best results when testing and subsequently using.
Keywords: Identification, audio, amplitude frequency characteristic, rhythm.
В настоящее время существует достаточно много методов идентификации аудиоконтента. Но практически во всех известных идентификационных системах используются алгоритмы, которые фирма-производитель скрывает от пользователей, не предоставляя возможность ознакомиться с исходным кодом программы и математическими моделями.
Целью работы является усовершенствование одного из этих алгоритмов и разработка собственного приложения, способного показывать лучшие результаты при тестировании и впоследствии использовании.
Среди исследованных подходов к данной задаче можно особо выделить два принципиально разных, но одинаково успешных:
- идентификация по музыкальным параметрам, таким как темп, характерные ритмические рисунки, гармонические и мелодические конструкции.
- идентификация по технологии акустических отпечатков
Первый метод, как было сказано ранее, заключается в определении ряда музыкальных параметров аудиофайла. Эти параметры подвергаются анализу, результатом которого является набор метаданных, содержащий описание ключевых параметров исследуемого контента. Операции с этими метаданными позволяют выполнять поиск содержимого цифровой фонотеки в автоматическом режиме. Для определения параметров, используемых при реализации данного метода, применяется непрерывное вейвлет-преобразование.
Второй метод, именуемый технологией акустических отпечатков, был разработан и запатентован компанией Relatable, которая утверждает, что поиск по уникальным для аудиофайла акустическим характеристикам является очень эффективным. Совокупность этих характеристик не меняется при перекодировании в другой формат или при изменении частоты. Таким образом, системы, основанные на данной технологии способны опознать искомую композицию независимо от формата.
Большинство существующих систем идентификации аудиоконтента основаны все-таки на втором методе – технологии акустических отпечатков. Наиболее известные из них: TrackID и Shazam, работающие по одинаковому принципу: для идентификации музыкального трека пользователь запускает программу — она записывает отрывок (от 10 до 12 секунд) музыкального произведения с помощью встроенного в телефон микрофона в формате AMR и отсылает на сервер, где он анализируется сравнивается с образцами, существующими в базе данных, и через несколько секунд, в случае успешного сравнения, на экране высвечивается требуемая информация о песне: Исполнитель, Название, Альбом, Жанр, Студия, YouTube Видео, Стихи.
В данной работе будет использоваться алгоритм, основанный на методе идентификации по музыкальным параметрам. В дальнейшем анализу подвергнется такой тип данных как MP3 на предмет возможности получения из него АЧХ объекта. Амплитудно-частотная характеристика является основополагающей для реализации выбранной методики. Поэтому будут проанализированы характеристики, нужные для ее построения.
Музыкальный ритм – это чередование и соотношение различных музыкальных длительностей и акцентов. Часто именно он определяет характер и даже жанр музыки.
Децибелл (англ. decibell, обознач. дБ, dB) – логарифмическая единица уровней, затуханий и усилений. В звукотехнике часто в качестве опорной величины берется максимальный уровень звука, таким образом если обозначить нашу величину как Ux, формула для определения этой же величины в децибеллах запишется как
.
Для определения ритма не нужна вся амплитудно-частотная характеристика, а лишь всплески амплитуды, превышающие частоту среза. Ритм будет определяться как временные отрезки между этими всплесками.
, где , где - величина всплеска амплитуды.
Обозначим уровень сигнала как Ux. Нас интересует величина
Эта же величина в дБ равна
Выполним простые математические преобразования:
Считая что
получим
Строго говоря, у нас нет никаких оснований считать, что предыдущее выражение верно. Но, учитывая то, что обе части равенства относятся к одной и той же записи (оригинальный вариант и закодированный), будем считать что при кодировании максимальный уровень сигнала не изменяется или почти не изменяется.
Таким образом, мы вывели формулу для анализа АЧХ и построения нужных для исследования зависимостей. В базе данных хранится библиотека с информацией о аудиоконтенте в следующем виде: название, исполнитель,
Алгоритм поиска информации о запрашиваемом файле сводится к сравнению его ритма с ритмами из библиотеки, хранящейся на сервере. Сравнивается значение длительности каждой ноты, то есть расстояний между максимумами амплитуды.
Считается количество совпадений базового и тестируемого ритмов:
, где i=1..n - количество всплесков, j=1..m - размер библиотеки
Идентичность базовому образцу определяется как отношение величины coin к количеству всплесков:
В зависимости от полученного значения определяется, какую информацию выдавать пользователю.
Список литературы
Фадеев А.С.Идентификация музыкальных объектов на основе непрерывного вейвлет-преобразования. Томск: «Кибернетический центр» ТПУ, 2008. – с. 6-8
Асмаков С. Идентификация звука: миссия выполнима.// Компьютер Пресс – 2010 – №10: http://www.compress.ru/article.aspx?id=21709&iid=991
Андреев Г. Напевы Рабиновича.//КомпьюТерра – 2001 – №17 : http://www.kinnet.ru/cterra/394/index.html
Булучевский Ю., Фомин В. Краткий музыкальный словарь. — М.: Музыка, 2005. — 461 с.
Чанаев С.А. Тестирование MPEG Layer 3 (MP3) кодеров - Самара: СГАСУ, 2004