МЕТОД ИЗВЛЕЧЕНИЯ ИНСТРУМЕНТАЛЬНЫХ ПАРТИЙ ИЗ АУДИОФАЙЛОВ НА ОСНОВЕ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ

Научная статья
DOI:
https://doi.org/10.60797/IRJ.2026.166.13
EDN:
QZQLBX
Предложена:
03.03.2026
Принята:
01.04.2026
Опубликована:
17.04.2026
Выпуск: № 4 (166), 2026
Правообладатель: авторы. Лицензия: Attribution 4.0 International (CC BY 4.0)
16
0
XML
PDF

Аннотация

В статье рассматривается задача извлечения инструментальных партий из полифонических аудиозаписей как задача сегментации музыкального потока на участки с устойчивыми статистическими характеристиками, интерпретируемые как тембровые текстуры. Предложен метод, в котором аудиосигнал разбивается на кратковременные кадры длительностью 30 мс с 50%-ным перекрытием, а каждый кадр описывается вектором акустических признаков на основе кратковременных спектральных представлений. Динамика смены текстур моделируется эргодической скрытой марковской моделью с NNN состояниями, при этом распределение наблюдений в каждом состоянии аппроксимируется смесью гауссовских распределений. Оценивание параметров выполняется методом максимального правдоподобия с использованием алгоритма Баума–Уэлша, восстановление последовательности скрытых состояний — методом Витерби.

Для формирования обучающей выборки предложен конвейер подготовки размеченных данных на основе MIDI-представления, обеспечивающий группировку по инструментам и генерацию целевых WAV-файлов. Экспериментальная проверка на многопартийных фрагментах показала согласованность суммарной спектральной структуры извлечённых компонентов со спектром исходной записи при локальных отклонениях в сегментах с неучтёнными источниками. Полученные результаты подтверждают применимость сегментации по тембровым текстурам на основе скрытых марковских моделей для задач анализа музыкального контента в рамках парадигмы Music Information Retrieval.

1. Введение

Извлечение инструментальных партий из полифонических аудиозаписей относится к числу методически сложных задач обработки музыкального сигнала вследствие перекрытия гармонических составляющих, вариативности тембра и существенной зависимости наблюдаемого спектра от динамики исполнения и аранжировки. В прикладном контексте решение данной задачи востребовано при подготовке учебных материалов, анализе исполнения, редактировании аранжировок, а также при автоматизированном индексировании и поиске музыкальных фрагментов в рамках Music Information Retrieval (MIR)

,
.

При этом значительная часть существующих подходов ориентирована на выделение мелодической линии или на восстановление доминирующего компонента сигнала, тогда как в ряде практических сценариев первичной становится корректная сегментация аудиопотока на участки с различающимися статистическими свойствами, соответствующими смене инструментальных сочетаний (тембровых текстур). Следовательно, требуется модель, способная одновременно:

а) опираться на информативные спектральные признаки тембра;

б) учитывать временную организацию текстаурных переходов.

Целью исследования является разработка и программная реализация метода извлечения инструментальных партий из аудиофайлов, основанного на сегментации по акустическим текстурам с использованием скрытых марковских моделей и последующим выделением компонент на основе полученной разметки. Научная новизна состоит в формализации полифонического фрагмента как последовательности скрытых текстурных состояний и в использовании эргодической HMM со смесью гауссовских распределений в пространстве спектральных признаков для сегментации, а также в применении конвейера подготовки обучающих данных через MIDI-группировку инструментов

.

2. Методы и принципы исследования

Входной аудиосигнал дискретизируется с частотой 10 кГц и представляется в виде последовательности кадров длительностью 30 мс с 50%-ным перекрытием. Выбор оконного разбиения обусловлен стандартным для анализа аудио допущением квазистационарности сигнала на малых интервалах времени, что обеспечивает корректность вычисления кратковременных спектральных характеристик.

Для каждого кадра формируется вектор признаков Ot на основе кратковременного спектрального представления (STS) и связанных с ним тембровых индикаторов, используемых в задачах классификации и сегментации аудио. Признаковое описание ориентировано на фиксацию спектральной структуры тембра и должно быть по возможности менее зависимым от высоты тона, что принципиально для сегментации по текстурам, а не по отдельным нотным событиям.

Смена инструментальных сочетаний в музыкальном фрагменте рассматривается как стохастический процесс, наблюдаемый через последовательность признаковых векторов. Для формализации временной динамики используется эргодическая скрытая марковская модель с N состояниями

. Каждое состояние интерпретируется как акустическая текстура (включая паузы и типовые сочетания партий), а переходы между текстурами описываются матрицей вероятностей
и начальным распределением π.

Распределение наблюдений в каждом состоянии моделируется смесью гауссовских распределений в пространстве признаков:

Где Cim — коэффициенты смеси, μim — векторы средних, Σim — ковариационные матрицы компонент. Применение гауссовых смесей позволяет аппроксимировать неоднородные и потенциально многомодальные распределения признаков, характерные для полифонических текстур.

Параметры HMM оцениваются по критерию максимального правдоподобия на основе наблюдаемой последовательности {Ot}. Для обучения применяется алгоритм Баума-Уэлша, являющийся EM-процедурой для скрытых марковских моделей

. После обучения для восстановления наиболее вероятной последовательности скрытых состояний {St}, породившей наблюдения, используется декодирование Витерби.

В результате каждому кадру сопоставляется состояние Si, что формирует сегментацию аудиопотока и выделяет временные интервалы однородных текстур.

Для задачи последующей кластеризации/классификации по типу инструмента требуется размеченная выборка. При недостатке открытых наборов данных предлагается конвейер формирования индивидуального датасета, использующий MIDI-представление как носитель структурной информации об инструментах:

1) сбор моноинструментальных аудиозаписей;

2) конвертация WAV → MIDI;

3) выделение и группировка событий по инструментам;

4) генерация отдельных MIDI и их конвертация в WAV.

Такой подход обеспечивает получаемость «квази-эталонных» дорожек, пригодных для обучения и валидации моделей

,
,
.

Метод реализован на языке Python с использованием библиотек обработки аудио и вероятностного моделирования (librosa, numpy, soundfile, wave, hmmlearn) и средств конвертации форматов на базе FFmpeg/ffmpeg-python. Экспериментальные расчёты выполнялись на вычислительной платформе под управлением Windows 10 (Intel Core i5-10210U, 8 ГБ ОЗУ).

3. Основные результаты

Экспериментальная проверка метода выполнена на музыкальных фрагментах с несколькими инструментальными партиями. Качество оценивалось сопоставлением амплитудных и спектральных характеристик исходного аудио и извлечённых компонент.

Данный подход к проверке обоснован тем, что в случае корректного разложения суммарная спектральная структура извлечённых партий должна воспроизводить ключевые элементы спектра исходной записи, тогда как отклонения могут указывать на наличие дополнительных источников или на погрешности сегментации/моделирования.

Полученные графики демонстрируют согласованность спектральных характеристик извлечённых партий со спектром исходного аудио на основных участках записи. Локальные расхождения наблюдаются преимущественно в завершающих сегментах, что интерпретируется присутствием в исходном сигнале партий иных инструментов, не включённых в рассматриваемую конфигурацию модели и/или отсутствующих в обучающем наборе.

4. Обсуждение

Интерпретация результатов подтверждает, что HMM-сегментация по текстурам является адекватным инструментом для случаев, где распределения признаков различных текстур разделимы в признаковом пространстве, а переходы между ними обладают выраженной временной структурой (например, малые ансамбли и фрагменты с устойчивой оркестровкой). В таких условиях вероятностная динамика модели снижает риск фрагментарных ошибок, характерных для статической классификации кадров, и обеспечивает более устойчивую разметку последовательности во времени

.

Одновременно выявляются ограничения: при усложнении тембровой структуры (оркестровая музыка, плотная современная аранжировка) возрастает внутрисостоянийная вариативность признаков, а спектральная огибающая становится более изменчивой во времени. Это может приводить к снижению согласованности сегментации и к эффектам «антикластеризации», когда признаки приобретают структуру преимущественно за счёт временного порядка, а не за счёт устойчивых статистических различий. В качестве направлений развития целесообразно рассматривать:

а) расширение признакового описания (включая устойчивые тембровые дескрипторы);

б) адаптивный выбор числа состояний (N) и числа компонент смеси (M);

в) введение количественных метрик качества (например, спектральная корреляция, SDR/SIR, либо метрики согласованности разметки по кадрам) для воспроизводимой валидации

,
.

5. Заключение

Разработан метод извлечения инструментальных партий из полифонических аудиофайлов, основанный на сегментации аудиопотока по акустическим текстурам с использованием эргодической скрытой марковской модели и гауссовых смесей в пространстве признаков. Реализованы процедуры обучения (Баум-Уэлш) и восстановления скрытой последовательности состояний (Витерби), предложен конвейер подготовки размеченных данных через MIDI-группировку инструментов. Экспериментальная проверка показала согласованность спектральных характеристик извлечённых партий со структурой исходного аудио при локальных отклонениях в сегментах с неучтёнными источниками. Полученные результаты позволяют рассматривать предложенный подход как модульное решение для задач анализа музыкального контента в MIR и как основу для дальнейшего развития в направлении расширения признаков и формализации количественных критериев качества.

Метрика статьи

Просмотров:16
Скачиваний:0
Просмотры
Всего:
Просмотров:16