A METHOD FOR EXTRACTING INSTRUMENTAL TRACKS FROM AUDIO FILES USING HIDDEN MARKOV MODELS
A METHOD FOR EXTRACTING INSTRUMENTAL TRACKS FROM AUDIO FILES USING HIDDEN MARKOV MODELS
Abstract
The article examines the task of extracting instrumental parts from polyphonic audio recordings as a problem of segmenting the musical stream into sections with stable statistical characteristics, which can be interpreted as timbral textures. A method is suggested in which the audio signal is divided into short-term frames of 30 ms duration with 50% overlap, and each frame is described by a vector of acoustic features based on short-term spectral representations. The dynamics of texture changes are modelled by an ergodic hidden Markov model with NNN states, where the distribution of observations in each state is approximated by a Gaussian moxture distributions. Parameter estimation is performed using the maximum likelihood method with the Baum–Welch algorithm, and the hidden state sequence is reconstructed using the Viterbi method.
To generate the training sample, a pipeline for processing annotated data based on MIDI representation has been proposed, which enables grouping by instrument and the generation of target WAV files. Experimental verification on multi-part fragments demonstrated the consistency of the overall spectral structure of the extracted components with the spectrum of the original recording, with local deviations in segments containing uncounted sources. The obtained results confirm the applicability of segmentation by timbral textures based on hidden Markov models for tasks of musical content analysis within the Music Information Retrieval paradigm.
1. Введение
Извлечение инструментальных партий из полифонических аудиозаписей относится к числу методически сложных задач обработки музыкального сигнала вследствие перекрытия гармонических составляющих, вариативности тембра и существенной зависимости наблюдаемого спектра от динамики исполнения и аранжировки. В прикладном контексте решение данной задачи востребовано при подготовке учебных материалов, анализе исполнения, редактировании аранжировок, а также при автоматизированном индексировании и поиске музыкальных фрагментов в рамках Music Information Retrieval (MIR) , .
При этом значительная часть существующих подходов ориентирована на выделение мелодической линии или на восстановление доминирующего компонента сигнала, тогда как в ряде практических сценариев первичной становится корректная сегментация аудиопотока на участки с различающимися статистическими свойствами, соответствующими смене инструментальных сочетаний (тембровых текстур). Следовательно, требуется модель, способная одновременно:
а) опираться на информативные спектральные признаки тембра;
б) учитывать временную организацию текстаурных переходов.
Целью исследования является разработка и программная реализация метода извлечения инструментальных партий из аудиофайлов, основанного на сегментации по акустическим текстурам с использованием скрытых марковских моделей и последующим выделением компонент на основе полученной разметки. Научная новизна состоит в формализации полифонического фрагмента как последовательности скрытых текстурных состояний и в использовании эргодической HMM со смесью гауссовских распределений в пространстве спектральных признаков для сегментации, а также в применении конвейера подготовки обучающих данных через MIDI-группировку инструментов .
2. Методы и принципы исследования
Входной аудиосигнал дискретизируется с частотой 10 кГц и представляется в виде последовательности кадров длительностью 30 мс с 50%-ным перекрытием. Выбор оконного разбиения обусловлен стандартным для анализа аудио допущением квазистационарности сигнала на малых интервалах времени, что обеспечивает корректность вычисления кратковременных спектральных характеристик.
Для каждого кадра формируется вектор признаков Ot на основе кратковременного спектрального представления (STS) и связанных с ним тембровых индикаторов, используемых в задачах классификации и сегментации аудио. Признаковое описание ориентировано на фиксацию спектральной структуры тембра и должно быть по возможности менее зависимым от высоты тона, что принципиально для сегментации по текстурам, а не по отдельным нотным событиям.
Смена инструментальных сочетаний в музыкальном фрагменте рассматривается как стохастический процесс, наблюдаемый через последовательность признаковых векторов. Для формализации временной динамики используется эргодическая скрытая марковская модель с N состояниями
Распределение наблюдений в каждом состоянии моделируется смесью гауссовских распределений в пространстве признаков:
Где Cim — коэффициенты смеси, μim — векторы средних, Σim — ковариационные матрицы компонент. Применение гауссовых смесей позволяет аппроксимировать неоднородные и потенциально многомодальные распределения признаков, характерные для полифонических текстур.
Параметры HMM оцениваются по критерию максимального правдоподобия на основе наблюдаемой последовательности {Ot}. Для обучения применяется алгоритм Баума-Уэлша, являющийся EM-процедурой для скрытых марковских моделей
. После обучения для восстановления наиболее вероятной последовательности скрытых состояний {St}, породившей наблюдения, используется декодирование Витерби.В результате каждому кадру сопоставляется состояние Si, что формирует сегментацию аудиопотока и выделяет временные интервалы однородных текстур.
Для задачи последующей кластеризации/классификации по типу инструмента требуется размеченная выборка. При недостатке открытых наборов данных предлагается конвейер формирования индивидуального датасета, использующий MIDI-представление как носитель структурной информации об инструментах:
1) сбор моноинструментальных аудиозаписей;
2) конвертация WAV → MIDI;
3) выделение и группировка событий по инструментам;
4) генерация отдельных MIDI и их конвертация в WAV.
Такой подход обеспечивает получаемость «квази-эталонных» дорожек, пригодных для обучения и валидации моделей
, , .Метод реализован на языке Python с использованием библиотек обработки аудио и вероятностного моделирования (librosa, numpy, soundfile, wave, hmmlearn) и средств конвертации форматов на базе FFmpeg/ffmpeg-python. Экспериментальные расчёты выполнялись на вычислительной платформе под управлением Windows 10 (Intel Core i5-10210U, 8 ГБ ОЗУ).
3. Основные результаты
Экспериментальная проверка метода выполнена на музыкальных фрагментах с несколькими инструментальными партиями. Качество оценивалось сопоставлением амплитудных и спектральных характеристик исходного аудио и извлечённых компонент.
Данный подход к проверке обоснован тем, что в случае корректного разложения суммарная спектральная структура извлечённых партий должна воспроизводить ключевые элементы спектра исходной записи, тогда как отклонения могут указывать на наличие дополнительных источников или на погрешности сегментации/моделирования.
Полученные графики демонстрируют согласованность спектральных характеристик извлечённых партий со спектром исходного аудио на основных участках записи. Локальные расхождения наблюдаются преимущественно в завершающих сегментах, что интерпретируется присутствием в исходном сигнале партий иных инструментов, не включённых в рассматриваемую конфигурацию модели и/или отсутствующих в обучающем наборе.
4. Обсуждение
Интерпретация результатов подтверждает, что HMM-сегментация по текстурам является адекватным инструментом для случаев, где распределения признаков различных текстур разделимы в признаковом пространстве, а переходы между ними обладают выраженной временной структурой (например, малые ансамбли и фрагменты с устойчивой оркестровкой). В таких условиях вероятностная динамика модели снижает риск фрагментарных ошибок, характерных для статической классификации кадров, и обеспечивает более устойчивую разметку последовательности во времени .
Одновременно выявляются ограничения: при усложнении тембровой структуры (оркестровая музыка, плотная современная аранжировка) возрастает внутрисостоянийная вариативность признаков, а спектральная огибающая становится более изменчивой во времени. Это может приводить к снижению согласованности сегментации и к эффектам «антикластеризации», когда признаки приобретают структуру преимущественно за счёт временного порядка, а не за счёт устойчивых статистических различий. В качестве направлений развития целесообразно рассматривать:
а) расширение признакового описания (включая устойчивые тембровые дескрипторы);
б) адаптивный выбор числа состояний (N) и числа компонент смеси (M);
в) введение количественных метрик качества (например, спектральная корреляция, SDR/SIR, либо метрики согласованности разметки по кадрам) для воспроизводимой валидации , .
5. Заключение
Разработан метод извлечения инструментальных партий из полифонических аудиофайлов, основанный на сегментации аудиопотока по акустическим текстурам с использованием эргодической скрытой марковской модели и гауссовых смесей в пространстве признаков. Реализованы процедуры обучения (Баум-Уэлш) и восстановления скрытой последовательности состояний (Витерби), предложен конвейер подготовки размеченных данных через MIDI-группировку инструментов. Экспериментальная проверка показала согласованность спектральных характеристик извлечённых партий со структурой исходного аудио при локальных отклонениях в сегментах с неучтёнными источниками. Полученные результаты позволяют рассматривать предложенный подход как модульное решение для задач анализа музыкального контента в MIR и как основу для дальнейшего развития в направлении расширения признаков и формализации количественных критериев качества.
