<?xml version="1.0" encoding="UTF-8"?>
    <!DOCTYPE article PUBLIC "-//NLM/DTD JATS (Z39.96) Journal Publishing DTD v1.2 20120330//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
    <!--<?xml-stylesheet type="text/xsl" href="article.xsl">-->
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" article-type="research-article" dtd-version="1.2" xml:lang="en">
	<front>
		<journal-meta>
			<journal-id journal-id-type="issn">2303-9868</journal-id>
			<journal-id journal-id-type="eissn">2227-6017</journal-id>
			<journal-title-group>
				<journal-title>Международный научно-исследовательский журнал</journal-title>
			</journal-title-group>
			<issn pub-type="epub">2303-9868</issn>
			<publisher>
				<publisher-name>ООО Цифра</publisher-name>
			</publisher>
		</journal-meta>
		<article-meta>
			<article-id pub-id-type="doi">10.60797/IRJ.2026.166.13</article-id>
			<article-categories>
				<subj-group>
					<subject>Brief communication</subject>
				</subj-group>
			</article-categories>
			<title-group>
				<article-title>МЕТОД ИЗВЛЕЧЕНИЯ ИНСТРУМЕНТАЛЬНЫХ ПАРТИЙ ИЗ АУДИОФАЙЛОВ НА ОСНОВЕ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ</article-title>
			</title-group>
			<contrib-group>
				<contrib contrib-type="author" corresp="yes">
					<contrib-id contrib-id-type="orcid">https://orcid.org/0009-0001-1091-0556</contrib-id>
					<name>
						<surname>Мередова</surname>
						<given-names>Айджахан</given-names>
					</name>
					<email>ayjahanmeredova17@mail.ru</email>
					<xref ref-type="aff" rid="aff-1">1</xref>
				</contrib>
				<contrib contrib-type="author">
					<contrib-id contrib-id-type="orcid">https://orcid.org/0000-0003-2666-9522</contrib-id>
					<name>
						<surname>Тропченко</surname>
						<given-names>Андрей Александрович</given-names>
					</name>
					<email>zayka_98@mail.ru</email>
					<xref ref-type="aff" rid="aff-1">1</xref>
				</contrib>
			</contrib-group>
			<aff id="aff-1">
				<label>1</label>
				<institution>Университет ИТМО</institution>
			</aff>
			<pub-date publication-format="electronic" date-type="pub" iso-8601-date="2026-04-17">
				<day>17</day>
				<month>04</month>
				<year>2026</year>
			</pub-date>
			<pub-date pub-type="collection">
				<year>2026</year>
			</pub-date>
			<volume>4</volume>
			<issue>166</issue>
			<fpage>1</fpage>
			<lpage>4</lpage>
			<history>
				<date date-type="received" iso-8601-date="2026-03-02">
					<day>02</day>
					<month>03</month>
					<year>2026</year>
				</date>
				<date date-type="accepted" iso-8601-date="2026-04-01">
					<day>01</day>
					<month>04</month>
					<year>2026</year>
				</date>
			</history>
			<permissions>
				<copyright-statement>Copyright: &amp;#x00A9; 2022 The Author(s)</copyright-statement>
				<copyright-year>2022</copyright-year>
				<license license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
					<license-p>
						This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International License (CC-BY 4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. See 
						<uri xlink:href="http://creativecommons.org/licenses/by/4.0/">http://creativecommons.org/licenses/by/4.0/</uri>
					</license-p>
					.
				</license>
			</permissions>
			<self-uri xlink:href="https://research-journal.org/archive/4-166-2026-april/10.60797/IRJ.2026.166.13"/>
			<abstract>
				<p>В статье рассматривается задача извлечения инструментальных партий из полифонических аудиозаписей как задача сегментации музыкального потока на участки с устойчивыми статистическими характеристиками, интерпретируемые как тембровые текстуры. Предложен метод, в котором аудиосигнал разбивается на кратковременные кадры длительностью 30 мс с 50%-ным перекрытием, а каждый кадр описывается вектором акустических признаков на основе кратковременных спектральных представлений. Динамика смены текстур моделируется эргодической скрытой марковской моделью с NNN состояниями, при этом распределение наблюдений в каждом состоянии аппроксимируется смесью гауссовских распределений. Оценивание параметров выполняется методом максимального правдоподобия с использованием алгоритма Баума–Уэлша, восстановление последовательности скрытых состояний — методом Витерби.Для формирования обучающей выборки предложен конвейер подготовки размеченных данных на основе MIDI-представления, обеспечивающий группировку по инструментам и генерацию целевых WAV-файлов. Экспериментальная проверка на многопартийных фрагментах показала согласованность суммарной спектральной структуры извлечённых компонентов со спектром исходной записи при локальных отклонениях в сегментах с неучтёнными источниками. Полученные результаты подтверждают применимость сегментации по тембровым текстурам на основе скрытых марковских моделей для задач анализа музыкального контента в рамках парадигмы Music Information Retrieval.</p>
			</abstract>
			<kwd-group>
				<kwd>извлечение инструментальных партий</kwd>
				<kwd> полифоническая музыка</kwd>
				<kwd> сегментация аудиосигнала</kwd>
				<kwd> тембровые текстуры</kwd>
				<kwd> скрытые марковские модели</kwd>
				<kwd> смесь гауссовских распределений</kwd>
				<kwd> спектральные признаки</kwd>
				<kwd> Music Information Retrieval</kwd>
			</kwd-group>
		</article-meta>
	</front>
	<body>
		<sec>
			<title>HTML-content</title>
			<p>1. Введение</p>
			<p>Извлечение инструментальных партий из полифонических аудиозаписей относится к числу методически сложных задач обработки музыкального сигнала вследствие перекрытия гармонических составляющих, вариативности тембра и существенной зависимости наблюдаемого спектра от динамики исполнения и аранжировки. В прикладном контексте решение данной задачи востребовано при подготовке учебных материалов, анализе исполнения, редактировании аранжировок, а также при автоматизированном индексировании и поиске музыкальных фрагментов в рамках Music Information Retrieval (MIR) [3], [4].</p>
			<p>При этом значительная часть существующих подходов ориентирована на выделение мелодической линии или на восстановление доминирующего компонента сигнала, тогда как в ряде практических сценариев первичной становится корректная сегментация аудиопотока на участки с различающимися статистическими свойствами, соответствующими смене инструментальных сочетаний (тембровых текстур). Следовательно, требуется модель, способная одновременно: </p>
			<p>а) опираться на информативные спектральные признаки тембра;</p>
			<p>б) учитывать временную организацию текстаурных переходов.</p>
			<p>Целью исследования является разработка и программная реализация метода извлечения инструментальных партий из аудиофайлов, основанного на сегментации по акустическим текстурам с использованием скрытых марковских моделей и последующим выделением компонент на основе полученной разметки. Научная новизна состоит в формализации полифонического фрагмента как последовательности скрытых текстурных состояний и в использовании эргодической HMM со смесью гауссовских распределений в пространстве спектральных признаков для сегментации, а также в применении конвейера подготовки обучающих данных через MIDI-группировку инструментов [5].</p>
			<p>2. Методы и принципы исследования</p>
			<p>Входной аудиосигнал дискретизируется с частотой 10 кГц и представляется в виде последовательности кадров длительностью 30 мс с 50%-ным перекрытием. Выбор оконного разбиения обусловлен стандартным для анализа аудио допущением квазистационарности сигнала на малых интервалах времени, что обеспечивает корректность вычисления кратковременных спектральных характеристик.</p>
			<p>Для каждого кадра формируется вектор признаков на основе кратковременного спектрального представления (STS) и связанных с ним тембровых индикаторов, используемых в задачах классификации и сегментации аудио. Признаковое описание ориентировано на фиксацию спектральной структуры тембра и должно быть по возможности менее зависимым от высоты тона, что принципиально для сегментации по текстурам, а не по отдельным нотным событиям.</p>
			<p>Смена инструментальных сочетаний в музыкальном фрагменте рассматривается как стохастический процесс, наблюдаемый через последовательность признаковых векторов. Для формализации временной динамики используется эргодическая скрытая марковская модель с N состояниями [LATEX_FORMULA]\left\{S_{i}\right\}_{i=1}^{N}[/LATEX_FORMULA]</p>
			<p>Распределение наблюдений в каждом состоянии моделируется смесью гауссовских распределений в пространстве признаков:</p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>ρ</mml:mi>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:msub>
							<mml:mi>Q</mml:mi>
							<mml:mrow>
								<mml:mi>t</mml:mi>
							</mml:mrow>
						</mml:msub>
						<mml:mo>∣</mml:mo>
						<mml:msub>
							<mml:mi>S</mml:mi>
							<mml:mrow>
								<mml:mi>i</mml:mi>
							</mml:mrow>
						</mml:msub>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
					<mml:mo>=</mml:mo>
					<mml:msubsup>
						<mml:mo>∑</mml:mo>
						<mml:mrow>
							<mml:mi>m</mml:mi>
							<mml:mo>=</mml:mo>
							<mml:mn>1</mml:mn>
						</mml:mrow>
						<mml:mrow>
							<mml:mi>M</mml:mi>
						</mml:mrow>
					</mml:msubsup>
					<mml:mo>Cim</mml:mo>
					<mml:mi>N</mml:mi>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:msub>
							<mml:mi>Q</mml:mi>
							<mml:mrow>
								<mml:mi>t</mml:mi>
							</mml:mrow>
						</mml:msub>
						<mml:mi>;</mml:mi>
						<mml:msub>
							<mml:mi>μ</mml:mi>
							<mml:mrow>
								<mml:mi>i</mml:mi>
								<mml:mi>m</mml:mi>
							</mml:mrow>
						</mml:msub>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
					<mml:mi>;</mml:mi>
					<mml:msub>
						<mml:mi>Σ</mml:mi>
						<mml:mrow>
							<mml:mi>i</mml:mi>
							<mml:mi>m</mml:mi>
						</mml:mrow>
					</mml:msub>
					<mml:mo>.</mml:mo>
				</mml:mrow>
			</mml:math>
			<p>Где Cim Missing Mark : sub— коэффициенты смеси, μim Missing Mark : sub— векторы средних, ΣimMissing Mark : sub — ковариационные матрицы компонент. Применение гауссовых смесей позволяет аппроксимировать неоднородные и потенциально многомодальные распределения признаков, характерные для полифонических текстур.</p>
			<p>Параметры HMM оцениваются по критерию максимального правдоподобия на основе наблюдаемой последовательности {OtMissing Mark : sub}. Для обучения применяется алгоритм Баума-Уэлша, являющийся EM-процедурой для скрытых марковских моделей </p>
			<p>[5]</p>
			<p>В результате каждому кадру сопоставляется состояние SiMissing Mark : sub, что формирует сегментацию аудиопотока и выделяет временные интервалы однородных текстур.</p>
			<p>Для задачи последующей кластеризации/классификации по типу инструмента требуется размеченная выборка. При недостатке открытых наборов данных предлагается конвейер формирования индивидуального датасета, использующий MIDI-представление как носитель структурной информации об инструментах: </p>
			<p>1) сбор моноинструментальных аудиозаписей; </p>
			<p>2) конвертация WAV → MIDI; </p>
			<p>3) выделение и группировка событий по инструментам; </p>
			<p>4) генерация отдельных MIDI и их конвертация в WAV. </p>
			<p>Такой подход обеспечивает получаемость «квази-эталонных» дорожек, пригодных для обучения и валидации моделей </p>
			<p>[6][7][8]</p>
			<p>Метод реализован на языке Python с использованием библиотек обработки аудио и вероятностного моделирования (librosa, numpy, soundfile, wave, hmmlearn) и средств конвертации форматов на базе FFmpeg/ffmpeg-python. Экспериментальные расчёты выполнялись на вычислительной платформе под управлением Windows 10 (Intel Core i5-10210U, 8 ГБ ОЗУ).</p>
			<p>3. Основные результаты</p>
			<p>Экспериментальная проверка метода выполнена на музыкальных фрагментах с несколькими инструментальными партиями. Качество оценивалось сопоставлением амплитудных и спектральных характеристик исходного аудио и извлечённых компонент.</p>
			<p>Данный подход к проверке обоснован тем, что в случае корректного разложения суммарная спектральная структура извлечённых партий должна воспроизводить ключевые элементы спектра исходной записи, тогда как отклонения могут указывать на наличие дополнительных источников или на погрешности сегментации/моделирования.</p>
			<p>Полученные графики демонстрируют согласованность спектральных характеристик извлечённых партий со спектром исходного аудио на основных участках записи. Локальные расхождения наблюдаются преимущественно в завершающих сегментах, что интерпретируется присутствием в исходном сигнале партий иных инструментов, не включённых в рассматриваемую конфигурацию модели и/или отсутствующих в обучающем наборе.</p>
			<p>4. Обсуждение</p>
			<p>Интерпретация результатов подтверждает, что HMM-сегментация по текстурам является адекватным инструментом для случаев, где распределения признаков различных текстур разделимы в признаковом пространстве, а переходы между ними обладают выраженной временной структурой (например, малые ансамбли и фрагменты с устойчивой оркестровкой). В таких условиях вероятностная динамика модели снижает риск фрагментарных ошибок, характерных для статической классификации кадров, и обеспечивает более устойчивую разметку последовательности во времени [8].</p>
			<p>Одновременно выявляются ограничения: при усложнении тембровой структуры (оркестровая музыка, плотная современная аранжировка) возрастает внутрисостоянийная вариативность признаков, а спектральная огибающая становится более изменчивой во времени. Это может приводить к снижению согласованности сегментации и к эффектам «антикластеризации», когда признаки приобретают структуру преимущественно за счёт временного порядка, а не за счёт устойчивых статистических различий. В качестве направлений развития целесообразно рассматривать: </p>
			<p>а) расширение признакового описания (включая устойчивые тембровые дескрипторы);</p>
			<p>б) адаптивный выбор числа состояний (N) и числа компонент смеси (M);</p>
			<p>в) введение количественных метрик качества (например, спектральная корреляция, SDR/SIR, либо метрики согласованности разметки по кадрам) для воспроизводимой валидации [9], [10].</p>
			<p>5. Заключение</p>
			<p>Разработан метод извлечения инструментальных партий из полифонических аудиофайлов, основанный на сегментации аудиопотока по акустическим текстурам с использованием эргодической скрытой марковской модели и гауссовых смесей в пространстве признаков. Реализованы процедуры обучения (Баум-Уэлш) и восстановления скрытой последовательности состояний (Витерби), предложен конвейер подготовки размеченных данных через MIDI-группировку инструментов. Экспериментальная проверка показала согласованность спектральных характеристик извлечённых партий со структурой исходного аудио при локальных отклонениях в сегментах с неучтёнными источниками. Полученные результаты позволяют рассматривать предложенный подход как модульное решение для задач анализа музыкального контента в MIR и как основу для дальнейшего развития в направлении расширения признаков и формализации количественных критериев качества.</p>
		</sec>
		<sec sec-type="supplementary-material">
			<title>Additional File</title>
			<p>The additional file for this article can be found as follows:</p>
			<supplementary-material xmlns:xlink="http://www.w3.org/1999/xlink" id="S1" xlink:href="https://doi.org/10.5334/cpsy.78.s1">
				<!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/24105.docx">24105.docx</inline-supplementary-material>]-->
				<!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/24105.pdf">24105.pdf</inline-supplementary-material>]-->
				<label>Online Supplementary Material</label>
				<caption>
					<p>
						Further description of analytic pipeline and patient demographic information. DOI:
						<italic>
							<uri>https://doi.org/10.60797/IRJ.2026.166.13</uri>
						</italic>
					</p>
				</caption>
			</supplementary-material>
		</sec>
	</body>
	<back>
		<ack>
			<title>Acknowledgements</title>
			<p/>
		</ack>
		<sec>
			<title>Competing Interests</title>
			<p/>
		</sec>
		<ref-list>
			<ref id="B1">
				<label>1</label>
				<mixed-citation publication-type="confproc">Salamon J. Melody Extraction from Polyphonic Music Signals: Approaches, Applications, and Challenges / J. Salamon, E. Gomez, D.P.W. Ellis [et al.] // IEEE Signal Processing Magazine. — 2014. — Vol. 31. — № 2. — P. 118–134. — DOI: 10.1109/MSP.2013.2271648.</mixed-citation>
			</ref>
			<ref id="B2">
				<label>2</label>
				<mixed-citation publication-type="confproc">Durrieu J.-L. Source/Filter Model for Unsupervised Main Melody Extraction from Polyphonic Audio Signals / J.-L. Durrieu, G. Richard, B. David [et al.] // IEEE Transactions on Audio, Speech, and Language Processing. — 2010. — Vol. 18. — № 3. — P. 564–575. — DOI: 10.1109/TASL.2010.2041114.</mixed-citation>
			</ref>
			<ref id="B3">
				<label>3</label>
				<mixed-citation publication-type="confproc">Lee K. A Unified System for Chord Transcription and Key Extraction Using Hidden Markov Models / K. Lee, M. Slaney // Proceedings of the International Society for Music Information Retrieval Conference (ISMIR). — 2007. — P. 245–250.</mixed-citation>
			</ref>
			<ref id="B4">
				<label>4</label>
				<mixed-citation publication-type="confproc">Qian G. A Music Retrieval Approach Based on Hidden Markov Model / G. Qian // Proceedings of the 11th International Conference on Measuring Technology and Mechatronics Automation (ICMTMA). — 2019. — P. 721–725.</mixed-citation>
			</ref>
			<ref id="B5">
				<label>5</label>
				<mixed-citation publication-type="confproc">Chuan C.-H. Polyphonic Audio Key Finding Using the Spiral Array CEG Algorithm / C.-H. Chuan, E. Chew // Proceedings of the IEEE International Conference on Multimedia and Expo (ICME). — 2005. — P. 21–24. — DOI: 10.1109/ICME.2005.1521350.</mixed-citation>
			</ref>
			<ref id="B6">
				<label>6</label>
				<mixed-citation publication-type="confproc">Lee K. Acoustic Chord Transcription and Key Extraction from Audio Using Key-Dependent Hidden Markov Models Trained on Synthesized Audio / K. Lee, M. Slaney // IEEE Transactions on Audio, Speech, and Language Processing. — 2008. — Vol. 16. — № 2. — P. 291–301.</mixed-citation>
			</ref>
			<ref id="B7">
				<label>7</label>
				<mixed-citation publication-type="confproc">Krishna A.S. Identification of Carnatic Raagas Using Hidden Markov Models / A.S. Krishna, V. Ishwar, H.A. Murthy // Proceedings of the IEEE 9th International Symposium on Applied Machine Intelligence and Informatics (SAMI). — 2011. — P. 107–110.</mixed-citation>
			</ref>
			<ref id="B8">
				<label>8</label>
				<mixed-citation publication-type="confproc">Song M. Audio-Visual Based Emotion Recognition Using Tripled Hidden Markov Model / M. Song, C. Chen, M. You // Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). — 2004. — Vol. 5. — P. V-877–V-880.</mixed-citation>
			</ref>
			<ref id="B9">
				<label>9</label>
				<mixed-citation publication-type="confproc">Kogan J.A. Automated Recognition of Birdsong Elements from Continuous Recordings Using Dynamic Time Warping and Hidden Markov Models: A Comparative Study / J.A. Kogan, D. Margolias // The Journal of the Acoustical Society of America. — 1998. — Vol. 103. — № 4. — P. 2185–2196.</mixed-citation>
			</ref>
			<ref id="B10">
				<label>10</label>
				<mixed-citation publication-type="confproc">Katahira K. Complex Sequencing Rules of Birdsong Can Be Explained by Simple Hidden Markov Processes / K. Katahira, K. Suzuki, K. Okanoya [et al.] // PLoS ONE. — 2011. — Vol. 6. — № 9. — e24516.</mixed-citation>
			</ref>
		</ref-list>
	</back>
	<fundings/>
</article>