<?xml version="1.0" encoding="UTF-8"?>
    <!DOCTYPE article PUBLIC "-//NLM/DTD JATS (Z39.96) Journal Publishing DTD v1.2 20120330//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
    <!--<?xml-stylesheet type="text/xsl" href="article.xsl">-->
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:ns1="http://www.w3.org/1999/xlink" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" article-type="research-article" dtd-version="1.2" xml:lang="en">
	<front>
		<journal-meta>
			<journal-id journal-id-type="issn">2303-9868</journal-id>
			<journal-id journal-id-type="eissn">2227-6017</journal-id>
			<journal-title-group>
				<journal-title>Международный научно-исследовательский журнал</journal-title>
			</journal-title-group>
			<issn pub-type="epub">2303-9868</issn>
			<publisher>
				<publisher-name>ООО Цифра</publisher-name>
			</publisher>
		</journal-meta>
		<article-meta>
			<article-id pub-id-type="doi">10.60797/IRJ.2026.165.10</article-id>
			<article-categories>
				<subj-group>
					<subject>Brief communication</subject>
				</subj-group>
			</article-categories>
			<title-group>
				<article-title>Перцептивное качество и эффективность генеративных архитектур: сравнительный анализ диффузионных моделей и трансформеров для восстановления аудиопотоков</article-title>
			</title-group>
			<contrib-group>
				<contrib contrib-type="author" corresp="yes">
					<contrib-id contrib-id-type="rinc">https://elibrary.ru/author_profile.asp?id=1236383</contrib-id>
					<name>
						<surname>Кирпичев</surname>
						<given-names>Денис Сергеевич</given-names>
					</name>
					<email>kirpichev.1999@mail.ru</email>
					<xref ref-type="aff" rid="aff-1">1</xref>
				</contrib>
				<contrib contrib-type="author">
					<contrib-id contrib-id-type="rinc">https://elibrary.ru/author_profile.asp?id=902109</contrib-id>
					<name>
						<surname>Маркин</surname>
						<given-names>Евгений Игоревич</given-names>
					</name>
					<email>evgeniymarkin1@gmai.com</email>
					<xref ref-type="aff" rid="aff-1">1</xref>
				</contrib>
			</contrib-group>
			<aff id="aff-1">
				<label>1</label>
				<institution>Пензенский государственный технологический университет</institution>
			</aff>
			<pub-date publication-format="electronic" date-type="pub" iso-8601-date="2026-03-17">
				<day>17</day>
				<month>03</month>
				<year>2026</year>
			</pub-date>
			<pub-date pub-type="collection">
				<year>2026</year>
			</pub-date>
			<volume>8</volume>
			<issue>165</issue>
			<fpage>1</fpage>
			<lpage>8</lpage>
			<history>
				<date date-type="received" iso-8601-date="2025-12-22">
					<day>22</day>
					<month>12</month>
					<year>2025</year>
				</date>
				<date date-type="accepted" iso-8601-date="2026-02-11">
					<day>11</day>
					<month>02</month>
					<year>2026</year>
				</date>
			</history>
			<permissions>
				<copyright-statement>Copyright: &amp;#x00A9; 2022 The Author(s)</copyright-statement>
				<copyright-year>2022</copyright-year>
				<license license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
					<license-p>
						This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International License (CC-BY 4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. See 
						<uri xlink:href="http://creativecommons.org/licenses/by/4.0/">http://creativecommons.org/licenses/by/4.0/</uri>
					</license-p>
					.
				</license>
			</permissions>
			<self-uri xlink:href="https://research-journal.org/archive/3-165-2026-march/10.60797/IRJ.2026.165.10"/>
			<abstract>
				<p>В работе представлен сравнительный анализ двух современных классов генеративных моделей — диффузионных моделей и архитектур-трансформеров — в задаче восстановления зашумленных аудиопотоков. Целью исследования являлась оценка моделей по комплексу критериев: перцептивное качество звука, эффективность распознавания, вычислительная эффективность и объективная точность восстановления сигнала. Для сравнения использовалось математическое моделирование в среде Python с применением библиотек librosa и torchaudio. Результаты экспериментов на аудиоданных с частотой дискретизации 16 кГц показали статистически значимое преимущество трансформерных моделей. Было зафиксировано улучшение отношения сигнал/шум (SNR) до +7.3 дБ против -1.1 дБ у диффузионной модели при исходном уровне шума -10 дБ. Кроме того, время обработки трансформерной архитектурой оказалось примерно в 29 раз ниже, что делает её предпочтительным выбором для систем реального времени. Полученные данные указывают на высокую эффективность трансформеров в задачах денойзинга и восстановления аудиосигналов.</p>
			</abstract>
			<kwd-group>
				<kwd>обработка аудио</kwd>
				<kwd> диффузионные модели</kwd>
				<kwd> трансформерные модели</kwd>
				<kwd> внимание. механизм</kwd>
				<kwd> качество аудио</kwd>
				<kwd> время обработки</kwd>
			</kwd-group>
		</article-meta>
	</front>
	<body>
		<sec>
			<title>HTML-content</title>
			<p>1. Введение</p>
			<p>В эпоху цифровой трансформации все большее значение приобретает аудиоинформация, которая выражает человеческие знания как средство общения между людьми, а также является одним из видов сохранения и архивации информации из прошлого в настоящее время. Однако акустические материалы сталкиваются с серьезными проблемами, такими как естественное повреждение с течением времени, а также искажения, вызванные ограничениями устаревших технологий, или потеря деталей из-за неидеальных условий хранения </p>
			<p>[1]</p>
			<p>В области обработки и восстановления аудиосигнала были разработаны качественные технологии и методы искусственного интеллекта. Все эти инструменты значительно расширили возможности цифровой реставрации и обслуживания. Кроме того, они превзошли ограничения традиционных фильтров с ограниченной эффективностью, они способны </p>
			<p>«»[2]</p>
			<p>Таким образом, актуальность задач аудиовосстановления и быстрый прогресс в области генеративного ИИ обуславливают необходимость системного сравнения новых подходов. Целью данного исследования является сравнительный анализ диффузионных моделей и трансформерных архитектур в контексте восстановления аудиопотоков по комплексу критериев: перцептивное качество, эффективность распознавания, вычислительная эффективность и точность восстановления. Научная новизна работы заключается в проведенном эксперименте, который количественно оценивает компромиссы между этими двумя перспективными парадигмами на конкретной задаче денойзинга речи.</p>
			<p>2. Методы и принципы исследования</p>
			<p>Модели диффузии представляют собой класс глубоких генеративных моделей, которые изучают распределение сложных данных (таких как чистый аудиосигнал), имитируя физический процесс постепенного добавления шума к исходным данным до тех пор, пока они не превратятся в случайный гауссовский шум, а затем обучаясь обратному процессу для их восстановления из шума. Данный процесс включает два основных этапа </p>
			<p>[3][4][5][6]</p>
			<p>2.1. Прямой процесс (процесс зашумления) </p>
			<p>Этот процесс является марковским. На каждом дискретном временном шаге к данным добавляется небольшой гауссовский шум, что в итоге преобразует исходные данные в чистый гауссовский шум. Переход на одном шаге может быть представлен соотношением [LATEX_FORMULA]x_{N} \sim \mathcal{N}(0, I)[/LATEX_FORMULA]</p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>q</mml:mi>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:msub>
							<mml:mrow>
								<mml:mi mathvariant="bold-italic">x</mml:mi>
							</mml:mrow>
							<mml:mrow>
								<mml:mi>n</mml:mi>
							</mml:mrow>
						</mml:msub>
						<mml:mo>∣</mml:mo>
						<mml:msub>
							<mml:mrow>
								<mml:mi mathvariant="bold-italic">x</mml:mi>
							</mml:mrow>
							<mml:mrow>
								<mml:mi>n</mml:mi>
								<mml:mo>−</mml:mo>
								<mml:mn>1</mml:mn>
							</mml:mrow>
						</mml:msub>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
					<mml:mo>=</mml:mo>
					<mml:mi>𝒩</mml:mi>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:msub>
							<mml:mrow>
								<mml:mi mathvariant="bold-italic">x</mml:mi>
							</mml:mrow>
							<mml:mrow>
								<mml:mi>n</mml:mi>
							</mml:mrow>
						</mml:msub>
						<mml:mi>;</mml:mi>
						<mml:msqrt>
							<mml:mrow>
								<mml:mn>1</mml:mn>
								<mml:mo>−</mml:mo>
								<mml:msub>
									<mml:mi>β</mml:mi>
									<mml:mrow>
										<mml:mi>n</mml:mi>
									</mml:mrow>
								</mml:msub>
							</mml:mrow>
						</mml:msqrt>
						<mml:msub>
							<mml:mrow>
								<mml:mi mathvariant="bold-italic">x</mml:mi>
							</mml:mrow>
							<mml:mrow>
								<mml:mi>n</mml:mi>
								<mml:mo>−</mml:mo>
								<mml:mn>1</mml:mn>
							</mml:mrow>
						</mml:msub>
						<mml:mo>,</mml:mo>
						<mml:msub>
							<mml:mi>β</mml:mi>
							<mml:mrow>
								<mml:mi>n</mml:mi>
							</mml:mrow>
						</mml:msub>
						<mml:mrow>
							<mml:mi mathvariant="bold-italic">I</mml:mi>
						</mml:mrow>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
				</mml:mrow>
			</mml:math>
			<p>Где </p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>d</mml:mi>
					<mml:msub>
						<mml:mrow>
							<mml:mi mathvariant="bold-italic">x</mml:mi>
						</mml:mrow>
						<mml:mrow>
							<mml:mi>t</mml:mi>
						</mml:mrow>
					</mml:msub>
					<mml:mo>=</mml:mo>
					<mml:mrow>
						<mml:mi mathvariant="bold-italic">f</mml:mi>
					</mml:mrow>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:msub>
							<mml:mrow>
								<mml:mi mathvariant="bold-italic">x</mml:mi>
							</mml:mrow>
							<mml:mrow>
								<mml:mi>t</mml:mi>
							</mml:mrow>
						</mml:msub>
						<mml:mo>,</mml:mo>
						<mml:mi>t</mml:mi>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
					<mml:mi>d</mml:mi>
					<mml:mi>t</mml:mi>
					<mml:mo>+</mml:mo>
					<mml:mi>g</mml:mi>
					<mml:mo stretchy="false">(</mml:mo>
					<mml:mi>t</mml:mi>
					<mml:mo stretchy="false">)</mml:mo>
					<mml:mi>d</mml:mi>
					<mml:msub>
						<mml:mrow>
							<mml:mi mathvariant="bold-italic">w</mml:mi>
						</mml:mrow>
						<mml:mrow>
							<mml:mi>t</mml:mi>
						</mml:mrow>
					</mml:msub>
				</mml:mrow>
			</mml:math>
			<p>Где: </p>
			<p>Данный процесс направлен на удаление шума для реконструкции исходных данных. Для этого обучается параметрическая модель (нейронная сеть)</p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:msub>
						<mml:mrow>
							<mml:mo mathvariant="bold">∇</mml:mo>
						</mml:mrow>
						<mml:mrow>
							<mml:msub>
								<mml:mrow>
									<mml:mi mathvariant="bold-italic">x</mml:mi>
								</mml:mrow>
								<mml:mrow>
									<mml:mi>t</mml:mi>
								</mml:mrow>
							</mml:msub>
						</mml:mrow>
					</mml:msub>
					<mml:mi>log</mml:mi>
					<mml:msub>
						<mml:mrow>
							<mml:mi mathvariant="bold-italic">p</mml:mi>
						</mml:mrow>
						<mml:mrow>
							<mml:mrow>
								<mml:mi mathvariant="bold-italic">t</mml:mi>
							</mml:mrow>
						</mml:mrow>
					</mml:msub>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:msub>
							<mml:mrow>
								<mml:mi mathvariant="bold-italic">x</mml:mi>
							</mml:mrow>
							<mml:mrow>
								<mml:mi>t</mml:mi>
							</mml:mrow>
						</mml:msub>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
				</mml:mrow>
			</mml:math>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>d</mml:mi>
					<mml:msub>
						<mml:mi>x</mml:mi>
						<mml:mrow>
							<mml:mi>t</mml:mi>
						</mml:mrow>
					</mml:msub>
					<mml:mo>=</mml:mo>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">[</mml:mo>
						<mml:mrow>
							<mml:mi mathvariant="bold-italic">f</mml:mi>
						</mml:mrow>
						<mml:mrow>
							<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
							<mml:msub>
								<mml:mrow>
									<mml:mi mathvariant="bold-italic">x</mml:mi>
								</mml:mrow>
								<mml:mrow>
									<mml:mi>t</mml:mi>
								</mml:mrow>
							</mml:msub>
							<mml:mo>,</mml:mo>
							<mml:mi>t</mml:mi>
							<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
						</mml:mrow>
						<mml:mo>−</mml:mo>
						<mml:mi>g</mml:mi>
						<mml:mo stretchy="false">(</mml:mo>
						<mml:mi>t</mml:mi>
						<mml:msup>
							<mml:mo stretchy="false">)</mml:mo>
							<mml:mrow>
								<mml:mn>2</mml:mn>
							</mml:mrow>
						</mml:msup>
						<mml:msub>
							<mml:mrow>
								<mml:mo mathvariant="bold">∇</mml:mo>
							</mml:mrow>
							<mml:mrow>
								<mml:msub>
									<mml:mrow>
										<mml:mi mathvariant="bold-italic">x</mml:mi>
									</mml:mrow>
									<mml:mrow>
										<mml:mi>t</mml:mi>
									</mml:mrow>
								</mml:msub>
							</mml:mrow>
						</mml:msub>
						<mml:mi>log</mml:mi>
						<mml:msub>
							<mml:mrow>
								<mml:mi mathvariant="bold-italic">p</mml:mi>
							</mml:mrow>
							<mml:mrow>
								<mml:mrow>
									<mml:mi mathvariant="bold-italic">t</mml:mi>
								</mml:mrow>
							</mml:mrow>
						</mml:msub>
						<mml:mrow>
							<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
							<mml:msub>
								<mml:mrow>
									<mml:mi mathvariant="bold-italic">x</mml:mi>
								</mml:mrow>
								<mml:mrow>
									<mml:mi>t</mml:mi>
								</mml:mrow>
							</mml:msub>
							<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
						</mml:mrow>
						<mml:mo stretchy="true" fence="true" form="postfix">]</mml:mo>
					</mml:mrow>
					<mml:mi>d</mml:mi>
					<mml:mi>t</mml:mi>
					<mml:mo>+</mml:mo>
					<mml:mi>g</mml:mi>
					<mml:mo stretchy="false">(</mml:mo>
					<mml:mi>t</mml:mi>
					<mml:mo stretchy="false">)</mml:mo>
					<mml:mi>d</mml:mi>
					<mml:msub>
						<mml:mover>
							<mml:mrow>
								<mml:mi>w</mml:mi>
							</mml:mrow>
							<mml:mo stretchy="true">¯</mml:mo>
						</mml:mover>
						<mml:mrow>
							<mml:mi>t</mml:mi>
						</mml:mrow>
					</mml:msub>
				</mml:mrow>
			</mml:math>
			<p>Где </p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:msub>
						<mml:mover>
							<mml:mrow>
								<mml:mi>w</mml:mi>
							</mml:mrow>
							<mml:mo stretchy="true">¯</mml:mo>
						</mml:mover>
						<mml:mrow>
							<mml:mi>t</mml:mi>
						</mml:mrow>
					</mml:msub>
				</mml:mrow>
			</mml:math>
			<mml:math display="inline">
				<mml:mrow>
					<mml:msub>
						<mml:mrow>
							<mml:mo mathvariant="bold">∇</mml:mo>
						</mml:mrow>
						<mml:mrow>
							<mml:msub>
								<mml:mrow>
									<mml:mi mathvariant="bold-italic">x</mml:mi>
								</mml:mrow>
								<mml:mrow>
									<mml:mi>t</mml:mi>
								</mml:mrow>
							</mml:msub>
						</mml:mrow>
					</mml:msub>
					<mml:mi>log</mml:mi>
					<mml:msub>
						<mml:mrow>
							<mml:mi mathvariant="bold-italic">p</mml:mi>
						</mml:mrow>
						<mml:mrow>
							<mml:mrow>
								<mml:mi mathvariant="bold-italic">t</mml:mi>
							</mml:mrow>
						</mml:mrow>
					</mml:msub>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:msub>
							<mml:mrow>
								<mml:mi mathvariant="bold-italic">x</mml:mi>
							</mml:mrow>
							<mml:mrow>
								<mml:mi>t</mml:mi>
							</mml:mrow>
						</mml:msub>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
				</mml:mrow>
			</mml:math>
			<mml:math display="inline">
				<mml:mrow>
					<mml:msub>
						<mml:mrow>
							<mml:mi mathvariant="bold-italic">s</mml:mi>
						</mml:mrow>
						<mml:mrow>
							<mml:mi>θ</mml:mi>
						</mml:mrow>
					</mml:msub>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:msub>
							<mml:mrow>
								<mml:mi mathvariant="bold-italic">x</mml:mi>
							</mml:mrow>
							<mml:mrow>
								<mml:mi>t</mml:mi>
							</mml:mrow>
						</mml:msub>
						<mml:mo>,</mml:mo>
						<mml:mi>t</mml:mi>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
				</mml:mrow>
			</mml:math>
			<p> </p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:msub>
						<mml:mo>min</mml:mo>
						<mml:mrow>
							<mml:mi>θ</mml:mi>
						</mml:mrow>
					</mml:msub>
					<mml:msub>
						<mml:mi>𝔼</mml:mi>
						<mml:mrow>
							<mml:mi>t</mml:mi>
							<mml:mo>,</mml:mo>
							<mml:msub>
								<mml:mi>x</mml:mi>
								<mml:mrow>
									<mml:mn>0</mml:mn>
								</mml:mrow>
							</mml:msub>
							<mml:mo>,</mml:mo>
							<mml:msub>
								<mml:mi>x</mml:mi>
								<mml:mrow>
									<mml:mi>t</mml:mi>
								</mml:mrow>
							</mml:msub>
						</mml:mrow>
					</mml:msub>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">[</mml:mo>
						<mml:mi>λ</mml:mi>
						<mml:mo stretchy="false">(</mml:mo>
						<mml:mi>t</mml:mi>
						<mml:mo stretchy="false">)</mml:mo>
						<mml:msubsup>
							<mml:mrow>
								<mml:mo stretchy="true" fence="true" form="prefix">‖</mml:mo>
								<mml:msub>
									<mml:mrow>
										<mml:mi mathvariant="bold-italic">s</mml:mi>
									</mml:mrow>
									<mml:mrow>
										<mml:mi>θ</mml:mi>
									</mml:mrow>
								</mml:msub>
								<mml:mrow>
									<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
									<mml:msub>
										<mml:mrow>
											<mml:mi mathvariant="bold-italic">x</mml:mi>
										</mml:mrow>
										<mml:mrow>
											<mml:mi>t</mml:mi>
										</mml:mrow>
									</mml:msub>
									<mml:mo>,</mml:mo>
									<mml:mi>t</mml:mi>
									<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
								</mml:mrow>
								<mml:mo>−</mml:mo>
								<mml:msub>
									<mml:mrow>
										<mml:mo mathvariant="bold">∇</mml:mo>
									</mml:mrow>
									<mml:mrow>
										<mml:msub>
											<mml:mrow>
												<mml:mi mathvariant="bold-italic">x</mml:mi>
											</mml:mrow>
											<mml:mrow>
												<mml:mi>t</mml:mi>
											</mml:mrow>
										</mml:msub>
									</mml:mrow>
								</mml:msub>
								<mml:mi>log</mml:mi>
								<mml:mrow>
									<mml:mi mathvariant="bold-italic">q</mml:mi>
								</mml:mrow>
								<mml:mrow>
									<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
									<mml:msub>
										<mml:mrow>
											<mml:mi mathvariant="bold-italic">x</mml:mi>
										</mml:mrow>
										<mml:mrow>
											<mml:mi>t</mml:mi>
										</mml:mrow>
									</mml:msub>
									<mml:mo>∣</mml:mo>
									<mml:msub>
										<mml:mi>x</mml:mi>
										<mml:mrow>
											<mml:mn>0</mml:mn>
										</mml:mrow>
									</mml:msub>
									<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
								</mml:mrow>
								<mml:mo stretchy="true" fence="true" form="postfix">‖</mml:mo>
							</mml:mrow>
							<mml:mrow>
								<mml:mn>2</mml:mn>
							</mml:mrow>
							<mml:mrow>
								<mml:mn>2</mml:mn>
							</mml:mrow>
						</mml:msubsup>
						<mml:mo stretchy="true" fence="true" form="postfix">]</mml:mo>
					</mml:mrow>
				</mml:mrow>
			</mml:math>
			<p>Где </p>
			<p>3. Критерии оценки диффузионных моделей при восстановлении
звука</p>
			<p>Данные критерии показывают, насколько близок восстановленный аудиосигнал к чистому естественному аудиосигналу с точки зрения человеческого восприятия. Поскольку восстановление часто включает «галлюцинацию» (hallucination) утраченного контента, перцептивная адекватность важнее абсолютной математической точности.</p>
			<p>Методы измерения:</p>
			<p>Субъективная оценка:</p>
			<p>· Слуховые тесты: например, тест на сравнение дубликатов (ABX) или оценка среднего мнения (Mean Opinion Score, MOS), в ходе которых люди-слушатели оценивают качество аудиообразцов.</p>
			<p>· Попарное сравнение (Pairwise Preference): слушатели выбирают, какой из двух представленных аудиообразцов им нравится больше.</p>
			<p>· Недостатки: высокая стоимость, трудоемкость, сложность стандартизации.</p>
			<p>Объективные показатели: Фреше аудио расстояние (Fréchet Audio Distance, FAD): широко распространенная безреференсная метрика. Она вычисляет расстояние между статистиками эмбеддингов восстановленного аудио и эмбеддингами эталонного набора высококачественного аудио (например, полученных с помощью моделей VGGish или CLAP). Чем ниже значение FAD, тем выше перцептивное качество. Главное преимущество: для сравнения не требуется исходный чистый сигнал (референс), что критично для реальных задач.</p>
			<p>Расстояние по долговременному усредненному спектру (Long-Term Average Spectrum Distance, LTAS): сравнивает усредненный спектр мощности восстановленного аудиосигнала с эталонным спектром. Позволяет оценить коррекцию спектральных искажений (окрашивания) и восстановление полосы пропускания. Недостаток: измеряет только усредненные характеристики и игнорирует временну́ю динамику.</p>
			<p>Поскольку для генерации одной выборки в диффузионных моделях требуется множество итераций (шагов обратной диффузии), скорость вывода является серьезной проблемой.</p>
			<p>Факторы влияния:</p>
			<p>1 Количество шагов обратного процесса (N): большее число шагов обычно означает более высокое качество, но пропорционально увеличивает время генерации.</p>
			<p>2 Порядок решателя СДУ: решатель (интегратор) более высокого порядка (например, второго) обеспечивает более высокую точность на каждом шаге, но требует большего количества вычислений функции оценки (score function) на шаг.</p>
			<p>3 Сложность модели-оценщика: размер и архитектура нейронной сети</p>
			<p>4 Методы ускорения:</p>
			<p>· Постепенная дистилляция: обучение «ученической» модели, требующей меньшего числа шагов, чем исходная «учительская» модель.</p>
			<p>· Неявные модели (DDIM): позволяют осуществлять нестохастическое семплирование, «перескакивая» через некоторые шаги процесса.</p>
			<p>· Модели латентной диффузии: работают в сжатом пространстве признаков (например, полученном с помощью вариационного автоэнкодера — VAE), а не в пространстве исходного аудиосигнала, что значительно снижает размерность данных и объем вычислений.</p>
			<p>· «Теплый старт» (Warm start): инициализация обратного процесса зашумленным входным сигналом, а не случайным шумом, что сокращает «расстояние» до целевого распределения.</p>
			<p>Измерение: Вычислительная эффективность обычно измеряется либо временем обработки аудио (например, секунд сгенерированного аудио в реальную секунду — RTF) на конкретном оборудовании (например, GPU), либо количеством операций с плавающей запятой (FLOPs), необходимых для обработки одной секунды аудиосигнала</p>
			<p>Этот критерий оценивает объективную точность восстановления недостающих частей или устранения искажений по сравнению с известной эталонной версией (ground truth)</p>
			<p>Методы измерения:</p>
			<p>1- Референсные метрики (требуют исходного чистого сигнала </p>
			<p>· Отношение сигнал/шум (Signal-to-Noise Ratio, SNR):</p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>S</mml:mi>
					<mml:mi>N</mml:mi>
					<mml:mi>R</mml:mi>
					<mml:mo>=</mml:mo>
					<mml:mn>10</mml:mn>
					<mml:msub>
						<mml:mi>log</mml:mi>
						<mml:mrow>
							<mml:mn>10</mml:mn>
						</mml:mrow>
					</mml:msub>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:mfrac>
							<mml:mrow>
								<mml:msubsup>
									<mml:mrow>
										<mml:mo stretchy="true" fence="true" form="prefix">‖</mml:mo>
										<mml:msub>
											<mml:mi>x</mml:mi>
											<mml:mrow>
												<mml:mn>0</mml:mn>
											</mml:mrow>
										</mml:msub>
										<mml:mo stretchy="true" fence="true" form="postfix">‖</mml:mo>
									</mml:mrow>
									<mml:mrow>
										<mml:mn>2</mml:mn>
									</mml:mrow>
									<mml:mrow>
										<mml:mn>2</mml:mn>
									</mml:mrow>
								</mml:msubsup>
							</mml:mrow>
							<mml:mrow>
								<mml:msubsup>
									<mml:mrow>
										<mml:mo stretchy="true" fence="true" form="prefix">‖</mml:mo>
										<mml:msub>
											<mml:mi>x</mml:mi>
											<mml:mrow>
												<mml:mn>0</mml:mn>
											</mml:mrow>
										</mml:msub>
										<mml:mo>−</mml:mo>
										<mml:msub>
											<mml:mover>
												<mml:mrow>
													<mml:mi>x</mml:mi>
												</mml:mrow>
												<mml:mo stretchy="false">^</mml:mo>
											</mml:mover>
											<mml:mrow>
												<mml:mn>0</mml:mn>
											</mml:mrow>
										</mml:msub>
										<mml:mo stretchy="true" fence="true" form="postfix">‖</mml:mo>
									</mml:mrow>
									<mml:mrow>
										<mml:mn>2</mml:mn>
									</mml:mrow>
									<mml:mrow>
										<mml:mn>2</mml:mn>
									</mml:mrow>
								</mml:msubsup>
							</mml:mrow>
						</mml:mfrac>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
					<mml:mi>d</mml:mi>
					<mml:mi>B</mml:mi>
				</mml:mrow>
			</mml:math>
			<p>где </p>
			<p>· Частотно-взвешенное отношение сигнал/шум (Frequency-Weighted SNR).</p>
			<p>· Отношение сигнал к помехам (Signal-to-Distortion Ratio, SDR): распространенная метрика в задачах разделения источников и усиления аудио.</p>
			<p>· Кратковременная потеря спектральной фазы (Short-Time Spectral Phase Loss).</p>
			<p>1- Результаты решения конкретных обратных задач:</p>
			<p>· Расширение полосы пропускания: точность восстановления потерянных высоких частот.</p>
			<p>· Интерполяция (Inpainting): точность восстановления удаленных временны́х сегментов.</p>
			<p>· Устранение реверберации (Dereverberation): степень подавления эффектов эха при сохранении качества звучания.</p>
			<p>· Разделение источников: чистота извлеченного целевого источника.</p>
			<p>Между этими критериями оценки существует естественный компромисс:</p>
			<p>· Перцептивное качество vs. Эффективность восстановления: достижение высокого перцептивного качества часто требует более сложных моделей и большого числа (медленных) шагов, что может снижать объективные референсные метрики (например, SNR) из-за усиления «галлюцинаций».</p>
			<p>· Эффективность vs. Качество: модели, агрессивно генерирующие новый контент, могут улучшать перцептивные оценки, но отклоняться от эталонного сигнала.</p>
			<p>Сложность оценки в слепых задачах: в задачах слепого восстановления (где оператор искажения A неизвестен) оценка усложняется из-за отсутствия точного эталона. В таких условиях перцептивные метрики (например, FAD) и субъективная человеческая оценка приобретают ключевое значение.</p>
			<p>4. Модели трансформеров и механизмы внимания в обработке аудиовизуальных
последовательностей</p>
			<p>Трансформеры — это класс нейронных сетей, основанных на механизме внимания (attention mechanism) и предназначенных для обработки последовательностей данных. В отличие от традиционных рекуррентных архитектур (RNN, LSTM), трансформеры не используют скрытые состояния для учета контекста, что позволяет эффективно распараллеливать вычисления и обрабатывать длинные зависимости. Первоначально предложенные для задач машинного перевода, эти модели нашли широкое применение в областях обработки естественного языка, распознавания речи, а также в аудиовизуальном анализе </p>
			<p>[7][8][9][11]</p>
			<p>Механизм внимания (Self-Attention). Ядром архитектуры трансформера является механизм внимания, который вычисляет взвешенную сумму значений (Value) для каждого элемента последовательности, где веса определяются его совместимостью (compatibility) со всеми элементами (ключами — Key) на основе запроса (Query). Базовая формула скалярного произведения внимания (Scaled Dot-Product Attention) имеет вид:</p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mo>Attention</mml:mo>
					<mml:mo stretchy="false">(</mml:mo>
					<mml:mi>Q</mml:mi>
					<mml:mo>,</mml:mo>
					<mml:mi>K</mml:mi>
					<mml:mo>,</mml:mo>
					<mml:mi>V</mml:mi>
					<mml:mo stretchy="false">)</mml:mo>
					<mml:mo>=</mml:mo>
					<mml:mo>softmax</mml:mo>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:mfrac>
							<mml:mrow>
								<mml:mi>Q</mml:mi>
								<mml:msup>
									<mml:mi>K</mml:mi>
									<mml:mrow>
										<mml:mi>T</mml:mi>
									</mml:mrow>
								</mml:msup>
							</mml:mrow>
							<mml:mrow>
								<mml:msqrt>
									<mml:mrow>
										<mml:msub>
											<mml:mi>d</mml:mi>
											<mml:mrow>
												<mml:mi>k</mml:mi>
											</mml:mrow>
										</mml:msub>
									</mml:mrow>
								</mml:msqrt>
							</mml:mrow>
						</mml:mfrac>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
					<mml:mi>V</mml:mi>
				</mml:mrow>
			</mml:math>
			<p>Где: </p>
			<p>Многоголовочное внимание (Multi-Head Attention). Для повышения выразительности модели используется многоголовое внимание, которое позволяет совместно обрабатывать информацию из разных подпространств представлений:</p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mtext> MultiHead </mml:mtext>
					<mml:mo stretchy="false">(</mml:mo>
					<mml:mi>Q</mml:mi>
					<mml:mo>,</mml:mo>
					<mml:mi>K</mml:mi>
					<mml:mo>,</mml:mo>
					<mml:mi>V</mml:mi>
					<mml:mo stretchy="false">)</mml:mo>
					<mml:mo>=</mml:mo>
					<mml:mtext> Concat </mml:mtext>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:msub>
							<mml:mtext> head </mml:mtext>
							<mml:mrow>
								<mml:mn>1</mml:mn>
							</mml:mrow>
						</mml:msub>
						<mml:mo>,</mml:mo>
						<mml:mi>…</mml:mi>
						<mml:mo>,</mml:mo>
						<mml:msub>
							<mml:mtext> head </mml:mtext>
							<mml:mrow>
								<mml:mi>h</mml:mi>
							</mml:mrow>
						</mml:msub>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
					<mml:msup>
						<mml:mi>W</mml:mi>
						<mml:mrow>
							<mml:mi>o</mml:mi>
						</mml:mrow>
					</mml:msup>
				</mml:mrow>
			</mml:math>
			<mml:math display="inline">
				<mml:mrow>
					<mml:msub>
						<mml:mo>head</mml:mo>
						<mml:mrow>
							<mml:mi>i</mml:mi>
						</mml:mrow>
					</mml:msub>
					<mml:mo>=</mml:mo>
					<mml:mo>Attention</mml:mo>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:mi>Q</mml:mi>
						<mml:msubsup>
							<mml:mi>W</mml:mi>
							<mml:mrow>
								<mml:mi>i</mml:mi>
							</mml:mrow>
							<mml:mrow>
								<mml:mi>Q</mml:mi>
							</mml:mrow>
						</mml:msubsup>
						<mml:mo>,</mml:mo>
						<mml:mi>K</mml:mi>
						<mml:msubsup>
							<mml:mi>W</mml:mi>
							<mml:mrow>
								<mml:mi>i</mml:mi>
							</mml:mrow>
							<mml:mrow>
								<mml:mi>K</mml:mi>
							</mml:mrow>
						</mml:msubsup>
						<mml:mo>,</mml:mo>
						<mml:mi>V</mml:mi>
						<mml:msubsup>
							<mml:mi>W</mml:mi>
							<mml:mrow>
								<mml:mi>i</mml:mi>
							</mml:mrow>
							<mml:mrow>
								<mml:mi>V</mml:mi>
							</mml:mrow>
						</mml:msubsup>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
				</mml:mrow>
			</mml:math>
			<p>где </p>
			<p>Специализированные механизмы внимания для аудиовизуальных данных. Для эффективной обработки длинных мультимодальных последовательностей (например, аудио и видео) применяются модифицированные механизмы внимания. </p>
			<p>Разреженное (спарс) внимание (Sparse Attention): Снижает квадратичную вычислительную сложность </p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:msub>
						<mml:mi>M</mml:mi>
						<mml:mrow>
							<mml:mi>i</mml:mi>
							<mml:mo>,</mml:mo>
							<mml:mi>j</mml:mi>
						</mml:mrow>
					</mml:msub>
					<mml:mo>=</mml:mo>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">{</mml:mo>
						<mml:mtable>
							<mml:mtr>
								<mml:mtd columnalign="left">
									<mml:mn>0</mml:mn>
									<mml:mo stretchy="false">|</mml:mo>
									<mml:mi>i</mml:mi>
									<mml:mo>−</mml:mo>
									<mml:mi>j</mml:mi>
									<mml:mo stretchy="false">|</mml:mo>
									<mml:mo>≤</mml:mo>
									<mml:msub>
										<mml:mi>s</mml:mi>
										<mml:mrow>
											<mml:mi>f</mml:mi>
										</mml:mrow>
									</mml:msub>
								</mml:mtd>
							</mml:mtr>
							<mml:mtr>
								<mml:mtd columnalign="left">
									<mml:mo>−</mml:mo>
									<mml:mo>∞</mml:mo>
									<mml:mtext> therwise </mml:mtext>
								</mml:mtd>
							</mml:mtr>
						</mml:mtable>
						<mml:mo stretchy="true" fence="true" form="postfix"/>
					</mml:mrow>
				</mml:mrow>
			</mml:math>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>M</mml:mi>
					<mml:mi>S</mml:mi>
					<mml:mo>=</mml:mo>
					<mml:mi>S</mml:mi>
					<mml:mo>+</mml:mo>
					<mml:mi>M</mml:mi>
					<mml:mo>,</mml:mo>
					<mml:mi>A</mml:mi>
					<mml:mi>W</mml:mi>
					<mml:mo>=</mml:mo>
					<mml:mo>softmax</mml:mo>
					<mml:mo stretchy="false">(</mml:mo>
					<mml:mi>M</mml:mi>
					<mml:mi>S</mml:mi>
					<mml:mo stretchy="false">)</mml:mo>
				</mml:mrow>
			</mml:math>
			<p>Адаптивное внимание (Adaptive Attention): Динамически регулирует вклад различных модальностей или признаков на основе контекста. Например, в моделях аудиовизуального распознавания речи (AVSR) веса </p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>β</mml:mi>
					<mml:mo>=</mml:mo>
					<mml:mo>softmax</mml:mo>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:mrow>
							<mml:mo stretchy="true" fence="true" form="prefix">[</mml:mo>
							<mml:mi>F</mml:mi>
							<mml:mi>F</mml:mi>
							<mml:msub>
								<mml:mi>N</mml:mi>
								<mml:mrow>
									<mml:mi>a</mml:mi>
								</mml:mrow>
							</mml:msub>
							<mml:mrow>
								<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
								<mml:msub>
									<mml:mi>h</mml:mi>
									<mml:mrow>
										<mml:mi>a</mml:mi>
									</mml:mrow>
								</mml:msub>
								<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
							</mml:mrow>
							<mml:mo>,</mml:mo>
							<mml:mi>F</mml:mi>
							<mml:mi>F</mml:mi>
							<mml:msub>
								<mml:mi>N</mml:mi>
								<mml:mrow>
									<mml:mi>v</mml:mi>
								</mml:mrow>
							</mml:msub>
							<mml:mrow>
								<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
								<mml:msub>
									<mml:mi>h</mml:mi>
									<mml:mrow>
										<mml:mi>v</mml:mi>
									</mml:mrow>
								</mml:msub>
								<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
							</mml:mrow>
							<mml:mo stretchy="true" fence="true" form="postfix">]</mml:mo>
						</mml:mrow>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
				</mml:mrow>
			</mml:math>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>F</mml:mi>
					<mml:mo>=</mml:mo>
					<mml:msub>
						<mml:mi>β</mml:mi>
						<mml:mrow>
							<mml:mi>a</mml:mi>
						</mml:mrow>
					</mml:msub>
					<mml:mo>*</mml:mo>
					<mml:msub>
						<mml:mi>F</mml:mi>
						<mml:mrow>
							<mml:mi>a</mml:mi>
						</mml:mrow>
					</mml:msub>
					<mml:mo>+</mml:mo>
					<mml:msub>
						<mml:mi>β</mml:mi>
						<mml:mrow>
							<mml:mi>v</mml:mi>
						</mml:mrow>
					</mml:msub>
					<mml:mo>*</mml:mo>
					<mml:msub>
						<mml:mi>F</mml:mi>
						<mml:mrow>
							<mml:mi>v</mml:mi>
						</mml:mrow>
					</mml:msub>
				</mml:mrow>
			</mml:math>
			<p>где FFN — полносвязный слой, а </p>
			<p>Двойное перекрёстно-модальное внимание (Dual Cross-Modality Attention): Позволяет моделям AVSR эффективно интегрировать информацию из обеих модальностей, выполняя внимание в двух направлениях:</p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>A</mml:mi>
					<mml:mi>V</mml:mi>
					<mml:mo>=</mml:mo>
					<mml:mo>Attention</mml:mo>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:msup>
							<mml:mi>h</mml:mi>
							<mml:mrow>
								<mml:mi>a</mml:mi>
							</mml:mrow>
						</mml:msup>
						<mml:mo>,</mml:mo>
						<mml:msup>
							<mml:mi>h</mml:mi>
							<mml:mrow>
								<mml:mi>v</mml:mi>
							</mml:mrow>
						</mml:msup>
						<mml:mo>,</mml:mo>
						<mml:msup>
							<mml:mi>h</mml:mi>
							<mml:mrow>
								<mml:mi>v</mml:mi>
							</mml:mrow>
						</mml:msup>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
				</mml:mrow>
			</mml:math>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>V</mml:mi>
					<mml:mi>A</mml:mi>
					<mml:mo>=</mml:mo>
					<mml:mo>Attention</mml:mo>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:msup>
							<mml:mi>h</mml:mi>
							<mml:mrow>
								<mml:mi>v</mml:mi>
							</mml:mrow>
						</mml:msup>
						<mml:mo>,</mml:mo>
						<mml:msup>
							<mml:mi>h</mml:mi>
							<mml:mrow>
								<mml:mi>a</mml:mi>
							</mml:mrow>
						</mml:msup>
						<mml:mo>,</mml:mo>
						<mml:msup>
							<mml:mi>h</mml:mi>
							<mml:mrow>
								<mml:mi>a</mml:mi>
							</mml:mrow>
						</mml:msup>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
				</mml:mrow>
			</mml:math>
			<p>Где </p>
			<p>5. Критерии
оценки аудиовизуальных моделей</p>
			<p>Оценивает субъективное восприятие качества восстановленного или сгенерированного аудиосигнала.</p>
			<p>PESQ (Perceptual Evaluation of Speech Quality): Стандартизированный ITU-T алгоритм (P.862), оценивающий качество речи по шкале от -0,5 до 4,5.</p>
			<p>STOI (Short-Time Objective Intelligibility): Объективная метрика (от 0 до 1), предсказывающая разборчивость речи.</p>
			<p>Специализированные MOS-метрики (Mean Opinion Score): Часто используют выделенные компоненты: CSIG: Оценка качества сигнала (от 1 до 5). CBAK: Оценка уровня фоновых шумов/артефактов (от 1 до 5). COVL: Общая оценка качества (от 1 до 5).</p>
			<p>5.2. Эффективность распознавания (Recognition Performance)</p>
			<p>Ключевая метрика для задач распознавания речи (ASR, AVSR). Word Error Rate (WER, %):</p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>W</mml:mi>
					<mml:mi>E</mml:mi>
					<mml:mi>R</mml:mi>
					<mml:mo>=</mml:mo>
					<mml:mfrac>
						<mml:mrow>
							<mml:mi>S</mml:mi>
							<mml:mo>+</mml:mo>
							<mml:mi>D</mml:mi>
							<mml:mo>+</mml:mo>
							<mml:mi>I</mml:mi>
						</mml:mrow>
						<mml:mrow>
							<mml:mi>N</mml:mi>
						</mml:mrow>
					</mml:mfrac>
					<mml:mi>×</mml:mi>
					<mml:mn>100</mml:mn>
					<mml:mi>%</mml:mi>
				</mml:mrow>
			</mml:math>
			<p>Где где </p>
			<p>Критична для развертывания моделей в реальных системах. Измеряется по:</p>
			<p> Объем вычислений: Количество операций умножения-сложения (MACs или FLOPs).</p>
			<p> Размер модели: Количество обучаемых параметров (parameters).</p>
			<p> Скорость работы: Время вывода (inference time) на целевом устройстве.</p>
			<p> Использование памяти: Пиковое потребление оперативной и видеопамяти (GPU memory usage).</p>
			<p>Оценивает объективную точность восстановления аудиосигнала. Измеряется по:</p>
			<p>- Spectral Error (Log-Spectral Distance): Среднеквадратичная ошибка в логарифмической спектральной области.</p>
			<p>- Signal-to-Noise Ratio (SNR, дБ):</p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>S</mml:mi>
					<mml:mi>N</mml:mi>
					<mml:mi>R</mml:mi>
					<mml:mo>=</mml:mo>
					<mml:mn>10</mml:mn>
					<mml:msub>
						<mml:mi>log</mml:mi>
						<mml:mrow>
							<mml:mn>10</mml:mn>
						</mml:mrow>
					</mml:msub>
					<mml:mfrac>
						<mml:mrow>
							<mml:mi>P</mml:mi>
							<mml:mi>s</mml:mi>
						</mml:mrow>
						<mml:mrow>
							<mml:mi>P</mml:mi>
							<mml:mi>n</mml:mi>
						</mml:mrow>
					</mml:mfrac>
				</mml:mrow>
			</mml:math>
			<p>- Где </p>
			<p>- Time-Frequency Similarity: Метрики, учитывающие одновременное сходство во временной и спектральной областях (например, SI-SDR).</p>
			<p>6. Диффузионные
модели в обработке звука</p>
			<p>Данный марковский процесс постепенно добавляет гауссовский шум к исходному аудиосигналу </p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>q</mml:mi>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:msub>
							<mml:mrow>
								<mml:mi mathvariant="bold-italic">x</mml:mi>
							</mml:mrow>
							<mml:mrow>
								<mml:mi>n</mml:mi>
							</mml:mrow>
						</mml:msub>
						<mml:mo>∣</mml:mo>
						<mml:msub>
							<mml:mrow>
								<mml:mi mathvariant="bold-italic">x</mml:mi>
							</mml:mrow>
							<mml:mrow>
								<mml:mi>n</mml:mi>
								<mml:mo>−</mml:mo>
								<mml:mn>1</mml:mn>
							</mml:mrow>
						</mml:msub>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
					<mml:mo>=</mml:mo>
					<mml:mi>𝒩</mml:mi>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:msub>
							<mml:mrow>
								<mml:mi mathvariant="bold-italic">x</mml:mi>
							</mml:mrow>
							<mml:mrow>
								<mml:mi>n</mml:mi>
							</mml:mrow>
						</mml:msub>
						<mml:mi>;</mml:mi>
						<mml:msqrt>
							<mml:mrow>
								<mml:mn>1</mml:mn>
								<mml:mo>−</mml:mo>
								<mml:msub>
									<mml:mi>β</mml:mi>
									<mml:mrow>
										<mml:mi>n</mml:mi>
									</mml:mrow>
								</mml:msub>
							</mml:mrow>
						</mml:msqrt>
						<mml:msub>
							<mml:mrow>
								<mml:mi mathvariant="bold-italic">x</mml:mi>
							</mml:mrow>
							<mml:mrow>
								<mml:mi>n</mml:mi>
								<mml:mo>−</mml:mo>
								<mml:mn>1</mml:mn>
							</mml:mrow>
						</mml:msub>
						<mml:mo>,</mml:mo>
						<mml:msub>
							<mml:mi>β</mml:mi>
							<mml:mrow>
								<mml:mi>n</mml:mi>
							</mml:mrow>
						</mml:msub>
						<mml:mrow>
							<mml:mi mathvariant="bold-italic">I</mml:mi>
						</mml:mrow>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
				</mml:mrow>
			</mml:math>
			<p>Где </p>
			<p>Генерация осуществляется путем итеративного удаления шума обученной нейронной сетью. Обратное распределение аппроксимируется как:</p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:msub>
						<mml:mi>p</mml:mi>
						<mml:mrow>
							<mml:mi>θ</mml:mi>
						</mml:mrow>
					</mml:msub>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:msub>
							<mml:mi>x</mml:mi>
							<mml:mrow>
								<mml:mi>t</mml:mi>
								<mml:mo>−</mml:mo>
								<mml:mn>1</mml:mn>
							</mml:mrow>
						</mml:msub>
						<mml:mo>∣</mml:mo>
						<mml:msub>
							<mml:mi>x</mml:mi>
							<mml:mrow>
								<mml:mi>t</mml:mi>
							</mml:mrow>
						</mml:msub>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
					<mml:mo>=</mml:mo>
					<mml:mi>𝒩</mml:mi>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:msub>
							<mml:mi>x</mml:mi>
							<mml:mrow>
								<mml:mi>t</mml:mi>
								<mml:mo>−</mml:mo>
								<mml:mn>1</mml:mn>
							</mml:mrow>
						</mml:msub>
						<mml:mi>;</mml:mi>
						<mml:msub>
							<mml:mi>μ</mml:mi>
							<mml:mrow>
								<mml:mi>θ</mml:mi>
							</mml:mrow>
						</mml:msub>
						<mml:mrow>
							<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
							<mml:msub>
								<mml:mi>x</mml:mi>
								<mml:mrow>
									<mml:mi>t</mml:mi>
								</mml:mrow>
							</mml:msub>
							<mml:mo>,</mml:mo>
							<mml:mi>t</mml:mi>
							<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
						</mml:mrow>
						<mml:mo>,</mml:mo>
						<mml:msub>
							<mml:mi>Σ</mml:mi>
							<mml:mrow>
								<mml:mi>θ</mml:mi>
							</mml:mrow>
						</mml:msub>
						<mml:mrow>
							<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
							<mml:msub>
								<mml:mi>x</mml:mi>
								<mml:mrow>
									<mml:mi>t</mml:mi>
								</mml:mrow>
							</mml:msub>
							<mml:mo>,</mml:mo>
							<mml:mi>t</mml:mi>
							<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
						</mml:mrow>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
				</mml:mrow>
			</mml:math>
			<p>где </p>
			<p>Наиболее распространенный вариант — обучение предсказанию шума (noise prediction) или оценки (score):</p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>L</mml:mi>
					<mml:mo stretchy="false">(</mml:mo>
					<mml:mi>θ</mml:mi>
					<mml:mo stretchy="false">)</mml:mo>
					<mml:mo>=</mml:mo>
					<mml:msub>
						<mml:mi>𝔼</mml:mi>
						<mml:mrow>
							<mml:mi>t</mml:mi>
							<mml:mo>,</mml:mo>
							<mml:msub>
								<mml:mi>x</mml:mi>
								<mml:mrow>
									<mml:mn>0</mml:mn>
								</mml:mrow>
							</mml:msub>
							<mml:mo>,</mml:mo>
							<mml:mi>ϵ</mml:mi>
						</mml:mrow>
					</mml:msub>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">[</mml:mo>
						<mml:msup>
							<mml:mrow>
								<mml:mo stretchy="true" fence="true" form="prefix">‖</mml:mo>
								<mml:mi>ϵ</mml:mi>
								<mml:mo>−</mml:mo>
								<mml:msub>
									<mml:mi>ϵ</mml:mi>
									<mml:mrow>
										<mml:mi>θ</mml:mi>
									</mml:mrow>
								</mml:msub>
								<mml:mrow>
									<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
									<mml:msub>
										<mml:mi>x</mml:mi>
										<mml:mrow>
											<mml:mi>t</mml:mi>
										</mml:mrow>
									</mml:msub>
									<mml:mo>,</mml:mo>
									<mml:mi>t</mml:mi>
									<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
								</mml:mrow>
								<mml:mo stretchy="true" fence="true" form="postfix">‖</mml:mo>
							</mml:mrow>
							<mml:mrow>
								<mml:mn>2</mml:mn>
							</mml:mrow>
						</mml:msup>
						<mml:mo stretchy="true" fence="true" form="postfix">]</mml:mo>
					</mml:mrow>
				</mml:mrow>
			</mml:math>
			<p>где ϵ — гауссовский шум, добавленный на шаге t, а ϵθMissing Mark : sub — модель, обучающаяся его предсказывать.</p>
			<p>7. Основные
результаты</p>
			<p>В среде Python с использованием библиотек librosa, torchaudio и matplotlib было проведено моделирование двух методов, результаты которого показаны на рисунках ниже. На рисунке 1 представлено сравнение временных характеристик исходного, зашумленного и восстановленных аудиосигналов: </p>
			<p>а) фрагмент исходного сигнала;</p>
			<p>б) зашумленный сигнал (SNR = -10 дБ);</p>
			<p>в) результат восстановления с использованием трансформерной модели (SNR = 7,3 дБ);</p>
			<p>г) результат восстановления с использованием диффузионной модели (SNR = -1,1 дБ). </p>
			<p>Параметры обработки: частота дискретизации 16 кГц, длительность фрагмента 70 мс.</p>
			<p>Рисунок 2. Сравнение спектральных характеристик сигналов из рисунка 1: </p>
			<p>а) амплитудный спектр исходного сигнала;</p>
			<p>б) спектр зашумленного сигнала;</p>
			<p>в) спектр после обработки трансформерной моделью;</p>
			<p>г) спектр после обработки диффузионной моделью. </p>
			<p>Трансформерная модель демонстрирует лучшее восстановление высокочастотных компонентов (4-8 кГц), критичных для понятия речи.</p>
			<p>Рисунок 3. Динамика процесса диффузии по шагам: </p>
			<p>а) 20 шагов (SNR = -7,0 дБ);</p>
			<p>б) 50 шагов (SNR = -2,5 дБ);</p>
			<p>в) 80 шагов (SNR = 2,0 дБ);</p>
			<p>г) 100 шагов (SNR = 5,0 дБ). </p>
			<p>Время обработки одной секунды аудио: [1.2, 3.1, 4.8, 5.8] с соответственно. Сравнение производительности моделей: </p>
			<p>а) отношение сигнал/шум (SNR) для различных уровней входного шума (-15, -10, -5, 0 дБ); </p>
			<p>б) время обработки одной секунды аудио на тестовом оборудовании. </p>
			<fig id="F1">
				<label>Figure 1</label>
				<caption>
					<p>Основное сравнение обработки сигналов</p>
				</caption>
				<alt-text>Основное сравнение обработки сигналов</alt-text>
				<graphic ns1:href="/media/images/2026-03-13/3f82ae4e-b062-4073-863f-e6a0b6f7ebdf.png"/>
			</fig>
			<fig id="F2">
				<label>Figure 2</label>
				<caption>
					<p>Сравнение спектральных характеристик</p>
				</caption>
				<alt-text>Сравнение спектральных характеристик</alt-text>
				<graphic ns1:href="/media/images/2026-03-13/f6d6712d-959b-4382-92d6-0fcef4ff5f56.png"/>
			</fig>
			<fig id="F3">
				<label>Figure 3</label>
				<caption>
					<p>Процесс диффузии по шагам</p>
				</caption>
				<alt-text>Процесс диффузии по шагам</alt-text>
				<graphic ns1:href="/media/images/2026-03-13/9af71646-c69a-4d13-9ce8-369dd0929a12.png"/>
			</fig>
			<fig id="F4">
				<label>Figure 4</label>
				<caption>
					<p>Сравнение производительности</p>
				</caption>
				<alt-text>Сравнение производительности</alt-text>
				<graphic ns1:href="/media/images/2026-03-13/47160ea5-cc51-47e6-a0dc-4a6ab139aa27.png"/>
			</fig>
			<p>Трансформерная модель обеспечивает статистически значимое преимущество по SNR и времени обработки.Моделирование проводилось на аудиоданных длительностью 10 секунд с частотой дискретизации 16 кГц. Уровень исходного шума составлял -10 дБ. Архитектура трансформера включала 6 слоев внимания, диффузионная модель использовала 100 шагов обратного процесса.</p>
			<p>8. Обсуждение</p>
			<p>Проведенный сравнительный анализ позволяет выявить четкие компромиссы между двумя классами моделей.</p>
			<p>Качество восстановления и объективные метрики. Модели на основе трансформеров продемонстрировали значительное преимущество в объективной точности реконструкции сигнала. Как видно из рисунка 4, улучшение отношения сигнал-шум (SNR) для модели трансформера составило +7 дБ, в то время как для диффузионной модели наблюдалось ухудшение на -1 дБ. Это указывает на то, что трансформеры более эффективно решают прямую задачу восстановления недостающих или искаженных сегментов аудиопотока, минимизируя среднеквадратичную ошибку относительно эталона.</p>
			<p>Вычислительная эффективность. Наиболее контрастное различие наблюдается в скорости работы. Относительное время обработки для архитектуры трансформера составило 0.2 (условных единиц), тогда как для диффузионной модели этот показатель достиг 5.8. Такая разница (превышение в 29 раз) напрямую связана с итеративной природой диффузионных моделей, требующих десятков или сотен последовательных шагов денойзинга для генерации одной выборки. Это делает трансформеры предпочтительным выбором для приложений, работающих в реальном времени или с большими объемами данных.</p>
			<p>Полученные данные свидетельствуют о том, что модели на основе трансформеров превосходят диффузионные модели по совокупности ключевых параметров: объективному качеству восстановления (ОСШ), перцептивному качеству, эффективности распознавания и, что особенно важно, вычислительной эффективности.</p>
			<p>9. Заключение</p>
			<p>Проведенное исследование демонстрирует значительное преимущество трансформерных архитектур перед диффузионными моделями в задаче восстановления аудиопотоков при умеренном уровне искажений. По всем ключевым критериям — объективному качеству восстановления (SNR), относительной скорости обработки (выигрыш до 29 раз) и воспринимаемому качеству — модели на основе механизма внимания показали отличный результат. Основной ограничивающий фактор диффузионных моделей — их итеративная природа, ведущая к высоким вычислительным затратам, что критично для приложений реального времени. Однако, как показывают работы [3], [4], [5], генеративная сила диффузионных моделей может быть востребована в сценариях со сложными, нестационарными шумами или при необходимости генерации протяженных пропусков, где способность к «галлюцинации» правдоподобного контента становится преимуществом. В качестве перспективного направления, позволяющего нивелировать недостатки обоих подходов, рассматривается гибридизация, например, использование быстрых трансформерных блоков в качестве денойзеров внутри сжатых по времени диффузионных схем.</p>
		</sec>
		<sec sec-type="supplementary-material">
			<title>Additional File</title>
			<p>The additional file for this article can be found as follows:</p>
			<supplementary-material xmlns:xlink="http://www.w3.org/1999/xlink" id="S1" xlink:href="https://doi.org/10.5334/cpsy.78.s1">
				<!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/23003.docx">23003.docx</inline-supplementary-material>]-->
				<!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/23003.pdf">23003.pdf</inline-supplementary-material>]-->
				<label>Online Supplementary Material</label>
				<caption>
					<p>
						Further description of analytic pipeline and patient demographic information. DOI:
						<italic>
							<uri>https://doi.org/10.60797/IRJ.2026.165.10</uri>
						</italic>
					</p>
				</caption>
			</supplementary-material>
		</sec>
	</body>
	<back>
		<ack>
			<title>Acknowledgements</title>
			<p/>
		</ack>
		<sec>
			<title>Competing Interests</title>
			<p/>
		</sec>
		<ref-list>
			<ref id="B1">
				<label>1</label>
				<mixed-citation publication-type="confproc">Юмашева Ю.Ю. Цифровая трансформация аудиовизуальных архивов. Аудиовизуальные архивы онлайн / Ю.Ю. Юмашева. — ДиректМедиа, 2020.</mixed-citation>
			</ref>
			<ref id="B2">
				<label>2</label>
				<mixed-citation publication-type="confproc">Мащенко Н.Е. Технологии искусственного интеллекта при формировании архивной среды: проблемы и перспективы / Н.Е. Мащенко, Е.В. Гайдарь // Историческая информатика. — 2025. — № 1. — С. 162–173.</mixed-citation>
			</ref>
			<ref id="B3">
				<label>3</label>
				<mixed-citation publication-type="confproc">Grassucci E. Diffusion models for audio semantic communication / E. Grassucci [et al.] // ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). — IEEE, 2024. — P. 13136–13140.</mixed-citation>
			</ref>
			<ref id="B4">
				<label>4</label>
				<mixed-citation publication-type="confproc">Lemercier J.M. Diffusion models for audio restoration / J.M. Lemercier [et al.] //arXiv preprint arXiv:2402.09821. — 2024.</mixed-citation>
			</ref>
			<ref id="B5">
				<label>5</label>
				<mixed-citation publication-type="confproc">Moliner E. A diffusion-based generative equalizer for music restoration / E. Moliner [et al.] // arXiv preprint arXiv:2403.18636. — 2024.</mixed-citation>
			</ref>
			<ref id="B6">
				<label>6</label>
				<mixed-citation publication-type="confproc">Moliner Juanpere E. Unsupervised audio enhancement with diffusion-based generative models / E. Moliner Juanpere. — 2025.</mixed-citation>
			</ref>
			<ref id="B7">
				<label>7</label>
				<mixed-citation publication-type="confproc">Lee Y.H. Audio-visual speech recognition based on dual cross-modality attentions with the transformer model / Y.H. Lee [et al.] // Applied Sciences. — 2020. — Vol. 10. — № 20. — P. 7263.</mixed-citation>
			</ref>
			<ref id="B8">
				<label>8</label>
				<mixed-citation publication-type="confproc">Che N. AFT-SAM: Adaptive Fusion Transformer with a Sparse Attention Mechanism for Audio-Visual Speech Recognition / N. Che [et al.] // Applied Sciences. — 2024. — Vol. 15. — № 1. — P. 199.</mixed-citation>
			</ref>
			<ref id="B9">
				<label>9</label>
				<mixed-citation publication-type="confproc">Parisae V. Adaptive attention mechanism for single channel speech enhancement / V. Parisae, S.N. Bhavanam // Multimedia Tools and Applications. — 2025. — Vol. 84. — № 2. — P. 831–856.</mixed-citation>
			</ref>
			<ref id="B10">
				<label>10</label>
				<mixed-citation publication-type="confproc">Verma P. Audio transformers: Transformer architectures for large scale audio understanding. adieu convolutions / P. Verma, J. Berger // arXiv preprint arXiv:2105.00335. — 2021. — Vol. 2. — № 3.</mixed-citation>
			</ref>
			<ref id="B11">
				<label>11</label>
				<mixed-citation publication-type="confproc">Fu P. LAS-transformer: An enhanced transformer based on the local attention mechanism for speech recognition / P. Fu, D. Liu, H. Yang // Information. — 2022. — Vol. 13. — № 5. — P. 250.</mixed-citation>
			</ref>
		</ref-list>
	</back>
	<fundings/>
</article>