HTML-content

2303-9868

2227-6017

Международный научно-исследовательский журнал

2303-9868

ООО Цифра

10.60797/IRJ.2026.165.10

Brief communication

Перцептивное качество и эффективность генеративных архитектур: сравнительный анализ диффузионных моделей и трансформеров для восстановления аудиопотоков

https://elibrary.ru/author_profile.asp?id=1236383

Кирпичев

Денис Сергеевич

kirpichev.1999@mail.ru 1

https://elibrary.ru/author_profile.asp?id=902109

Маркин

Евгений Игоревич

evgeniymarkin1@gmai.com 1

1 Пензенский государственный технологический университет

17 03 2026

2026

8 165 1 8 22 12 2025 11 02 2026

2022

This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International License (CC-BY 4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. See http://creativecommons.org/licenses/by/4.0/ .

В работе представлен сравнительный анализ двух современных классов генеративных моделей — диффузионных моделей и архитектур-трансформеров — в задаче восстановления зашумленных аудиопотоков. Целью исследования являлась оценка моделей по комплексу критериев: перцептивное качество звука, эффективность распознавания, вычислительная эффективность и объективная точность восстановления сигнала. Для сравнения использовалось математическое моделирование в среде Python с применением библиотек librosa и torchaudio. Результаты экспериментов на аудиоданных с частотой дискретизации 16 кГц показали статистически значимое преимущество трансформерных моделей. Было зафиксировано улучшение отношения сигнал/шум (SNR) до +7.3 дБ против -1.1 дБ у диффузионной модели при исходном уровне шума -10 дБ. Кроме того, время обработки трансформерной архитектурой оказалось примерно в 29 раз ниже, что делает её предпочтительным выбором для систем реального времени. Полученные данные указывают на высокую эффективность трансформеров в задачах денойзинга и восстановления аудиосигналов.

обработка аудио диффузионные модели трансформерные модели внимание. механизм качество аудио время обработки

HTML-content

1. Введение

В эпоху цифровой трансформации все большее значение приобретает аудиоинформация, которая выражает человеческие знания как средство общения между людьми, а также является одним из видов сохранения и архивации информации из прошлого в настоящее время. Однако акустические материалы сталкиваются с серьезными проблемами, такими как естественное повреждение с течением времени, а также искажения, вызванные ограничениями устаревших технологий, или потеря деталей из-за неидеальных условий хранения

[1]

В области обработки и восстановления аудиосигнала были разработаны качественные технологии и методы искусственного интеллекта. Все эти инструменты значительно расширили возможности цифровой реставрации и обслуживания. Кроме того, они превзошли ограничения традиционных фильтров с ограниченной эффективностью, они способны

«»[2]

Таким образом, актуальность задач аудиовосстановления и быстрый прогресс в области генеративного ИИ обуславливают необходимость системного сравнения новых подходов. Целью данного исследования является сравнительный анализ диффузионных моделей и трансформерных архитектур в контексте восстановления аудиопотоков по комплексу критериев: перцептивное качество, эффективность распознавания, вычислительная эффективность и точность восстановления. Научная новизна работы заключается в проведенном эксперименте, который количественно оценивает компромиссы между этими двумя перспективными парадигмами на конкретной задаче денойзинга речи.

2. Методы и принципы исследования

Модели диффузии представляют собой класс глубоких генеративных моделей, которые изучают распределение сложных данных (таких как чистый аудиосигнал), имитируя физический процесс постепенного добавления шума к исходным данным до тех пор, пока они не превратятся в случайный гауссовский шум, а затем обучаясь обратному процессу для их восстановления из шума. Данный процесс включает два основных этапа

[3][4][5][6]

2.1. Прямой процесс (процесс зашумления)

Этот процесс является марковским. На каждом дискретном временном шаге к данным добавляется небольшой гауссовский шум, что в итоге преобразует исходные данные в чистый гауссовский шум. Переход на одном шаге может быть представлен соотношением [LATEX_FORMULA]x_{N} \sim \mathcal{N}(0, I)[/LATEX_FORMULA]

q ( x n ∣ x n − 1 ) = 𝒩 ( x n ; 1 − β n x n − 1 , β n I )

Где

d x t = f ( x t , t ) d t + g ( t ) d w t

Где:

Данный процесс направлен на удаление шума для реконструкции исходных данных. Для этого обучается параметрическая модель (нейронная сеть)

∇ x t log p t ( x t ) d x t = [ f ( x t , t ) − g ( t ) 2 ∇ x t log p t ( x t ) ] d t + g ( t ) d w ¯ t

Где

w ¯ t ∇ x t log p t ( x t ) s θ ( x t , t )

min θ 𝔼 t , x 0 , x t [ λ ( t ) ‖ s θ ( x t , t ) − ∇ x t log q ( x t ∣ x 0 ) ‖ 2 2 ]

Где

3. Критерии оценки диффузионных моделей при восстановлении звука

Данные критерии показывают, насколько близок восстановленный аудиосигнал к чистому естественному аудиосигналу с точки зрения человеческого восприятия. Поскольку восстановление часто включает «галлюцинацию» (hallucination) утраченного контента, перцептивная адекватность важнее абсолютной математической точности.

Методы измерения:

Субъективная оценка:

· Слуховые тесты: например, тест на сравнение дубликатов (ABX) или оценка среднего мнения (Mean Opinion Score, MOS), в ходе которых люди-слушатели оценивают качество аудиообразцов.

· Попарное сравнение (Pairwise Preference): слушатели выбирают, какой из двух представленных аудиообразцов им нравится больше.

· Недостатки: высокая стоимость, трудоемкость, сложность стандартизации.

Объективные показатели: Фреше аудио расстояние (Fréchet Audio Distance, FAD): широко распространенная безреференсная метрика. Она вычисляет расстояние между статистиками эмбеддингов восстановленного аудио и эмбеддингами эталонного набора высококачественного аудио (например, полученных с помощью моделей VGGish или CLAP). Чем ниже значение FAD, тем выше перцептивное качество. Главное преимущество: для сравнения не требуется исходный чистый сигнал (референс), что критично для реальных задач.

Расстояние по долговременному усредненному спектру (Long-Term Average Spectrum Distance, LTAS): сравнивает усредненный спектр мощности восстановленного аудиосигнала с эталонным спектром. Позволяет оценить коррекцию спектральных искажений (окрашивания) и восстановление полосы пропускания. Недостаток: измеряет только усредненные характеристики и игнорирует временну́ю динамику.

Поскольку для генерации одной выборки в диффузионных моделях требуется множество итераций (шагов обратной диффузии), скорость вывода является серьезной проблемой.

Факторы влияния:

1 Количество шагов обратного процесса (N): большее число шагов обычно означает более высокое качество, но пропорционально увеличивает время генерации.

2 Порядок решателя СДУ: решатель (интегратор) более высокого порядка (например, второго) обеспечивает более высокую точность на каждом шаге, но требует большего количества вычислений функции оценки (score function) на шаг.

3 Сложность модели-оценщика: размер и архитектура нейронной сети

4 Методы ускорения:

· Постепенная дистилляция: обучение «ученической» модели, требующей меньшего числа шагов, чем исходная «учительская» модель.

· Неявные модели (DDIM): позволяют осуществлять нестохастическое семплирование, «перескакивая» через некоторые шаги процесса.

· Модели латентной диффузии: работают в сжатом пространстве признаков (например, полученном с помощью вариационного автоэнкодера — VAE), а не в пространстве исходного аудиосигнала, что значительно снижает размерность данных и объем вычислений.

· «Теплый старт» (Warm start): инициализация обратного процесса зашумленным входным сигналом, а не случайным шумом, что сокращает «расстояние» до целевого распределения.

Измерение: Вычислительная эффективность обычно измеряется либо временем обработки аудио (например, секунд сгенерированного аудио в реальную секунду — RTF) на конкретном оборудовании (например, GPU), либо количеством операций с плавающей запятой (FLOPs), необходимых для обработки одной секунды аудиосигнала

Этот критерий оценивает объективную точность восстановления недостающих частей или устранения искажений по сравнению с известной эталонной версией (ground truth)

Методы измерения:

1- Референсные метрики (требуют исходного чистого сигнала

· Отношение сигнал/шум (Signal-to-Noise Ratio, SNR):

S N R = 10 log 10 ( ‖ x 0 ‖ 2 2 ‖ x 0 − x ^ 0 ‖ 2 2 ) d B

где

· Частотно-взвешенное отношение сигнал/шум (Frequency-Weighted SNR).

· Отношение сигнал к помехам (Signal-to-Distortion Ratio, SDR): распространенная метрика в задачах разделения источников и усиления аудио.

· Кратковременная потеря спектральной фазы (Short-Time Spectral Phase Loss).

1- Результаты решения конкретных обратных задач:

· Расширение полосы пропускания: точность восстановления потерянных высоких частот.

· Интерполяция (Inpainting): точность восстановления удаленных временны́х сегментов.

· Устранение реверберации (Dereverberation): степень подавления эффектов эха при сохранении качества звучания.

· Разделение источников: чистота извлеченного целевого источника.

Между этими критериями оценки существует естественный компромисс:

· Перцептивное качество vs. Эффективность восстановления: достижение высокого перцептивного качества часто требует более сложных моделей и большого числа (медленных) шагов, что может снижать объективные референсные метрики (например, SNR) из-за усиления «галлюцинаций».

· Эффективность vs. Качество: модели, агрессивно генерирующие новый контент, могут улучшать перцептивные оценки, но отклоняться от эталонного сигнала.

Сложность оценки в слепых задачах: в задачах слепого восстановления (где оператор искажения A неизвестен) оценка усложняется из-за отсутствия точного эталона. В таких условиях перцептивные метрики (например, FAD) и субъективная человеческая оценка приобретают ключевое значение.

4. Модели трансформеров и механизмы внимания в обработке аудиовизуальных последовательностей

Трансформеры — это класс нейронных сетей, основанных на механизме внимания (attention mechanism) и предназначенных для обработки последовательностей данных. В отличие от традиционных рекуррентных архитектур (RNN, LSTM), трансформеры не используют скрытые состояния для учета контекста, что позволяет эффективно распараллеливать вычисления и обрабатывать длинные зависимости. Первоначально предложенные для задач машинного перевода, эти модели нашли широкое применение в областях обработки естественного языка, распознавания речи, а также в аудиовизуальном анализе

[7][8][9][11]

Механизм внимания (Self-Attention). Ядром архитектуры трансформера является механизм внимания, который вычисляет взвешенную сумму значений (Value) для каждого элемента последовательности, где веса определяются его совместимостью (compatibility) со всеми элементами (ключами — Key) на основе запроса (Query). Базовая формула скалярного произведения внимания (Scaled Dot-Product Attention) имеет вид:

Attention ( Q , K , V ) = softmax ( Q K T d k ) V

Где:

Многоголовочное внимание (Multi-Head Attention). Для повышения выразительности модели используется многоголовое внимание, которое позволяет совместно обрабатывать информацию из разных подпространств представлений:

MultiHead ( Q , K , V ) = Concat ( head 1 , … , head h ) W o head i = Attention ( Q W i Q , K W i K , V W i V )

где

Специализированные механизмы внимания для аудиовизуальных данных. Для эффективной обработки длинных мультимодальных последовательностей (например, аудио и видео) применяются модифицированные механизмы внимания.

Разреженное (спарс) внимание (Sparse Attention): Снижает квадратичную вычислительную сложность

M i , j = { 0 | i − j | ≤ s f − ∞ therwise M S = S + M , A W = softmax ( M S )

Адаптивное внимание (Adaptive Attention): Динамически регулирует вклад различных модальностей или признаков на основе контекста. Например, в моделях аудиовизуального распознавания речи (AVSR) веса

β = softmax ( [ F F N a ( h a ) , F F N v ( h v ) ] ) F = β a * F a + β v * F v

где FFN — полносвязный слой, а

Двойное перекрёстно-модальное внимание (Dual Cross-Modality Attention): Позволяет моделям AVSR эффективно интегрировать информацию из обеих модальностей, выполняя внимание в двух направлениях:

A V = Attention ( h a , h v , h v ) V A = Attention ( h v , h a , h a )

Где

5. Критерии оценки аудиовизуальных моделей

Оценивает субъективное восприятие качества восстановленного или сгенерированного аудиосигнала.

PESQ (Perceptual Evaluation of Speech Quality): Стандартизированный ITU-T алгоритм (P.862), оценивающий качество речи по шкале от -0,5 до 4,5.

STOI (Short-Time Objective Intelligibility): Объективная метрика (от 0 до 1), предсказывающая разборчивость речи.

Специализированные MOS-метрики (Mean Opinion Score): Часто используют выделенные компоненты: CSIG: Оценка качества сигнала (от 1 до 5). CBAK: Оценка уровня фоновых шумов/артефактов (от 1 до 5). COVL: Общая оценка качества (от 1 до 5).

5.2. Эффективность распознавания (Recognition Performance)

Ключевая метрика для задач распознавания речи (ASR, AVSR). Word Error Rate (WER, %):

W E R = S + D + I N × 100 %

Где где

Критична для развертывания моделей в реальных системах. Измеряется по:

Объем вычислений: Количество операций умножения-сложения (MACs или FLOPs).

Размер модели: Количество обучаемых параметров (parameters).

Скорость работы: Время вывода (inference time) на целевом устройстве.

Использование памяти: Пиковое потребление оперативной и видеопамяти (GPU memory usage).

Оценивает объективную точность восстановления аудиосигнала. Измеряется по:

- Spectral Error (Log-Spectral Distance): Среднеквадратичная ошибка в логарифмической спектральной области.

- Signal-to-Noise Ratio (SNR, дБ):

S N R = 10 log 10 P s P n

- Где

- Time-Frequency Similarity: Метрики, учитывающие одновременное сходство во временной и спектральной областях (например, SI-SDR).

6. Диффузионные модели в обработке звука

Данный марковский процесс постепенно добавляет гауссовский шум к исходному аудиосигналу

q ( x n ∣ x n − 1 ) = 𝒩 ( x n ; 1 − β n x n − 1 , β n I )

Где

Генерация осуществляется путем итеративного удаления шума обученной нейронной сетью. Обратное распределение аппроксимируется как:

p θ ( x t − 1 ∣ x t ) = 𝒩 ( x t − 1 ; μ θ ( x t , t ) , Σ θ ( x t , t ) )

где

Наиболее распространенный вариант — обучение предсказанию шума (noise prediction) или оценки (score):

L ( θ ) = 𝔼 t , x 0 , ϵ [ ‖ ϵ − ϵ θ ( x t , t ) ‖ 2 ]

где ϵ — гауссовский шум, добавленный на шаге t, а ϵθMissing Mark : sub — модель, обучающаяся его предсказывать.

7. Основные результаты

В среде Python с использованием библиотек librosa, torchaudio и matplotlib было проведено моделирование двух методов, результаты которого показаны на рисунках ниже. На рисунке 1 представлено сравнение временных характеристик исходного, зашумленного и восстановленных аудиосигналов:

а) фрагмент исходного сигнала;

б) зашумленный сигнал (SNR = -10 дБ);

в) результат восстановления с использованием трансформерной модели (SNR = 7,3 дБ);

г) результат восстановления с использованием диффузионной модели (SNR = -1,1 дБ).

Параметры обработки: частота дискретизации 16 кГц, длительность фрагмента 70 мс.

Рисунок 2. Сравнение спектральных характеристик сигналов из рисунка 1:

а) амплитудный спектр исходного сигнала;

б) спектр зашумленного сигнала;

в) спектр после обработки трансформерной моделью;

г) спектр после обработки диффузионной моделью.

Трансформерная модель демонстрирует лучшее восстановление высокочастотных компонентов (4-8 кГц), критичных для понятия речи.

Рисунок 3. Динамика процесса диффузии по шагам:

а) 20 шагов (SNR = -7,0 дБ);

б) 50 шагов (SNR = -2,5 дБ);

в) 80 шагов (SNR = 2,0 дБ);

г) 100 шагов (SNR = 5,0 дБ).

Время обработки одной секунды аудио: [1.2, 3.1, 4.8, 5.8] с соответственно. Сравнение производительности моделей:

а) отношение сигнал/шум (SNR) для различных уровней входного шума (-15, -10, -5, 0 дБ);

б) время обработки одной секунды аудио на тестовом оборудовании.

Figure 1

Основное сравнение обработки сигналов

Figure 2

Сравнение спектральных характеристик

Figure 3

Процесс диффузии по шагам

Figure 4

Сравнение производительности

Трансформерная модель обеспечивает статистически значимое преимущество по SNR и времени обработки.Моделирование проводилось на аудиоданных длительностью 10 секунд с частотой дискретизации 16 кГц. Уровень исходного шума составлял -10 дБ. Архитектура трансформера включала 6 слоев внимания, диффузионная модель использовала 100 шагов обратного процесса.

8. Обсуждение

Проведенный сравнительный анализ позволяет выявить четкие компромиссы между двумя классами моделей.

Качество восстановления и объективные метрики. Модели на основе трансформеров продемонстрировали значительное преимущество в объективной точности реконструкции сигнала. Как видно из рисунка 4, улучшение отношения сигнал-шум (SNR) для модели трансформера составило +7 дБ, в то время как для диффузионной модели наблюдалось ухудшение на -1 дБ. Это указывает на то, что трансформеры более эффективно решают прямую задачу восстановления недостающих или искаженных сегментов аудиопотока, минимизируя среднеквадратичную ошибку относительно эталона.

Вычислительная эффективность. Наиболее контрастное различие наблюдается в скорости работы. Относительное время обработки для архитектуры трансформера составило 0.2 (условных единиц), тогда как для диффузионной модели этот показатель достиг 5.8. Такая разница (превышение в 29 раз) напрямую связана с итеративной природой диффузионных моделей, требующих десятков или сотен последовательных шагов денойзинга для генерации одной выборки. Это делает трансформеры предпочтительным выбором для приложений, работающих в реальном времени или с большими объемами данных.

Полученные данные свидетельствуют о том, что модели на основе трансформеров превосходят диффузионные модели по совокупности ключевых параметров: объективному качеству восстановления (ОСШ), перцептивному качеству, эффективности распознавания и, что особенно важно, вычислительной эффективности.

9. Заключение

Проведенное исследование демонстрирует значительное преимущество трансформерных архитектур перед диффузионными моделями в задаче восстановления аудиопотоков при умеренном уровне искажений. По всем ключевым критериям — объективному качеству восстановления (SNR), относительной скорости обработки (выигрыш до 29 раз) и воспринимаемому качеству — модели на основе механизма внимания показали отличный результат. Основной ограничивающий фактор диффузионных моделей — их итеративная природа, ведущая к высоким вычислительным затратам, что критично для приложений реального времени. Однако, как показывают работы [3], [4], [5], генеративная сила диффузионных моделей может быть востребована в сценариях со сложными, нестационарными шумами или при необходимости генерации протяженных пропусков, где способность к «галлюцинации» правдоподобного контента становится преимуществом. В качестве перспективного направления, позволяющего нивелировать недостатки обоих подходов, рассматривается гибридизация, например, использование быстрых трансформерных блоков в качестве денойзеров внутри сжатых по времени диффузионных схем.

Additional File

The additional file for this article can be found as follows:

Online Supplementary Material

Further description of analytic pipeline and patient demographic information. DOI: https://doi.org/10.60797/IRJ.2026.165.10

Acknowledgements

Competing Interests

1 Юмашева Ю.Ю. Цифровая трансформация аудиовизуальных архивов. Аудиовизуальные архивы онлайн / Ю.Ю. Юмашева. — ДиректМедиа, 2020. 2 Мащенко Н.Е. Технологии искусственного интеллекта при формировании архивной среды: проблемы и перспективы / Н.Е. Мащенко, Е.В. Гайдарь // Историческая информатика. — 2025. — № 1. — С. 162–173. 3 Grassucci E. Diffusion models for audio semantic communication / E. Grassucci [et al.] // ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). — IEEE, 2024. — P. 13136–13140. 4 Lemercier J.M. Diffusion models for audio restoration / J.M. Lemercier [et al.] //arXiv preprint arXiv:2402.09821. — 2024. 5 Moliner E. A diffusion-based generative equalizer for music restoration / E. Moliner [et al.] // arXiv preprint arXiv:2403.18636. — 2024. 6 Moliner Juanpere E. Unsupervised audio enhancement with diffusion-based generative models / E. Moliner Juanpere. — 2025. 7 Lee Y.H. Audio-visual speech recognition based on dual cross-modality attentions with the transformer model / Y.H. Lee [et al.] // Applied Sciences. — 2020. — Vol. 10. — № 20. — P. 7263. 8 Che N. AFT-SAM: Adaptive Fusion Transformer with a Sparse Attention Mechanism for Audio-Visual Speech Recognition / N. Che [et al.] // Applied Sciences. — 2024. — Vol. 15. — № 1. — P. 199. 9 Parisae V. Adaptive attention mechanism for single channel speech enhancement / V. Parisae, S.N. Bhavanam // Multimedia Tools and Applications. — 2025. — Vol. 84. — № 2. — P. 831–856. 10 Verma P. Audio transformers: Transformer architectures for large scale audio understanding. adieu convolutions / P. Verma, J. Berger // arXiv preprint arXiv:2105.00335. — 2021. — Vol. 2. — № 3. 11 Fu P. LAS-transformer: An enhanced transformer based on the local attention mechanism for speech recognition / P. Fu, D. Liu, H. Yang // Information. — 2022. — Vol. 13. — № 5. — P. 250.