ПРИМЕНЕНИЕ ПРЕОБРАЗОВАНИЯ ГИЛЬБЕРТА-ХУАНГА В ЗАДАЧЕ ВЫДЕЛЕНИЯ ИНФОРМАТИВНЫХ ПРИЗНАКОВ РЕЧЕВЫХ СИГНАЛОВ
Алимурадов А. К.1, Тычков А. Ю.2
1Соискатель ученой степени кандидата технических наук; 2кандидат технических наук, доцент, Пензенский государственный университет
ПРИМЕНЕНИЕ ПРЕОБРАЗОВАНИЯ ГИЛЬБЕРТА-ХУАНГА В ЗАДАЧЕ ВЫДЕЛЕНИЯ ИНФОРМАТИВНЫХ ПРИЗНАКОВ РЕЧЕВЫХ СИГНАЛОВ
Аннотация
В статье рассматривается вариант решения задачи выделения информативных признаков речевых сигналов с помощью преобразования Гильберта-Хуанга. Представлен процесс обработки речевых сигналов. Рассмотрен алгоритм преобразования Гильберта-Хуанга, включающий декомпозицию на эмпирические моды.
Ключевые слова: распознавание речи, информативные признаки речевых сигналов, преобразование Гильберта-Хуанга.
Alimuradov A. K., Tychkov A. Yu.
1Applicant degree of candidate of technical sciences, 2PhD, associate professor, Penza state university
APPLICATION THE HILBERT HUANG IN THE PROBLEM OF INFORMATIVE FEATURES SPEECH SIGNALS
Abstract
The article considers the variant of the solution selection of informative speech signals using the Hilbert-Huang transform. Transmitted speech signals processing. The algorithm of the Hilbert-Huang transform, which includes on empirical mode decomposition.
Keywords: speech recognition, informative features of speech signals, the Hilbert-Huang transform.
В настоящее время даже, несмотря на бурное развитие вычислительной техники, задача распознавания речи по-прежнему не может считаться полностью решенной. Актуальность этой задачи со временем только увеличивается.
Основной задачей распознавания является выделение информативных признаков. Большинство методов распознавания использует в качестве информативных признаков спектральные характеристики сигнала [1]. В данной статье рассматривается подход к решению задачи выделения информативных признаков, использующий появившиеся относительно недавно метод, основанный на преобразовании Гильберта-Хуанга и декомпозиции на эмпирические моды.
Стандартный процесс обработки речевых сигналов, предназначенный для выделения информативных признаков, для их последующего распознавания, приведен на рисунке 1.
Рис. 1. Процесс обработки речевых сигналов
Как видно из рисунка процесс обработки включает в себя следующие этапы: регистрация, фильтрация, сегментация и выделение информативных признаков. Остановимся подробно на этапе выделения информативных признаков, так как данный этап является наиболее важным в процессе обработки речевых сигналов.
Как отмечалось ранее для решения задачи распознавания необходимо выделить первичные информативные признаки речи, которые определяются посредством анализа спектральных характеристик речевого сигнала. К таким анализам относятся мультиразрешающий и мультиполосный, выполняемые с помощью классического Вейвлет преобразования и быстрого преобразования Фурье [2]. Недостатками этих методов является низкая степень адаптации к локальным изменения сигнала и сложность реализации математического аппарата (выбор оптимальной базисной функции, ширины скользящего окна и т.д.).
Проведенный анализ существующих методов показал перспективность использование нового подхода на основе преобразования Гильберта-Хуанга, включающего декомпозицию на эмпирические моды (ДЭМ) [3]. Применение аппарата ДЭМ в обработке речевых сигналов получило весьма широкое распространение [4]. Основным преимуществом ДЭМ является высокая адаптивность, проявляющаяся в том, что базисные функции, используемые при разложении, извлекаются непосредственно из самого исходного сигнала и позволяет учитывать только ему свойственные особенности и сложную внутреннюю структуру. Алгоритм работы аппарата ДЭМ приведен на рисунке 2. Полученные эмпирические моды позволяют выполнять эффективное для дальнейшего анализа преобразование Гильберта-Хуанга. В результате декомпозиции сигнал представляется в частотно-временной области, что позволяет выявлять скрытые модуляции и области концентрации энергии.
Аппарат ДЭМ позволяет выделить из речевого сигнала: компенсирующие, шумовые и информативные эмпирические моды [5]. Компенсирующие эмпирические моды – это результат несовершенства самого алгоритма, они являются причиной избыточности разложения, искажающей его истинную картину. Шумовые эмпирические моды в разложении объясняется наличием в исходном речевом сигнале шума. Информативные эмпирические моды, имеют четкий физический смысл и отражают внутреннюю структуру самого речевого сигнала.
Рис. 2. Алгоритм ДЭМ
Выделяя из полученных эмпирических мод информативные моды и проделывая над ними дальнейшее преобразование Фурье можно определить спектральные характеристики, позволяющие получить отчетливое представление о внутренней структуре речевого сигнала [6].
Список литературы
Алимурадов А.К. Выбор оптимального набора информативных параметров речевых сигналов для систем голосового управления / А.К. Алимурадов, П.П. Чураков, А.Ю. Тычков // Измерение. Мониторинг. Управление. Контроль. – 2013. – № 1 (3). С. 16 – 20.
Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов / Пер. с англ. М.: Радио и связь, 1981. – 496 с.
Wu Z., Huang N.E. Ensemble empirical mode decomposition a noise-assisted data analysis method, Calverton, MD 20705, USA, NASA Goddard Space Flight Center Greenbelt.
Gaston S., Maria Eugenia T., Hugo L. R. A new algorithm for instantaneous f0 speech extraction based on ensemble empirical mode decomposition, 17th European Signal Processing Conference (EUSIPCO 2009), Glasgow, Scotland, August 24-28, 2009. 2347 – 2351.
Алимурадов А.К. Фильтрация речевых сигналов с использованием метода множественной декомпозиции и оценки энергии эмпирических мод / А.К. Алимурадов, П.П. Чураков, А.Ю. Тычков // Известия высших учебных заведений. Поволжский регион. Технические науки. – 2012. – № 4. С. 50 – 61.
Алимурадов А.К. Определение частоты основного тона речевого сигнала с использованием метода множественной декомпозиции на эмпирические моды / А.К. Алимурадов, П.П. Чураков, А.Ю. Тычков // Модели, системы, сети в экономике, технике, природе и обществе: 2012. № 1 (2). С. 121 – 126.