Pages Navigation Menu

ISSN 2227-6017 (ONLINE), ISSN 2303-9868 (PRINT), DOI: 10.18454/IRJ.2227-6017
ПИ № ФС 77 - 51217

() Искать в Google Scholar
Цитировать

Цитировать

Электронная ссылка | Печатная ссылка

Скопируйте отформатированную библиографическую ссылку через буфер обмена или перейдите по одной из ссылок для импорта в Менеджер библиографий.
Музычук ИСПОЛЬЗОВАНИЕ ПРЕОБРАЗОВАНИЯ ГИЛЬБЕРТА-ХУАНГА ДЛЯ ФОРМИРОВАНИЯ МОДЕЛЕЙ ФОНЕМ РУССКОГО ЯЗЫКА В ЗАДАЧЕ РАСПОЗНАВАНИЯ РЕЧИ / Музычук, Медведев // Международный научно-исследовательский журнал. — 2013. — №. — С. . — URL: http://research-journal.org/technical/ispolzovanie-preobrazovaniya-gilberta-xuanga-dlya-formirovaniya-modelej-fonem-russkogo-yazyka-v-zadache-raspoznavaniya-rechi/ (дата обращения: 23.05.2017. ).

Импортировать


ИСПОЛЬЗОВАНИЕ ПРЕОБРАЗОВАНИЯ ГИЛЬБЕРТА-ХУАНГА ДЛЯ ФОРМИРОВАНИЯ МОДЕЛЕЙ ФОНЕМ РУССКОГО ЯЗЫКА В ЗАДАЧЕ РАСПОЗНАВАНИЯ РЕЧИ

Музычук Д.С.1,  Медведев М.С.2

1студент 4 курса

2кандидат технических наук, доцент

Сибирский Федеральный Университет

Институт Космических и Информационных Технологий, г. Красноярск

ИСПОЛЬЗОВАНИЕ ПРЕОБРАЗОВАНИЯ ГИЛЬБЕРТА-ХУАНГА ДЛЯ ФОРМИРОВАНИЯ МОДЕЛЕЙ ФОНЕМ РУССКОГО ЯЗЫКА В ЗАДАЧЕ РАСПОЗНАВАНИЯ РЕЧИ 

Аннотация

В статье исследуются возможности использования преобразования Гильберта-Хуанга для создания моделей фонем русского языка в системе преобразования речи в текст. Также производится сравнение предложенного метода с преобразованием Фурье и вейвлет-преобразованием. При проведении вычислительных экспериментов было обнаружено, что наибольшая производительность работы системы преобразования речи в текст достигается при выборе алгоритмов вейвлет-преобразования и Фурье-преобразования. При этом из этих двух алгоритмов наибольшей универсальностью в применении обладает вейвлет-преобразование. Расчеты показали, что метод Гильберта-Хуанга, несмотря на невосприимчивость к шумам и возможность выявления нелинейных изменений в сигнале, в первоначальном виде малопригоден для формирования признаков речевого сигнала (по крайней мере, в рамках нейросетевого подхода), качественно характеризующих его особенности при распознавании речи; для повышения качества его применения проводился смешанный анализ. Наилучшие результаты при распознавании фонем дали нейронные сети, обученные на речевых признаках, рассчитанных с применением вейвлет-преобразования и комбинированного варианта преобразования Гильберта-Хуанга и вейвлет-преобразования.

Ключевые слова: нейросеть, внутренние моды, распознавание фонем,  вейвлет-преобразование

 

Muzychuk D.S.1, Medvedev M.S.2
1Postgraduate student;
2PhD in Technical Sciences

SiberianFederalUniversity

Institute of Space and Information Technologies

USING THE HILBERT HUANG TRANSFORM IN RUSSIAN PHONEME MODEL CONSTRUCTION

Abstract

In this article the using of Hilbert Huang transform for the russian phoneme model is considered.  The proposed method is compared with the Fourier transform and wavelet transform. The results of phoneme recognition using HHT method has allowed low quality despite it’s noise insensitivity. For the extraction of the phoneme descriptive features rather use the hybrid method which combines HHT and wavelet transform

Keywords: neural network, internal modes, phonem recognition, wavelet transform.

        

         Введение

         Конечной целью создания систем распознавания речи является способность машины распознавать слова в акустическом сигнале с эффективностью, не меньшей по сравнению с аналогичной способностью человека. В ходе истории разработок наблюдался значительный прогресс: размер словаря вырос до нескольких миллионов слов, а сами системы эволюционировали от дикторозависимых к дикторонезависимым. Тем не менее, главные проблемы на сегодняшний день не решены. Это связано с вариабельностью речи из-за искажения речевого сигнала фоновым шумом, явлением коартикуляции, а также зависимости речевых характеристик от голоса и интонации.

         Традиционные методы анализа данных предназначены, как правило, для линейных и стационарных сигналов и систем, и только в последние десятилетия начали активно развиваться методы анализа нелинейных, но стационарных и детерминированных систем, и линейных, но нестационарных данных (вейвлетный анализ, распределение Вигнера-Вилля и др.). Между тем, большинство естественных материальных процессов, реальных физических систем и соответствующих им данных в той или иной мере являются нелинейными и нестационарными. При анализе  используются определенные упрощения, особенно в отношении априорно устанавливаемого базиса преобразования данных в новые, удобные для обработки и анализа метрические пространства. В связи с этим актуальность разработки новых устойчивых и универсальных методов формирования речевых признаков очевидна.

         При создании системы преобразования речи  в текст одна из самых важных задач — выбор единицы распознавания. Рассмотрим основные подходы, используемые в системах распознавания речи для формирования речевых признаков — моделей фонем. Наиболее распространенные методы анализа — это преобразование Фурье и вейвлет-анализ.

         Оконное преобразование Фурье

Классическое преобразование Фурье имеет дело со спектром сигнала, взятым во всем диапазоне существования переменной. Нередко интерес представляет только локальное распределение частот, в то время как требуется сохранить изначальную переменную (обычно время).

С позиций точного представления произвольных сигналов и функций, преобразование Фурье имеет ряд недостатков, которые привели к появлению оконного преобразования Фурье и стимулировали развитие вейвлет-преобразования. Отметим основные из них [1]:

— ограниченная информативность анализа нестационарных сигналов и практически полное отсутствие возможностей анализа их особенностей (сингулярностей), т.к. в частотной области происходит «размазывание» особенностей сигналов (разрывов, ступенек, пиков и т.п.) по всему частотному диапазону спектра.

— появление эффекта Гиббса на скачках функций, при усечениях сигналов и при вырезке отрезков сигналов для локального детального анализа;

— гармонический характер базисных функций, определенных в интервале от image002 до image004 .

Неспособность преобразования Фурье осуществлять временную локализацию сингулярностей сигналов может быть частично устранена введением в преобразование так называемой движущейся оконной функции, имеющей компактный носитель. Использование оконной функции позволяет представлять результат преобразования в виде функции двух переменных — частоты и временного положения окна.

Оконное преобразование Фурье имеет следующий вид [1]:

image006                                                                   (1)

Вейвлет-преобразование и его применение в практике обработки сигналов

Вейвлет-преобразование стремительно завоевывает популярность в столь разных областях, как телекоммуникации, компьютерная графика, биология, астрофизика  и медицина. Благодаря хорошей приспособленности к анализу нестационарных сигналов  оно стало мощной альтернативой преобразованию Фурье в ряде медицинских приложений.

Главным элементом в вейвлет анализе является функция-вейвлет. Вообще говоря, вейвлетом является любая функция, отвечающая двум условиям:

1.   Среднее значение (интеграл по всей прямой) равен 0.

2.   Функция быстро убывает при image008.

Обычно,  функция-вейвлет обозначается буквой image010.

В общем случае вейвлет преобразование функции image012 выглядит так [2,3]:

image014                                             (2)

где t – ось времени, a – момент времени, b – параметр, обратный частоте, a (*) – означает комплексно-сопряженное.

Коэффициенты вейвлет-преобразования содержат комбинированную информацию об анализирующем вейвлете и анализируемом сигнале (как и коэффициенты преобразования Фурье, которые содержат информацию о сигнале и о синусоидальной волне). Выбор анализирующего вейвлета, как правило, определяется тем, какую информацию необходимо извлечь из сигнала. Каждый вейвлет имеет характерные особенности во временном и в частотном пространстве, поэтому иногда с помощью разных вейвлетов можно полнее выявить и подчеркнуть те или иные свойства анализируемого сигнала.

Многомасштабный вейвлет-анализ основывается на разложении сигнала по функциям, образующим ортонормированный базис [4,5]. Любую функцию можно разложить на некотором заданном уровне разрешения (масштабе) image022  в ряд вида:

image024,                   (3)

где image026 и image028 — масштабированные и смещенные версии скейлинг-функции (масштабной функции) image030 и «материнского вейвлета» image037;

image033 — коэффициенты аппроксимации;

image035 — детализирующие коэффициенты.

Масштабирование и смещение функций image030 и image037 находится следующим образом:

image039,                                                                  (4)

    image041   .                                                         (5)

         В свою очередь сами функции image043 и image045 определяются так:

image047,                                            (6)

image049,                                            (7)

где

image051.                                                      (8)

ДВП не только раскладывает сигнал на некоторое подобие частотных полос (путем анализа его в различных масштабах), но и представляет временную область, т.е. моменты возникновения тех или иных частот в сигнале. Вместе, эти свойства характеризуют быстрое вейвлет-преобразование — альтернативу обычному быстрому преобразованию Фурье.

Таким образом, вейвлет-преобразование, в отличие от оконного преобразования Фурье, которое имеет постоянный масштаб в любой момент времени для всех частот, имеет лучшее представление времени и худшее представление частоты на низких частотах сигнала, на высоких частотах сигнала — лучшее представление частоты с худшим представлением времени. Введение вейвлет-преобразования дает возможность уменьшить влияние принципа неопределенности Гейзенберга на полученном частотно-временном представлении сигнала. С его помощью низкие частоты имеют более детальное представление относительно времени, а высокие — относительно частоты.

Преобразование Гильберта-Хуанга

      Под преобразованием Гильберта-Хуанга (Hilbert-Huang transform – HHT)  понимается метод эмпирической модовой декомпозиции (EMD) нелинейных и нестационарных процессов и Гильбертов спектральный анализ (HSA) [6]. Этот метод потенциально жизнеспособен для нелинейного и нестационарного анализа данных, специально для частотно-энергетических временных представлений.

      EMD-HSA был предложен Норденом Хуангом в 1995 в США (NASA) для изучения поверхностных волн тайфунов, с обобщением на анализ произвольных временных рядов коллективом соавторов  в 1998 г. [6,7].  В последующие годы, по мере расширения применения алгоритма для других отраслей науки и техники, вместо термина EMD-HSA был принят более короткий термин преобразования HHT.

   EMD (Empirical Mode Decomposition) — метод разложения сигналов на функции, которые получили название внутренних или «эмпирических мод». Метод представляет собой адаптивную итерационную вычислительную процедуру разложения исходных данных (непрерывных или дискретных сигналов) на эмпирические моды или внутренние колебания.

Огибающие сигналов. У каждого сигнала имеются локальные экстремумы: чередующиеся локальные максимумы и локальные минимумы с произвольным расположением по координатам (независимым переменным) сигналов. По этим экстремумам с использованием методов аппроксимации можно построить две огибающие сигналов: нижнюю —  построенную по точкам локальных минимумов, и верхнюю — построенную по точкам локальных максимумов, а также функцию «среднего значения огибающих», которой отвечает срединная линия, расположенная в точности между нижней и верхней огибающими.

Функции внутренних мод сигналов.  Модовая декомпозиция сигналов основана на предположении, что любые данные состоят из различных внутренних колебаний (intrinsic mode functions, IMF). В любой момент времени данные могут иметь множество сосуществующих внутренних колебаний — IMFs. Каждое колебание, линейное или нелинейное, представляет собой модовую функцию, которая имеет экстремумы и нулевые пересечения. Кроме того, колебания в определенной степени «симметричны» относительно локального среднего значения. Конечные сложные данные образуются суммой модовых функций, наложенных на региональный тренд сигнала.

Эмпирическая мода — это такая функция, которая обладает следующими свойствами:

1. Количество экстремумов функции (максимумов и минимумов) и количество пересечений нуля не должны отличаться более чем на единицу.

2. В любой точке функции среднее значение огибающих, определенных локальными максимумами и локальными минимумами, должно быть нулевым.

IMF представляет собой колебательный режим, но вместо постоянной амплитуды и частоты, как в простой гармонике, у IMF могут быть переменная амплитуда и частота, как функции независимой переменной (времени, координаты, и пр.). Первое свойство гарантирует, что локальные максимумы функции всегда положительны, локальные минимумы соответственно отрицательны, а между ними всегда имеют место пересечения нулевой линии. Второе свойство гарантирует, что мгновенные частоты функции не будут иметь нежелательных флуктуаций, являющихся результатом асимметричной формы волны.

Любую функцию и любой произвольный сигнал, изначально содержащие произвольную последовательность локальных экстремумов (минимум 2), можно разделить на семейство функций IMFs и остаточный тренд. Если данные лишены экстремумов, но содержат точки перегиба («скрытые» экстремумы наложения модовых функций и крутых трендов), то для открытия экстремумов может использоваться дифференцирование сигнала.

Схема преобразования Гильберта-Хуанга может быть разделена на две части. В первом шаге, экспериментальные данные разлагаются в ряд внутренних модовых функций (IMFs). Эта декомпозиция рассматривается как расширение данных в терминах внутренних модовых функций. Другими словами, эти внутренние модовые функции представлены как базис преобразования, которое может быть линейным или нелинейным, как диктуется по условиям. Так как IMFs имеют хорошие Гильбертовы преобразования, то могут быть вычислены соответствующие мгновенные частоты. Таким образом, в следующем шаге мы можем локализовать любое явление как во времени, так и на частотной оси. Локальная энергия и мгновенная частота, выведенная из IMFs, дают нам дистрибутивные «энергетические время-частотные» данные, и такое представление, определяемое как Гильбертов спектр.image053

Допустим, что имеется произвольный сигнал  image055. Сущность метода EMD заключается в последовательном вычислении функций эмпирических мод  image057 и остатков image059, где image061 при image063. Результатом разложения будет представление сигнала в виде суммы модовых функций и конечного остатка:

image065,                               (9)

где image067 — количество эмпирических мод, которое устанавливается в ходе вычислений.

Алгоритм эмпирической декомпозиции сигнала складывается из следующих операций его преобразования:

1.  Находим в сигнале image069 положение всех локальных экстремумов, максимумов и минимумов процесса (номера точек image071 экстремумов), и значения  в этих точках (рис. 1). Между этими экстремумами сосредоточена вся информация сигнала. Группируем раздельно для максимумов и для минимумов массивы координат image071 и соответствующих им амплитудных значений image073. Число строк в массивах максимумов и минимумов не должно отличаться более чем на 1.

image077

Рис. 1. Локализация экстремумов в сигнале

2. Применяя сплайны (или каким либо другим методом) вычисляем верхнюю image079 и нижнюю image081 огибающие процесса соответственно, по максимумам и минимумам, как это показано на рис. 2. Определяем функцию средних значений image083 между огибающими (рис. 2).

image085

Рис. 2. Интерполяция экстремумов и построение огибающих

Определяем функцию средних значений image087 между огибающими.

image089                                     (10)

Разность между сигналом image069 и функцией image083 дает нам первую компоненту отсеивания функцию image093, которая является первым приближением к первой функции IMF:

image095                                        (11)

3. Повторяем операции 1 и 2, принимая вместо image069 функцию image093, и находим второе приближение к первой функции IMF – функцию image100.

image102                                          (12)

Последующие итерации выполняются аналогичным образом:

image104                                         (13)

По мере увеличения количества итераций функция image106 стремится к нулевому значению, а функция image108 — к неизменяемой форме.

Последнее значение image108 итераций принимается за наиболее высокочастотную функцию image117 семейства IMF, которая непосредственно входит в состав исходного сигнала image069. Это позволяет вычесть image115 из состава сигнала и оставить в нем более низкочастотные составляющие

image117                                               (14)

На рис. 3 показано графическое представление вычитание из сигнала высокочастотной составляющей, сформированной по алгоритму, заданному (10)-(14).

image119

Рис. 3. Выявление низкочастотных составляющих в сигнале

Следующую внутреннюю модовую функцию найдем, повторив операции 1-3 декомпозиции, описанные выше, с той разницей, что входным сигналом является остаток image121.

Шаги 1-3 могут быть повторены для всех последовательных image123, и результат будет представлять последовательность вычислений:

image125                        (15)

Метод EMD закончен, когда остаток, в идеале, не содержит экстремумов. Это означает, что остаток — или константа или монотонная функция [8]. Извлеченные IMFs симметричны, имеют уникальные локальные частоты, различные IMFs не показывают ту же самую частоту в то же самое время. Другими словами, остановка декомпозиции сигнала должна происходить при максимальном «выпрямлении» остатка, т.е. превращения его в тренд сигнала по интервалу задания с числом экстремумов не более 2-3.

Из недостатков преобразования Гильберта-Хуанга отметим, что эмпирический процесс разложения сигнала в силу своей адаптивности не управляем, по крайней мере, в настоящей форме. Даже монотональные составляющие многокомпонентного сигнала при определенном влиянии дестабилизирующих факторов (шумов, импульсных помех и т.п.) и близких по частоте соседних компонент могут при декомпозиции «перетекать» на отдельных временных интервалах в модовые функции соседних IMF.

Обоснование выбора речевых признаков для обучения нейронной сети

Для успешного обучения нейронной сети необходимо корректным образом задавать параметры элементов обучающей выборки. В таком случае можно обеспечить высокое качество распознавания предъявляемых исходных данных.

В условиях фонемно-ориентированного подхода исходными данными для обучения сети и распознавания сигнала будут являться фонемы. Рассматривая фонему как сигнал во временной области, пользуясь тем или иным алгоритмом интегрального преобразования, можно получить необходимую информацию о его ключевых признаках требуемых для обучения.

Рассмотрим вопрос извлечения информационных признаков фонемы при применении преобразования Фурье. Как отмечается в [9,10], одним из основных подходов к получению признаков, идентифицирующих особенности речи, является ее спектральное представление. Оконное преобразование Фурье позволяет анализировать поведение спектрального состава сигнала во времени. Оно хорошо подходит для анализа гласных фонем, т.к. базисные функции – тригонометрические периодические функции, а гласные звуки представляют собой почти-периодичные сигналы [11]. В исследовании производилось разбиение на сегменты шириной 50-200 Гц. Такой диапазон был выбран экспериментальным путем. Каждый из сегментов отвечал преобразованию Фурье во временной области, взятому с прямоугольным окном. В качестве признаков для нейронной сети выбирался вектор энергий сегментов преобразования Фурье.

При использовании вейвлет-преобразования в качестве признаков, описывающих речевой сигнал, необходимо определить число уровней детализации, соответствующее размеру анализируемого частотного диапазона.  Например, вейвлет image127 Добеши 8 имеет центральную частоту image129 Гц. При частоте дискретизации 22050 отсчетов в секунду, получаем центральную частоту вейвлета, используемого для первого уровня разложения  [12].

image131,         (16)

С каждым следующим уровнем разложения частота вейвлета будет уменьшаться в два раза. Центральная частота вейвлета на десятом уровне разложения будет равна 28,7 Гц. Таким образом, вейвлет коэффициенты для десяти уровней разложения отражают характеристики сигнала в указанном частотном диапазоне речи. Коэффициенты вейвлет-разложения речевого сигнала (фонема «А») на семь уровней показаны на рис. 4.

image133

Рис. 4. Коэффициенты вейвлет-разложения речевого сигнала на семь уровней детализации.

Оценим длину фиксированного интервала во временной области, на котором будут рассчитываться признаки речевого сигнала. Данный интервал должен быть меньше времени звучания фонемы. В русском языке длительности фонем изменяются в пределах 50-250 мс [11]. Значение длины сегмента должно позволять вычислять признаки речевого сигнала. Нижняя граница анализируемого частотного диапазона равна 28,7 Гц, в выделенный сегмент должен укладываться по крайней мере один период данной частотной составляющей, который равен 36 мс. Это значит, что длина сегмента, удовлетворяющая изложенным требованиям, будет равна 36 мс.

Таким образом, число уровней вейвлет-разложения сигнала фонемы зависит от частоты его дискретизации и типа вейвлета. В качестве признаков для обучения нейронной сети также была выбрана энергия вейвлет-разложения на каждом из уровней декомпозиции.

Преобразование Гильберта-Хуанга характерно тем, что в его результате образуется множество эмпирических мод, отражающих нелинейные изменения, происходящие в сигнале (рис. 5). При этом каждая из мод, в свою очередь, является временной функцией. Численные исследования, проведенные в работе показали, что параметры эмпирических мод и их количество претерпевают существенные изменения даже в рамках какой-либо одной фонемы (в пределах выборки). В силу этого обстоятельства в качестве признаков для обучения нейросети выбирались энергии каждой из полученных эмпирических мод. Число входов нейронной сети, осуществляющей работу по распознаванию фонем с применением преобразования Гильберта-Хуанга, бралось равным числу эмпирических мод.  При смешанном анализе к эмпирическим модам применялось вейвлет-преобразование.

Для каждой из фонем число эмпирических мод, предъявляемых в качестве элементов обучающей выборки, подсчитывалось на этапе построения нейросети. В качестве мощности множества входов формируемой нейронной сети бралось максимальное количество эмпирических мод, полученных для всех фонем из словаря обучения. Число выходов нейросети принималось равным количеству распознаваемых речевых единиц.

image135
Рис. 5. Семейство первых шести эмпирических мод речевого сигнала.

         Архитектура разработанного модуля

         Для оценки эффективности описанных методов был разработан программный модуль преобразования русской речи в текст на основе фонемно-ориентированного и нейросетевого подхода. В модуле реализован синтез нейронных сетей (типа многослойный персептрон), обученных на основе различных признаков речевого сигнала, описанных выше. Это дает модулю высокую гибкость при работе с речевыми данными, а конечному пользователю предоставляет широкий выбор удобных для него настроек. Пользовательский интерфейс приложения для распознавания речи представлен на рис. 6.

image137

Рис. 6. Пользовательский интерфейс приложения

         Реализованы следующие функции:

1. Открытие, запись, воспроизведение и сохранение сигналов в wav-формате;

2. Выбор и настройка алгоритмов анализа данных. При этом допустимы следующие алгоритмы предварительной обработки звуковых сигналов:

2.1. Вейвлет-преобразование сигнала.

2.2. Оконное преобразование Фурье;

2.3. Преобразование Гильберта-Хуанга.

В приложении также допускается смешанный анализ: так, преобразование Гильберта-Хуанга возможно использовать совместно с вейвлет-преобразованием.

3. Создание, импорт, экспорт словаря фонем, формирование обучающей выборки.

Число входов нейросети определяется алгоритмом обработки сигнала, а число выходов определяется объемом словаря фонем.

Словарь нейронной сети представляет собой массив, состоящий из структур, каждая из которых состоит из имени фонемы, имени сигнала и массива данных, отвечающего фонеме. Данные в словаре нейронной сети представлены в виде таблицы, состоящей из названия сигнала, задаваемого вручную или автоматически, а также названия фонемы, которой данный сигнал отвечает.

4. Создание, импорт нейронной сети, а также обучение и сохранение значений ее весов. Допускаются следующие алгоритмы обучения:

4.1. Алгоритм обратного распространения ошибки;

4.2. Генетический алгоритм.

Приложение поддерживает выбор типа активационной функции нейронов сети на этапе ее создания и обеспечивает задание числа нейронов скрытых слоев. При выборе доступны активационные функции следующего вида: сигмоидальная, функция Хевисайда, кусочно-линейная функция, функция Гаусса.

Для минимизации граничных эффектов при разбиении речи на фонемы допускается перекрытие фреймов. По умолчанию степень перекрытия составляет 25%. Длительность звучания фонемы в составе речи составляет 15-50 мс [11]. По умолчанию в приложении длительность составляет 20 мс.

5. Выполнение автоматической очистки от шума и сегментации звуковых файлов с целью устранения пауз перед их распознаванием. Для больших возможностей анализа речи в приложении была предусмотрена возможность работы с фонемным словарем, на его основе формируется список фонем, который в дальнейшем используется при распознавании речи.

6. Осуществление фонетического анализа распознанного слова. Для фонетического анализа доступны алгоритмы Левенштейна и Дамерау-Левенштейна.

Как видно из описания, полученное решение наряду с обработкой мультимедийной информации, обеспечивает поддержку достаточно широкого спектра математических алгоритмов.

Для реализации пользовательского интерфейса был выбран язык C# и его библиотека Windows Forms. Windows Forms представляет собой технологию, используемую в Visual C# для создания интеллектуальных клиентских приложений на основе Windows, выполняемых в среде .NET Framework. Технология Windows Forms специально создана для быстрой разработки приложений, в которых необходимо наличие интуитивно понятного пользовательского интерфейса с гибкими возможностями.

Для языка программирования C# используется библиотека базовых типов среды .NET. Для организации типов (классов, структур, интерфейсов, встроенных типов данных и т.п.) в этой библиотеке используется концепция пространства имен. Вне зависимости от языка программирования, доступ к определенным классам обеспечивается за счет их группировки в рамках общих пространств имен [13]. Общий вид структуры среды .NET приведен на рис. 7.

В качестве инструмента для реализации математических расчетов использовался пакет MATLAB. Выбор был обусловлен тем, что среда MATLAB включает язык программирования высокого уровня, подсистему для визуализации графики, а также пакеты расширений для решения различных задач, в том числе и для обработки сигналов. Она также поддерживает разработку приложений как при использовании собственных средств компиляции и оптимизации кода, так и с применением современных сред разработки, таких, как RAD Studio и Visual Studio.

image139

Рис. 7. Схема выполнения .NET-приложения

Компилятор MATLAB был применен для преобразования программ в приложения и библиотеки, которые могут работать независимо от самой системы MATLAB, а также поддерживает все ее особенности, включая объекты, частные функции и методы.

Для интеграции MATLAB и библиотеки .NET использовался пакет .NET Builder, который позволяет из набора m-функций создавать компоненты для .NET, используемых для разработки приложений на CLS_совместимых языках программирования. .NET Builder преобразовывает исходные функции  в .NET методы, которые инкапсулируют код MATLAB.

В основу реализации нейронной сети был положен функционал библиотеки Neural Network Library 0.1, распространяемой свободно и обладающей открытым исходным кодом. Для обработки звука наряду с возможностями MATLAB дополнительно использовалась библиотека NAudio.

Результаты исследования

Для моделирования распознавания слов и фонем средствами приложения была создана нейронная сеть, имеющая следующие параметры:

1. Сеть обладала двумя скрытыми слоями, каждый слой содержал по 25 нейронов;

2. Для нейронов в сети в качестве функции активации была выбрана сигмоидальная зависимость, как наиболее гладкая.

В качестве обучающей выборки использовалось множество {«В», «О», «А», «И», «С», «Ш»}. Каждой фонеме сопоставлялось 5-6 примеров звуковых фрагментов, озвученных различными дикторами.

Нейронная сеть обучалась с помощью алгоритма обратного распространения ошибки и генетического алгоритма.

Объяснение наличия достаточно большой погрешности, делающей нейросеть неприменимой для распознавания, может состоять в том, что в ряде случаев для некоторых фонем признаки в виде энергетических показателей сигнала могут оказаться недостаточно информативными. Качество обучения и распознавания в очень сильной зависимости от качества речевых единиц выборки. Для выполнения более детального анализа бралась уменьшенная выборка {«А», «В», «И», «О»}.

При применении генетических алгоритмов ошибка сети менялась более плавно. Стоит отметить, что вместе с тем особенности генетических алгоритмов не гарантируют того, что уровень ошибки может быть существенно ниже, чем в случае метода обратного распространения ошибки. Оптимальный подбор параметров генетического алгоритма с учетом параметров архитектуры нейронной сети требует отдельного исследования.

Наилучшие результаты при обучении на исходной выборке показали вейвлеты и комбинация преобразования Гильберта-Хуанга с вейвлетами. Время обучения сети с применением преобразования Гильберта-Хуанга существенно выше. Остальные алгоритмы на данной выборке не обеспечили удовлетворительного уровня ошибки обучения сети. С другой стороны, на уменьшенной выборке практически все алгоритмы обеспечили приемлемый результат. Это обусловлено тем, что гласные фонемы имеют почти-периодическое временное представление, как отмечалось ранее.

Звуковые фрагменты перед распознаванием проходили шумоочистку и сегментацию согласно алгоритму, предложенному в [14]. Временной интервал фреймов, на которые разбивался сегментируемый сигнал, составлял 20-40 мс. При распознавании фонем и слов результатом выступал нетранскрибированный вариант, а также конечная форма, получаемая после  фонетического анализа.

В табл. 1-2 приведены результаты распознавания некоторых гласных фонем с применением вейвлетов (базис Добеши 8) и преобразования Гильберта-Хуанга и вейвлетов (базис Добеши 8).

Таблица 1. Результаты распознавания гласных фонем сетью, обученной на основной выборке с применением вейвлетов

Фонема «А»

№ п/п

Нетранскрибированный вариант

Проверка по сочетаниям фонем

1

АААААААААААА

А

2

ААААААААААААА

А

3

АСАААААААААААА

А

4

ААОААААААААААА

А

5

АААААААААААААА

А

6

АААОААОААААААОААВА

А

7

ААВААААВАВААОААААА

А

Фонема «О»

1

ООООООООООООООООО

О

2

ООАООООООООААООООО

О

3

АОООАООООООАООООО

О

4

ОООАСООООООООООООО

О

5

ОООООАААООООООО

О

6

АОООООАААООООООО

О

7

ОААААААААОАААААААА

А

Фонема «И»

 1

ИВВИИИИИИИИИИИВИИИИИИИИ

И

2

ИИВАИИВАИВИИИИИИИИИИИ

И

3

ИВИВВИИВИИИИИВИИИИИИИ

И

4

СИСИИИИИИИВИИОИИИИИИ

И

5

ИИИИИИИВВИВВИВИИИИИИИ

И

6

ИСИИИСВИИИИИИИИИИИИИ

И

7

ИСИИИИИИИИИИИИИИИИИИ

И

Таблица 2. Результаты распознавания гласных фонем сетью, обученной на основной выборке с применением преобразования Гильберта-Хуанга и вейвлетов

Фонема «А»

№ п/п

Нетранскрибированный вариант

Проверка по сочетаниям фонем

1

АВААВААВАААВАОАААААА

А

2

АВВААААААААААААААААА

А

3

ААААААВАААААААААААА

А

4

ААОАААААААААААОАААА

А

5

ААААВОААВАААВВОААААА

А

6

АААОААОААААААОААВА

А

7

ВОААВАВАОААОААААААА

А

Фонема «О»

1

ИАОАИААОООООООООО

О

2

АОВОАОААОООООООООО

О

3

ОООООООООООООООООО

О

4

ОООСООООООООООООО

О

5

ОООООАААООООООО

О

6

ОАОООООАООАОАООООО

О

7

ОООАВОООАОООАОООООО

О

Фонема «И»

1

ИИВИИИИИИВИВИИВИИИИИ

И

2

ИИВАИИВАИВИИИИИИИИИИИ

И

3

ИВИВВИИВИИИИИВИИИИИИИ

И

4

АОИОВИИИИИВИВИИИИИИИИИ

И

5

ИИИИИИИВВИВВИВИИИИИИИ

И

6

ИИИВИВВИИИИВИВИИВИИИИ

И

7

ИИИИИИИССИИИИИИИИИИИ

И

Таблица 3. Сводные результаты распознавания фонем сетью, обученной на основной выборке с применением вейвлетов, %

є

А

О

И

В

С

Ш

1

100

95

98

100

86

90

2

92

95

100

100

100

100

3

95

89

90

98

99

97

Средний коэффициент распознавания

95

93

96

99,3

95

95,7

95,7

Таблица 4. Сводные результаты распознавания фонем сетью, обученной на основной выборке с применением преобразования Гильберта-Хуанга и вейвлетов, %

є

А

О

И

В

С

Ш

1

100

95

100

99

100

85

2

90

88

90

99

100

100

3

92

90

95

100

92

89

Средний коэффициент распознавания

94

91

95

99,3

97,3

91,3

94,7

Таблица 5. Сводные результаты распознавания фонем сетью, обученной на уменьшенной выборке с применением оконного преобразования Фурье, %

є

А

О

И

В

1

90

87

100

90

2

93

88

100

86

3

100

91

96

95

Средний коэффициент распознавания

94,3

88,7

98,7

90,3

93

Таблица 6. Сводные результаты распознавания фонем сетью, обученной на уменьшенной выборке с применением преобразования Гильберта-Хуанга и вейвлетов, %

є

А

О

И

В

1

100

83

81

80

2

95

85

76

72

3

96

85

75

75

Средний коэффициент распознавания

97

84,3

77,3

75,7

83,6

Из таблиц 1-2, 3-4 видно, что качество распознавания фонем у нейронных сетей, использующих признаки, вычисляемые по алгоритмам вейвлет-преобразования и преобразования Гильберта-Хуанга в сочетании с вейвлет-коэффициентами примерно одинаково (средние коэффициенты распознавания отличаются всего на 1%). Скорость распознавания фонем у нейронных сетей не отличалась, но следует отметить, что время обучения сети, использующей вейвлет-коэффициенты, примерно в 2-3 раза меньше по сравнению с сетью, использующей преобразование Гильберта-Хуанга в сочетании с вейвлет-коэффициентами. Причина такой разницы в большой ресурсоемкости методов смешанного анализа.

Наряду с фонемами разработанный модуль тестировался в целях распознавания слов. Распознавание слов происходило с применением нейросетей, успешно обученных на исходной и уменьшенной выборках.  Наилучшие результаты при распознавании показала сеть, обученная на основе признаков, полученных путем комбинированной обработки фонем с совместным применением преобразования Гильберта-Хуанга и вейвлетов (средний коэффициент распознавания слов – 90%). Вместе с тем на уменьшенной выборке, данная сеть работала не стабильно по причине возможной избыточности информации, содержащейся в речевых признаках (таблица 6), а также в силу особенностей алгоритма эмпирического разложения, отмеченных ранее. Лучшие результаты на второй выборке дала сеть, обученная на основе преобразования Фурье  (средний коэффициент распознавания слов составил 91,6%, в таблице 5 приведены результаты распознавания фонем).

Заключение

В исследовании рассматривалась реализация модуля преобразования русской речи в текст на основе нейросети, предназначенного для автоматизации ввода текстовой информации в ЭВМ.

Был описан нейросетевой подход к решению поставленной задачи. Произведен анализ способов получения признаков речевого сигнала с помощью вейвлет-преобразования, преобразования Фурье и преобразования Гильберта-Хуанга. Разработан метод формирования грамматической формы слова на основе его фонетического представления с использованием алгоритмов Левенштейна и Дамерау-Левенштейна. Построена база данных признаков эталонов фонем.

На основе представленных алгоритмов в среде Visual Studio на языке C# с выполнением интеграции с пакетом MATLAB был разработан модуль преобразования речи в текст. Приведено подробное описание компонентов и возможностей созданного программного обеспечения. Эксперименты по определению качества работы модуля показали, что одними из наиболее эффективных способов получения признаков на ограниченном множестве являются вейвлет-преобразование и преобразование Гильберта-Хуанга, дополненное вейвлет-преобразованием эмпирических мод. Требуются дополнительные исследования, связанные с поиском и введением новых методов получения речевых признаков, более полно характеризующих фонемы в различных частях слов, что позволит повысить качество распознавания модуля.

На основе полученных результатов можно сделать выводы о высокой эффективности применения нейросетевого подхода и фонемно-ориентированного подхода в задаче разработки данного модуля. Эксперименты показали достаточно высокий коэффициент распознавания речи.

Литература

1. Давыдов А.В. Цифровая обработка сигналов: Тематические лекции. – Екатеринбург: УГГУ, ИГиГ, ГИН, Фонд электронных документов, 2005.

2. Дьяконов В.П. Вейвлеты. От теории к практике. – 2-е изд. – М.: СОЛОН-Пресс, 2004. – 400 с.

3. Дьяконов В.П., Абраменкова И. В. MATLAB. Обработка сигналов и изображений. Специальный справочник. – СПб.: «Питер», 2002. – С. 608.

4. Дремин И.М., Иванов О.В., Нечитайло В.А. Вейвлеты и их использование. //Успехи физических наук. – 2001 – т. 171, №5. – с. 465-500.

5. Астафьева Н.М. Вейвлет-анализ: основы теории и примеры применения. //Успехи физических наук. – 1996 — т. 166, №11 – с. 1145-1170.

6. The Hilbert-Huang transform and its applications / editors, Norden E. Huang, Samuel S.P. Shen. — World Scientific Publishing Co. Pte. Ltd. 5 Toh Tuck.   Link, Singapore 596224

7. Huang N. E. Shen Z., Long S. R., Wu M. C., Shih H. H., Zheng Q., Yen N.-C., Tung С. C., and Liu H. H.  The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis. //Proceedings of R. Soc. London, Ser. A, 454. 1998 – P. 903-995.

8. S.R. Qin, Y.M. Zhong A new envelope algorithm of Hilbert–Huang Transform // Mechanical Systems and Signal Processing 20. 2006 – P. 1941–1952

9. Медведев М.С. Использование вейвлет-преобразования для построения моделей фонем руcского языка //Вестник КрасГУ. Серия физ.-мат. науки. — 2006. Вып. 9. — С. 193-201

10. Фролов А.В. Синтез и распознавание речи. Современные решения / А.В. Фролов, Г.В. Фролов [Электронный ресурс]. — Режим доступа: http://www.frolov-lib.ru/books/hi/ch06.html

11. Михайлов В.Г., Златоустова Л.В. Измерение параметров речи. – М.: Радио и связь, 1987. – 168 с.

12. Хармут X.Ф. Передача информации ортогональными функциями. – М.:Связь, 1975. – 272 с.

13. Смоленцев Н.К. Создание Windows-приложений с использованием математических процедур MATLAB. – М.: ДМК Пресс, 2008. – 456 с.

14. T. Giannakopoulos, “Study and application of acoustic information for the detection of harmful content, and fusion with visual information,” Ph.D. dissertation, Dpt of Informatics and Telecommunications, University of Athens, Greece, 2009.

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Лимит времени истёк. Пожалуйста, перезагрузите CAPTCHA.