Многоканальная система распознавания речи

И. Л. Мазуренко
Московский Государственный Университет им. М.В. Ломоносова, механико-математический факультет, кафедра МаТИС

Создана компьютерная система распознавания речи в условиях сильных шумов.  Для повышения надежности распознавания были впервые применены в такой конфигурации дополнительные источники информации - дополнительные микрофоны, фотодатчик, датчики воздушного потока, что позволило значительно повысить надежность распознавания.

The computer system of speech recognition in hard noisy conditions was developed.  Additional sources of information such as additional microphones, a photo-sensor, a breath sensor were used for the first time in such configuration in order to increase the reliability of recognition.

 

На кафедре Математической теории интеллектуальных систем создана универсальная компьютерная система-конструктор, предназначенная для моделирования работы различных алгоритмов распознавания речи, в том числе в условиях сильных шумов.  Система работает в ОС Windows 9x на персональном компьютере типа Pentium-II с одной или двумя звуковыми картами и в качестве входной информации может получать временные сигналы одновременно с 4 устройств типа акустических микрофонов, фотодатчиков, датчиков дыхания и т.п.  Система работает с произвольным задаваемым пользователем ограниченным словарем команд на любом языке (до 100 фраз) и позволяет моделировать расчет в реальном времени различных параметров входных сигналов с помощью богатого набора предопределенных математических бинарных и унарных операций над временными сигналами.  В системе использованы результаты речевых разработок кафедры в данном направлении ([1]-[3])

Задача распознавания речевых ответов в условиях сильных шумов возникает, например, при управлении техническими устройствами – автомобилями, самолетами и вертолетами, локомотивами поездов, станками, тяжелой деревообрабатывающей и строительной техникой, а также в космических аппаратах.   Здесь применение речевых технологий в настоящее время используется с целью освободить руки оператора – и для речевого управления, и для обеспечения надежной связи с диспетчером. 

Традиционные методы ([4]), связанные с применением одного или нескольких микрофонов для ввода речевого сигнала, не дают высокой надежности распознавания.  Если отношение сигнал/шум составляет 0-6 дБ, вероятность ошибки даже при определении факта речевой активности по одному микрофону в типичных случаях составляет не менее 1%.  Для повышения надежности распознавания было предложено применить дополнительные источники информации.  Были протестированы такие источники информации, как дополнительные микрофоны, фотодатчик, низкочастотный датчик звукового давления, датчик воздушного потока.

Проведенные эксперименты показали, что введение дополнительных источников информации, значительно – на словарях до 10 команд до 10-3 – снизило величину ошибки распознавания речи в шуме. Это позволяет надеяться, что речевые технологии здесь могут быть применены не только для речевого управления функционированием вспомогательных устройств, но и для решения более сложных задач, требующих высокой надежности для принятия решений – например, для определения функционального состояния оператора в системах безопасности. 

Отличительной особенностью проведенных работ является новизна исследований и отсутствие опыта подобных разработок как у российских, так и у зарубежных ученых.  Отдельные случаи использования дополнительных, неакустических датчиков для распознавания речи встречаются в зарубежной литературе ([5],[6]), но их совместное использование с целью повышения надежности распознавания в шуме в подобной конфигурации применено впервые.  Узким местом разработанной системы является необходимость для оператора одевать гарнитуру с микрофонами и датчиками, однако для тех ситуаций, когда операторы различных технических систем уже используют наушники или шлемы (например, при управлении самолетом), данные технологии позволят ввести в систему возможность высоконадежного речевого управления, не увеличивая значительно стоимость системы и не ухудшая условия работы оператора.  Более того, была практически исследована возможность работы системы в совокупности с системами защиты слуха на основе активного шумоподавления.

Проведенные исследования

Исследовалась возможность применения как близкорасположенного, так и удаленного дополнительного микрофона. В случае использования близкорасположенного микрофона даже для очень высокого уровня шумов речевой сигнал присутствует в обоих микрофонах.  Используя такие параметры, как энергию разности сигналов в первом и во втором микрофонах и разность энергий сигналов в первом и во втором микрофонах, факт речевого ответа надежно отделяется от таких типичных ситуаций, могущих привести к ошибке распознавания, как сильные импульсные помехи (они вносят отклики с одинаковым уровнем энергии в обоих микрофонах) или даже внешний источник речевых помех (наличие говорящего близкорасположенного человека, включенного радиоприемника, рации и т.п.).  В случае использования удаленного микрофона можно успешно использовать тот факт, что в удаленном микрофоне будет отсутствовать речевой сигнал.  Используя результат сравнения энергий сигналов с двух микрофонов в разных частотных полосах, можно повысить надежность идентификации факта речевой активности.  При этом дополнительный удаленный микрофон будет использоваться для оценки уровня внешних помех.

В экспериментах также использовалась гарнитура с микрофоном, на которой были установлены светодиод и фотодиод для измерения коэффициента отражения от губ диктора. Для обеспечения независимости работы системы от внешнего освещения светодиод излучал импульсный сигнал.  Фотодатчик оказался важным источником информации, не зависящим от уровня внешних акустических и световых помех.  Одним из недостатков этого источника информации является сложность задачи поддержания правильного и стабильного расположения фотодатчика на гарнитуре.  В качестве характеристик, использующихся для идентификации факта речевого ответа, использовался как сигнал с фотодатчика непосредственно (связанный с шириной раскрытия рта), так и его производная (связанная со скоростью движения губ).  При этом удалось отличать движения губ, характерные для речевого ответа, от других ситуаций, при которых человек открывает рот.

В качестве датчиков уровня воздушного потока перед ртом диктора исследовались как низкочастотный микрофон, так и температурный датчик воздушного потока.  Эти типы датчиков надежно фиксируют факт вдыхания и выдыхания воздуха, причем по характеру изменения показателей датчика обычный выдох отличается от выдоха воздуха при речевом ответе.  В качестве полезных характеристик здесь также использовались сигнал с датчика непосредственно и его производная.

 

Оценка величины вероятности ошибки распознавания

Как показали эксперименты, каждый из вышеперечисленных источников информации независимо может использоваться для решения задачи идентификации факта речевого ответа со свой надежностью.  Однако надежность идентификации удается повысить значительно, если использовать несколько разнородных датчиков в совокупности.  Это связано с тем, что типичные помехи для датчиков разных типов имеют разную природу и вероятность их одновременного появления невелика.

Для распознавания речевых команд использовался традиционный метод сравнения с эталонами с последующим нахождением минимального расстояния до эталонов.  Расстояние между речевыми записями и эталонами рассчитывалось на основе алгоритма динамического программирования.  Настроенная на голос диктора система получала на вход запись произнесенной речевой команды, а на выход выдавала текст одной из команд словаря или фразу "нет ответа", в случае, если минимальное расстояние до эталонов превышало некоторый заранее заданный порог T.

В работе системы распознавания, таким образом, возможны следующие исходы: 1) выдача правильного ответа на речевую фразу; 2) выдача "нет ответа" на правильную речевую фразу; 3) выдача одной из команд на неправильную речевую фразу или выдача не той команды, что произносилась; 4) выдача команды на отсутствие речи (ложная реакция)

Исходы 2)-4) приводят к ошибкам в работе системы.  Опасной ошибкой назовем объединение исходов 3) и 4), неопасной – исход 2).  Основной задачей, стоявшей перед автором, была такая модификация системы (включая введение новых датчиков и доработку алгоритма), которая минимизирует вероятность опасной ошибки Pоп.ош., при условии, что вероятность неопасной ошибки Pнеоп.ош. не превышает некоторой константы, например, 0.1.

Вероятность опасной ошибки складывается из:

Pоп.ош. = Pош.гр. x (1-P(прав.расп./неправ.гр.)) + (1-Pош.гр.) x P(ош.идент./прав.гр.), где

Pош.гр. – вероятность ошибки выделения границ речевого сегмента, P(прав.расп./неправ.гр.) - вероятность правильного распознавания команды, в которой неправильно выделены границы речевого сегмента, P(ош.идент./прав.гр.) – вероятность ошибки алгоритма идентификации, основанного на методе сравнения с эталонами, при условии, что границы речевого сегмента выделены правильно.  В силу малости всех участвующих в формуле значений вероятностей ошибок вероятность опасной ошибки системы можно оценить сверху величиной Pоп.ош. < Pош.гр. + P(ош.идент./прав.гр.)

Если  e1,e2,..en – эталоны речевых команд, iÎ{1,2…,n} - индекс произнесенной команды, {dij, j=1..n} – расстояния от произнесенной команды до эталонов, то должно быть выполнено dii=min{dij, j=1..n}.  В этом случае P(ош.идент./прав.гр.) = P{dii=min{dij, j=1..n} & dii<T, при условии что произносилась команда с некоторым индексом k¹i}.  Проведя эксперименты для одномикрофонного случая, когда границы речевого сегмента выделялись вручную, а уровень шума являлся параметром, удалось на основе выдвижения гипотезы о характере распределения случайных величин {dij, j=1..n} для фиксированного индекса команды i выполнить оценку вероятности ошибки идентификации P(ош.идент./прав.гр.).  Оказалось, что для одних и тех же уровней шума суммарная вероятность ошибки Pоп.ош. на 1-2 порядка выше вероятности ошибки P(ош.идент./прав.гр.) идентификации в выделенных вручную границах.

Поэтому был сделан вывод, что основной вклад в ошибку вносит ошибка, связанная с неправильным выделением границ речевого сегмента.  С целью понизить уровень ошибок такого рода в систему были введены дополнительные датчики.

Итогом проведенных исследований стал многоканальный алгоритм выделения границ речевого сегмента.  Суть алгоритма заключалась в следующем:

1. По выходам датчиков (каналам) рассчитывались некоторые зависящие от времени численные параметры (типа энергии сигнала, производной энергии и т.п.), по которым путем сравнения с некоторым фиксированным порогом можно судить о наличии или отсутствии речевого сигнала в данном канале.  Временной интервал, на котором в каждой точке зафиксировано превышение порога, будем называть "квазиречевым интервалом", а временной интервал, на котором в любой точке значение рассчитанных параметров сигнала меньше порога, назовем "паузой".  

2. Используя такие заранее заданные для каждого канала параметры, как максимальная длина "паузы" внутри речевого сегмента, минимальная длина максимального "квазиречевого интервала" внутри речевого сегмента, максимальная длина "квазиречевого интервала" вне речевого сегмента, минимальная и максимальная длина речевого сегмента и т.п., в каждом из каналов выделяем границы речевых сегментов.

3. Считаем, что зафиксирован факт речевого ответа, если существует момент времени t, который одновременно принадлежит речевым сегментам на всех каналах.

4. Границы речевого сегмента на основе анализа всех каналов определяем путем объединения всех речевых сегментов, содержащих момент времени t, во всех каналах.

Поскольку алгоритм идентификации, основанный на методе динамического программирования, инвариантен относительно незначительного расширения границ речевого сегмента, ошибка выделения границ Pош.гр. складывается из:

Pош.гр.= Pложн.идент. + Pусеч.сегм.

Вероятность Pложн.идент. ложной идентификации (т.е. определения факта речевого ответа в момент времени, когда речевого ответа не было) равна вероятности одновременного определения факта речи на основе вышеизложенного алгоритма в каждом из каналов, при условии, что речь отсутствует.  Вероятность Pусеч.сегм. усечения речевого сегмента равна вероятности того, что несмотря на наличие речи, существует момент времени, когда ни в одном из каналов не зафиксирована речь:

Каждый из участвующих в определении этих вероятностей исходов имеет свою физическую природу.  Например, "речь" для микрофона означает длительный акустический импульс, "речь" для фотодатчика - длительное открытие рта и движение губами, "речь" для датчика дыхания - длительное прерывистое вдыхание или выдыхание воздуха.  Аналогично, "пауза" для микрофона означает акустическую паузу в речевой фразе, "пауза" для фотодатчика означает плотное смыкание рта и достаточно длительное отсутствие движения губ, "пауза" для датчика дыхания означает "смычку", когда отсутствует вдыхание или выдыхание воздуха.

Одновременное появление описанных событий из каждой тройки имеет ничтожно малую вероятность.  Так, эксперименты показали, что после введения дополнительных датчиков вероятность ошибки при выделении границ речи стала сравнимой по порядку с вероятностью ошибки идентификации.

Работа выполнялась на кафедре Математической теории интеллектуальных систем механико-математического факультета им. М.В.Ломоносова под руководством д.ф.-м.н. Бабина Дмитрия Николаевича

Список литературы.

1. Бабин Д.Н., Дудецкий В.Н., Мазуренко И.Л., Уранцев А.В. и др.  Патент  на изобретение "Устройство для синтеза и анализа речевых сигналов" №94045004/09 (045160) от 20.12.96, дата заявки 23.12.94, патентодержатель НПЦ "Ракурс"

2. Мазуренко И.Л.  Одна модель распознавания речи. // Компьютерные аспекты в научных исследованиях и учебном процессе. – Издательство Московского университета, Москва, 1996 г., стр.107-112.

3. Мазуренко И.Л.  О сокращении перебора в словаре речевых команд в составе системы распознавания речи. // Интеллектуальные системы, т.2. – МГУ, Москва, 1997 г.

4. Мазуренко И.Л.  Компьютерные системы распознавания речи. // Интеллектуальные системы, т.3. вып. 1-2 – Москва, 1998 г.

5. Патент США N 5473726 : Audio and amplitude modulated photo data collection for speech recognition  (сбор звуковых и амплитудно-модулированных световых данных для распознавания речи)

6. Патент США N 5680505 “Recognition based on wind direction and magnitude” (распознавание, основанное на направлении и величине воздушного потока)

В сб.: VI всероссийская конференция "Нейрокомпьютеры и их применение". Сборник докладов. Москва 16-18 февраля 2000 г.