Опыт применения дополнительных источников информации для решения задачи идентификации и распознавания речевого ответа в условиях шумов
Д.Н.Бабин, И.Л.Мазуренко, А.В.Уранцев Кафедра Математичекой теории интеллектуальных систем. Тел.
939-45-04, 939-46-37, E-mail dbabin@mech.math.msu.su
Традиционные методы
распознавания речи, связанные с применением одного микрофона для ввода речевой
команды в компьютер, не дают высокой надежности распознавания в случае если
отношение сигнал/шум составляет 0-6 дБ, вероятность ошибки при определении даже
самого факта речевого ответа в типичных
случаях составляет не менее 10% (эксперименты авторов и литературные данные ).
Мы рассматривали задачу
идентификации факта речевого ответа в условиях сильных шумов, при этом в
качестве источников входной информации кроме обычного микрофона использовались
следующие устройства: дополнительные микрофоны, фотодатчик, датчики воздушного
потока, ларингофон.
В случае уровня шумов 0-6
дБ использование близкорасположенного
дополнительного микрофона по энергии
разности и разности энергий входных
сигналов, а также по их временному сдвигу позволяет надежно установить факт
речевого ответа в условиях сильных импульсных помех, таких как говорящий рядом человек. Удаленный ( третий
) микрофон при этом позволяет оценить уровень и спектр внешних помех. Используя
математические методы очистки сигналов,
удается имитировать направленный
микрофон, способный настраиваться на источник речи.
Инфракрасные светодиод и
фотодиод измеряют коэффициент отражения
света от губ диктора. При идентификации факта речевого ответа использовались
сигнал с фотодатчика ( фактически
ширина раскрытия рта) и его
производная ( скорость движения губ).
Удается отличать движения губ во время речевого ответа от случайных
открываний рта. Этот канал информации
вообще не зависит от уровня внешних акустических и световых помех и достаточно
хорошо соответствует огибающей речевого сигнала.
В качестве датчиков уровня
воздушного потока использовались низкочастотный микрофон и температурный датчик
воздушного потока. Эти датчики
фиксируют факт вдыхания и выдыхания, причем по характеру изменения показателей
датчика обычный выдох отличается от выдоха воздуха при речевом ответе. Типичные помехи в этом случае связаны с
внешними потоками воздуха. Датчики воздушного потока позволяют выделять взрывные согласные в речевой
фразе, что значительно повышает надежность распознавания.
Сигнал с ларингофона не
зависит от внешних акустических помех и выделяет из речевого сигнала только
гласные звуки.
Каждый из перечисленных
источников информации со свой надежностью и независимо может использоваться для
решения задачи идентификации факта речевого ответа и распознавания этого
ответа. Общую надежность идентификации
и распознавания удается значительно повысить, если использовать эти датчики в
совокупности по причине независимости природы измеряемых ими сигналов и
типичных помех, вероятность одновременного появления которых невелика.
Согласно экспериментам
вероятность ошибки системы удалось понизить до величины 10-3, а надежность обнаружения речевого ответа повысить в 10 – 100 раз.
Работа выполнена на кафедре
Математической теории интеллектуальных систем механико-математического
факультета МГУ им. М.В.Ломоносова
Статья была подготовлена в качестве доклада на междунароной конференции "SPECOM'98", Санкт-Петербург, 1998 г.
|