Новое слово в системе распознавания речи

Время на чтение: 1 минута

1045

Трудно удивить кого-то способностью компьютера распознавать речь.Голосовой набор в мобильных телефонах существует ещё с начала 2000-х.

Методики распознавания речи

Первая методика основана на попытках системы определения соответствий между получаемыми звуками и частотами, издаваемыми человеческим голосом.

При втором способе система собирает все окружающие звуки, а затем, согласно алгоритму, ищет в них признаки человеческой речи.

Но до сих пор не создано системы, позволяющей полноценно управлять компьютером с помощью голосовых команд, а не через клавиатуру. Вся сложность, помимо технической реализации, состоит в двух простых вещах.

Первое – это сильное отличие разговорного языка от письменного. Учитывая, что во многих языках в разговорном варианте возможна произвольная перестановка слов в предложении, для компьютера обработка подобных команд является непосильной задачей. Второе – наличие таких лингвистических явлений, как диалект и акцент.

Тем не менее, профессор Торбйорн Свендсен из Норвежского университета науки и технологии смог продвинуться в изучении вопроса распознавания компьютером речи.

Профессор Свендсен вместе с коллегами смог показать, что механизм образования человеческой речи универсален.

Это позволит системе определять речь, минуя языковые особенности каждого отдельно взятого пользователя. В разрабатываемую систему профессор также включил соответствия между частотой звука и произносимым словом, а также алгоритм построения предложения из этих слов.

В настоящее время команда профессора разрабатывает программу, которая бы определяла вероятность наличия в общем звуковом фоне признаков человеческой речи, а затем задавала соответствие между полученными данными и одним из языков.

Методика, с помощью которой Свендсен надеется обучить компьютер полноценному распознаванию, состоит в том, чтобы заставить систему определять, какая часть речевого аппарата человека задействована в данный момент, используя данные, полученные в результате анализа силы давления звуковых волн на микрофон.

Всё это позволит в считанные секунды определять язык, на котором говорит человек.

Следующим шагом в разработке, по словам профессора, станет создание модуля, который будет предназначен для улучшения технической части уже существующих систем распознавания речи.

Возможность определять язык пользователя приведёт к экономии и времени, и денег. Процесс распознавания длится от 30 до 60 секунд.

Такая технология пригодится для распознавания носителей малых языковых групп, а также там, где используются сразу несколько языков.

Последнее обновление 23.02.2017