Новое слово в системе распознавания речи
Трудно удивить кого-то способностью компьютера распознавать речь.Голосовой набор в мобильных телефонах существует ещё с начала 2000-х.
Методики распознавания речи
Первая методика основана на попытках системы определения соответствий между получаемыми звуками и частотами, издаваемыми человеческим голосом.
При втором способе система собирает все окружающие звуки, а затем, согласно алгоритму, ищет в них признаки человеческой речи.
Но до сих пор не создано системы, позволяющей полноценно управлять компьютером с помощью голосовых команд, а не через клавиатуру. Вся сложность, помимо технической реализации, состоит в двух простых вещах.
Первое – это сильное отличие разговорного языка от письменного. Учитывая, что во многих языках в разговорном варианте возможна произвольная перестановка слов в предложении, для компьютера обработка подобных команд является непосильной задачей. Второе – наличие таких лингвистических явлений, как диалект и акцент.
Тем не менее, профессор Торбйорн Свендсен из Норвежского университета науки и технологии смог продвинуться в изучении вопроса распознавания компьютером речи.
Профессор Свендсен вместе с коллегами смог показать, что механизм образования человеческой речи универсален.
Это позволит системе определять речь, минуя языковые особенности каждого отдельно взятого пользователя. В разрабатываемую систему профессор также включил соответствия между частотой звука и произносимым словом, а также алгоритм построения предложения из этих слов.
В настоящее время команда профессора разрабатывает программу, которая бы определяла вероятность наличия в общем звуковом фоне признаков человеческой речи, а затем задавала соответствие между полученными данными и одним из языков.
Методика, с помощью которой Свендсен надеется обучить компьютер полноценному распознаванию, состоит в том, чтобы заставить систему определять, какая часть речевого аппарата человека задействована в данный момент, используя данные, полученные в результате анализа силы давления звуковых волн на микрофон.
Всё это позволит в считанные секунды определять язык, на котором говорит человек.
Следующим шагом в разработке, по словам профессора, станет создание модуля, который будет предназначен для улучшения технической части уже существующих систем распознавания речи.
Возможность определять язык пользователя приведёт к экономии и времени, и денег. Процесс распознавания длится от 30 до 60 секунд.
Такая технология пригодится для распознавания носителей малых языковых групп, а также там, где используются сразу несколько языков.
Последнее обновление 23.02.2017