Интерфейс безмолвного доступа
Возможно, эта статья содержит оригинальное исследование. |
Интерфейс безмолвного доступа (англ. silent speech interfaces, SSI) — системы обработки речи, базирующиеся на получении и обработке речевых сигналов на ранней стадии артикулирования.
История
Интерфейсы безмолвного доступа имеют очень недавнюю историю, с начала 2000-х. В прошлом десятилетии работа автоматических систем обработки речи, в том числе
Во-первых, акустические сигналы, . Надежных систем обработки речи, которые бы безукоризненно функционировали в переполненных ресторанах, аэропортах и других общественных местах, несмотря на титанические усилия, по-прежнему не видно.
Во-вторых, традиционные речевые интерфейсы требуют чётко и внятно произносимой речи, что имеет два основных недостатка: в общественном месте она ставит под угрозу
В начале 2000-х для решения этой проблемы были предложены интерфейсы безмолвного доступа, которые позволяют пользователям совершать коммуникацию, говоря «безмолвно», то есть без произнесения каких-либо звуков. Это осуществляется путём получения речевых сигналов на ранних этапах человеческой артикуляции, а именно до того, как речь появится в воздухе; после этого артикуляционные сигналы передаются системе для дальнейшей обработки и интерпретации. В связи с этим новым подходом интерфейсы безмолвного доступа обладают потенциалом для преодоления основных недостатков сегодняшних традиционных речевых интерфейсов:
- ограничение надежности распознавания речевого сигнала при наличии фонового шума,
- отсутствие надежности при передаче частной и конфиденциальной информации,
- беспокойство окружающих.
Кроме того, интерфейсы безмолвного доступа могли бы стать альтернативой для людей с недостатками речи (например, ларингэктомия), а также для пожилых или ослабленных людей, которые не могут говорить достаточно громко, четко и разборчиво.
Технологии
Pak. H. Chan и др. доказали (
Также, совсем недавно появились исследования, позволяющие с помощью ультразвуковых и оптических изображений разработать Интерфейс безмолвного доступа, основанный на движениях языка и губ (Denby и Stone 2004, Denby и др. 2006, Hueber и др. 2007).
Системы SSI, позволяющие преобразовывать «бурчание» в речевой сигнал, преимущественно разрабатываются в
В рамках программы современного речевого кодирования (
военныхусловиях.За последние 50 лет достигнуты большие успехи в развитии кодировщика голоса (вокодера), но, по-прежнему, ультранизкий битрейт (ULBR) голосового кодирования при 300 бит/с остается серьёзной проблемой. В частности ULBR-вокодеры до сих пор не имеют качественного анализатора речи, который бы без помех распознавал речь говорящего; эти недостатки гиперболизируются в акустически трудных средах (например, в шумном пространстве или в пространстве с отражающимся звуком).
Подход, реализуемый в рамках программы современного речевого кодирования (ASE), заключается в том, чтобы использовать новые
сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам (см. рис.). Такие датчики будут изучены в отношении их потенциала, с тем чтобы доречевой/дослышимый режим речи мог быть использован в качестве альтернативных средств коммуникации в акустически суровых и опасных условиях, в которых военная маскировка оказывается обязательной.
См. также
- Голосовое управление
- Голосовой интерфейс
- Ларингофон
- Жестовый интерфейс
Ссылки
- Special Session on Silent Speech Interfaces
- Алексей Есауленко. Плохой хороший IVR // «Сети/network world» №4, 2010
Примечания
- ↑ Pak. H. Chan Handbook of Neurochemistry and Molecular Neurobiology
- ↑ Advanced speech encoding Архивная копия от 6 марта 2016 на Wayback Machine. Virtual worldlets network.