Category: техника

Category was added automatically. Read all entries about "техника".

vadim kataev logo compuvisor vm agent ai

В предверии Ассистента в новом IPhone

Завтра Эппл представит свои новые продукты и одна из возможных интересных тем - это презентация новой фичи под названием Ассистент. Ассистент - это диалоговая система. Пользователь общается с ассистентом используя обычную речь. Ассистент выполняет команды пользователя, помогает ему вести учёт дел, и общается с пользователем обычным языком, обычной речью. Выглядит это как разговор пользователя с реальным ассистентом - человеком. В этом блоге я часто писал о диалоговых системах, выкладывая и ролики с диалогами (например см. по тагу technology).

С появлением Ассистента в новом смартфоне от Эппла, распознование речи получит второе дыхание и интерес со стороны разработчиков мобильных систем. Конечно, и сейчас есть различные диалоговые приложения, но интеграция такой фичи в саму систему - это несколько иное, это более прогрессивный шаг. До завтрашней презентации пока сложно предсказать, будет ли Ассистент сразу поддерживать основные мировые языки, кроме английского.

Диалоги на натуральном языке в самое ближайшее время станут обычным делом. Кстати, в каких ещё фильмах обыгрывались сценарии общения человека с компьютером с помощью речи? Я припоминаю комьютер HAL9000 в "Одиссее 2001", бортовой компьютер корабля в "Sunshine" (1997), и вроде как в "I Robot" было что-то если я ничего не путаю.

PS: это пока только слухи, поэтому подождём немного :)
vadim kataev logo compuvisor vm agent ai

Распознование речи

Для качественного распознования речи используется следующий механизм обработки информации:

0) Дигитальный сигнал с микрофона читается со звуковой карты.
1) Сэмплинг сигнала.
-------- до сюда справляются драйвера, например alsa
2) Построение фреймов (длина 30ms, интервал 10ms, т.о. с 70% оверлэппингом)
3) Windowing (Hamming, Hanning, rectangular)
-------- здесь возможна трансляция по tcp, что желательно для модульности
4) Построение спектральной картины. Требует преобразования Фурье в реальном времени.
5) Feature extraction.
6) Параметрическая репрезентация. Голос, фон.
-------- отсюда начинается работа с голосовыми периодами
7) Subword recognition
8) Лингвистический анализ, построение фраз