О системах распознавания речи сейчас начинают говорить очень активно, что объясняется двумя главными причинами. Во-первых, растет значимость фронт-офисных технологий информационной поддержки, и бизнес активно зондирует любые возможности, позволяющие автоматизировать взаимодействие с клиентом, в какой бы форме оно ни происходило. Во-вторых, в Сети возрастает удельный вес медиа-контента, поэтому растет интерес к различным формам обработки медиа-информации.
Система распознавания речи для русского языка со словарем на миллион единиц до 2010 г. представлялась чем-то из области фантастики, причем не в силу технических сложностей, а по чисто финансовым соображениям: затраты были бы огромными, спрос небольшим. Но сегодня компания Google уже реализовала такой проект: по словам ее представителей, она готова вкладывать крупные суммы в разработки, способные окупиться лишь в очень отдаленной перспективе.
Распознавание реализовано сразу для ряда языков, которые не отделены жестко друг от друга (так что можно даже строить многоязычные запросы). Оно «облачное»: голосовые запросы в оцифрованном виде передаются на сервер, где преобразуются в текстовый вид и обрабатываются; пользователю возвращается обычная страница с результатами поиска. Клиент голосового поиска существует для смартфонов с ОС Android, а также для iPhone, Nokia S60 и некоторых других мобильных устройств.
Объем словаря внушает заслуженное уважение: это, безусловно, качественный скачок. С другой стороны, миллион — не так много, как может показаться: нужно принять во внимание, что каждому варианту произношения каждой словоформы и каждого (короткого) словосочетания в словаре для распознавания соответствует отдельная статья. Поэтому надежность распознавания сегодня невысока. Но хотя успех отнюдь не гарантирован, попытаться произвести запрос все равно стоит: это не займет много времени, а в случае удачи пользователь смартфона избежит мучительной процедуры набора на виртуальной клавиатуре. Система спроектирована как самообучающаяся, то есть чем чаще к ней станут обращаться, тем выше будет процент правильно распознанных запросов (по крайней мере, так задумано).
Голосовой поиск Google занимает совершенно особую нишу и сам по себе практически не затрагивает существующий рынок речевых технологий. Дмитрий Столяр, директор по продажам компании «Открытые коммуникации» — наиболее активного игрока этого рынка в нашей стране, высказал мнение, что благодаря Google автоматизированные голосовые сервисы станут привычнее и понятнее для россиян, и, как следствие, расширится их применение в контакт-центрах. Однако сценарии использования сервисов в двух случаях принципиально различны. Автоматизация контакт-центра помогает владельцу снизить затраты, а для клиентов это обычно мелкое неудобство, с которым они волей-неволей мирятся. При мобильном поиске все наоборот — пользователю предлагается небольшое дополнительное удобство на строго добровольной основе (и поэтому он значительно более терпимо относится к ошибкам распознавания).
Зато можно предположить, что голосовой поиск будет очень полезным приобретением для мобильных корпоративных приложений, работающих с какими-либо базами данных: он облегчит работу и поможет сэкономить время, тем более что надежность распознавания для ограниченной базы должна быть выше. Назову два очевидных применения. Первое — навигация для клиентов. Так, в магазине «Библио-Глобус» есть система поиска книг, которая работает на терминалах в торговых залах и доступна в Интернете, Покупателям наверняка понравилась бы возможность просто произнести название книги и сразу же узнать номер нужного зала и стеллажа. Это касается информации о любых продуктах и услугах, связанных с определенным местом. Уже сейчас у ряда розничных магазинов и сетей есть онлайновые справочные, где пригодилось бы распознавание речи, а с распространением мобильного Интернета их количество, вероятно, будет расти. Второе применение — поддержка мобильных агентов. Если агент со смартфоном, например, комплектует сложный заказ и обращается к корпоративной базе данных, чтобы проверить, есть ли на складе те или иные компоненты, ему полезен голосовой поиск. Но агенты, в отличие от клиентов, которым нужны общедоступные данные, часто работают с закрытой информацией, нуждающейся в защите от несанкционированного доступа.
Сегодня у компаний нет технической возможности подключать к своим базам данных голосовой поиск. Появится ли она, и когда именно? Время покажет.