В научно-фантастической литературе роботы и всевозможные умные машины обычно без труда понимают людей, говорящих на естественном языке, но могут не улавливать подтекст. В реальности именно понимание прямого смысла оказалось, видимо, самой сложной из всех задач, стоящих перед создателями искусственного интеллекта (Artificial Intelligence — AI). При том, что системы, занимающиеся обработкой естественно-языковых (Natural Language — NL) данных, умеют уже очень многое, соединять их достижения с достижениями AI удается не без труда. Послушать о новых исследованиях в этой области я отправилась 12 сентября в Сколково на третью международную научно-прикладную конференцию «AYNL: Искусственный интеллект и естественный язык».

Сразу замечу: не похоже, чтобы переносный смысл высказываний представлял какую-то специфическую сложность для автоматизированного анализа текстов. Паоло Россо из Технического университета Валенсии посвятил свой доклад иронии в социальных сетях: шутки, как и серьезные тексты, вполне поддаются исследованию.

Прилагательное «интеллектуальный» хорошо сочетается с существительным «поиск». Разработчики поисковых машин сейчас увлечены идеей интеллектуального поиска, который будет угадывать намерение пользователя и сразу выдавать ему не в точности то, что он запросил, а то, что он предположительно имел в виду. Продвижение в этом направлении видно невооруженным глазом (и лично мне как пользователю, которому время от времени нужно задавать довольно экзотические запросы, очень не нравится), а на конференции о таком проекте рассказал Игорь Андреев из Mail.ru. В экспериментальном поисковике при обработке запросов применяется технология машинного перевода «с русского на русский». А доклад представителя «Яндекса» Ильи Мельникова посвящался вовсе не поиску — речь в нем шла о распознавании речи в интерактивных системах с голосовым управлением (мобильных приложениях, автоответчиках контакт-центров, голосовых помощниках). Разработчики построили обучаемую систему, использующую векторное представление слов: каждому короткому тексту соответствует набор точек в многомерном пространстве, для которого можно подсчитать близость с обучающим примером.

Вплотную подошла к «машинному пониманию» текстов исследовательская группа компании ABBYY. Анатолий Старостин представил в докладе систему InfoExtractor, которая, как явствует из ее названия, предназначена для извлечения информации из текстов. К результату семантико-синтаксического анализа применяется набор правил извлечения, который, в отличие от анализа, не универсален — его необходимо всякий раз настраивать под определенную предметную область. В кулуарах я разговорилась с Анатолием Левенчуком из компании Techinvestlab, специалистом по интеллектуальным системам другого рода — инженерным, — и от него узнала, что для семантических представлений инженерных данных существует стандарт — ISO 15926. Проект ABBYY интересен для него как новый подход к известной задаче: инженеры работают не с текстами, документация для них вторична, а первичны чертежи.

Если онтологии — классификаторы, используемые в системах искусственного интеллекта для описания сущностей и отношений реального мира, — всегда «заточены» под некоторую предметную область, то классификаторы языковых значений — тезаурусы — претендуют на универсальность. Поэтому только естественно, что на круглом столе, посвященном тезаурусам, возникла тема больших данных, а рядом с ней — тема краудсорсинга и невозможности использовать научные результаты, составляющие интеллектуальную собственность фирм-разработчиков. Увы, пожелания ученых не всегда находят отклик у коммерческого отдела, а открытые проекты выявляют слабые места краудсорсинга: «толпа», берущаяся помогать, реально не очень велика, значительную ее часть составляют дилетанты, после которых координаторам приходится все переделывать, и т.д. Тем не менее, и открытые, и закрытые проекты продолжают развиваться. Пожелаем им удачи.

Точка зрения автора может не совпадать с позицией редакции.