В 1989 году Тим Бернерс-Ли положил начало Всемирной паутине Web, создав язык для представления и связывания информации, протокол обмена данными и базовое клиент-серверное ПО. К моменту, когда Бернерс-Ли основал в 1994 году консорциум W3C (World Wide Web Consortium, http://www.w3.org/2001/sw/) в Массачусетском технологическом институте (MIT), его основное внимание было сосредоточено на том, чтобы сделать Web по-настоящему осмысленным.
Стремление к осмысленности родилось задолго до таких любимых многими сайтов, как SlashDot, The Onion и Gap.com (впрочем, кому-то они и не столь интересны). С точки зрения специалистов по BI (Business Intelligence, бизнес-аналитика) и KM (Knowledge Management, управление знаниями), эти сайты являют собой пример «лоскутных» систем, разработанных и используемых для какой-либо одной цели — это может быть содействие развитию технологии, комментирование событий или розничные продажи. Такие изолированные системы представляют собой лишь «островки информации», какие бы цели ни преследовали их создатели. Основные усилия специалистов по BI и КМ направлены на возведение мостов между подобными островками. При этом подразумевается, что целое больше, чем сумма его составляющих, и что приобретение новых разнообразных источников данных расширяет платформу для анализа и повышает его надежность. Полная интеграция и обнаружение взаимоотношений в интегрированном целом будут более плодотворными, чем просто случайное обращение к различным источникам.
Наведение мостов
В мире BI разработчики создают мосты, используя согласованные метаданные и скоординированные методы доступа. Методология КМ повышает ценность решения, обеспечивая классификацию и каталогизацию неструктурированной информации с целью создания аналитических метаданных. Но мосты на основе BI часто оказываются однонаправленными и узкоспециализированными. Обычно они создаются для обработки специальных запросов и периодических отчетов, агрегирования и консолидации с помощью оценочных карт (scorecards) и порталов, а также для извлечения данных EDI (Electronic Data Interchange, безбумажный документооборот) из определенных источников для конкретных пользователей. Более глобальный обмен данными подразумевает, что информация передается не только в одном направлении, а пользователь и источник не согласуют протоколы заранее. Но для этого требуются стандартизованные открытые интерфейсы с общими структурами и определениями метаданных.
Значительным прогрессом на пути к таким общим правилам стали стандарты обмена информацией (например, XML) и инициатива Dublin Core, ориентированная на «широкое принятие стандартов метаданных, предназначенных для взаимодействия, и разработку специализированных словарей метаданных для описания ресурсов, способных поддержать более интеллектуальные системы обнаружения информации».
В поисках смысла
Поисковые машины пытаются компенсировать отсутствие смысла в сети Web, ища на сайтах ключевые слова и понятия, соответствующие запросам пользователей. Торговые площадки электронной коммерции пытаются решать проблемы интеграции и автоматизации, связанные с покупкой, поставкой, логистикой и т. п., путем пересылки транзакций в формате XML, привязанном к словарю и синтаксису определенной предметной области. Самый последний «крик моды» — Web-службы. В них применяется аналогичный подход, опирающийся на функциональность центрального сервера и реестры UDDI (Universal Description, Discovery and Integration — универсальное описание, обнаружение и интеграция), которые используют жесткую схему определения служб.
Поисковые машины, электронные биржи, реестры... Изначально предполагалось, что Web станет миром без лишних посредников, цензоров и привратников, где каждый сможет свободно публиковать информацию, а агенты применяются лишь для автоматизации рутинных задач. Проблема этих технологий — не только в сложностях управления, но и в том, как оптимально использовать распределенную, разнородную и постоянно развивающуюся среду Web.
Компании, занятые сбытом конкретных товаров на конкурентном рынке, мало интересуются подобными возвышенными проблемами. Несмотря на широко освещенный в прессе крах "дот-комов", компании, прочно стоящие на ногах, вполне способны реализовать предложенную Amazon.com модель с помощью новых технологий, позволяющих обойти традиционные трудности производства и поставки. Предприятия часто стремятся защитить свое положение на рынке, отгораживаясь от внешнего мира стенами из фирменных закрытых платформ и методов ведения бизнеса, ориентированных на подавление конкурентов, — все это создает барьеры перед инновациями.
Эта стратегия использовалась при массовом насаждении Windows: технологии эффективных автоматизированных вычислений были вытеснены (разумеется, временно!) пользовательскими интерфейсами, требующими интенсивной работы мышью. «Персональный» в словосочетании «персональный компьютер» подразумевает продвижение на рынок бестолковых систем, которые сами пользователи должны наполнять «интеллектом». Наши персональные компьютеры обрабатывают информацию, но не понимают ее.
Механизмы поиска позволяют обходить границы и преодолевать изоляцию. Вначале был поиск по ключевым словам. Следующее поколение поисковых машин научилось проводить автоматический или ручной анализ ссылок, связывающих страницы, и преобразовывать ключевые слова и сводную информацию в понятия. Средства для автоматизированной классификации результатов и разнесения их по категориям теперь широко распространены; новые поисковые технологии различают атрибуты исходных страниц и соотносят их с профилями, описывающими свойства результатов поиска.
Создание осмысленной, "семантической паутины" в соответствии с предложенной W3C концепцией Semantic Web решило бы все перечисленные задачи, и даже больше. Концепция предполагает, что специальные программные агенты, использующие информационные профили, получат возможность не только выполнять поиск, но и действовать в соответствии с его результатами. "Осмысленная паутина" позволила бы вернуть процесс обработки информации в среду, наилучшим образом для него подходящую — в мир автоматизированных одноранговых вычислений, в котором люди большую часть времени думают о сути проблем бизнеса и жизни, а не пытаются вспомнить, где именно расположен пункт "Настройки" — в меню "Файл", "Правка" или "Вид".
Представьте себе замкнутую систему на базе сети, осуществляющую классификацию и категоризацию с применением методов КМ и data mining, автоматически оценивающую и ранжирующую результаты, формирующую и выполняющую бизнес-правила. Реализация этого амбициозного плана потребует создания межотраслевых стандартов, которые не зависят от предметной области и технологии внедрения. На это направлена одна из инициатив консорциума W3C — Semantic Web.
Создание стандарта
Члены W3C осознали необходимость систематического и вместе с тем децентрализованного подхода к описанию содержимого и использованию размещенной в Web информации, которая отражает распределенный характер Интернета. Невзирая на заботливый надзор над стандартами, лежащими в основе "семантической паутины", в последнее время очень быстро стали появляться и развиваться конкурирующие и дополняющие друг друга стандарты каталогов Web-служб. Апологетами этих начинаний, безусловно, движут весьма агрессивные устремления к доминированию на рынке.
Оптимальным для развития средств поддержки принятия решений было бы усовершенствование распределенной "семантической паутины", а вовсе не чрезмерная централизация. Распределенный подход обеспечит большую гибкость и открытость. Кроме того, он не препятствует использованию протоколов, подобных SOAP, основанных на запросах и информационном обмене и являющихся отдельной областью мира Web-служб.
Построение "семантической паутины"
В основе концепции Semantic Web лежат три ключевые технологии:
- спецификация XML, позволяющая определить синтаксис и структуру;
- онтологическая система, позволяющая определять термины и отношения между ними;
- система определения ресурсов (Resource Definition Framework, RDF), обеспечивающая модель кодирования для значений, определенных в онтологии.
Semantic Web использует и другие технологии и концепции, в частности, универсальные идентификаторы ресурсов (общепризнанные уникальные определения элементов), системы обработки правил (логического вывода) и обычные протоколы Интернета.
Онтология основывается на таксономии — упорядочении информации по классам, позволяющем поделить предметную область на категории и определить связи между элементами. Существует много действующих онтологических проектов. С одним из них, OpenCyc, я столкнулся при работе над статьей для Intelligent Enterprise (http://www.intelligententerprise.com/020101/501decision1_1.shtml), посвященной средствам поддержки процесса принятия решений с открытым исходным текстом. OpenCyc — это подмножество онтологии в системе общих знаний корпорации Cycorp. Поскольку речь идет о продукте с открытым исходным текстом, вы вправе свободно его использовать и расширять.
Создатели "семантической паутины" предполагают, что онтологии описываются в среде RDF в формате XML. Язык XML — надежная основа современного многоуровневого подхода к построению языка разметки и прекрасно подходит для выражения синтаксиса. Но без RDF (или другой среды такого рода) основанные на XML конструкции лишены смысла.
Спецификации RDF описывают объектно-ориентированную систему классов. Базовая модель данных включает три типа объектов:
- ресурсы для каждой сущности, определенные в виде URL-адресов;
- свойства, описывающие ресурс и представляющие конкретные его аспекты, характеристики, атрибуты или отношения;
- утверждения, каждое из которых состоит из ресурса-субъекта, ресурса-объекта (или литерала) и предиката, связывающего субъект и объект.
Реализация Semantic Web произойдет в процессе постоянного развития стандартов и технологий — как уже описанных в этой статье, так и других, например, языка разметки агентов DARPA (DARPA agent markup language — DAML). DAML — это семейство языков разметки, позволяющих выражать основанные на RDF онтологии и описывать семантические значения. DAML-языки обеспечивают представление знаний в системах искусственного интеллекта. Они служат для поддержки взаимодействия агентов и механизмов логического вывода с сайтами, размеченными соответствующим образом. Важную роль в сети, объединяющей семантически определенные сервисы, играют системы коллективного аннотирования метаданных — такие, как Annotea консорциума W3C.
Основные направления
Многие из нас хотели бы иметь в своем распоряжении аналитические агенты, способные обследовать Web, находить и согласовывать доступ к широкому спектру источников самых свежих данных, а также использовать правила логического вывода — для оценки ценности и качества найденных источников — и онтологии — для преобразования результатов в пригодную для анализа форму. Вполне вероятно, что кому-то идеальный аналитический инструмент видится иначе, но наверняка вам понравится идея автоматизированных замкнутых систем поддержки принятия решения, которые выходят за рамки централизованных каталогов в Web.
Если вы — поставщик данных или услуг, подумайте об объединении усилий по созданию онтологии и XML-схемы для своей предметной области. Познакомьтесь с основами DAML, посмотрите, как можно дополнить предоставляемые вами услуги применением автоматизированных агентов. Если вы разрабатываете аналитическое ПО, позаботьтесь о расширении своих программных продуктов для работы в соответствии с концепцией Semantic Web. Для широкого распространения технологий Semantic Web потребуется еще несколько лет, но они способны исключительно повысить ценность Интернета. Поставщики и пользователи аналитических данных и услуг, способные раньше других понять сущность метаданных, КМ и аналитических агентов, окажутся в наиболее выгодном положении, когда придет час этих технологий.
Сет Граймс (Seth Grimes) — глава консалтинговой компании Alta Plana, специализирующейся в области аналитических вычислительных систем, демографической и экономической статистики. С ним можно связаться по e-mail: grimes@altaplana.com. |