Таксономии, т. е. наборы категорий, широко применяются для организации данных на интернет-сайтах, порталах и в корпоративных хранилищах данных. (В российской практике они более известны как каталоги, классификаторы, номенклаторы. — Прим. ред.) Таксономия задает иерархическую структуру категорий. Например, в биологии собаки относятся к царству животных, типу хордовых, классу млекопитающих, отряду хищных, семейству псовых, роду собак и виду собака обыкновенная. Таксономии в сочетании со средствами метатеговой разметки, анализом текста и поисковыми системами обеспечивают в корпоративных средах высокое качество поиска и навигации, недостижимое при использовании одних лишь поисковых машин.

Корпоративная таксономия представляет собой попытку классифицировать и уложить в одну структуру практически всю информацию в компании. Построение таксономии, охватывающей всё предприятие, обещает многочисленные выгоды (см. врезку «Семь причин использовать корпоративную таксономию»). В определенных условиях универсальная таксономия категорически обязательна. Например, в министерстве национальной безопасности и в правоохранительных органах таксономии помогают соединять информацию из разных источников, устанавливать взаимосвязи между существенными фактами и за счет этого эффективнее выявлять угрозы.

Нужна ли вашей организации единая таксономия, зависит от проблем, которые вы пытаетесь решить. «Если вы стремитесь просто улучшить поиск документов или работу со структурированными данными в СУБД, в этом, может быть, и нет необходимости, — говорит Джош Пауэрс, главный онтолог компании Convera, разрабатывающей поисковые системы. — Но если ставится задача улучшить взаимодействие различных подразделений, оптимизировать процессы работы с информацией в пределах компании, то вы должны прийти к некоторому соглашению».

Но реализовать корпоративную таксономию не так-то просто. К построению таксономии есть два подхода. Первый, бескомпромиссный, заключается в том, чтобы попробовать создать и насадить ее собственными силами (через рабочую группу, приказы руководства, обучение и т. п.). Во втором, упрощенном варианте делается попытка увязать разные точки зрения. Если отдел продаж видит рынок не так, как группа управления продуктами, стоит выбрать второй подход и примирить два взгляда, автоматически установив соответствие между каждым из них и центральной таксономией.

Таксономия своими силами

Чтобы получить единую непротиворечивую таксономию для всей организации, необходимо добиться общего согласия по используемой терминологии и способам организации данных. У каждого отдела всегда есть собственные приоритеты, своя терминология и предпочтительная структура информации, так что трудно добиться общего согласия по поводу единого базового набора категорий. Этому можно обучить сотрудников предприятия (в России такие семинары проводит НЦИТ «Интертех». — Прим. ред.) либо привлечь профессиональных таксономистов, которые, в свою очередь, нередко обращаются за консультацией к экспертам по предметной области*. Можно разрабатывать категории с опорой на «народные таксономии» (folksonomies), используемые в публичных службах обмена контентом (таких, как Flickr.com или Del.icio.us.com). Авторы и пользователи подобных служб приписывают контенту метки, которые считают подходящими, и, следовательно, могут сыграть роль таксономистов. Но надо иметь в виду, что «народные таксономии» не обязательно являются непротиворечивыми и нормализованными.

В настоящее время уже появилось специализированное ПО, автоматизирующее задачи разметки контента и классификации. Так, разработанная IBM Research labs служба Dogear обеспечивает создание, группировку и классификацию закладок, относящихся как к Интернету, так и к внутренним корпоративным сетям, помогая клиентам фильтровать и размечать (в первую очередь путем присвоения категорий) большие объемы данных с тем, чтобы сделать эту информацию доступной для использования другими сотрудниками предприятия.

Использование готовой таксономии

Если вы хотите сэкономить время, к вашим услугам готовые отраслевые и тематические таксономии. Например, в Национальной медицинской библиотеке США разработан классификатор MeSH (Medical Subject Headings), который используется при индексировании статей в медицинских журналах. Компания Factiva предлагает Taxonomy Warehouse — набор готовых таксономий (частью платных, частью бесплатных) из разных источников, от издательств до библиотеки Конгресса США, а Convera — таксономии по генетике, финансам и бизнесу, а также по технологии.

Некоторые компании настраивают готовые таксономии в соответствии со своими специфическими потребностями. «Если только вы не считаете, что готовая таксономия в состоянии решить все ваши проблемы, и хотите ее изменить, она становится шаблоном для строительства», — говорит Ферн Хелпер, занимающий должность партнера в компании Hurwitz Group. Если таксономия слишком подробна, допустимо частично проигнорировать ее. Иногда компании адаптируют для своих нужд таксономии, разработанные специальными журналами или фирмами: если последние тратят свои силы и время на выявление ключевых тематических областей, так почему бы не воспользоваться плодами их трудов?

Существуют и технологии автоматической генерации таксономий путем анализа обширного корпуса документов и извлечения оттуда понятийной иерархии. Все основные участники рынка — Autonomy, Convera, Endeca Technologies и Teragram — предлагают программные средства, помогающие строить таксономии, тестировать их и управлять ими, хотя ни одно из них не является полностью автоматическим — без вмешательства человека не обойтись нигде.

Запуск в работу

Разработанная тем или иным способом корпоративная таксономия полезна только при условии, что она может быть непротиворечивым образом применена. Однако разметка контента в соответствии с построенной таксономией может оказаться весьма тяжелой задачей. Распределение существующей информации по категориям сталкивается со сложностями как в ходе приписывания меток единицам данных, так и при отнесении этих меток к той или иной категории. По словам Деборы Сильвермен (Питсбургский университет), даже у библиотекарей, которые пользуются классификатором библиотеки Конгресса, присвоение книгам категорий требует больших трудозатрат, — что уж говорить о тех, кто вынужден строить собственную схему!

Автоматизированные инструменты способны облегчить эту работу. Например, слово Columbia в документе может относиться и к университету, и к звукозаписывающей фирме, и к кинодстудии, и к космическому челноку, но система разметки в состоянии по контексту определить, о чем речь, проанализировав соседние слова. Инструменты для извлечения смысловых единиц (entity extraction), выпускаемые рядом компаний, автоматически опознают имена людей, названия мест, организаций и другие подобные элементы.

Семь причин использовать корпоративную таксономию

Более эффективный корпоративный поиск. В Интернете Web-страницы связаны друг с другом ссылками, поэтому популярны алгоритмы, основанные на ранжировании страниц (например, Google). Поскольку между документами Microsoft Word, Excel, PowerPoint и других форматов, обычных для предприятий, ссылок нет, с ними плохо работают приемы, пригодные для поиска в Web. Разметка информации в соответствии с корпоративной таксономией позволяет быстро сузить результаты поиска, ограничив их пределами некоторой категории.

Уничтожение избыточности. Единая терминология и категоризация позволяют выявить дублирование работ по созданию контента.

Рост ценности интеллектуальных активов. В отраслях, активно работающих со знаниями, таких как консалтинг или финансовые услуги, интеллектуальные активы тем ценнее, чем больше они используются. Таксономия организует и упрощает поиск этих активов, за счет чего повышается коэффициент их использования.

Улучшение работы с клиентами. Продавцы будут работать значительно эффективнее, если получат возможность быстро находить нужную информацию перед тем, как позвонить существующему или потенциальному клиенту. В контакт-центре время — деньги, но их сотрудникам постоянно приходится общаться с клиентами, не знающими точной номенклатуры продуктов и услуг компании. Таксономия помогает интерпретировать такого рода вопросы и отвечать на них.

Поддержка глобализации и локализации. Работа по переводу и локализации контента весьма сложна. Задав глобальную таксономию, можно снизить затраты на перевод, максимально активизировать использование контента и избежать несоответствий при построении брендов, а также в корпоративных коммуникациях.

Упрощение объединения компаний. При слиянии двух фирм часто бывает сложно увязать между собой их продуктовые линейки и корпоративные культуры, причем не в последнюю очередь из-за различий в словаре. Унифицированная таксономия способствует выработке общего взгляда.

Совершенствование навигации по сайту. Таксономии, стандартизирующие терминологию, помогают более логично представлять информацию. Некоторые системы поиска содержат средства администрирования, регистрирующие случаи, когда клиент что-то искал, но не нашел. В результате исследования часто выясняется, что нужная ему информация на сайте присутствовала, но по ошибке была отнесена не к той категории.

Интеграция с поисковыми системами

Надо сказать, что в ряде случаев эти системы интегрированы с поисковыми механизмами. Поиск по ключевым словам имеет одно фундаментальное ограничение — он выделяет только те категории, названия которых совпадают с соответствующими словами. Например, если в документе упоминается Вьетнам, но не встречается выражение «Юго-Восточная Азия», то он не будет отнесен к категории «Юго-Восточная Азия» — ведь программе не известно, как соотносятся значения слов. Такие поставщики, как Inxight или Convera, предлагают технологии извлечения (распознавания) понятий, позволяющие выявлять подобные смысловые взаимосвязи.

Сейчас поставщики активно развивают средства создания таксономий и их соединения с технологиями поиска. Одной из задач, которые ставила IBM при разработке своей поисковой платформы с открытыми кодами UIMA (Unstructured Information Management Architecture — архитектура для управления неструктурированной информацией), было обеспечение совместной работы разных технологий, таких как поиск ключевых слов или понятий.

IBM включила свой таксономический инструмент WebFountain в поисковую систему OmniFind и добавляет все новых партнеров к UIMA. Аналогичным путем движется и Oracle, расширяя поисковую систему Secure Enterprise Search.

Еще одно качество поиска, полезное с точки зрения работы с таксономиями, — это способность интерпретировать метатеги: скажем, определять, что последовательность цифр с данным тегом представляет собой не какое-то произвольное число, а идентификационный номер продукта.

Кластеризация

Для тех, кто не может или не хочет тратить время и силы на построение таксономии, альтернативным решением может стать кластеризация. Работа соответствующего механизма наглядно демонстрируется на сайте www.clusty.com. Введите в поле поиска запрос, и его результаты в соответствии с алгоритмом кластеризации компании Vivisimo будут распределены по тематическим группам, названия которых (вместе с числом найденных страниц при каждой) появятся в левой части экрана. Если же вы выберете представление «облако разметки» (tag cloud), то увидите тематические кластеры в виде полей слов, где более крупным и жирным шрифтом показаны самые многочисленные результаты. Категории могут быть не в точности теми, что вы ожидали, но это в любом случае полезный фильтр, помогающий быстрее находить нужную информацию.

Шаг к онтологии

Там, где жизненно важна точность, вступают в игру онтологии. Онтология — это не просто способ организации информации: она предполагает точные определения всех терминов, логические правила, описывающие отношения между терминами, и позволяет соединить два не связанных друг с другом набора данных или две таксономии, задав для них общее понимание терминов.

«Таксономия — это просто раскладывание терминов по полочкам, — говорит Билл Андерсен, главный научный сотрудник компании Ontology Works, — а с помощью онтологии можно представить структуру тех объектов, которым в таксономии присвоены категории. В действительности таксономии входят в состав каркаса большинства онтологий».

Онтология учитывает значение категорий и их отношение к другой информации. Например, географическая онтология не только позволит опознать слово Columbia как название города, но и определит, что этот город находится в американском штате Мэриленд, который расположен на берегу Чесапикского залива.

В настоящее время онтологическое ПО предлагают компании Ontology Works и Teragram. Спрос на него растет, его применяют федеральное правительство и фармацевтические компании. В этих функциях онтологии заменяют модели данных, представляя собой их расширенную и более явную форму.

Еще одна задача, для которой используются онтологии, — это обеспечение выполнения требований законодательства. «Представьте, что у вас в компании сто баз данных и требуется определить, соблюдаются ли в ней все условия закона Сарбейнса — Оксли, — объясняет Билл Андерсен. — Для этого вам следует поставить очень высокоуровневые вопросы о ведении бизнеса, ответы на которые невозможно получить из имеющихся баз. Надо каким-то образом перевести высокоуровневый понятийный словарь, относящийся к содержанию закона, в низкоуровневые термины ваших баз данных».

Точно так же в биомедицинских базах часто хранятся низкоуровневые экспериментальные данные, а исследователи стремятся найти способы воздействия на организм на более высоком уровне. «Как перейти от очень высокоуровневого вопроса к данным, которые помогут на него ответить? — спрашивает Билл Андерсен. — До недавнего времени, пока не была проделана огромная работа в области онтологии, это могли сделать только очень умные люди».

* В российской практике наиболее распространено составление классификаторов собственными силами, на что тратятся огромные временные и трудовые ресурсы. Лишь недавно на рынке стали появляться компании, предлагающие услуги по составлению таксономий, и одним из первых среди них оказался НЦИТ «Интертех». В отдельных областях и отраслях действуют небольшие фирмы, например «ТОиР Консалт», успешно решающие специфические проблемы автоматизации ремонтов и связанной с ними классификации оборудования. — Прим. ред.