Эволюция таксономии и информации, которой она управляет, напоминает приготовление спагетти. Вначале таксономия идеально организована — подобно коробкам с прямыми и аккуратными соломинками спагетти. Со временем таксономия усложняется, а ее содержимое «скручивается» и переплетается, как вареные спагетти на тарелке. Можно приукрасить запутанную информацию, скрыв ее под слоем томатного соуса, — эту функцию выполняет пользовательский интерфейс многих порталов. Но как тогда съесть спагетти, не запачкав рубашку соусом?

Важность таксономии

Важный шаг в управлении информацией — ее каталогизация. Это и есть задача таксономии, т. е. логичной совокупности разделов и подразделов, организованных в виде иерархической или сетевой структуры. Ее еще называют каталогом документов, справочником, классификацией или категоризацией — в любом случае таксономия призвана создать порядок в хаосе информации. Она представляет собой составную часть приложения управления контентом, которое пользователи используют для доступа к информации.

Таксономии встроены в самые разнообразные приложения управления информацией, в том числе в корпоративные и Интернет-порталы, системы управления документами и знаниями. Поскольку пользователи полагаются на таксономию как на ключевой компонент, поддерживающий порядок информации и доступ к ней, качество таксономии — это важнейший показатель, который определяет эффективность приложения управления контентом.

Жизненный цикл таксономии

В момент первоначального развертывания приложения управления контентом таксономия замечательно структурирована, а ее информационное наполнение соответствующим образом каталогизировано. Это обусловлено тем огромным вниманием, которое обычно уделяется таксономии на стадиях проектирования и внедрения. Но в дальнейшем, по мере поступления новой информации, упорядоченная структура мира, диктуемая таксономией, слишком часто возвращается обратно, к обычному мировому хаосу.

Причина деградации таксономии может заключаться в систематическом неверном поведении пользователей, которые могут неправильно разносить информацию по темам и разделам. В тех случаях, когда разрешено создавать новые разделы, пользователи часто создают лишние, а наталкиваясь на информацию, не соответствующую ни одному из разделов таксономии, они имеют обыкновение просто сбрасывать ее в раздел «разное», что усложняет выполнение запросов и поиск.

На качество таксономии влияют также факторы, неподвластные пользователям, например, реорганизации (если таксономия отражает структуру компании) и появление новых разделов (что характерно при импорте информации со стороны).

Как и во многих других ИТ-системах, у таксономии есть повторяющиеся циклы качества. Период перехода от порядка к хаосу зависит от множества факторов, таких, как число пользователей, наличие (или отсутствие) у них полномочий изменять структуру каталогов, уровень знаний пользователей, объем информации, а также создается ли информация внутри компании или поступает из внешних источников. Тем не менее многие корпорации сообщают, что деградация становится очевидной через год, поэтому некоторые компании ежегодно пересматривают таксономию, а отдельные даже практикуют ежеквартальные профилактические ревизии таксономии.

Поддержание качества таксономии

Есть несколько правил (полученных на основании практического опыта), которые позволяют поддерживать высокое качество таксономии на протяжении длительного времени.

Наймите библиотекарей. Менеджеры, ответственные за управление информацией, годами ведут дискуссии о том, кто должен заниматься созданием таксономии и утомительной работой по разнесению поступающих документов по категориям — люди или программы. Коробочные программные порталы прекрасно подходят для категоризации большого объема данных, но их слабое место — недостаточная точность разнесения документов по категориям. Если для вашей организации важна высокая точность таксономии и ее информационного наполнения, наймите библиотекарей — специалистов, которые создадут адекватную таксономию, а затем будут сортировать информацию по мере ее появления и постоянно поддерживать качество таксономии.

В Yahoo! работает около 200 библиотекарей, обеспечивающих точность и качество этой, вероятно, самой большой и разносторонней таксономии на Земле. Немногие компании сочтут такие расходы на зарплату уместными или просто смогут себе это позволить. Тем не менее организации, чье существование зависит от точности информационной таксономии, должны потратиться на библиотекарей. Но и здесь есть свои подводные камни — многие приложения управления контентом не выходят за рамки подразделения, а последним очень часто не хватает средств для найма библиотекаря.

Определите политики. Разработайте, задокументируйте и введите в действие политики управления структурой таксономии и внесением в ее каталог новых документов, отчетов и другой информации. Политики особенно важны в ситуациях, когда пользователи участвуют в заполнении или классификации данных, хотя библиотекарям такие правила тоже не помешают. Политики должны определять, кто отвечает за выполнение тех или иных задач, а также описывать процедуры их выполнения и механизмы обратной связи для предложений по изменениям и уточнениям системы.

Автоматизируйте процессы с помощью программного обеспечения. Иногда объем информации так велик, что библиотекари не в состоянии изучить и вручную разметить документы (например, когда требуется внедрить и настроить приложение для управления уже существующим массивом данных или когда в таксономию импортируется информация, ежедневно собираемая из многочисленных внешних источников).

Программное решение, будь то портал, средство анализа текстов (text-mining) или фильтр категоризации, можно применить для автоматизации сортировки документов и открытия новых разделов. Но все же для обеспечения высокого качества классификации необходимы библиотекари. В последнее время все популярнее становится такой метод управления контентом, в котором библиотекари создают разделы и определяющие их правила, а программное обеспечение используется для разметки поступающей информации в соответствии с правилами. Объединение людей и машин позволяет обеспечить обработку большого объема информации и высокое качество управления содержимым информационных ресурсов.

Периодически проводите ревизию. Даже при наличии библиотекарей, политик и программной автоматизации неизбежна определенная деградация таксономии. Для поддержки качества требуется периодически пересматривать таксономию и ее информационное наполнение (рисунок).

Разберитесь в своей информации. Некоторые таксономии обречены с самого начала, потому что никто не потрудился разобраться с информацией до того, как приступать к проектированию классификационной системы. Перед созданием таксономии проектировщики должны какое-то время поработать с пользователями — потребителями информации. Программные средства анализа и классификации текстов также помогают выявить основные тематические кластеры до того, как массив информации будет организован в соответствии с задуманной таксономией.

Удаляйте устаревшую информацию. Многие пользователи не желают сталкиваться с документами или разделами, которые устарели по тем или иным причинам. Например, занимающийся новостями штатный журналист наверняка не захочет видеть официальные пресс-релизы более чем годичной давности. С другой стороны, обозреватель может исследовать устаревшие источники, чтобы привнести в статью видение исторической перспективы. Когда доступ к приложению управления контентом осуществляется через корпоративный портал, функции персонализации можно применять для скрытия или отображения информации в зависимости от срока ее давности. Это особенно важно для того, чтобы устаревшие данные не снижали качество поисков и запросов, засоряя результаты малоценными и несущественными сведениями. Если это возможно, переносите устаревшую информацию в архив в процессе ежеквартальной ревизии.

Руки не доходят

Плохая новость заключается в том, что обычно до решения описанных здесь задач руки не доходят, так как нужно старательно поддерживать высокое качество таксономии, пока она (и ее содержимое) кипит, как кастрюля со спагетти. Но есть и хорошая новость: если поддерживать актуальность, уместность и точность таксономии во времени, пользователи будут возвращаться за информацией, способствуя успеху вашего приложения управления контентом.

Статьи по теме в Intelligent Enterprise:

Филип Руссом, «Как искать иголку в стоге сена». Intelligent Enterprise № 5’2002.

Филип Руссом (Philip Russom) — независимый отраслевой аналитик, член консультативного совета Института информационных хранилищ (Data Warehouse Institute) и консультирующий аналитик исследовательской группы Hurwitz Group. С ним можно связаться через сайт http://www.PhilipRussom.com.