Роберт Д. Кугель (robert.kugel@ventanaresearch.com)
- вице-президент и директор по исследованиям компании Ventana Research в области
управления финансовой производительностью.
Чаще всего при определении "неструктурированной" информации больше
говорится о том, чем она не является. Структурированные данные обычно представляют
собой буквенно-цифровые значения, которые можно легко классифицировать по определенным
атрибутам, зачастую являющимся общепринятыми для различных предприятий и отраслей.
Имя, индекс, баланс счета, номер транзакции - вот типичные примеры структурированных
данных. Неструктурированные данные не могут быть непосредственно помещены в
структурированные базы данных иначе, чем в форме BLOB (binary large objects
- бинарные объекты большого объема).
Стандартными примерами неструктурированных данных являются файлы документов, электронные сообщения, аудиофайлы, цифровые изображения и видеоклипы. Хотя во всех таких файлах есть некоторая структура (например, в электронных сообщениях есть адрес, тема, "тело" письма и т. д.), обычно они хранятся в форме, не позволяющей осуществлять простую и логичную классификацию, в отличие от данных, полученных посредством ввода информации в электронные формы (стандартный способ ручного ввода структурированных данных), в результате вычислений или каких-либо других компьютерных транзакций, в процессе которых автоматически создаются наборы структурированной информации.
Управление неструктурированной информацией приобретает все большее значение по трем причинам. Во-первых, со временем такая информация становится все более структурированной. XML и прочие средства теговой разметки упрощают процесс поиска, классификации, сортировки и создания отчетов для информации, хранящейся в файлах, а не в структурированных базах данных. Во-вторых, проблемы информационной "канализации", связанные с доступом к файлам и их сохранением, сегодня становятся все менее острыми благодаря не прекращающейся уже более десяти лет работе по отладке операционных систем и открытых стандартов в области извлечения и хранения данных. В-третьих, системы работы с неструктурированной информацией оснащаются все новыми функциями, облегчающими использование этой информация для бизнес-целей. Параллельно с этим растет доля информации, которую организации создают и хранят в электронной форме.
Наиболее очевидную информацию организации хранят именно в неструктурированной форме. Многие источники приводят статистику, согласно которой лишь около 10?20% корпоративной информации хранится в структурированной форме, обеспечивающей возможность легкого доступа. Развитие систем, работающих с неструктурированной информацией, продвигалось медленно потому, что обычно они предоставляли доступ лишь к малой доле океана неструктурированных данных. Более того, основной задачей этих ИТ-систем была автоматизация канцелярской работы. Это может иметь стратегическое значение лишь для небольшого числа областей, таких, как страхование и правительство. Однако в связи с тем, что корпоративная информация становится все более доступной (поскольку она создается и поддерживается в электронном формате, а также благодаря теговым, файловым системам и т. д.), средства работы с неструктурированной информацией приобретают все большее значение для выполнения ключевых бизнес-операций. Компании используют такие средства для взаимодействия с клиентами, упрощения реализации транзакций, усовершенствования функций управления производительностью и т. п.
Управление неструктурированной информацией состоит из шести основных компонентов:
- Системы управления документами (document management) контролируют процессы создания, редактирования, публикации и архивирования документов. "Простые" функции управления документами включают совместное создание и редактирование (например, предоставление прав доступа, контроль за исправлениями, отслеживание циклов документооборота и т. д.), публикацию (предоставление пользователям доступа к документу, контроль и мониторинг доступа и т. д.) и сохранение. "Сложные" системы управления документами позволяют работать с разными типами файлов (включая изображения, звуковые файлы и т. д.).
- Системы управления Web-контентом (Web-content management), как и системы управления документами, охватывают полный спектр работ, характерных для Интернета (создание, редактирование, публикация и архивирование контента), то есть позволяют работать с презентациями, предназначенными для определенных устройств (например, PDA, браузеры, не использующие фреймов, и т. д.), позволяют персонализировать контент для конкретного пользователя, в зависимости от времени и т. д.
- Управление архивами (records management) определяет то, как документы хранятся и удаляются. Недавние корпоративные скандалы заставили общественность уделять больше внимания задачам архивирования электронных сообщений, чатов и т. д. с точки зрения соответствия нормативным стандартам, что способствует развитию этих функций.
- Управление цифровыми правами (digital rights management) является небольшим, но важным компонентом этой отрасли, который обеспечивает возможность безопасного распространения контента. Соответствующие функции определяют, какие пользователи за пределами корпоративного брандмауэра могут получать доступ к определенному контенту, кто имеет право копировать определенный контент и т. д.
- Сотрудничество в области управления контентом имеет целью усовершенствовать взаимодействие пользователей в рамках единого процесса. Сюда могут входить функции архивирования чатов, конференций на основе "белых досок" (whiteboarding) и т. д.
- Функции ввода изображений необходимы, если изначально информация поступает в бумажной форме. Электронная версия необходима для ускорения ввода данных или в тех случаях, когда информацию надо сохранить, поскольку она может понадобиться для юридических целей или для взаимодействия с регулирующими органами.
В настоящее время эти компоненты доступны в виде отдельных решений. Такое решение может включать один или несколько компонентов - большинство покупателей заинтересованы в приобретении одного?двух компонентов. В течение ближайших трех - пяти лет компании, вероятно, начнут требовать, чтобы решения охватывали полный набор функций, независимо от того, намереваются ли они их реализовывать на начальных этапах.
Ventana Research полагает, что управление неструктурированной информацией будет одной из наиболее быстроразвивающихся категорий корпоративных программ в течение нескольких будущих лет. Одним из мотивов для реализации этих систем уже сегодня является ужесточение требований к соответствию регулятивным нормам. Широкое использование электронной почты и скандалы с управлением корпоративным документами привлекли внимание регулирующих и правоохранительных организаций к схемам контроля за всеми видами контента внутри организаций. Закон Сарбейнса ? Оксли требует жесткой сертификации корпоративных систем, которую лучше всего осуществлять с использованием систем управления неструктурированной информацией.
Наша компания верит, что неструктурированная информация является важнейшим компонентом в системе управления производительностью (Performance Management). Аналитические приложения и инструменты BI сформировали ИТ-фундамент для управления производительностью, однако организации должны иметь возможность для использования всех информационных источников. Только это позволит всесторонне оценивать текущую ситуацию и разрабатывать оптимальные планы и схемы реагирования, соответствующие стратегии и целям организации.
Требования по соответствию нормативам, несомненно, являются внешним катализатором, однако более глубинная ценность управления неструктурированной информацией проявляется, когда неструктурированный контент используется для создания или усовершенствования продуктов или услуг, для оптимизации системы принятия решений и исполнительных процессов. Организации должны концентрироваться на использовании как можно более широкого спектра источников неструктурированных данных, чтобы улучшить свои позиции на рынке и усовершенствовать исполнительные процессы. Программные поставщики и системные интеграторы должны освоить более стратегический подход к продвижению своих продуктов и снизить общую стоимость их реализации.