Алексей Рощин

Алексей Рощин, руководитель Управления по работе с ключевыми заказчиками компании «Инфосистемы Джет»

Человеку без документов строго воспрещается существовать!
Михаил Булгаков, «Собачье сердце»

Самой большой ценностью любой компании является, прежде всего, ее «интеллект» — практические знания и опыт всех сотрудников, полученные в процессе выполнения различного рода задач. К сожалению, при неизбежной смене кадрового состава в компании ценный опыт часто утрачивается — в «интеллекте» появляются провалы, приводящие к существенному повышению затрат на решение уже когда-то снятых с повестки дня проблем. Казалось бы, этого так легко избежать, ведь процесс документирования опыта в наше время налажен практически везде: от предприятий малого бизнеса до крупных корпораций. Создаются отчеты, аналитические записки, инструкции, регламенты и прочие документы, способные сохранить и передать необходимые умения. Однако весь этот ценный массив данных зачастую остается чем-то вроде огромного склада пыльных стеллажей с кучей бумаг. Все знают, что он есть, очень немногие помнят, что там можно найти, и никто не понимает, как этим эффективно пользоваться.

Получается, что собственные ресурсы и знания компании используются крайне неэффективно. Чтобы изменить ситуацию, необходимо прежде всего преобразовать этот склад в систему управления контентом, в электронную базу знаний.

Что такое ECM?

В этой статье мы будем рассматривать построение базы знаний (корпоративного документального фонда) на базе промышленной платформы ECM. Что же скрывается за этим, столь любимым маркетологами словом? Enterprise Content Management (ECM) — это управление корпоративной, слабо структурированной информацией. На самом деле сам ECM не несет конкретной функциональности, а лишь определяет компонентный состав, корпоративную стратегию организации жизненного цикла электронного контента. Другими словами, это экспертное видение или свод рекомендаций относительно того, как развивать ИТ-ландшафт. Мировое сообщество профессионалов AIIM (Association for Information and Image Management) так определяет ECM: это стратегии, технологии и методы, используемые для захвата (capture), управления (manage), хранения (store), доставки и сохранения (preserve) информации, связанной с внутрикорпоративным процессом.

Итак, ECM представляет собой стратегию, но в то же время этот термин обозначает совершенно конкретные программные платформы. При этом ECM-платформы подразумевают не только решения типа B2E (Business-to-Employee, работа сотрудников предприятия с корпоративным контентом), но и B2B. На рынке существует множество классов подобных систем: системы электронного документооборота (СЭД), управления корпоративным web-контентом (CMS), мультимедийным контентом (Digital Asset Management), процессами на основе бизнес-правил (Business Process Management), корпоративные порталы, EAM-системы (Email Archiving & Management) и т.д. Наиболее же обсуждаемая в последнее время тема — это хранилище электронных документов, или электронный архив (ЭА)* .

Безусловными лидерами в создании ECM-платформ являются такие компании, как IBM, EMC, Oracle, OpenText, Microsoft (по данным международного агентства Gartner). Одним из самых перспективных решений эксперты рынка признают IBM FileNet Content Manager (CM), которое реализует максимально гибкую архитектуру построения электронных архивов.

Зачем нужен электронный архив?

Когда же организация испытывает необходимость в создании единой платформы управления контентом? В 99% случаев это происходит не сразу. Предваряющая фаза — это лоскутная автоматизация. На этой стадии автоматизируется деятельность отдельных функциональных подразделений по принципу ad-hoc: «появится проблема — будем решать». И так в компании возникают CRM, ERP, АБС, бухгалтерская система, модули «Кадры», «Канцелярия» и т.д. В определенный момент этого стремительного развития собственники понимают, что повысить эффективность бизнеса можно за счет сквозной автоматизации бизнес-процессов, связанных с документальным обеспечением, и формирования единой среды хранения и управления контентом. И вот тогда-то в компании формируется ECM-стратегия, первым этапом которой является создание единой базы корпоративного контента или по-простому электронного архива.

По оценкам IDC, сотрудники компаний суммарно тратят в месяц 4–5 полных рабочих дней на поиск информации. Невозможность найти и использовать нужные данные приводит к тому, что специалисты создают их сами, при этом повторно тратят свое рабочее время.

Основные задачи, решаемые электронным архивом:

  • управление электронными документами (Document Management) — их регистрация, контроль версий, обеспечение безопасности и т.д.;
  • управление потоками заданий (Workflow);
  • ввод документов (Data Capture) с автоматизированной категоризацией, индексацией;
  • коллективная работа с документами (Document Centric Collaboration).

Таким образом, ЭА как корпоративная платформа документационного обеспечения по праву претендует на звание центральной системы предприятия. Она, с одной стороны, интегрируется с внутренними системами документооборота (донорами) и автоматизирует ключевые документационные процессы, а с другой, сама интегрирована во внутренние корпоративные системы и является важным поставщиком информации.

Архив электронных документов в основном решает задачи централизации корпоративного контента и реализации жизненного цикла документов в разрезе внутренних корпоративных стандартов. Также архив применяется для организации федеративного хранилища данных в случае территориально распределенных БД. Задача централизации решается путем выбора самодостаточной по архитектуре и функциональности платформы. Ее независимость от уже имеющихся корпоративных платформ позволяет создать универсальную структуру единиц хранения электронных документов, отказавшись от рудиментарной зависимости имеющихся информационных систем.

Рассмотрим программную архитектуру ECM-решения на примере IBM FileNet Content Manager. Платформа представляет собой компонентную реализацию ECM, построенную на концепции сервисно-ориентированной архитектуры (Service-Oriented Architecture, SOA). Основные компоненты FileNet CM используют платформу J2EE (java), что обеспечивает кроссплатформенность решения.

В одном из проектов заказчик поставил перед нами задачу проведения демонстрации продуктивной системы, развернутой на операционной системе RHEL, нескольким функциональным подразделениям на ноутбуке с ОС Windows. Кроссплатформенность FileNet СМ позволила нашим специалистам без дополнительных затрат осуществить портирование разработанного решения.

IBM FileNet CM состоит из следующих программных компонент:

  1. Application Engine — интерактивное взаимодействие с пользователем;
  2. Content Engine — управление хранением и обработкой документов;
  3. Search Engine (IBM Content Search Services)— контекстный поиск по содержимому документов;
  4. Process Engine — управление сценариями работы с документами и взаимодействие с внешними корпоративными системами (например, для реализации процесса согласования документов внутри компании);
  5. Database — хранение ключевой информации, атрибутивный поиск.

Надо отметить, что в зависимости от зрелости корпоративного ИТ-ландшафта ЭА либо использует существующую инфраструктуру, либо включает в себя ряд компонентов. Об особенностях реализации некоторых из них (система управления базой данных, перевода документов в электронный вид, информационной безопасности, поисковая система, системные сервисы и т.д.) поговорим ниже.

Система управления базой данных

Большинство ECM-решений корпоративного уровня поддерживают в качестве внутренней СУБД программное обеспечение разных производителей, что обеспечивает гибкую интеграцию архива в существующую ИТ-инфраструктуру и соблюдение корпоративных стандартов. Так, FileNet CM поддерживает СУБД Oracle, IBM DB2 и Microsoft SQL Server.

Поисковая система

Функционал поисковых машин достаточно разнообразен. Это:

  1. полнотекстовый поиск по содержимому документа;
  2. морфология локального языка.
  3. многоязыковая поддержка поисковой машины;
  4. возможности нечеткого поиска: учет опечаток, ошибок в написании, использование синонимов, словоформ;
  5. поддержка индексируемых текстовых форматов (MS Office, PDF, RTF, HTML, PlainText и т.д.)

Еще один востребованный функционал — это поиск документов, похожих по содержанию на текст запроса. Представьте, что вы готовите внутрикорпоративный приказ, но не уверены, что описанные положения не пересекаются с уже имеющимися нормативными документами. Централизованный архив позволит не только найти схожий по функционалу документ, но и определить степень его совпадения с вашим.

В основе любой ПМ лежит принцип синтаксического сжатия содержательных фрагментов текста и выделение отдельных смысловых кусков с учетом фразеологии, позволяющее осуществлять аннотирование и лексическое индексирование документа. При выводе результатов поиска используются алгоритмы определения релевантности, которые позволяют в первую очередь получить доступ к документам, максимально соответствующим условиям запроса.

В состав FileNet CM входит поисковая подсистема Content Search Services, которая является одним из лидеров в своем классе.

Интеграция с корпоративными системами

Способ взаимодействия электронного архива с системами-источниками в части загрузки информации не имеет большого значения, так как в большинстве случаев это ни на что не влияет. Наиболее распространенными являются два вида такого взаимодействия:

  1. Пакетная загрузка. Документы и атрибутивная карточка единицы хранения из источника выгружаются на общий файловый ресурс. В IBM FileNet задачу интеллектуальной загрузки осуществляет компонент Content Collector. Чтобы достичь максимальной скорости передачи данных и не мешать работе других бизнес-приложений, Content Collector запускает ее в часы наименьшей нагрузки на ЛВС (в нерабочее время).

    В качестве альтернативы использования Content Collector компании зачастую рассматривают самописные компоненты, которые позволяют на начальных этапах интеграции (не более 2 внешних систем) выиграть в стоимости решения. Но это преимущество в будущем сводится на нет большими затратами на сопровождение таких компонентов и необходимостью создавать собственные коннекторы для новых источников. Наш опыт показывает, что применение Content Collector для интеграции с почтовыми системами, контентом в СУБД и файловыми источниками позволяет организовать управляемый процесс загрузки и обработки данных. Отметим, что использование уже встроенных в Content Collector коннекторов позволяет абстрагироваться от структур систем-источников.

  2. Транзакционная загрузка. Документы из источника доставляются промежуточной транспортной средой гарантированной доставки сообщений (такой, как IBM WebSphere MQ). При этом система-источник сама инициирует процесс загрузки и контролирует факт выполнения задания.

В 95% случаев имеющиеся в ИТ-ландшафте заказчика системы не обладают достаточной гибкостью для интеграции. С целью повышения интероперабельности известные мировые бренды включили в состав своих решений компоненты реализации спецификации CMIS (Content Management Interoperability Services). CMIS содержит описание интерфейса web 2.0 для веб-сервисов, который разработан для прозрачного доступа к контенту ECM-системы. Спецификация позволяет реализовывать композитные приложения (в том числе mash-up) не зависимо от реализации хранилища контента. Для IBM FileNet описываемую поддержку интероперабильности ЭА осуществляет компонент IBM CMIS.

Cистема перевода документов в электронный вид

Самая востребованная система, с которой интегрируется ЭА, — это система перевода бумажных документов в электронный вид (в том числе технология ретроспективной конверсии). Ее основными функциями являются сканирование, распознавание и верификация. Рассмотрим один из основных бизнес-сценариев в банковской сфере: загрузку в хранилище анкет заемщиков ипотечных кредитов. Здесь нужно не только распознать анкету для полнотекстового поиска, но и ключевую семантику: ФИО, дату рождения, сумму и валюту кредита. Все операторы делятся на две группы: сканирования и верификации. Задача первого — отсканировать анкеты и проверить результат. Далее полученная графическая информация отправляется на серверы распознавания, где к ней применяют гибкие шаблоны и по определенным критериям поиска (метки на документе, отступы, текст и т.д.) находится ключевая семантика. Оператор верификации получает уже распознанный документ и ключевую информацию, осуществляет проверку и выполняет экспорт данных (образ документа и атрибутивные данные). Этот сценарий позволяет увеличивать скорость ввода документов линейно при расширении штата операторов. При этом нужно учитывать, что обычно самое «узкое» место в этом сценарии — верификация документа.

Отметим, что электронный архив работает уже с экспортируемыми данными (с помощью продуктов АРМ верификации/экспорта), которые в большинстве случаев представляют собой двухслойный PDF/A** и XML с распознанными атрибутами (PDF/A является специализированным форматом архивного хранения, гарантирующим, что документ может быть воспроизведён в том же виде, в котором был создан).

FileNet в своем составе имеет Content Collector, который позволяет «захватывать» имеющиеся данные и загружать их в хранилище согласно внутренним бизнес-правилам компании.

В проекте, реализованном для крупного госзаказчика, мы создали центральный архив юридически значимых документов. Их источниками являлись различные СЭД (системы электронного документооборота), которые передавали ЭЦП и документы в формате PDF. При этом некоторые СЭД создавали «проблемные» PDF, встраивая в них измененный вектор шрифта. Когда их открывали с помощью стандартного Adobe Acrobat Reader, поиск по контексту осуществлялся корректно. Но вот контекстный поиск извне был невозможен , так как системы управления контентом в принципе не позволяют хранить свой вектор шрифта для каждого отдельного документа. Пути решения могли быть следующими: либо перед загрузкой в архив конвертировать документ в нужный формат, либо изменять схему формирования PDF в системе-источнике. Первый вариант был не применим, поскольку электронные документы уже имели ЭЦП и не могли быть изменены. Для второго варианты мы выработали рекомендации по формированию и успешно их применили. Этот пример наглядно демонстрирует, что для успешной реализации контекстного поиска по содержимому документа нужно прежде всего детально изучить форматы данных систем-источников.

Подсистема информационной безопасности (ИБ)

Программные и технические средства ИБ, закладываемые в ЭА, должны, в первую очередь, соответствовать хранимой информации. Остановимся на отдельных моментах реализации ИБ. Существует распространенная практика: перед размещением электронного документа в хранилище файл должен быть проверен антивирусной системой. Здесь надо быть внимательными — принято считать, что достаточно установить антивирус, и «вылечивание» документов от вирусов будет происходить магическим образом. Это заблуждение. Во-первых, часть сигнатур документов хранится во внутренних закрытых структурах Content Manager, и антивирус не осуществляет API-работу с этими данными. Во-вторых, даже если антивирус «заберет» зараженный файл на карантин при работающем Content Manager, то данные внутри него станут неконсистентными. Поэтому правильным является решение, когда компонент FileNet Application Engine отправляет документ на проверку перед размещением. В случае с архивом это особенно важно, поскольку иначе под угрозу ставится весь корпоративный контент. Если не выявить проблему заражения на ранних стадиях, то все резервные копии также будут заражены. Но даже если исключить риск заражения всего архива при отсутствии антивирусной защиты, все же есть вероятность возникновения неприятной ситуации. Узнать о том, что файл испорчен, можно слишком поздно — уже при попытке доступа к нему (когда исходников не останется и не будет возможности его восстановить).

Для защиты http-трафика при web-ориентированном доступе к хранилищу принято использовать SSL. FileNet позволяет организовать как одно-, так и двухфакторную SSL-аутентификацию, реализованную в сервере приложений (как вариант, зачастую используется IBM WebSphere Application Server).

В случаях, когда существующей модели разграничения прав доступа к документам не достаточно, применяется шифрование непосредственно документа внутри архива. Дело в том, что шифрование контента внутри ECM отрицательно сказывается на производительности. Зачастую нужно обезопасить от «случайного взгляда» не все содержимое архива, а лишь некоторые документы и предоставить доступ только определенным сотрудникам. Для реализации такой персональной политики безопасного хранения используются асимметричные криптоалгоритмы, лежащие в основе инфраструктуры открытых ключей (PKI — Public Key Infrastructure) предприятия.

В случае если уровень конфиденциальности информации таков, что несанкционированная передача документов в другие компании приведет к косвенным финансовым потерям и необходима организация дополнительной защиты от самих сотрудников, применяется комплексная интеграция архива с IRM-решениями и с существующими DLP-системами***. При размещении документа в ЭА вычисляется сигнатура, являющаяся его уникальным идентификатором. DLP-система содержит информацию о том, какой пользователь имеет право отсылать тот или иной документ вовне. Допустим, сотрудник пытается отослать по электронной почте файл и при этом не имеет на это права. В таком случае система предотвращения утечек гарантированно блокирует передачу информации.

IBM FileNet позволяет реализовать общепринятые модели разграничения прав доступа. Но некоторым организациям в силу специфики работы необходимо обеспечить различным категориям пользователей доступ к разным частям документа. Например, в договоре на поставку оборудования ИТ-отдел должен видеть все, кроме цен; юристы — все, кроме технической спецификации; а договорной отдел — весь документ. Но ведь если пользователь имеет доступ «на чтение», то он может скачать документ на рабочий стол и открыть его в локально установленном просмотрщике (например, MS Word). Поэтому для расширенного управления ИБ в FileNet используется коннектор Seclore FileSecure, позволяющий контролировать доступ к документу непосредственно на рабочих местах пользователей и определять права доступа в режимах: КТО (может использовать документ), ЧТО (можно делать с ним — просматривать, редактировать, печатать, отправлять, контролировать), КОГДА (даты, периоды времени) и ГДЕ (в офисе, у делового партнера). Seclore обеспечивает бесшовную интеграцию с IBM FileNet WorkPlace.

Решения FileNet и Seclore мы использовали в проекте создания электронной библиотеки для Пермского государственного национального исследовательского университета. Они позволили нам эффективно решить задачу обеспечения регламентного доступа к библиотечному фонду в соответствии с лицензионными соглашениями с издателями. В результате, как и в обычном читальном зале, студенты имеют доступ к электронном книгам на определенное время. Такой вариант реализации электронной библиотеки расширил имеющийся в университете материал учебными пособиями коммерческих издательств. Теперь учащиеся могут бесплатно изучать необходимую литературу.

Системные сервисы

При интеграции с системными сервисами необходимо рассмотреть вопрос надежности, резервного копирования и интеграции с системами точного времени (NTP Service).

При реализации архивных решений Enterprise-уровня для обеспечения высокой надежности рекомендуется применять дополнительные кластерные технологии. Для создания HA-кластера (High Available) можно использовать как специализированные средства (Symantec Veritas, IBM Tivoli и др.), так и средства самой ОС (MS Windows, RedHat EL).

Отметим, что резервное копирование в электронных архивах имеет свои особенности. С точки зрения хранения данных архивная платформа разделена на отдельные сущности — БД документов, БД семантики и метаинформации архива, а также БД поискового сервиса. Соответственно, в FileNet Content Manager применяется аналогичный компонентный подход, и все эти три сущности хранятся в неоднородных хранилищах: файловой системе, реляционной БД и нереляционной структуре данных. Несмотря на то, что все программные компоненты FileNet CM работают согласованно, единой политики консистентного резервного копирования в режиме полной доступности (или резервного копирования по «горячему») для пользователей системы нет. Для согласованного полного резервного копирования необходимо остановить часть осуществляющихся в FileNet процессов: Application Server, Process Engine, Search Engine. Для ускорения процесса копирования архив должен быть спроектирован так, чтобы оперативное и архивное хранилища (ObjectStore) были разделены на логическом уровне. Оперативный ObjectStore должен быть размещен на быстрой файловой системе (ФС) и иметь доступ на чтение/запись. Архивный ObjectStore может быть размещен на медленной ФС и иметь доступ только на чтение. При такой конфигурации политики могут быть настроены максимально сбалансированно с точки зрения требуемого места для хранения backup’ов и скорости выполнения копирования.

Интеграция системных сервисов FileNet с единой корпоративной системой точного времени является важным фактором корректной работы других его подсистем: выполнения сценариев пользовательских бизнес-процессов или проверки электронной цифровой подписи. В качестве сервера точного времени обычно выступает либо активное сетевое устройство, либо один из серверов, который по протоколу NTP «раздает» время другим машинам.

ЭЦП

Сегодня для придания электронному документу юридической силы повсеместно используется электронно-цифровая подпись (ЭЦП). ЭЦП также решает задачу обеспечения его целостности при хранении. Причем ее формирование может происходить как во внешней информационной системе, так и непосредственно при размещении документа в архиве.

С размещением документа с уже имеющийся ЭЦП сложностей не возникает (так как в случае открепленной ЭЦП — это просто обычный файл), но как сформировать подпись при его непосредственном размещении? Один из самых распространенных вариантов — подключение внешнего plug-in компонента, который через специализированный API-интерфейс обращается к функции криптопровайдера операционной системы пользователя и опосредованно к хранилищу его сертификата.

Формирование и проверка ЭЦП — это задача криптопровайдера. Но на практике даже криптопровайдеры, реализующие один и тот же алгоритм (например, ГОСТ), зачастую несовместимы друг с другом. Поэтому при проектировании архива, который должен позволять работать с ЭЦП от разных криптопровайдеров, нужно включать в его состав поддержку всех подобных модулей.

Как выбрать оптимальный корпоративный криптопровайдер? На государственном уровне в этом качестве de facto используются CryptoPRO CSP и VipNet CSP, которые, в свою очередь, поддерживают стандарты ГОСТ Р 34.10-94 и ГОСТ Р 34.10-2001. Поэтому если вы планируете обмениваться ЭЦП с госорганами, либо организовывать юридически значимый документооборот, мы рекомендуем использовать именно эти стандарты. Если же вам не нужно хранить юридически значимые документы, можно использовать любой доступный в операционной системе криптопровайдер.

Для реализации функции проверки ЭЦП в наших проектах мы используем отдельный программный сервис (запускаемый как Windows Service), осуществляющий взаимодействие с компонентами ЭА по протоколу SOAP/XML. Это позволяет отделить бизнес-логику самого электронного архива от процессов, связанных с проверкой ЭЦП, в том числе от получения корневого и списков отозванных сертификатов.

Система хранения бумажных документов

После загрузки документов в ЭА также должен сохраняться и его бумажный оригинал. Задачи топографирования в электронном архиве решаются несколькими способами. Простой вариант, применимый для небольших архивов: в карточке документа указывается место хранения бумажного оригинала.

По запросу одного из банков мы разработали проектное решение по интеграции ЭА с системой хранения бумажных документов. Физически документ хранится в специализированном хранилище, при этом пользователь электронного архива имеет достоверную информацию о месте расположения бумажного оригинала. В случае его изъятия из архива можно получить информацию о том, кто именно взял документ.

Для очень больших архивов создаются системы хранения и устанавливаются специализированные системы подачи стеллажей и управления фондами, а для идентификации дел используются RFID-метки. Для того чтобы архивисты и пользователи получали достоверную информацию о месте хранения бумажных документов, ЭА интегрируется с встроенным в шкаф ПО.

Как выбрать электронный архив?

Типовые ошибки, которые совершают компании при выборе решения:

  1. Нежелание конкретизировать свои бизнес-процессы.
  2. Сбор требований из Whitepaper.

Такой подход приводит к тому, что ни одна из платформ не может выполнить описанные нами требования.

Можно порекомендовать CIO для успешной реализации проекта разделить работы на следующие этапы:

  1. обследование внутренних процессов;
  2. прототипирование будущего функционала;
  3. разработка технического задания.

Также при выборе будущего решения необходимо учитывать совокупную стоимость владения системой (Total Cost of Ownership, TCO). При этом нужно обратить внимание не только на его программную составляющую, но и на аппаратную часть и техническую поддержку.

Заключение

В конце обзора хотелось бы еще раз обратить внимание на то, что FileNet CM — это мощная функциональная ECM-платформа, позволяющая упростить работу с неструктурированным контентом при решении любых бизнес-задач. При этом работоспособность и мощность решений, реализованных с помощью FileNet CM, легко наращивается за счет гибких компонент архитектуры. Эти компоненты позволяют, с одной стороны, эффективно утилизировать имеющиеся серверные ресурсы, а с другой, обеспечить горизонтальное масштабирование при «взрывном» увеличении количества обрабатываемых данных или числа пользователей системы.

Одной из востребованных функциональных возможностей FileNet CM, значительно ускоряющей процесс внедрения, является формирование единой базы знаний, включающей в себя наиболее распространенные стандарты сбора и обработки любой документации. Такая база позволяет оперативно реализовать процессы управления документационным обеспечением в соответствии с корпоративной политикой компании.

При этом контроль всего жизненного цикла документационного обеспечения значительно упрощается за счет его автоматического реинжиниринга и повышения прозрачности использования информационных ресурсов внутри компании. Рядовые же пользователи получают удобный интерфейс для сбора и работы с информацией. В целом внедрение ECM-решения увеличивает производительность работы компании и определяет еще один уровень зрелости существующих бизнес-процессов.

* В статье под электронным архивом понимается ECM-платформа.
** PDF/A — Portable Document Format / A — cтандарт ISO 19005-1:2005.
***
DLP (Data Leak Prevention) и IRM (Information Rights Management) — системы предотвращения утечек конфиденциальной информации.