Майк Фергюсон
Исполнительный директор компании
Intelligent Business Strategies,
специализирующейся в области
анализа ИТ-систем и ИТ-консалтинга.
С ним можно связаться по e-mail:
mferguson@intelligentbusiness.biz

Интеграция оперативных данных уже долгое время остается одной из самых тяжелых проблем в области ИТ. Один из её вариантов — избавление от унаследованных систем, их замена и консолидация на единой платформе приложений, но это дорого и непрактично. Значительно лучше конвергенция средств бизнес-интеграции, сочетание различных приемов, включая хранилища метаданных и открытие, моделирование данных и службы их качества, а для своевременной синхронизации — интеграция с брокерами сообщений и пр.

Чем сложнее деятельность организации и отношения между ее бизнес-подразделениями, тем громче корпоративные лидеры требуют от ИТ-департамента одного — упрощения. Когда же дело доходит до стратегически важных бизнес-приложений и интеллектуальных систем, руководители бизнес- и ИТ-отделов при описании путей, ведущих к простоте, чаще всего пользуются словом «общий». Бизнес-пользователям нужны общие интерфейсы и бизнес-процессы, общая функциональность приложений, общие инструменты и сервисы.

Интеграция: надежда на Web-технологии

Существует пять главных уровней интеграции, которые большинство предприятий стараются одолеть с помощью соответствующих программных инструментов:

  • пользовательские интерфейсы — корпоративные порталы;
  • люди — инструменты совместной работы;
  • бизнес-процессы — системы управления бизнес-процессами (business process management, BPM);
  • приложения — интеграция корпоративных приложений (enterprise application integration, EAI), брокеры сообщений (message broker) и корпоративная сервисная шина (enterprise service bus, ESB);
  • данные и метаданные — инструменты извлечения, преобразования и загрузки (extract, transformation and loading, ETL), интеграции корпоративной информации (enterprise information integration, EII) и управления корпоративным контентом (enterprise content management, ECM).

Все эти аспекты интеграции важны — но и сложны. Между тем предприятиям необходимо, чтобы перечисленные технологии работали вместе, и наш взгляд на интеграцию данных и метаданных для одной области меняется под давлением со стороны остальных.
Все началось с появления особых хранилищ, предназначенных специально для интеграции оперативных данных. Аналитики могли извлекать из них отдельные представления данных о клиентах, продуктах и активах в исторической перспективе. Это позволяло предприятиям анализировать свою деятельность во времени в различных представлениях (по разным измерениям). Данные систем бизнес-интеллекта, относящиеся к отдельным измерениям (т. е. только к клиентам, продуктам или другим объектам, интересующим аналитика), в ряде случаев сделались так называемыми «мастер-данными» — интегрированной информацией из нескольких систем, на которую пользователи опираются при оценке эффективности, подготовке отчетности и анализе в своих организациях. Данные по отдельным измерениям также представляют собой важный ресурс для других уровней интеграции.

Инструменты и методы интеграции данных имеют первостепенное значение, поскольку системы поддержки бизнес-операций распространились по всем платформам. В этих системах плодятся фрагментированные подмножества оперативных данных с дублированием информации и функций, что в свою очередь влечет за собой неэффективность и высокие затраты.

В последние годы для синхронизации оперативных данных компании не без успеха использовали средства EAI и системы поддержки асинхронных очередей данных от таких производителей, как IBM, Sonic Software, Tibco Software и др. Однако без надлежащих API эти системы не функционируют, т. е. обновление с помощью пакетных файлов все равно продолжается.

Интернет дает бизнес-руководителям некую надежду на то, что простота все-таки достижима. Если Web в состоянии обеспечить через браузер доступ к общим процессам, прикладным сервисам и информации, наверное, предприятиям и не придётся поддерживать по нескольку интерфейсов и версий, не говоря уже о дублировании функциональности и фрагментированных версиях оперативных данных. Возможно ли, чтобы все приложения работали с одними и теми же оперативными данными посредством Web-технологий? Это принципиально важно для фирм, пытающихся соединить все системы и организовать сквозное управление бизнес-процессами. Процессы требуют мониторинга, что подстегивает спрос на интегрированные данные, управляемые по событиям, которые во многих случаях должны собираться и/или распространяться в реальном времени.

Бизнес-интеграция охватывает также управление контентом. Организации должны свести воедино информацию, содержащуюся в неструктурированных документах, на Web-страницах, в электронных письмах, сообщениях, используемых при совместной работе, и т. д. Разработчики признанных систем управления корпоративным контентом, такие как Kapow Technologies или Vamosa, с помощью стандартов и Web-платформ обеспечивают более полный доступ к данным и позволяют пользователям манипулировать ими независимо от источника.

Суммируя все это можно заключить, что прошло то время, когда интеграция данных и информации начиналась и заканчивалась ETL и хранилищами. Она должна развиваться по мере того, как развитие задач бизнеса меняет ландшафт приложений и сервисов. Сегодня для работы на всех пяти уровнях требуется целый комплекс решений по интеграции данных и информации:

  •  хранилища метаданных, где будет содержаться общий словарь бизнеса (shared business vocabulary, SBV), включающий названия типов данных, определения и правила целостности;
  • сервисы выявления и отображения метаданных, позволяющие идентифицировать, определять и отображать в SBV различающиеся данные;
  • сервисы моделирования данных;
  • сервисы очистки и профилирования качества данных;
  • пакетные и управляемые по событиям средства ETL для консолидации данных;
  • EII для федеративного объединения и репликации данных, относящихся к разнородным системам;
  • интеграция с брокерами сообщений и системами ESB для синхронизации данных.

В розыске: оперативные данные

Сейчас существуют три главных подхода к интеграции данных и информации: консолидация данных с применением ETL и аналогичных инструментов; интеграция данных в реальном времени с использованием в первую очередь средств EII и «федеративные» запросы; синхронизация нескольких разнородных экземпляров данных с помощью промежуточного ПО, ориентированного на сообщения (message-oriented middleware, MOM). В области консолидации данных и их переноса в специализированные хранилища по-прежнему доминирует ETL. Синхронизация стала обычным способом связывания операционных задач. В распределенных транзакционных системах — например, с участием защищенного обмена данными — получили распространение асинхронные коммуникации на базе MOM и механизмы обработки, управляемой по событиям, поскольку нужно, чтобы участники транзакций (и программы, и люди) оперативно реагировали на изменение информации.

Назначение средств EII — создание виртуального представления данных, надстроенного над несколькими исходными системами. Для того, чтобы сводить вместе запрошенные данные, в продуктах Composite Software, IBM, Metamatrix и других производителей применяются «федеративные» запросы. Два главных фактора, стимулирующих развитие EII, — это формирование нормативной отчетности и управление эффективностью, когда в отчете (на пульте мониторинга) должны быть представлены данные из нескольких источников. Средства построения отчетов с помощью инструментов EII активизируют «федеративные» запросы, в ответ на которые выдаются интегрированные представления данных. Те же инструменты могут помочь в предоставлении параметров, выводимых на пульт, и регулярном обновлении данных о производительности, особенно от систем поддержки бизнес-операций.

Хотя EII и помогает решить задачи отчетности, однако главная задача интеграции данных заключается в том, чтобы уменьшить число экземпляров оперативных данных и обеспечить более широкое и целостное представление информации по клиентам, продуктам, активам и другим объектам. Понятно, что консолидация оперативных данных в целом упрощает обеспечение непротиворечивости между разными системами — сложность снижается за счет уменьшения объема синхронизации.

Один очевидный путь консолидации заключается в замене унаследованных приложений одним комплексным ERP-пакетом от SAP, Oracle или других фирм, модули которого смогут пользоваться единым источником данных. Однако для многих компаний стратегия «уничтожить и заменить» оказывается и слишком дорогостоящей, и непрактичной. Альтернативный вариант — перепроектировать приложения, поддерживающие бизнес-операции, так, чтобы они могли обращаться к общим мастер-данным и сервисам. В новой архитектуре, показанной на рис. 1, используются общие сервисы мастер-данных, которые создают и поддерживают источники данных. Они вызываются обычными транзакционными бизнес-сервисами, которые не должны больше нести собственную избыточную бизнес-логику, вместо этого создаваемую и активизируемую на уровне бизнес-процессов.

Рис. 1. Информационная интеграция

Разумеется, большинству компаний приходится иметь дело со «смесью» из готовых и разработанных на заказ систем. Как они могут создать общие сервисы данных, охватывающие все ключевые приложения бизнеса? Один из вариантов — уже упомянутый EII: в этом случае инструменты применяются для создания виртуальной базы оперативной информации, к которой каждая программа обращается при помощи своих собственных интерфейсов и процедур отображения. Однако многие ИТ-компании сомневаются по поводу EII, поскольку соответствующие продукты не поддерживают распределенную обработку транзакций.

Есть и еще две возможности. Первая — это сделать «мастером» базу данных одного из готовых программных пакетов, установленных в компании, и синхронизировать с ней данные остальных программ, используя готовые MDM-решения (master data management). Вторая — интегрировать оперативные мастер-данные разных приложений и создать на этой базе общие сервисы. Системы будут взаимодействовать с мастер-данными только через эти сервисы, а синхронизацию всех изменений обеспечит брокер сообщений или ESB.

MDM идет по следу

В конечном итоге мастер-данные должны охватить все источники оперативной информации, BI и неструктурированного контента. Однако во многих организациях оперативные данные играют особую роль. Их интеграция, например, будет удачным вариантом для производственного предприятия, так как позволит ускорить перемещение данных между разными задачами. Понятно, что с интегрированным набором мастер-данных, используемым приложениями ввода заказов и диспетчеризации производства, уменьшается процент бракованных изделий и операционных сбоев из-за ошибок в данных, улучшается выполнение бизнес-процессов и обслуживание заказчиков.

Сегодня на рынке имеется широкий выбор MDM-продуктов. По счастью, ERP-системы Oracle и SAP сейчас не требуют, чтобы управление мастер-данными осуществлялось обязательно из их собственных модулей. И с помощью брокеров сообщений и ESB можно синхронизировать данные систем разных поставщиков. Самый широкий выбор инструментов здесь предлагает IBM — правда, они приобретены у разных разработчиков в течение последних двух лет, и компании еще предстоит скоординировать их для построения полного MDM-решения, охватывающего все предприятие. Тем не менее продукты IBM интересны для организаций, стремящихся соединить средства управления метаданными, интеграции, моделирования и контроля качества данных в рамках одной платформы, построенной на заказ.

Построение общего словаря бизнеса

Одним из критических аспектов управления мастер-данными является определение данных: необходимо создать такую ситуацию, когда все объекты будут становиться мастер-данными не иначе как через общие определения, имена и правила целостности. Волей-неволей вам придется поддерживать разные версии мастер-данных и с помощью SBV отслеживать изменения в их определениях. Поскольку мастер-данные в хранилище метаданных представлены в форме XML, инструменты моделирования и контроля качества данных, а также интеграционное ПО (в том числе брокеры сообщений) могут работать с SBV-хранилищами стандартными способами.
Узнав, какие бывают определения данных, можно получить представление о том, сколько версий мастер-данных существует в разных системах. Наряду с идентификацией определений следует взглянуть на отношения между ними, чтобы научиться лучше понимать, какие определения относятся, например, к одному и тому же наименованию клиента. Полезными инструментами для этого упражнения являются SuperGlue компании Informatica и IBM Rational Data Architect.

Рис. 2. Формирование общих словарей

Следующие шаги — это отобразить разнородные данные в построенных определениях; отобрать источники данных и для каждого получить профиль качества данных; затем создать правила очистки и преобразования данных. Теперь вы готовы консолидировать мастер-данные. Проведите среди источников поиск различий в метаданных, которые должны отображаться в определениях словаря SBV. Когда все это будет зафиксировано в хранилище метаданных, вы окажетесь в состоянии генерировать «артефакты» — представления EII, представления BI-инструментов и т. д., — которые предоставляют версии мастер-данных, специфичные для приложений, но верные по отношению к общему словарю SBV (рис. 2). Мастер-данные, размеченные в XML, могут проходить через ESB и оставаться непротиворечивыми, куда бы они ни направлялись. Этот подход уравнивает всех пользователей общего ресурса. Помимо этого системы, использующие XQuery, способны делать запросы в представления реляционных баз данных, транслированные в XML.

Не забудьте наряду с мастер-данными посмотреть и на сервисы. Процессы, выполняющие обслуживание, аудит и синхронизацию мастер-данных, будут нужны до тех пор, пока организация не окажется в состоянии удалить их избыточные версии, заменить соответствующую логику и использовать вместо этих данных обращения к общим сервисам мастер-данных. А будучи консолидированы, мастер-данные смогут стать источником не только для систем выполнения бизнес-операций, но и для хранилищ данных и отдельных измерений.

  Управление мастер-данными: игроки
 

Согласно прогнозу IDC, рынок ПО для управления мастер-данными (master data management, MDM) и MDM-услуг к 2009 году достигнет 10,4 млрд. долл. Направление MDM уже развивают IBM, SAP, Oracle, Hyperion и другие игроки поменьше. Как правило, все крупные игроки расширяют свою экспертизу и портфель решений посредством покупки небольших независимых разработчиков.

Вот краткий обзор последних событий в этой области.

IBM усилила MDM-функции своего промежуточного ПО WebSphere благодаря приобретению целых четырех независимых разработчиков — Ascential, DWL, Trigo и Venetica. На сегодня предложение MDM-систем от IBM — одно из наиболее исчерпывающих.

SAP выпустила свои MDM-инструменты еще в 2002 году, но затем отказалась от них и купила компанию A2I — разработчика систем управления контентом/каталогами, сочетающих сильный транзакционный компонент с функциями управления жизненным циклом продуктов в области мерчандайзинга, маркетинга и продвижения. С этими системами SAP синхронизирует мастер-данные о продуктах — это часть ее собственной исходной стратегии, в рамках которой ставилась задача охватить элементы данных, относящихся к клиентам, продуктам, поставщикам и ряду других объектов.

Oracle поддерживает CRM и MDM с помощью продукта, называемого Customer Data Hub (концентратор данных о заказчиках). Ранее компания относилась к MDM довольно спокойно, но с портфелем решений, полученным в результате приобретения PeopleSoft, JD Edwards и Siebel, она должна стать серьезным участником рынка.

Hyperion приобрела ПО Dimension Server у фирмы Razza и теперь предлагает его как интегрированный модуль своей BI-платформы под названием Hyperion Master Data Management Server.