Чтобы с данными можно было работать — не важно как, — они должны прежде всего соответствовать действительности, затем — обладать достаточной полнотой и доступностью. К сожалению, на практике даже самое первое, казалось бы, элементарное требование часто не выполняется.
Возьмем, например, реальную статистику из доклада Сергея Вихрова, директора департамента технологического развития «Бинбанка», на форуме Informatica Day 2009. В личных данных клиентов банка в поле адреса корректное название города присутствовало менее чем в 38%, а улицы — менее чем в 60% случаев. Примерно в 26 и 36% записей соответственно эти поля не были заполнены вообще, в остальных содержался некий «мусор». Очевидно, подобные данные не могли использоваться для выполнения самых элементарных операций — даже для печати адресов при рассылке писем клиентам. Извлеченная из них статистическая информация тоже вряд ли принесла бы много пользы. Действительно, личные данные для статистики роли не играют. Но если анализ исходит из того, что каждый клиент учтен в ней ровно один раз, дублирование записей существенно исказит результаты. Что касается данного случая, то дубликаты составляли 13% всех записей — точнее, столько удалось устранить, проведя проект по очистке данных. Проект занял четыре месяца, уровень качества данных в целом удалось довести до 90%.
Сказанное выше — это просто характерный пример. В общем же случае известно, что проблема качества данных фактически неотделима от использования аналитических решений. Особенно когда речь идет (и это давно доказано математически) о сложных аналитических моделях с использованием нелинейных алгоритмов. И если в России подобных внедрений пока немного, то их более широкое использование, думается, не за горами.
Итак, данные требуют заботы и на техническом, и на содержательном уровне. В корпорации Informatica, которая специализируется в сфере промышленной интеграции и обеспечения качества корпоративных данных, это, безусловно, понимают. Компания постоянно развивает все более совершенные методы, позволяющие поддерживать актуальность, достоверность и доступность данных. Вопросам применения этих методов и посвящается ежегодный московский форум Informatica Day, который организует компания Data Integration Software — представительство Informatica в России и СНГ.
Представители компании-организатора отмечают сдвиг в представлениях российских клиентов о том, чем занимается компания и чего можно достичь с помощью ее продуктов. Если раньше Informatica устойчиво ассоциировалась исключительно с хранилищами данных, которые «делала лучше всех в России и СНГ», то сегодня появляются специализированные проекты по очистке данных, интеграции данных в режиме реального времени, организации обмена данными с партнерами (также в реальном времени).
Большинство проектов, о которых рассказывалось в докладах, также реализованы в банках. На втором месте — операторы связи, что, по‑видимому, верно отражает структуру потребления технологий обеспечения качества данных. Что же конкретно востребовано? На первое место Сергей Черных, директор Data Integration Software по работе с ключевыми заказчиками, поставил объединение данных из разных источников, которое сопровождается приведением всех данных к единому стандартному виду и их очисткой (именно так ставилась задача в «Бинбанке»). Данные об одном и том же клиенте, хранящиеся в разных системах, в чем‑то совпадают (это дублирование, от которого объединение позволит избавиться), в чем‑то дополняют друг друга (тогда объединение сопровождается обогащением информации), а иногда расходятся — в этом случае необходимо определить правильный вариант. Иногда очевидной или общепринятой «правильной» версии не существует — именно так обстоит дело, например, с транскрипциями иноязычных имен, названий, адресов, порядком полей в адресе. Поэтому объединению должна предшествовать выработка корпоративного стандарта, в котором все подобные вопросы будут определенным образом решены.
Корректность данных контролируется сначала формально (фамилия должна состоять из букв, номер телефона — из определенного числа цифр и т. п.), затем — по содержательным критериям. Есть и «промежуточные» методы — к примеру, система проверки телефонных номеров выявляет номера, которые по форме совершенно корректны, но многократно повторяются: с большой вероятностью они внесены недобросовестным сотрудником путем копирования и вставки и не соответствуют настоящему телефону клиента.
На форуме было представлено два новых очень интересных решения, обеспечивающих содержательную проверку данных. Первое из них — Informatica Identity Resolution — служит для идентификации личности. Такая идентификация производится, например, при пограничном контроле. На границе Евросоюза, где бы мы ее ни пересекали, для проверки паспорта по огромной базе нежелательных лиц достаточно полутора секунд. Сам проверяемый паспорт может принадлежать любой стране, фамилия путешественника может быть до неузнаваемости искажена из‑за неправильной транскрипции, и это не помешает установить тождество. Identity Resolution позволяет искать данные самых разных видов; ни формат, ни язык, ни местонахождение данных роли не играют. Продукт активно внедряют банки и телекоммуникационные компании, хотя завершенных проектов (по крайней мере, в России) пока нет. Другой недавно приобретенный Informatica инструмент — AddressDoctor — позволяет проверить, действителен ли данный адрес (то есть в указанном городе на указанной улице реально стоит дом с указанным номером), или он вымышлен (ошибочен). База AddressDoctor для России покрывает, по данным Informatica, 98% всех адресов в стране, обновляется ежегодно.
Родственная задача — связь и синхронизация данных — возникает всякий раз, когда компания внедряет новую информационную систему со своим способом представления данных, отличным от всего того, что использовалось раньше. Здесь не требуется сверять данные — нужно лишь передать их в новую систему (желательно, конечно, с очисткой) и связать эту систему с существующими на постоянной основе, организовав периодическое обновление. Следующий шаг — мгновенная сверка и обновление, то есть интеграция данных в режиме реального времени. Эту задачу Informatica решает с использованием Web‑сервисов, и эти решения востребованы в России и СНГ. На форуме прозвучали доклады от «Промсвязьбанка» (Тимур Яковлев), где тестируется механизм извлечения данных и их записи в «закрытые» системы внешних поставщиков, и «Вымпелкома» (Максим Смирнов), где на базе Web‑сервисов реализовано начисление бонусов по рекламным акциям для клиентов и дилеров.