Управление данными на корпоративном уровне — Data Governance (DG) — дисциплина сравнительно новая, и в России она пока мало известна. Тем интереснее для российских предприятий опыт «Ситибанка», который успешно использует DG. О нем рассказал Андрей Оберемок, начальник управления стратегического анализа и планирования «Ситибанка», на конференции, проведенной нашим изданием*.
О DG как отдельной дисциплине (отличной от управления данными — Data Management) в мире заговорили не так давно, в 2000-х годах, а для корпорации Citibank она стала актуальной буквально тричетыре года назад.
Устоявшегося русского термина для DG еще нет; иногда говорят об управлении качеством данных, иногда — о стратегическом управлении данными, хотя в действительности речь идет о более широком круге задач: по сути это управление данными на корпоративном уровне. Считается, что необходимость в DG есть прежде всего у крупных международных корпораций, и они действительно используют соответствующие процессы. Хотя сегодня такой опыт может быть интересен и некоторым российским предприятиям. Ведь увеличение объемов данных — тенденция универсальная.
Зачем
Итак, объемы и разнообразие данных растут. Хранилища начали масштабироваться до терабайтных и даже петабайтных объемов задолго до того, как все заговорили о «больших данных», а зачастую у предприятия может быть и несколько терабайтных хранилищ. Но что это за данные? Значительная их часть, как правило, лежит мертвым грузом — не то чтобы вообще не используется, но используется крайне редко. Если же нужные данные не очень хорошего качества — а зачастую так оно и есть, — их очистка отбирает массу сил. По словам Андрея Оберемока, вполне возможно, что аналитический департамент крупной компании при проведении некоторых работ (например, сегментации клиентов) тратил 70—80 % своего времени на приведение в порядок данных.
По прозвучавшей в докладе оценке Gartner (она относится к 2010 году, но ситуация с тех пор не слишком изменилась), 75 % крупных компаний испытывают трудности с реализацией новых проектов и теряют прибыль из за проблем с качеством данных. При этом сокращение усилий на очистку данных на 10 % среднему предприятию из группы Fortune 1000 принесет 2 млрд. долл. и повысит рентабельность капитала (return on equity, ROE) компании на 16 %.
В исследовании, проведенном в том же 2010 году ASUG — Ассоциацией пользователей SAP, отвечая на вопрос, в какой области лежат наиболее серьезные проблемы при выполнении проектов, тем или иным образом связанных с обработкой данных, 87 % участников назвали слабое управление данными на корпоративном уровне. При этом 67 % указали на отсутствие четко определенных должностных ролей, 54 % — на отсутствие или противоречивость процессов управления данными и 43 % — на недостаточную их проработанность.
Если при запуске ИТ-систем с самого начала продумать, какие данные там будут использоваться, откуда они будут браться, как проверяться, куда передаваться, то потом не придется решать проблему интеграции этих систем с другими. Таким образом сокращаются будущие расходы, и это заведомо значительная экономия, хотя подсчитать ее размер сложно. Банки начали это понимать. По информации Gartner, в 2010 году 28 % банков и инвестиционных компаний уже использовали DG и еще 46 % планировали к середине 2012 года создать единую службу, которая следила бы за всеми данными, циркулирующими в компании.
Качественные данные уменьшают риск ложных выводов и ускоряют процесс принятия решений (поскольку меньше времени тратится на проверку информации). Растет скорость продаж, вывода на рынок новых продуктов, запуска новых систем, а также доступность систем разного рода. Для банков это особенно важно, поскольку решение проблемы доступности гарантированно корректных данных, как это ни странно, часто является наиболее инерционным механизмом для поддержания этой динамики. Введение единых стандартов данных позволяет тратить меньше времени на запуск новых проектов, на формализацию требований.
Опыт Citi Group и «Ситибанка»
Citi Group присутствует более чем в ста странах, работая и с частными лицами, и с корпоративными клиентами, так что в каждой стране у Citi несколько бизнесов. А поскольку в каждом бизнесе используются десятки разных ИТ-систем, то в общей сложности их буквально тысячи. Многие системы, разумеется, работают с одними и теми же или с похожими данными, и периодически возникает задача соединения данных из разных систем. Например, нужно узнать, сколько у банка глобальных клиентов (один и тот же человек может пользоваться услугами отделений в разных странах и по разным поводам) или составить отчет по всем балансам по какому-либо продукту по всему миру.
До недавнего времени руководство Citi полагало, что для решения такого рода задач достаточно интеграции приложений, но затем пришли к выводу, что интеграция, если не применять управление данными, слишком сложна и дорога. Используемая предприятиями Citi Group общая шина дает техническое решение некоторых проблем, но успех обеспечивается комплексным подходом.
Так в проектах Citi появилось дополнительное измерение — управление информацией. При запуске проектов все планируют бюджет, сроки, функционал и большинство, наверное, проводит анализ рисков. В данном же случае к этому еще добавляется исследование качества информации.
Необходимо понимать, что DG — не функция ИТ, а самостоятельная функция управления предприятием: соответствующие бизнес-процессы приходят с самого верха и контролируются на корпоративном уровне. В корпорации Citibank есть специальный орган Data Governance Office, а также главный управляющий данными (Chief Data Officer), которому подчиняются региональные управляющие, а им — управляющие по странам. Это вовсе не гигантская структура: скажем, в российском «Ситибанке» DG занимается один человек, который совмещает эту роль с контролем качества данных.
Концепция DG предполагает и более конкретные роли, такие как data steward — «стюард данных», задача которого — «сервировать» правильно приготовленные данные. «Стюарды» отвечают за определенные области данных — например, риск, продажи или CRM. Особая группа — операционные «стюарды», отвечающие за первичный ввод данных. Конечно, из систем биллинга информация приходит автоматически, но очень многое заводится в систему путем ручного ввода или сканирования документов; большая часть ошибок возникает именно там.
Существуют аналитики, специально исследующие качество данных, и менеджеры проектов по управлению данными. Есть и работники, которые занимаются «классическим» качеством данных, в их компетенции — вопросы о том, как надо убирать дубликаты или как исправлять ошибки, когда, скажем, в числовых полях находятся буквы. Что касается ИТ-подразделения, то с ним в обязательном порядке согласуются все стандарты и процессы DG. Для ИТ¬проектов появляются новые требования, и в каждом таком проекте обязательно участвует сотрудник, отвечающий за данные. Подпись этого сотрудника должна стоять под техническими требованиями. Добавляются и требования по поддержке. Как правило, ошибки в данных не требуют переделки информационных систем, но они могут требовать исправления процессов, и ИТ-подразделение в этом тоже участвует.
Применяемые технические решения могут быть самыми разными. Где-то появляется управление мастер-данными, где-то — специальные инструменты, которые контролируют дублирование. Зачастую решением становится модификация существующего проекта: например, внедряется система, и в нее вносятся изменения, которые обеспечат чтение данных из CRM через общую шину (вместо того, чтобы заново их вводить и хранить отдельно, как предполагалось первоначально).
Чем более востребованы данные, тем лучше нужно контролировать их качество. Данные группы Citi содержат несколько тысяч разных показателей. Сейчас в таблицах выделено порядка семидесяти ключевых полей — тех, для которых имеет смысл обеспечить максимальный контроль качества. Порядка двадцати из них — глобальные: это имя клиента, номер клиента, контактная информация и некоторые другие. Эти двадцать полей были стандартизированы и для них построена программа контроля, так что теперь компания всегда может ответить на вопрос, сколько у неё всего клиентов, уникальных и не уникальных, и на аналогичные вопросы о некоторых финансовых показателях.
В дальнейшем планируется выстроить процессы, которые позволят ввести стандартные методы управления качеством данных, общие для всех стран. Стандартизация поможет динамично меняться и эффективно управлять данными со сравнительно небольшими затратами.
Стопроцентного отсутствия ошибок добиться невозможно — даже полностью автоматическая система биллинга подвержена сбоям, пусть они и редки. Задача DG в том, чтобы контролировать качество данных и динамически его исправлять. Речь не об исправлении самих ошибок, а о совершенствовании процессов первичного ввода и выверки данных: нашли ошибку — исправили процесс. Основная же задача сделать так, чтобы ошибки вообще не возникали.
Важная часть бизнес-процессов
Ришат Мухаметшин, эксперт компании DIRECTUM
Основные задачи Data Governance — увеличить отношение количества нужных данных к ненужным, повысить качество корпоративных данных и обеспечить эффективность их повторного использования. Кроме того, дисциплина включает в себя защиту «чувствительных» конфиденциальных данных, обеспечение доверия к ним, а также управление доступом к данным и их жизненным циклом.
Увеличение отношения нужных данных к ненужным — шаг к финансовой оптимизации. Согласно исследованию Data Management Institute, основанному на опросе 3000 компаний, только 30 % всех хранящихся документов сотрудники используют регулярно. Поддержка хранилищ данных при этом съедает по статистике от 33 до 70 % «железных» ИТ расходов! Увеличивая отношение нужных данных к ненужным, вычищая «мусор» из хранилищ, можно экономить до 49 % ИТ-бюджета.
Повышение качества и управление доступом к данным также весьма важны. То, что 70—80 % всего времени аналитиков может тратиться на приведение данных в порядок, — это катастрофа. Эксперт из Gartner Эндрю Вайт в одном блоге заметил, что затраты сотрудников на «причесывание» данных не должны превышать тринадцати минут в неделю. Может, идеал недостижим, но это отличная цифра! Чтобы к ней приблизиться, можно думать об очистке данных в два этапа: очистка на входе — устранение дубликатов, контроль качества вводимых данных и т. п. и очистка постфактум (на разных стадиях жизненного цикла, при возникновении потребности или планово).
Data Governance — важная часть бизнес-процесса. Но есть ощущение, что управлять этой частью вполне может CIO как ответственный за аппаратное обеспечение ввода и хранения данных. Выделение должности Chief Data Officer (CDO) — это своеобразная дань тенденции. Вероятность введения этой должности вполне равна появлению в компании такого топменеджера, как Chief Strategy Officer, хотя его функции по логике изначально лежат на CEO.
Если CDO будет отвечать за построение регламентов, процесса и это поможет компании организовать Data Governance, — отлично. У CIO станет на одну головную боль меньше. В компании Citi Group решили озаботиться введением такой должности, разделив ответственность.
* Запись доклада, сделанного на конференции «Консолидация и интеграция информационных систем и ИТ-ресурсов» 7 ноября 2013 года.