Банк «Сосьете Женераль Восток» (BSGV) — динамично растущая компания, а активность бизнеса не может развиваться без соответствующей поддержки технологий. Значение ИТ для бизнеса понимаешь сразу, как только входишь в головной офис банка, где распечатанные результаты достижений ИТ-отдела согласно SLA висят на самом видном месте — рядом с планом экстренной эвакуации. Специалистам BSGV удалось создать эффективную систему мониторинга работы коммуникационной сети и приложений, и о том, как велась эта работа, нам рассказали Жиль Бланшар, директор управления информационных систем банка, и Павел Суслин, начальник отдела систем, сетей и информационной безопасности управления информационных систем BSGV.
Intelligent Enterprise: Расскажите о коммуникационной сети банка, ее составе и географической распределенности.
Павел Суслин: Филиалы банка функционируют в девяти регионах от Москвы до Владивостока, и так как филиальная сеть быстро развивается, не исключено, что в ближайший год мы удвоим количество своих отделений. Соответственно за это же время почти удвоится и наша телекоммуникационная сеть.
Сеть построена по принципу централизации архитектуры и по топологии представляет собой если не звезду, то «снежинку». В центре у нас два ЦОДа, соединенных между собой оптическими каналами, один из которых проходит через здание технического головного офиса. Сейчас один ЦОД является основным, а второй — дополнительным, но изначально закладывалась идея, что основным может быть любой из них. Пока это не реализовано, так как требует больших затрат, хотя частично, по критически важным сервисам, дублирование произведено. По крайней мере все телекоммуникационные решения и соединения в обоих датацентрах симметричны. Следующий уровень нашей топологии — филиалы в регионах. На сегодняшний день их десять, и к ним уже подключены окончания лучей нашей «снежинки» — отделения банка, агрегированные вокруг своего филиала. То есть получается трехуровневая структура: центр, филиалы, отделения.
Что касается принципов построения сети, то надежность и отказоустойчивость относятся к основным. Все телекоммуникационные соединения резервируются. Их два в любом месте нашего присутствия за исключением банкоматов. Мы всегда следуем принципу избыточности телекоммуникаций, стараясь при этом использовать балансировку нагрузки. Правда, осуществлять идеальную с точки зрения эффективности каналов связи балансировку в режиме 50:50 технически сложно и не всегда возможно. Для подключения отделений банка к филиалу сегодня используются две выделенные линии от двух разных провайдеров, объединенные в мультилинк. Между региональным филиалом и центром построены два IP-VPN-туннеля, организованные на «облаках» MPLS, также от двух разных провайдеров. К счастью, спутниковая связь нам не нужна, потому что наши отделения находятся в крупных городах и там есть операторы наземной связи.
Связь московских отделений с датацентрами осуществляется по технологии Metro Ethernet, которая сейчас доступна в Москве и становится доступной в других больших городах. Тут мы также используем два соединения от двух различных провайдеров.
Существуют ли у вас SLA с провайдерами? Доступность сети одинакова везде?
Павел Суслин: Мы пытались создать SLA два года назад, но поняли, что ни провайдеры, ни мы не готовы к этому. В то время мы не могли четко сформулировать свои требования, у нас не было подходящей системы мониторинга. Сегодня же, когда мы имеем определенную методологию, которую можем объяснить провайдерам, и четко сознаем свои нужды, мы сочли своевременным встретиться с поставщиками телекоммуникационных услуг и обсудить создание SLA. В наших планах — как минимум подписание пилотных SLA с обоими ключевыми провайдерами, Golden Telecom и Orange Business Services, до конца 2008 года.
Жиль Бланшар: У нас есть концепция взаимодействия между функциями поддержки и бизнес-функциями. Поскольку мы вложили в ИТ много денег, я должен уметь четко объяснить бизнесу, что я делаю с этими деньгами. Я хочу, чтобы мое подразделение было полностью ответственно за то, что мы делаем и на что тратим деньги. Это основная движущая сила — желание сделать нашу работу прозрачной на самом высоком из возможных уровней. Как это обеспечить? Я не хочу давать бизнесу субъективные ответы наподобие того, что «мы работаем правильно» и т. д. Я хочу четко всё показать, причём показать в цифрах и фактах, а не основываясь на чьих-либо ощущениях. Например, я точно знаю, сколько заявок поступало в хелпдеск и сколько из них обработано на первой линии. Это, кстати, один из KPI нашего SLA. Мы отслеживаем статистику ежедневно, анализируем тенденции и так далее. Нам необходимо всё измерять, вот почему два года назад я решил вложиться в систему мониторинга. И сейчас эта система почти создана. Да, мы должны ее развивать, добавлять в нее новую функциональность, но главное — у нас есть информация.
Основная идея, которую мы запустили в BSGV, — это SLA между бизнесом и управлением информационных систем банка. В конце каждого месяца я представляю руководству компании документ, в котором определено пять видов сервиса: прямые сервисы для клиентов BSGV, такие как веб-сайт или услуга клиент — банк; рабочие места (а не рабочие станции), включающие всё, что необходимо сотруднику (ПК, телефон, сеть, принтеры и т. д.); бизнес-приложения и приложения отчетности; служба хелпдеск; обеспечение безопасности. На лепестковой диаграмме мы отслеживаем эволюцию качества предоставления каждого из этих пяти сервисов. Например, мы можем видеть, что в декабре улучшили качество работы банковских приложений. Если же мы где-то видим падение качества, то должны немедленно определить причину. Для каждого сервиса у нас создана шкала от нуля до десяти. На ней указаны значения минимально и максимально возможного качества, величина «достаточного» качества, которую необходимо достичь, а также реально измеренное качество за отчетный и предшествующий ему периоды. Немаловажен вопрос о том, как выбрать оптимальные показатели.
Бизнесу не интересно, почему система была недоступна, его интересует, сколько это продолжалось и как долго люди не могли производить транзакции. Мы измеряем всё, и у нас описаны все причины, по которым система может быть недоступна: техническое обслуживание, установка обновлений, инцидент, остановка по инициативе процессингового центра и так далее... Мы определяем, сколько минут система была недоступна, и можем сравнить это время с тем, каким оно должно быть. Например, для какой-то подсистемы мы ставим целью обеспечить 95% доступности. Её нужно обслуживать, вносить в неё изменения, поэтому стопроцентную доступность иметь невозможно. И то, что получается, мы оцениваем по десятибалльной шкале.
Конечно, мы совместно с бизнесом должны определить KPI, т. е. что собственно мы будем измерять. Измерять всё — слишком дорого, сложно да и не нужно. У нас есть список того, что можно измерить. Мы стараемся расширить его и отслеживаем работу не только сети, но и приложений. Прежде всего необходимо было выделить те параметры, которые можно отследить автоматически. И определив наиболее критичные сервисы, мы составили список критериев для каждого сервиса, а затем — список параметров для каждого критерия. Далее мы определили, какие показатели для нас приемлемы, обсудили их с бизнесом, и бизнес внес свои пожелания. Для выполнения некоторых из них мы и по сей день не нашли решения, но постепенно эти вопросы решаются. Мы знаем, какие цели могут быть достижимы, и когда внедряем новые решения, то пересматриваем допустимые показатели, чтобы предоставить пользователям наилучший сервис. Так что SLA — это не статичный документ: он постоянно «живет», улучшается. Кое-где за все время работы нам удалось добиться улучшения параметров в два раза. Политика бизнеса становится все более агрессивной, и нам приходится искать всё новые и новые решения.
Очень немногие ИТ-подразделения могут похвастаться таким набором SLA. На основе чего вы создавали решение — вашего прошлого опыта или, может быть, это стандарт головного банка?
Жиль Бланшар: Да, в головном банке существуют SLA, но это нельзя назвать стандартом. Скорее здесь более значимую роль сыграл мой личный опыт. Ведь у меня есть опыт работы не только в ИТ: я был главой управления группы Societe Generale, отвечающего за закупки и взаимоотношения с поставщиками, и видел много контрактов, по которым трудно было определить, какое качество обеспечивает поставщик. А там люди были очень заинтересованы в том, чтобы все измерять и считать. И я надеюсь, что смог передать свои знания команде здесь, в банке. Я понимаю, что мы должны создать внутреннюю систему мониторинга и систему мониторинга поставщиков, потому что мы предоставляем услуги банку. В наших планах на 2008 год — создать три дополнительных SLA с тремя нашими основными поставщиками: два с телекоммуникационными операторами и одно с поставщиком банковской системы. Я предпочитаю работать в комфортных условиях. А когда вы достигаете взаимопонимания с бизнесом, то в два-три раза сокращаете трудности. Если вы хотите работать в комфорте — живите в согласии с людьми, с которыми работаете. Сейчас наши отношения с бизнесом гораздо лучше, чем были три года назад.
Павел Суслин: Да, основной идеей последних двух лет было достичь взаимопонимания с бизнесом. Мы не пытаемся что-либо скрывать. Благодаря господину Бланшару культура взаимоотношений полностью изменилась. Нашей задачей стало объяснить бизнесу, что мы делаем, и представить все возможные характеристики нашей деятельности — отчеты и графики, результаты измерений, полученные с помощью системы мониторинга, четкий бюджет и т. д. Насколько я могу судить по своему опыту, а я и раньше работал в иностранных компаниях, реализованная в BSGV модель отношений между внутренним поставщиком услуг (ИТ-отделом) и бизнес-подразделениями очень эффективна. Та прозрачность, которой мы придерживаемся сегодня в общении с бизнесом, удобна и выгодна как для нас, так и для банка. Бизнес понимает, что и зачем требуется службе ИТ, бизнес-подразделения своевременно получают информацию, если приближаются какие-то трудности из-за ограничений производительности или безопасности либо в результате роста сети отделений. Мы не приходим к бизнесу за день до того, как что-то случится, а стараемся всю информацию представить заблаговременно.
Вообще у нас в BSGV бывают два типа проектов: первый — когда мы получаем импульс от бизнеса или предоставляем ему новую функциональность, а второй — технические и инфраструктурные проекты, которые позволяют ИТ-департаменту действовать с требуемым уровнем качества. Обычно когда вам нужны средства на замену чего-либо в сетевой инфраструктуре, объяснить это бизнесу нелегко. Подобные изменения он часто воспринимает как фоновые процессы, не сулящие видимой выгоды. Но мы в 2006 и 2007 годах запустили несколько очень важных проектов по замене значительных элементов инфраструктуры, и не было ситуаций, когда нам приходилось бы спорить с бизнесом, долго убеждать или сталкиваться с серьезными возражениями. Мы смогли представить очень четкие и ясные аргументы, объяснив, что это действительно нужно.
Давайте поговорим о самом проекте. Как вы планировали систему мониторинга, какие решения использовали и как выбирали их?
Павел Суслин: Мы начали в 2005 году с определения требований к системе мониторинга сети в рамках большого проекта полной реорганизации сетевой инфраструктуры. Проект был разбит на несколько составляющих. Одной из них была система мониторинга сети и управления ею. Мы попытались понять, как и с помощью каких инструментов будем управлять этой сетью и определять ее состояние. Та сеть, что была у нас раньше, плохо поддавалась управлению и требовала трудоемкой поддержки. Зная эти ограничения, проблемы старого инструментария, его узкие места и недостатки, мы попытались предвидеть ситуации, с которыми придется столкнуться. Определив свои нужды, мы решили структуру системы управления и мониторинга строить по нескольким уровням. Прежде всего нам нужен был уровень системы мониторинга, который позволил бы в реальном времени управлять сетью и решать проблемы при сбоях. Второй уровень включал инструменты анализа мощности на предмет её достаточности и масштабируемости сети. На третьем уровне было решено создать управление конфигурациями. И последним уровнем, пожалуй, наиболее тяжело реализуемым из-за множества требуемых настроек, был мониторинг сервисов приложений «end-to-end». Это компоненты системы, которые позволяют вам видеть работу сети глазами пользователя приложения, понимать, насколько приемлемо оно отвечает на его запросы с точки зрения работы сети. В обычной системе мониторинга вы знаете, когда сервер недоступен. Но зачастую этого мало. В нашем случае мы знаем, что происходит, например, с приложением отчетности, правильно ли оно работает. Обычно для целостной оценки качества такого сервиса недостаточно просто просуммировать технические данные, относящиеся к измеренным параметрам каждого звена инфраструктуры между пользователем и сервером приложений в отдельности. Мы стараемся встать на место пользователя и понять, что ему требуется в плане качества.
Как и все проекты BSGV, новый инфраструктурный проект был построен на тендерной основе. В итоге мы выбрали поставщика, и к концу 2006 года система мониторинга сети была создана. С точки зрения вендоров мы выделили двух ключевых производителей программных компонентов для нашей системы мониторинга — Cisco и HP. У нас работает модуль управления сетью HP OpenView NNM, в основном для мониторинга в реальном времени и предупреждения о нештатных состояниях. И мы используем множество инструментов Cisco, потому что большинство сетевых компонентов у нас — именно их производства. Четвертый уровень был самым сложным и дорогостоящим, и мы столкнулись с тем, что на рынке нет готовых решений интегрального мониторинга сервисов. Поэтому в конце 2006 года решили запустить расширение проекта сетевого мониторинга, точнее, построить так называемую централизованную систему мониторинга, которая сегодня базируется на инструментах BMC Patrol. Эта система позволяет вести мониторинг сервисов приложений и основных компонентов инфраструктуры информационных систем, таких как серверы, хранилища данных и прочее. Кроме того, с её помощью можно собирать и обрабатывать информацию от множества зондов-агентов, иногда разработанных специально под приложения BSGV и под наше оборудование. В итоге логически четвертый уровень был покрыт инструментарием нескольких вендоров.
Жиль Бланшар: У нас есть несколько типов пользователей системы отчетности. Существует категория отчетов, ориентированных на руководство. Главным образом через SLA она показывает, что идет правильно или неправильно. У нас есть также два уровня отчетов для руководства высшего звена. Еженедельный отчет отражает доступность сети и приложений, содержит некоторую информацию о новых модулях, доступных по сети, об основных инцидентах, сбоях и так далее. В ежемесячных отчетах, обобщающих статистику по работе информационных систем в конце каждого месяца, мы представляем гораздо больше информации, например, объясняющей, как работает хелпдеск. И эти отчеты покрывают все требования нашего руководства.
Как система мониторинга изменила работу банковских сотрудников и вашу работу? Какие выгоды вы получили?
Жиль Бланшар: Я начну с одного забавного случая. Очень хорошо помню, как когда-то один наш сотрудник вбежал в мой офис и воскликнул: «Мы решили проблему еще до того, как нам позвонил кто-то из пользователей!». Раньше мы узнавали о проблемах по звонку пользователей, а сейчас во многих случаях можем предупредить трудности, пока они не станут заметны им. Для сотрудников подразделений банка очень важны доступность и качество сети. Конечно, нельзя достичь абсолютного совершенства, но сейчас мы знаем, что и где не так. Мы знаем все основные трудности, и у нас есть план, как их решить, что нужно делать. Проактивная система мониторинга способствует тому, что специалисты управления информационных систем все больше внимания уделяют не только техническим деталям, но и вопросам бизнеса.
Во второй части своего ответа скажу, как работают люди в ИТ-отделе. Мне кажется, их работа стала куда более комфортной, потому что они знают, что происходит. Система мониторинга — это не панацея от всех трудностей, с которыми может столкнуться служба ИТ, но что она дает точно, так это прозрачность. В каждой комнате, где работают ИТ-cпециалисты, вы увидите на экране систему мониторинга. Она интуитивно понятна. И как только вы замечаете, что какие-то элементы изменили цвет на красный, это означает, что нужно реагировать. По мере устранения неполадки цвет проблемного элемента может измениться на желтый (частичное восстановление работоспособности), а затем и на зеленый (полное восстановление).
Павел Суслин: Для меня система мониторинга — это инструмент, позволяющий сделать работу ИТ-отдела более эффективной и не терять время на выявление и локализацию неисправностей. Благодаря ей вы точно знаете, где искать проблему в случае сбоя. С того момента, когда начали строить систему мониторинга, мы более чем в два раза увеличили сеть, но команда обслуживающих ее ИТ-специалистов не изменилась столь заметно. Это в том числе заслуга системы мониторинга сети, влияющей на повышение эффективности управления.
В подавляющем большинстве регионов, где присутствуют наши отделения, работает всего по одному ИТ-специалисту BSGV. Их деятельность в основном заключается в организации взаимодействия с местными поставщиками ИТ-услуг. Мы не называем этих сотрудников специалистами техподдержки ИТ. Их роль — менеджер ИТ-услуг. Наш основной принцип таков: архитектура информационных систем должна сводить к минимуму штат ИТ-специалистов в регионах. Всё контролируется и управляется из центра.
Жиль Бланшар: Вообще у нас два типа ИТ-менеджеров — менеджеры ИТ-проектов и менеджеры ИТ-услуг. С первыми всё понятно — они должны работать над проектами, инновациями и так далее. Но когда проект окончен, я заинтересован, чтобы всё работало. Потому что моя задача — не только построить аппаратную и программную инфраструктуру, она заключается и в том, чтобы сделать информационную систему банка надежной и эффективной. Я хочу, чтобы изо дня в день эта система работала хорошо. Поэтому для каждого сервиса у нас есть менеджеры ИТ-услуг. Они должны точно знать, от чего зависит качество каждого отдельно взятого сервиса, должны обсуждать это с бизнесом, отслеживать, что нужно доработать или изменить, и быть достаточно опытными, чтобы решить, когда количество изменений становится настолько большим, что пора создавать новый проект для улучшения качества всей системы. Для меня это очень важная позиция.
На основе процессов ITIL мы можем очень четко отслеживать все требования, все запросы на новое оборудование, видеть эволюцию системы. Сейчас закончена первая фаза внедрения системы управления изменениями и конфигурациями: разработана концепция, определены процессы, описаны роли, выбрана система автоматизации. У меня есть список «ТОП‑10 категорий инцидентов», который представляется мне каждый месяц службой хелпдеск, и, конечно, мы его детально рассматриваем.
Мы не считали ROI от внедрения системы мониторинга, но могу сказать, что на содержание ИТ-отдела тратится не так много денег в сравнении с другими затратами банка, даже учитывая все те изменения, которые мы вносим, и тот факт, что банк растет очень быстро. Но нам нет необходимости представлять бизнесу расчеты ROI, потому что он ясно видит, на что тратит деньги и когда эти затраты необходимы.
Мы на самом деле ориентированы на пользователя. И моя идея — предоставить бизнесу то, что ему нужно. Для меня качество — это не просто высокотехнологичное решение или соответствие неким внешним стандартам. Мы не можем построить сеть, в которой всё совершенно, потому что это будет стоить в несколько раз дороже. Я хочу адаптировать ее к реальным потребностям. Это означает, что мы должны тесно взаимодействовать с бизнесом, чтобы понимать его нужды. И у нас должна быть система мониторинга, которая четко измеряет, что мы ему предоставляем. Вот что я называю качеством. И «качество» — это ключевое слово для моего ИТ-подразделения в 2008 году.
Вообще, на мой взгляд, существует несколько шагов к зрелости ИТ-отдела. Первый шаг — это заставить все работать. Второй — сократить затраты. И третий шаг — предоставить бизнесу решения, которые создадут для него конкурентное преимущество. Сейчас я могу сказать, что мы контролируем затраты. И надеюсь, что в будущем мы сможем предоставить бизнесу инструмент, который позволит ему победить в конкурентной борьбе.