Проблемы роста
По мере расширения сети «ВымпелКома» усиливалась централизация ее ИТ-инфраструктуры. Основная часть технических служб оставалась в московском вычислительном центре, который тем самым постепенно превращался в потенциально слабое место. (Во многом столь высокий уровень централизации ИТ-архитектуры был вызван очень низким уровнем ИТ-инфраструктуры на местах.) Вычислительный центр «ВымпелКома» обслуживает такие критически важные для бизнеса процессы, как самообслуживание клиентов, биллинг, взаимоотношения с партнерами, и при любом сбое в его работе компания понесла бы значительные убытки. Причем как прямые, так и косвенные, связанные с оттоком абонентов или потерей имиджа.
Кроме того, взрывной рост абонентской базы повлек за собой увеличение нагрузки на ИТ-системы. Не говоря о том, что никто не застрахован от сбоев в системах электропитания, от аварий коммунальных сетей, всяческих форс-мажорных ситуаций вроде пожаров и прочих стихийных бедствий или просто от ошибок персонала.
Глава департамента информационной безопасности «ВымпелКома» Дмитрий Устюжанин охарактеризовал сложившуюся ситуацию следующим образом: «Мы реализовали очень эффективную, хорошо управляемую и централизованную ИТ-стратегию, направленную на развитие бизнеса компании. Она стала нашим конкурентным преимуществом, но в области обеспечения непрерывности бизнеса и послеаварийного восстановления оставалась довольно слабой. Основная проблема заключалась в том, что у нас был единственный вычислительный центр, и в случае его аварии мы могли потерять контроль над бизнесом».
Окончательным толчком стал пожар, случившийся в вычислительном центре одного из партнеров «ВымпелКома». Последствия этой аварии были засняты на видео и продемонстрированы руководству компании. «Этот фильм наряду с оценками возможных потерь в случае, если подобное произойдет в нашем центре обработки данных, наглядно продемонстрировал, насколько критичны физическая защита данных и отказоустойчивость ИТ-инфраструктуры», — говорит вице-президент «ВымпелКома» по ИТ Владимир Филиппов.
Выбор подрядчиков
Оценив все проблемы, в «ВымпелкКоме» решили реализовать проект по созданию системы, обеспечивающей непрерывность бизнеса. Началось рассмотрение предложений по обеспечению непрерывности бизнеса. В итоге было выбрано совместное решение компаний «Инфосистемы Джет» и Symantec. «Для проекта требовались наилучший опыт, реалистичный подход и высокая квалификация, — говорит Виталий Задорожный, начальник отдела непрерывности бизнеса. —Специалисты “Инфосистем Джет” давно работали с нами и глубоко знали ИТ-инфраструктуру наших вычислительных центров, а консультанты из Symantec четко поняли наши задачи и, используя системный подход, предложили признанную на мировом уровне методологию. В результате с нами работала команда специалистов с богатым практическим опытом внедрения таких систем как на техническом, так и на организационном уровне. Сотрудники Symantec разработали методики и планы, соответствующие международным стандартам, а инженеры из компании “Инфосистемы Джет” внедрили технические решения, обеспечивающие их выполнение».
Работа над практической реализацией шла сразу по двум направлениям. С одной стороны, велось проектирование и внедрение аппаратного комплекса, с другой — разрабатывался детальный план обеспечения непрерывности бизнеса.
Техническое решение по обеспечению непрерывности
И одним из главных решений стало строительство резервного центра обработки данных. Он расположен более чем в 20 км от основного и связан с ним с помощью нескольких независимых оптоволоконных каналов, проложенных по альтернативным маршрутам. В общей сложности в обоих ЦОДах работает более трёхсот RISC-серверов компании Sun Microsystems от начального уровня до высшего, и все они функционируют под управлением ОС Solaris. Сеть хранения данных позволяла оперировать 300 Тбайт данных (причем при работе с «сырыми», или RAW-данными этот объем разрастается до петабайта и даже более).
Все системы объединены в кластер, состоящий из трех узлов. Два узла расположены на одной основной площадке, один из них задействуется лишь в случае проведения регламентных работ на другом. Третий узел кластера находится на резервной площадке, и на него переводится работа приложений при возникновении каких-либо серьезных нештатных ситуаций. Полноценное переключение с одного ЦОДа на другой по нормативам занимает не больше часа.
Основу системы хранения данных (СХД) составил продукт NSC55 разработки Hitachi Data Systems. Формально она относится к Midrange-классу, но при ее создании использовались аппаратные решения, более характерные для систем высшего уровня: в частности, СХД оснащена массивно-параллельным коммутатором с архитектурой Universal Star Network. Информационный обмен между площадками производится в режиме синхронной репликации. Это делается с целью обеспечения полной идентичности данных, чего невозможно добиться в случае асинхронной технологии репликации, когда остаётся риск потери некоторой информации о транзакциях при сбоях в передаче. При этом потери времени составляют не более одной миллисекунды, что практически незаметно при работе автоматизированных систем. В силу расстояния сети SAN на обеих площадках соединяются с помощью оборудования DWDM.
Для управления системой хранения и репликации данных используются продукты Symantec. Их выбрали во многом из тех соображений, что они могут работать не только с оборудованием Hitachi Data Systems, но и с унаследованными системами на местах, отказываться от которых было бы накладно для заказчика. Кроме того, эти продукты удобны для создания распределенных систем. Veritas NetBackup Enterprise Edition служит для резервного копирования данных на магнитные ленты и виртуальные ленточные библиотеки. Veritas Storage Foundation HA/DR, в состав которой входит Veritas Cluster Server, управляет репликацией данных между основной и резервной площадками. А система Veritas CommandCentral применяется для учета предоставляемых услуг, измерения уровней обслуживания и составления отчетов об использовании ресурсов, автоматизации их распределения с помощью встроенного механизма управления потоками заданий, а также расчета стоимости используемых услуг.
В рамках проекта были также установлены средства контроля физического доступа, пожаротушения, источники бесперебойного питания и подсистема мониторинга климатических условий в серверных помещениях.
Организационные меры обеспечения непрерывности
Стратегия обеспечения непрерывности бизнеса подразумевает анализ влияния на бизнес чрезвычайных ситуаций (Business Impact Analysis, BIA). В ходе его проведения все приложения «ВымпелКома» были разбиты по степени значимости на четыре класса, каждый со своими требованиями к объемам восстановленных данных (Recovery Point Objective, RPO) и срокам восстановления (Recovery Time Objective, RTO). Способ репликации данных зависит от их критичности для бизнеса «ВымпелКома», и соответственно этому определяется время их восстановления — минуты, часы или дни. Для обеспечения антикризисного управления консультанты из Symantec разработали для персонала «ВымпелКома» практические процедуры, тренинги и подготовили документацию.
Однако даже столь глубокой проработки вопроса менеджерам «ВымпелКома» показалось недостаточно, и для объективной оценки результатов проведенной работы и определения направлений дальнейшего развития компания обратилась к независимой консалтинговой фирме. Аудиторская фирма проанализировала следующие решения:
- содержание программы и политики управления непрерывностью бизнеса;
- идентификация и управление рисками;
- оценка влияния сбоев и прерываний на бизнес;
- стратегия и планы обеспечения непрерывности бизнеса и восстановления ИТ-услуг после сбоев.
В качестве методологической основы для данной оценки использовались признанные международные стандарты и методологии, включая PAS56 и соответствующие области СobiT 4.0 и ISO27001. Согласно данным этого аудита степень зрелости программы обеспечения непрерывности бизнеса и восстановления ИТ-услуг после сбоев в «ВымпелКоме» близка к уровню 4 («регулируемый») по шестибалльной шкале (от 0 до 5). А по целому ряду параметров уровень соответствует наивысшей оценке. По итогам аудита выявлены сильные и слабые стороны программы, даны рекомендации по улучшению некоторых аспектов и дальнейшему ее развитию.
Результаты проекта
По своему масштабу и бюджету это один из крупнейших в мире проектов, ориентированных на послеаварийное восстановление и обеспечение непрерывности бизнеса. «От бесперебойности наших услуг зависят благополучие, успех, а порой и жизнь миллионов наших абонентов, что в свою очередь предъявляет жесткие требования к организации бизнес-процессов, — так резюмировал итоги данного проекта Владимир Филиппов. — Масштабы проекта, неоднородность инфраструктуры и высокие требования, предъявляемые к конечному результату, определили выбор партнеров. Услуги компании Symantec в сочетании с решениями компании “Инфосистемы Джет” стали залогом успешного достижения поставленной цели».
Обычно экономический эффект от внедрения проектов, связанных с обеспечением непрерывности бизнеса, оценить бывает сложно. Однако для «ВымпелКома», чьи акции котируются на фондовой бирже, косвенные потери практически приравниваются к прямым, поскольку неизбежно сказываются на капитализации компании. Конечно, определить снижение ущерба в результате внедрения системы обеспечения непрерывности с высокой степенью точности практически невозможно, но то, что оно имеет место, отрицать нельзя.
Надо отметить, что работоспособность выстроенной системы уже подтвердилась на практике. Из-за серьезного программного сбоя была поставлена под угрозу непрерывность оказания таких услуг, как самообслуживание клиентов и поддержка кассовых терминалов партнеров по розничным продажам в целом ряде регионов. Однако процесс был переведен на резервную площадку, и данный инцидент остался незамеченным. Возникали и более мелкие инциденты, когда на резервную площадку перемещались отдельные приложения. Сейчас данную практику предполагается распространить и на филиалы «ВымпелКома» в регионах России и других стран СНГ, где работают дочерние компании или отделения. Типовые планы внедрения систем обеспечения непрерывности бизнеса на основе опыта, накопленного в головной организации, уже разработаны. И все они предусматривают создание как минимум одной резервной площадки.
О компании
В группу компаний «ВымпелКом» входят операторы связи, предоставляющие свои услуги в России, Казахстане, Украине, Таджикистане, Узбекистане, Грузии и Армении. Лицензии «ВымпелКома» на предоставление услуг связи в стандартах GSM и 3G охватывают территорию, на которой проживает около 250 миллионов человек. ОАО «ВымпелКом» стало первой российской компанией, включенной в списки Нью-Йоркской фондовой биржи.