В процессе подготовки переезда центрального офиса самарского Газбанка в новое одиннадцатиэтажное здание перед департаментом автоматизации встала задача создания в этом офисе центра обработки данных (ЦОД). Подробнее о ходе проекта и о его результатах нам рассказали директор департамента автоматизации банковских процессов и технологий Дмитрий Рыбин и начальник управления информационных технологий и телекоммуникационных систем Дмитрий Воронович.
Intelligent Enterprise: Как формулировались основные цели проекта?
Дмитрий Рыбин: Общей целью руководства банка было строительство нового современного здания, отвечающего всем существующим на сегодня достижениям в этой области, а мне было поручено создать современное техническое решение, обеспечивающее непрерывность ведения бизнеса. Именно обеспечение непрерывности и стало главной задачей построения нового ЦОДа.
Кроме того, у Газбанка в Самаре шесть офисов, объединенных в общую сеть, однако вычислительные ресурсы в ней были централизованы не полностью. Теперь в новом здании должна была быть реализована настоящая централизация ресурсов, обеспечено резервирование и удобное обслуживание ЦОДа.
Замечу, что число приложений банка очень велико. Естественно, прежде всего это системы, обеспечивающие основную банковскую деятельность — операционный день и сопутствующие ему функции. Автоматизированная банковская система, представляющая собой ядро автоматизации банка, также переводилась в новый ЦОД. Кроме того, у нас много системного ПО, которое поддерживает связь различных финансовых сервисов: Reuters, Swift, доступ к торгам на биржах.
Как вы выбирали поставщика инженерных решений для ЦОДа и подрядчика проекта?
Дмитрий Рыбин: Когда были поставлены задачи, я занялся исследованием рынка. В итоге выбирать пришлось из двух предложений, сделанных компаниями «Открытые технологии» и самарским интегратором «Парус». Я слабо представляю себе, как такой проект могла бы реализовать компания, находящаяся на удалении от заказчика, потому что знаю, сколько согласований нужно провести на месте и сколько решить проблем. Кроме того, предложение самарской компании было сделано на базе решения APC InfraStruXure вместе со специалистами APC, представители которой приезжали к нам и подтверждали квалификацию «Паруса» как своего партнера. Естественно, сыграло свою роль и то, что с «Парусом» мы сотрудничаем давно и доверяем этой компании. «Открытые технологии» на тот момент не дали законченного предложения, с которым можно было бы уверенно уложиться примерно в тот же бюджет.
При этом решение APC и «Паруса» было более целостным. По большому счету мы выбрали цельный проект с оборудованием известной компании, которая предлагает реализовать этот проект при помощи местного партнера, имеющего серьезный статус. Другие предложения состояли из поставок оборудования разных вендоров. Масштабы цен были сопоставимы, но я считаю, что если в одном проекте использовать оборудование разных производителей, то в конечном итоге всё это приведёт к сложностям при согласовании его работы. Когда же всё инфраструктурное оборудование поставляется одним производителем, то его проще заставить работать в комплексе. А кроме того, когда в проекте участвует более одного провайдера аналогичных услуг, то в случае проблем начинается перекладывание ответственности. Весь мой предыдущий опыт реализации проектов, пусть и не такого масштаба, как этот, говорит в пользу выбора единого поставщика. Поэтому мы и выбрали решение APC и «Паруса»
Дмитрий Воронович: Кроме того, по оценкам специалистов системного интегратора мы серьезно сэкономили за счет того, что все инфраструктурные решения ЦОДа взяли у APC и нам не пришлось собирать систему из компонентов разных поставщиков. Мы даже специально потом ходили на семинары других производителей, чтобы понять, не упустили ли что-то в своем решении. И насколько могли понять — у APC действительно реализовано почти всё. Но в то же время мы помним, что нет ничего хорошего в избыточной зависимости от одного-единственного поставщика, и это тоже влияет на выбор оборудования, наполняющего ЦОД.
Как было организовано проектирование будущего ЦОДа?
Дмитрий Воронович: На первом этапе разрабатывалось техническое задание, на это ушло не менее трех месяцев из восьми, в течение которых длился весь проект. Причём мы не только спланировали наполнение ЦОДа оборудованием, но и продумали всю схему системы охлаждения. Смоделировать расчет теплового баланса ЦОДа взялись специалисты APC. Мы представили им всю необходимую информацию — размеры комнаты, ее предполагаемую компоновку, мощности, которые мы планируем туда завести, количество выделяемого тепла. По этим входным данным сотрудники APC рассчитали схему расположения горячих и холодных коридоров, причем процесс был итерационным.
Дмитрий Рыбин: Интересно было увидеть в графическом представлении циркуляцию воздушных потоков в ЦОДе. Охладить помещение, грамотно сделать эту схему — действительно сложная задача. Вариантов ее решения было несколько, но ввиду некоторых ограничений по помещению был выбран один из них, который и был внедрен.
Какие резервы по масштабированию вы заложили в новый ЦОД?
Дмитрий Рыбин: Я более трёх лет проработал со старым ЦОДом, где не было единого инженерного решения, а всё было сделано как обычно: что необходимо, то и докупали. Это выливалось в «постоянные временные» заплатки, которых хватало максимум на три месяца. Не было никаких ресурсов для расширения. Например, когда система охлаждения в нашем старом ЦОДе перестала справляться со своими функциями, то оказалось, что установить новые кондиционеры не позволяет электрическая проводка.
В этом смысле новый ЦОД мы сделали с запасом: и само здание, и площадь, и электричество, и охлаждение, все системы обеспечения и источники бесперебойного питания спланированы с учетом двукратного расширения. Рабочих мест в компании сейчас 350, но по всем техническим параметрам мы заложили возможность расширения до пятисот. По расчетам мы заложили запас развития по всем показателям как минимум лет на пять. Это грамотно спланированный ЦОД, который долгое время не будет требовать дополнительных вложений, и при этом его очень легко поддерживать. Будут возникать новые задачи бизнеса, но мы к ним готовы.
Расскажите о ходе и этапах проекта дальше.
Дмитрий Рыбин: После составления ТЗ мы провели тендер, в результате которого были выбраны организации, поставляющие внешние услуги для ЦОДа. Ведь такой центр, как наш, — это не просто черный ящик, он не самодостаточен, к нему подходит электропитание, канал связи с внешним миром и т. п. Поэтому второй этап, на который ушел как минимум месяц, и был выбором таких поставщиков внешних услуг. На третьем этапе выбиралось и заказывалось оборудование. Четвертый — строительство здания. Здесь мы ставили задачи строителям, формулировали требования по водозащищенности, физической защищенности помещения, его безопасности, подводу коммуникаций, размеру комнаты. На пятом этапе шёл постепенный монтаж оборудования.
Так как поставленные руководством сроки по въезду были весьма ограниченны, строительство и монтаж отчасти велись параллельно. Хорошо, что пересекались они у нас очень незначительно. Но опыт обеспечения пылезащищенности ручными методами мы получить все же успели.
После окончания строительства и монтажа был этап запуска, опытной эксплуатации. Запустив оборудование при тестовой нагрузке, мы убедились, что оно работает, после чего начался переезд и ввод систем в эксплуатацию. Специалисты «Паруса» и APC подключались на первом этапе, когда полностью сделали техническое задание, а потом во время запуска оборудования, его тестирования и сдачи в эксплуатацию.
Переезд стал самым коротким, но самым сложным этапом и с технической, и с психологической точки зрения. Когда столько людей меняет обстановку, когда так меняется ситуация вокруг них, всё становится очень не простым. За один час всем офисом в триста человек переехать невозможно, процесс длился неделю, и в течение этого времени решалась задача одновременного функционирования нового и старого офисов. На время переезда необходимо было обеспечить непрерывность работы всего банка в целом при том, что довольно трудно было сопрягать работу сложных банковских систем в обоих зданиях. Часть серверов, не критичных в работе, мы перевезли в новое здание в первую очередь, и на них провели испытание. А удостоверившись, что тестовую нагрузку ЦОД выдержал, взялись за перевод всех остальных. Пока, к счастью, у нас нет необходимости поддерживать работу автоматизированной банковской системы 24 часа в сутки. У нас был небольшой перерыв в работе в нерабочее время, который некритичен для бизнеса.
Дмитрий Воронович: Но перерывов в работе локальной вычислительной сети мы себе позволить не могли. Доменная структура должна была постоянно функционировать на обеих площадках, и старой, и новой. Перерыва в доменном обслуживании не было, контроллер домена функционировал даже во время переезда. Для этого мы осуществили его дублирование. Аналогично и Интернет должен был быть непрерывно доступен, на него завязано огромное количество услуг и передаваемой информации, начиная от Swift и заканчивая обычной электронной почтой.
С какими сложностями в эксплуатации ЦОДа вы столкнулись? Довольны ли вы оказываемой вам поддержкой?
Дмитрий Воронович: Основная сложность была в обучении управлению этой системой. И средство мониторинга окружающей среды APC NetBotz, и систему охлаждения нужно было настроить, уметь следить за ней, в каждый момент времени четко контролировать и перестраивать с учетом возрастающих мощностей, чтобы ни температура, ни влажность не выходили за определенные границы. Например, APC NetBotz сразу не заработал, и мы посылали запрос в APC. Ответ пришел, мы сделали то, что предложила служба поддержки, и всё заработало. Основное обучение специалистов проходило уже во время и после запуска. Специалисты интегратора и APC помогали, приезжали, консультировали нас по любым вопросам, начиная от источников бесперебойного питания и заканчивая системой кондиционирования. Но в любом случае нужно было «потрогать» систему самому, чтобы разобраться до конца, что она может, а что нет.
Кроме того, нам пришлось докупать оборудование. Мы предполагали, что для удаленного доступа нам хватит мощностей, перенесенных со старой площадки, но в ходе проекта задач стало так много, что количество серверов увеличилось, наверное, на треть. Так что мощностей для удаленного доступа не хватило. Это самая серьезная проблема подобных больших проектов — вроде бы нужно заморозить состояние систем на время проведения работ, но бизнес не может пойти на это.
Дмитрий Рыбин: Мы установили современное сложное оборудование, которое требует квалифицированных специалистов, и хотя мы достаточно грамотны технически, но в любом случае нужны дополнительные знания, чтобы работать с ним. Сейчас идет этап серьезного развития, начался процесс полностью рабочей эксплуатации. Однако оценить уровень поддержки мы пока еще не можем. До сих пор помощь производителя и интегратора приходила быстро и качественно, но и действительно сложных проблем еще не возникало.
Резервный ЦОД пока в ваших планах, и каково текущее состояние резервирования?
Дмитрий Рыбин: Резервирование организовано на уровне подсистем. У части оборудования основные узлы зарезервированы физически, и если один из них выходит из строя, то мы совершенно спокойно, без перерыва в работе банка, можем вынуть его. Мы используем ИБП APC и при выходе из строя любых блоков источника бесперебойного питания — управляющего, силового или аккумулятора, — и можем заняться его ремонтом. Точно так же организована и работа с сетевым оборудованием, у нас есть под замену почти любой блок, который может выйти из строя. На уровне серверов существуют логические схемы резервирования. Вся информация, накопившаяся за день, дублируется на сервере, который обеспечивает резервирование. В случае выхода основного сервера из строя у нас опять-таки есть время на устранение неисправности. К технологии кластеризации мы пока еще не пришли, не видим в ней сейчас необходимости и используем простое копирование информации на другие серверы.
Каковы результаты этого проекта? И планы по его дальнейшему расширению?
Дмитрий Рыбин: Мы решали главную задачу — обеспечение непрерывности ИТ-систем. С точки зрения обслуживания присутствие всех приложений в едином центре облегчает работу ИТ-отдела.
Кроме того, мы движемся к построению резервного центра обработки данных. У нас уже есть помещение для создания такого центра и протянуты коммуникации для связи с ним. Я думаю, что через год-два построение резервного ЦОДа на другой площадке станет одним из наших новых проектов. И это обеспечит настоящую непрерывность и катастрофоустойчивость. Если посмотреть на мировой опыт, то действительно крупные компании разделяют дублирующие ЦОДы даже географически на случай землетрясений и других стихийных бедствий.
Инженерные системы, установленные в ЦОДе Газбанка
Инженерное решение для ЦОДа основано на APC InfraStruXure, в состав которого входят ИБП Symmetra PX80 с предварительно установленной мощностью 40 кВт, шесть систем кондиционирования InRow SC, восемь шкафов NetShelter 42U 750 мм. По мере расширения парка серверного оборудования решение позволяет устанавливать дополнительные шкафы и увеличивать мощности питания и охлаждения, не прерывая работы уже существующих систем.
Для контроля за функционированием ЦОДа в Газбанке было установлено программное обеспечение InfraStruXure Manager, а для защиты от физических угроз — средства мониторинга состояния среды APC NetBotz. Эти системы визуально отслеживают фиксируемые события и климатические параметры окружающей среды, включая температуру, влажность, движение воздуха и т. д., и оперативно уведомляют ответственных сотрудников при возникновении угроз. Система InfraStruXure Manager, к которой сходятся все установленные в ЦОДе датчики, накапливает информацию, и её можно посмотреть удаленно через браузер или специальную клиентскую программу. Мало того, дистанционно можно не только контролировать перечисленные параметры, но и, например, менять режимы работы кондиционеров. Физическая безопасность обеспечивается системой предотвращения несанкционированного доступа, видеонаблюдением при входе и внутри помещения ЦОДа, — решение APC NetBotz включает в себя камеру наблюдения, передающую изображение из ЦОДа по локальной сети.