В конце марта 2009 года в Ростове-на-Дону компания IBM провела конференцию, все выступавшие на которой представители организаций-заказчиков рассказали об опыте построения центров обработки данных (ЦОД) с использованием blade‑серверов. Вопросы о том, почему было принято именно такое решение и чем вызвана любовь к «лезвиям», мы задали Андрею Ефремову, начальнику управления автоматизации «Донкомбанка», и Владимиру Сердюкову, заместителю главного инженера по автоматизации «ДонЭнергоСбыта».
Сбои и отказы в ЦОДе
Андрей Ефремов рассказал, что в «Донкомбанке» отказы оборудования ЦОДа случались. Первое реальное переключение на резервные мощности произошло, когда на обычном двухпроцессорном сервере отказал системный жесткий диск, и база данных оказалась недоступна. Вся заранее запланированная на такой случай процедура была проведена в полном объеме: запустили процедуру восстановления базы данных, дождались ее окончания, проверили состояние базы данных, все ли операции банка попали в нее. Полностью процедура восстановления, проверки и переключения на резервный сервер заняла около трех часов. На все это время банк был вынужден приостановить обслуживание клиентов, поскольку никакие действия не могли быть выполнены — справочники, состояние счетов клиентов были недоступны. Это был первый звонок, предупреждающий, что пора оптимизировать процедуры восстановления после сбоев и найти технологию, которая позволит восстанавливать базу данных за меньшее время.
Около четырех лет назад тоже был один случай, связанный с повреждением базы данных в результате отключения электроэнергии. Оно произошло в воскресенье, когда ИТ-персонал отсутствовал на рабочем месте. В понедельник обнаружилось, что база данных повреждена и работать невозможно. В распоряжении администратора базы данных были резервный сервер с копией базы за субботу и воскресный журнал изменений. Восстановление заняло чуть меньше часа. Весь день банк отработал на резервном сервере, и уже поздно ночью после устранения проблемы специалисты переключили систему обратно на основной. Еще один случай отказа ЦОДа, связанный с электропитанием, произошел сравнительно недавно. Из-за особенностей размещения головного офиса банка, в котором находятся серверы, не было возможности подвести какое‑либо резервное питание. Требования пожарной безопасности не позволяют установить в здании банка дизель-генераторы, топливо для которых нужно где‑то хранить. Так что рассчитывать приходилось на UPS.
Аварийное отключение электросети произошло прямо посреди рабочего дня. Банк работал сколько мог, операции были завершены, выполнена передача информации в ЦБ, но после этого до начала штатного выключения серверов кончился заряд UPS. Это привело к повреждению базы данных. Поскольку резервный дата-центр оставался в актуальном состоянии, все подразделения были переподключены на него. После восстановления электропитания и запуска дата-центра были проведены мероприятия по обратному переносу базы и восстановлению нормальной работы системы. Проблема оказалась достаточно серьезной, однако, по словам Андрея Ефремова, современные средства управления базами данных позволили исключить простой банка и потерю информации.
Три часа на восстановление
Заметим, что раньше в «Донкомбанке» одно время действовала схема, согласно которой архивация данных проводилась ночью, когда банковских операций нет, и сервер работал практически вхолостую. По такой схеме время архивации удалось за счет оптимизации процедуры довести до 45 минут. В течение этого времени успевали полностью пройти архивация и сжатие базы данных. После чего ее можно было передавать на другой сервер или резервный дата-центр, где сохранялась точная копия основной базы данных. Затем в течение рабочего дня с интервалом в 15—20 минут с основного сервера на резервный копируются журналы изменений, тем самым обеспечиваются целостность базы данных и учет всех транзакций, которые производит банк. В случае отказа основного сервера процедура восстановления, которая из резервного экземпляра базы данных позволяет получить текущее состояние базы со всеми проводками и бухгалтерскими операциями, занимает от одного до трех часов в зависимости от времени возникновения чрезвычайной ситуации.
Понятно, что для банка три часа — перерыв слишком большой. Поэтому сейчас «Донкомбанк» использует другую технологию. База данных не копируется, журналы изменений поступают в резервный дата-центр непрерывно, а время переключения на него, по словам Андрея Ефремова, составляет буквально 1—2 минуты.
Новая архитектура
Эволюция требований ко всем центрам обработки данных идет по похожему сценарию — по мере развития опыта работы с информационной системой пользователи хотят получать все более оперативные отчеты в различных аналитических разрезах. Учитывая, что на этапе распределенной базы данных особых нагрузок на серверы не было, от blade‑серверов на том этапе компания «ДонЭнергоСбыт» отказалась. Однако постепенно система накопила достаточный уровень аналитических данных, что заставило вспомнить о построении единого ЦОДа. В принципе решить эту задачу можно было и на имевшихся мощностях, но специалисты «ДонЭнергоСбыта» полагают, что с таким ЦОДом работа внутренних пользователей и абонентов компании будет комфортней.
В общих чертах определив задачу, специалисты «ДонЭнергоСбыта» обратились к интегратору для того, чтобы тот проанализировал видение компании и порекомендовал архитектуру ЦОДа. Владимир Сердюков считает, что обращение было очень эффективным, так как интегратор привлек инженеров компании IBM, вплоть до московского представительства, которые и проконсультировали компанию. В конечном итоге и было выбрано то решение на базе IBM Blade Center, которое совместно предложили интегратор и вендор.
Почему именно на базе blade‑серверов? Цепочку рассуждений продолжает Андрей Ефремов. В «Донкомбанке» Андрею Ефремову пришлось убеждать руководство в том, что не нужно экономить на качестве оборудования. Его принципиальный подход заключается в том, что ориентироваться нужно на брендовую технику. Обосновывает это Андрей Ефремов так: существует множество примеров того, как серьезные проблемы совместимости техники разных производителей сводят на нет экономию при ее закупке. В банке использовались обычные хорошие серверы, но отказаться от них заставила недостаточная масштабируемость такой архитектуры. Да, можно поставить память, новый сетевой адаптер, увеличить дисковое пространство, но это нельзя делать бесконечно. Чтобы решить проблему аппаратных ресурсов для работающих банковских приложений, как считает Андрей Ефремов, нужно организовать либо решение на базе RISC‑серверов, либо построение blade-архитектуры, с возможностью добавления лезвий и объединения их путем кластеризации. На тот момент, учитывая объемы транзакций банка и финансовую составляющую проекта, остановились на IBM Blade Center.
Особенности закупки
Приобретение оборудования — это вопрос, который заслуживает отдельного описания ввиду местных особенностей. Так, по словам Андрея Ефремова, когда «Донкомбанк» покупал IBM Blade Center, то ситуация очень осложнилась тем, что один из системных интеграторов в момент сбора предложений (а на выбор поставщика ушло порядка шести месяцев) выставлял низкие цены, просто не включив в них НДС. Второй интегратор был готов поставить и настроить обычные серверы, но не blade. В итоге «лезвия» приобретали через партнера одного из московских интеграторов, причем цена оборудования оказалась равна той, что была указана без НДС.
Таким образом, при кажущемся богатстве выбора варианты поставки сложной техники можно посчитать по пальцам. И несмотря на то, что существуют сильные региональные интеграторы, вопросы поставки оборудования сильно затягиваются. С одной стороны, от каталога региональных ИТ-фирм у ИТ-директора разбегаются глаза, но среди них совсем немного тех, кто может решить стратегические задачи банка. Подтверждает это и опыт Владимира Сердюкова — «ДонЭнергоСбыт» несколько раз принимал решение именно по совместному предложению интегратора и IBM. Те конфигурации, которые были выбраны и поставлены, устраивают Владимира Сердюкова.
Оценка окупаемости вложений в ЦОД
Какие существуют подходы к оценке экономического эффекта от обновления ЦОДа? По словам Михаила Серегина, директора по развитию бизнеса в регионах компании IBM в России и СНГ, в ряде случаев для обоснования вложения в новый ЦОД рассчитывают среднюю стоимость транзакции. Отнеся на число транзакций стоимости владения старой и новой инфраструктурами, организация получила цифру, оправдывающую затраты на проект.
Однако в случае организаций-заказчиков в ЮФО подобный параметр не был решающим. Связано это было со сложностью каких‑либо финансовых оценок при комплексной замене и оборудования, и программного обеспечения под возросшие требования бизнеса. Однако, по оценке Андрея Ефремова, объем операций, которые сейчас совершаются в банке, вырос примерно в четыре раза, а стоимость владения практически не изменилась. Что, видимо, дает возможность говорить о значительном росте эффективности. Специалисты «ДонЭнергоСбыта» также не ставили критерий изменения стоимости транзакций после приобретения оборудования. Главной задачей сбытовой компании в этом проекте Владимир Сердюков назвал обеспечение оперативности доступа к информации, отказоустойчивости сервисов и надежности хранения данных, в связи с тем, что организация работает с персональными данными своих клиентов и отвечает за их защиту. Компания, работающая с физическими лицами, изначально ориентируется на то, что с полным вступлением в силу закона о персональных данных станет их оператором. Это и послужило «критерием» оценки важности проекта.