Не нужно долго распространяться, насколько важна надежная работа ИТ-систем для любой банковской структуры. Особенно если речь идет об одном из крупнейших финансовых учреждений России, которым является Райффайзенбанк.
Порядок в крупных центрах обработки данных помогают поддерживать системы для управления инфраструктурой ЦОДа (Data Center Infrastructure Management, DCIM). О том, как внедрялась такая система, мы и беседовали с руководителем группы управления ЦОДом Райффайзенбанка Ольгой Габовой.
Intellignet Enterprise: Что представляет собой ЦОД Райффайзенбанка? Как он строился? Какова система управления им?
Ольга Габова: В 2008 году мы закончили реконструкцию одного из своих ЦОДов, а в 2010-м перевезли другой ЦОД на арендуемую площадку. На данный момент у нас три ЦОДа, из которых два продуктивных и один используется исключительно для задач тестирования и разработки. А некоторое время их было даже четыре.
В наших ЦОДах располагаются серверы и СХД разных классов и базирующиеся на разных программно-аппаратных платформах. Так, наряду с серверами стандартной архитектуры у нас эксплуатируются системы midrange- и high-end-класса. Они используются для обеспечения работы АБС и целого ряда других ключевых систем. Мы тщательно выбираем серверы и системы хранения данных, и каждый комплекс оптимален для решения своей задачи. Есть у нас СХД от IBM, EMC, HDS, а также Allflash-массивы Violin на основе SSD-накопителей.
Одним из наиболее крупных потребителей ресурсов является инфраструктура платформы виртуализации рабочих мест. Надо сказать, что это самый масштабный проект внедрения VDI в России, и для его реализации необходимы были дополнительные серверные мощности и быстродействующие комплексы СХД.
Какое-то время наши ЦОДы развивались довольно хаотически. Количество размещаемого в них оборудования росло, ведь разместить свой сервер в ЦОДе для решения каких-то своих задач могло любое подразделение. При этом после того, как необходимость в этом оборудовании отпадала, место освобождалось далеко не всегда. В результате где-то возникал дефицит свободных мощностей и мест, а где-то, наоборот, имела место недозагрузка. В таких условиях эффективность использования инженерных ресурсов была под вопросом. Кроме того, увеличивалась вероятность аварийных ситуаций, связанных, например, с перегревом.
Во многом такая ситуация возникла вследствие того, что процесс размещения, перемещения и снятия оборудования с эксплуатации не был автоматизирован. Использовались офисные инструменты, которые закрывали очень ограниченный перечень задач, как правило, связанных только с инвентаризацией оборудования и фиксацией изменений. Эти данные хранились в разрозненных файлах, и не было централизованного хранилища информации. Так что вопрос создания полноценной системы управления и мониторинга существовал всегда.
С чего вы начали создание системы управления ЦОДами?
Всё началось с решения организационных вопросов. Была создана группа управления ЦОДами, которую я и возглавляю. Любой ЦОД для заказчика представляет собой своего рода черный ящик, выполняющий те или иные задачи по обработке информации. И если заказчику необходимы новые функции, он обращается в нашу группу, которая выделяет для ее решения вычислительные ресурсы. Мы можем делать это или за счет уже имеющихся мощностей, благо современные средства виртуализации это позволяют, или приобретаем дополнительные, если речь идет о более ресурсоёмком сервисе. И затем передаем этот ресурс ИТ-службе, которая ведёт его администрирование и обслуживание. Так был наведен элементарный порядок.
С появлением ответственного подразделения в свою очередь появилась задача автоматизации процедур и регламентов в его работе. Так что внедрение системы управления инфраструктурой ЦОДа, или DCIM, стало следующим шагом в данном процессе.
Мы были первопроходцами. Внедрение таких систем в России пока еще дело не слишком частое. Да и в группе «Райффайзен Банк Интернациональ» мы являемся крупнейшим банком с самыми масштабными ИТ-системами.
Из чего пришлось выбирать?
На рынке существует довольно много решений с близкой функциональностью. Некоторые из них позволяют добиться высокого уровня адаптации и тонкой настройки под требования заказчика с использованием эффектных и красивых визуальных конструкторов. Однако удобство работы большинства таких инструментов оставляло желать лучшего. Положение усугубляло и то, что подавляющее большинство систем DCIM, которые мы тестировали, были откровенно «сырыми». Они имели массу недоработок, поддерживали не всё оборудование и не все необходимые нам процедуры. У нас ушел целый год на тестирование представленных на российском рынке DCIMсистем в «боевых» условиях.
Продукт StruxureWare for Data Centers компании Schneider Electric мы выбрали потому, что именно эта система обладала наиболее полной функциональностью при дружественном и удобном интерфейсе. Не секрет, что работу в неудобной системе пользователи будут любыми правдами и неправдами саботировать, продолжая использовать привычные для них средства вроде Microsoft Excel, что автоматически означает провал проекта. Еще одним преимуществом данного решения была поддержка большого перечня применяемого в ЦОДах оборудования от разных вендоров. Кроме того, на момент тестирования система от Schneider Electric имела минимальное количество недостатков и потребовала лишь небольших доработок, которые были выполнены в адекватные сроки, не более двух недель. А большинство наших пожеланий было реализовано в течение нескольких рабочих дней.
Как шли работы по проекту? Сколько времени они заняли?
Внедрение мы проводили своими силами. Хотя в процессе, причем на его разных этапах, приходилось обращаться к службе технической поддержки Schneider Electric. Специалисты вендора активно помогали нам и в обучении работе в StruxureWare.
Основная часть работ сводилась к наполнению системы данными. Это был самый трудоемкий этап проекта. Около трех месяцев данные из разрозненных файлов методично переносились в систему, естественно, с проверкой их актуальности. Затем мы приступили к эксплуатации. При этом, как я уже говорила, у нас появились пожелания по доработке самой системы, которые были реализованы. Причем появляться они начали уже на стадии наполнения данными, и большая их часть касалась удобства работы с DCIM-системой. Например, по нашей просьбе упростили процедуру добавления данных о вновь установленном оборудовании, которая изначально была излишне трудоемкой. Обнаружены были и явные ошибки, которые, увы, неизбежны в любой более-менее сложной системе, и далеко не все из них удается устранить на стадии отладки. Реализация необходимых функций и устранение выявленных ошибок приходили с очередным плановым обновлением.
В целом работы по проекту, с учетом тестирования и пилотной фазы, заняли полтора года. При этом никаких непредвиденных сложностей и серьезных неприятных сюрпризов не возникало.
Интегрировалось ли DCIM-решение с другими системами автоматизации управления ИТ?
Да, мы изначально предполагали сделать DCIM частью нашей общей системы управления ИТ, которая внедрена уже довольно давно. StruxureWare является одним из компонентов нашей базы данных управления конфигурациями (CMDB) и одним из наполняющих её источников. Это позволяет поддерживать CMDB в актуальном состоянии и определяет тех, кто несет персональную ответственность за поддержание того или иного элемента ИТ, будь то единица оборудования или ПО.
Какие результаты были получены в ходе эксплуатации DCIM-системы?
Наведя элементарный порядок в использовании оборудования, мы смогли полностью освободить одну из своих площадок. В итоге у нас теперь три площадки вместо четырех, что само по себе означает ощутимое снижение затрат, так как мы сократили площади на четверть. Это позволило нам полностью отказаться от размещения оборудования на арендованных мощностях, что обходится весьма недешево, особенно на фоне того, что на такие услуги растет спрос, а значит, цены как минимум не падают.
А энергопотребление мы уменьшили еще больше: на треть. В результате из TOP10 российских банков мы единственные, у кого энергопотребление всех продуктивных систем не превышает 120 киловатт. Не надо напоминать, что электроэнергия является весьма дорогостоящим ресурсом, который к тому же далеко не всегда можно получить в желаемом количестве по первому требованию, особенно в больших городах. Так что иногда требуемые мощности получить просто невозможно ни за какие деньги.
Снижения энергопотребления удалось достичь благодаря тому, что мы максимально оптимизировали использование имеющихся ресурсов. А при выборе нового оборудования учитывали и такие параметры, как габариты и энергопотребление.
Каковы ваши планы на будущее?
Сейчас мы навели порядок. Мы понимаем, что и как у нас работает. В дальнейшем планируем развивать систему. Так, в настоящее время мы тестируем дополнительный модуль Data Center Operation IT Optimize. Он ориентирован на то, чтобы оценивать эффективность использования ИТ-оборудования, собрать информацию об энергопотреблении и уровне загрузки ресурсов каждого сервера (утилизация процессорных ядер, памяти, локальных накопителей). Кроме того, с помощью данного инструментария мы выявляем так называемые «серверы-призраки», не задействованные для решения продуктивных задач. Доля таких систем, по данным Uptime Institute, на практике может доходить до 30%. При этом они занимают место и потребляют энергию.
Интервью с Ольгой Габовой провёл обозреватель Intelligent Enterprise Яков Шпунт