С 2009 г. Красноярская ГЭС стала участником рынка электроэнергии. В связи с этим повысились требования к работоспособности, а также к обеспечению непрерывности и надежности функционирования комплекса ИТ-инфраструктуры этого энергетического предприятия.
Невозможно удовлетворить возникшие потребности, не создавая полноценной системы управления и мониторинга. Ее внедрение должно было решить следующие задачи:
- повышение управляемости ИТ-инфраструктуры за счет регулярного сбора информации о параметрах функционирования;
- автоматизация процессов регистрации событий, связанных с работой серверов и сетевого оборудования, а также реакция на события, возникающие в ИТ-инфраструктуре;
- минимизация рисков потерь данных, возникающих в случае ошибок и технических сбоев, обеспечение выполнения нормативных и законодательных требований, связанных с хранением данных;
- оптимизация расходов на ИТ, включая оптимизацию использования существующих аппаратных мощностей.
Как отметила начальник отдела ИТ Красноярской ГЭС Ия Юдина, раньше решались лишь некоторые из этих задач. Для этого использовались встроенные средства операционных систем серверов. Единой системы, которая позволяла бы централизованно и оперативно получать информацию о состоянии всей инфраструктуры, не было. В итоге скорость реакции на различные инциденты была довольно низкой. И это при том, что простой ряда систем недопустим в принципе.
Дело в том, что ИТ-инфраструктура на Красноярской ГЭС использует оборудование на разных аппаратных и программных платформах. Так, например, для обеспечения работы ERP-системы и серверов СУБД используются системы на базе IBM POWER. Для поддержки остальных сервисов применяются серверы стандартной архитектуры разных производителей, работающих под управлением Windows Server и Linux.
Рассмотрев ряд решений по мониторингу и управлению информационной инфраструктурой, включая продукты Microsoft, специалисты Красноярской ГЭС остановили свой выбор на решениях IBM Tivoli. «Для компании, работающей в сфере ТЭК, непрерывный доступ к информации и отказоустойчивая работа ИТ-систем становятся критическими факторами. В ходе выбора решения ключевой для нас была возможность мониторинга состояния серверов IBM POWER с ОС AIX, которые обеспечивают функционирование ERP-системы. Решение IBM Tivoli не только позволяет нам получать информацию о состоянии основных компонентов ИТ-инфраструктуры в режиме реального времени, но и минимизирует риски потерь данных, тем самым обеспечивая высокую управляемость», – так Ия Юдина прокомментировала выбор решения. Реализация проекта проходила при активном участии специалистов компании Computel, бизнес-партнера IBM.
Непосредственно работы по реализации проекта проходили в три этапа. На первом была внедрена пилотная система мониторинга серверных и сетевых ресурсов с помощью решений семейства IBM Tivoli Monitoring. Она охватывала 10 серверов и работавших на них систем. Вторым этапом стало создание подсистемы резервного копирования. Аппаратной платформой для данной системы стали серверы IBM Blade Center, дисковое хранилище IBM DS4700 и ленточная библиотека IBM TS3200. На третьем этапе пилотная база расширяется. Планируется подключить к ней все серверы. Этот процесс пока еще не завершен в полном объеме. Также в дальнейших планах – развитие и расширение средств визуализации, вплоть до вывода на рабочие станции руководства предприятия.
Внедренное решение закрывает такие процессы, как регистрация инцидентов, управление изменениями, управление производительностью и доступностью. «Система позволила на одном экране получать информацию о состоянии любого объекта мониторинга. Можно увидеть все подключенные к сети объекты и определить, насколько легитимны эти подключения. Мы можем получать всю необходимую отчетность, для чего имеется большой выбор шаблонов, настроенных исходя из наших потребностей. Появились средства автоматизированного оповещения ИТ-персонала о возникших сбоях. Внедрение системы резервного копирования позволило сократить время восстановления сервисов до 50%. При этом прирост скорости восстановления отдельных ресурсов оказался еще выше. Если до внедрения системы на восстановление ряда ресурсов уходило до двух дней, теперь же на это уходит не более трех часов. Кроме того, использование этой системы упростило разработку ИТ-бюджета», – так подводит итоги проекта Ия Юдина.