«ФОЛЬКСВАГЕН Груп Рус» выпускает автомобили 337 дней в году, 21 час в день. Каждые 2 минуты с конвейера сходит 1 автомобиль. Такой плотный производственный цикл предъявляет повышенные требования к надежности ИТ-комплекса и уровню его обслуживания. Ранее многие системы функционировали без резервирования и встроенных механизмов защиты. Для предотвращения возможных простоев систем в случае аварийных ситуаций был запущен комплексный проект по созданию инфраструктуры высокой доступности, исполнителем которого стала компания «Инфосистемы Джет».
Провести миграцию основных производственных систем на новую ИТ-инфраструктуру можно было только в период заводского отпуска, до которого с момента старта проекта оставалось всего 2,5 месяца. В эти рекордные сроки на базе двух ЦОД была создана и протестирована отказоустойчивая вычислительная платформа, включающая виртуальные фермы, кластеры баз данных, сети хранения и систему резервного копирования.
Следующей задачей стала проработка комплексной системы защиты данных от программных и аппаратных сбоев. В полном варианте она включает периодическое резервное копирование, непрерывное журналирование изменений данных на дисковых массивах (для возможности восстанавливать данные на любой момент времени) и зеркалирование между площадками, а также репликацию виртуальных машин. Однако механизмы защиты для любой системы можно подбирать индивидуально — в зависимости от ее бизнес-критичности. Это оптимизирует затраты на создание, масштабирование и эксплуатацию ИТ-инфраструктуры и обеспечивает необходимый уровень обслуживания по каждому из 75 прикладных сервисов компании.
Для эффективного управления взаимодействием аутсорсеров, отвечающих за различные участки инфраструктуры, детально проработаны и протестированы процедуры аварийного восстановления. Выделены 16 типовых чрезвычайных ситуаций, по каждой из которых разработаны подробные инструкции с описанием методов диагностики и устранения сбоев в установленные сроки.
Развернут комплекс по мониторингу, включающий системы мониторинга СХД, виртуальных машин и сетевой инфраструктуры. В дополнение разработана система анализа состояния ключевых технологических блоков на соответствие базовым показателям. Данное решение выявляет тренды развития ИТ-ландшафта: нехватку или избыток ресурсов, производительность отдельных компонентов и инфраструктуры в целом, исправность оборудования, работоспособность системного ПО и СУБД и др. Таким образом, не только сокращается время простоев (благодаря быстрому обнаружению и диагностике возникающих неисправностей), но и в целом значительно уменьшается число сбоев за счет проактивного обслуживания ИТ-инфраструктуры.