Кожухов Артем, консультант, департамент консалтинга компании "Ай-Теко"

Зависимость бизнеса от ИТ неуклонно растет. Одновременно растут и связанные с этим риски. В результате проблема поддержания работоспособности ИТ-инфраструктуры в периоды сбоев стоит как никогда остро.

В современном мире все усиливается зависимость бизнеса от ИТ-услуг. Если в прошлом информационные технологии лишь поддерживали бизнес, помогая ему более эффективно решать некоторые насущные задачи, то в настоящее время информационные технологии глубоко интегрированы в бизнес-процессы компаний. Это означает, что раньше при сбое в предоставлении ИТ-услуг бизнес-процессы компаний продолжали функционировать, лишь незначительно снижая производительность. При современном подходе, когда происходит более глубокая интеграция информационных технологий в бизнес, прекратить предоставление ИТ-услуг означает прекратить функционирование бизнеса в целом. Сейчас сложно представить и еще сложнее воплотить в жизнь возврат к старым "бумажным" процедурам. Таким образом, с развитием современных информационных технологий многократно возросла опасность техногенных и природных катастроф, выводящих из строя ИТ-инфраструктуру.

Как описать процесс управления непрерывностью

Библиотека передового опыта организации ИТ - ITIL - содержит на сегодняшний момент описание более десятка процессов управления ИТ, одним из которых является процесс управления непрерывностью ИТ-услуг (IT Service Continuity Management (ITSCM)). Этот процесс предназначен для противодействия на случай чрезвычайных обстоятельств, затрагивающих ИТ-услуги, и отвечает за предоставление ИТ-услуг во время чрезвычайной ситуации и восстановление сервисов, в первую очередь необходимых для функционирования критичных бизнес-процессов компании.

Как показывает статистика рынка информационных технологий и увеличившееся в последнее время число техногенных и природных катастроф, применение процесса управления непрерывностью ИТ-услуг перестает быть роскошью и переходит в разряд обоснованной необходимости.

Цель процесса управления непрерывностью предоставления ИТ-услуг -- поддержка непрерывности бизнеса в целом. Такая поддержка означает, что, во-первых, инфраструктура и ИТ-услуги, в том числе услуги по поддержке (служба Service Desk), должны быть восстановлены за заданный период времени после возникновения чрезвычайной ситуации. Во-вторых, на время восстановления предоставление ИТ-услуг должно поддерживаться на "аварийном" уровне, приемлемом для ведения бизнеса, , то есть на уровне, минимально необходимом для функционирования бизнеса. Поскольку целью процесса является поддержка бизнеса, то сфера действия процесса должна определяться в первую очередь исходя из целей бизнеса.

Согласно ITIL процесс отвечает за решение следующих основных задач:

  • оценку воздействия нарушений в предоставлении ИТ-услуг при возникновении чрезвычайной ситуации;
  • определение критичных для бизнеса ИТ-услуг, которые требуют дополнительных превентивных мер по обеспечению непрерывности их предоставления;
  • определение периода, в течение которого предоставление ИТ-услуги должно быть восстановлено;
  • определение общего подхода к восстановлению ИТ-услуги;
  • разработку, тестирование и поддержку плана восстановления ИТ-услуги с достаточным уровнем детализации, который поможет пережить чрезвычайную ситуацию и восстановить нормальную работу за заданный промежуток времени.

В рамках ITIL процесс управления непрерывностью ИТ-услуг неразрывно связан с процессом управления непрерывностью бизнеса (Business Continuity Management -- BCM). Процесс управления непрерывностью бизнеса обеспечивает анализ и управление рисками и позволяет организации постоянно поддерживать функционирование минимально допустимых производственных мощностей. Он помогает уменьшить степень риска до приемлемого уровня и разработать планы восстановления бизнес-процессов на случай их повреждения во время чрезвычайной ситуации. Например, компании, территориально расположенной в районе скопления грозовых облаков, для уменьшения вероятности повреждения электросети необходимо прежде всего сконцентрировать внимание на превентивной защите от удара молнией (как вариант, установкой системы громоотводов). И только затем разрабатывать планы снабжения потребителей во время сбоя и план восстановления всей сети.

Рис. Модель процесса управления непрерывностью ИТ-услуг

Процесс управления непрерывностью ИТ-услуг -- часть общего процесса управления непрерывностью бизнеса. Он зависит от информации, предоставляемой процессом BCM. Поддержание доступности ИТ-услуг обеспечивается благодаря сочетанию мер по уменьшению степени риска и применению способов восстановления. Для успешной реализации процесса требуются поддержка со стороны всей организации, твердое намерение руководства реализовать данный процесс и участие в реализации всего персонала. Этапы и виды деятельности, выполняемые в рамках процесса ITSCM, представлены на рисунке. Остановимся подробнее на каждом из них.

Область действия процесса ITSCM

При инициализации процесса необходимо провести обследование всей организации в целом и выполнить следующие действия:

  • определить политику организации в отношении управления непрерывностью ИТ-услуг;
  • определить области действия процесса и других, смежных областей процесса. На этом этапе также определяются соответствующая структура менеджмента и методы работы процессов на случай чрезвычайной ситуации;
  • выделить персонал и ресурсы для реализации процесса;
  • определить проектную команду и организационную структуру для управления проектом.

Анализ воздействия на бизнес

Ключевая цель анализа -- определение стоимости простоев, вызванных сбоем и скорости распространения сбоя по инфраструктуре компании. В рамках анализа воздействия на бизнес, во-первых, из всего перечня бизнес-процессов компании выделяются критичные процессы, которые должны быть доступны в любом случае, даже при наступлении чрезвычайной ситуации и ИТ-услуги, связанные с этими процессами. Во-вторых, определяются потенциальное воздействие и потери от сбоев в функционировании этих процессов с учетом расположения и специфики работы предприятия, а также клиентов и поставщиков организации.

При выполнении анализа важно понять, как изменяется степень влияния произошедшего сбоя с течением времени. В некоторых случаях при возникновении чрезвычайной ситуации бизнес первое время еще может функционировать, и тогда основное внимание необходимо уделить быстрому восстановлению предоставления услуг. В других случаях бизнес не может работать без ИТ-услуг, и здесь главное -- предотвратить чрезвычайные ситуации и обеспечить предоставление услуг во время сбоя.

Для некоторых услуг могут быть достигнуты договоренности о предоставлении экстренного сервиса, аналогичного утраченной услуге, но с ограниченными возможностями и доступностью. Например, в организации на случай сбоя в электросетях установлены резервные источники питания, которые обеспечивают работу только основных производственных мощностей. Остальные подразделения, реализующие вспомогательные бизнес-процессы, ждут восстановления основного источника питания. В чистом виде описанные ситуации встречаются крайне редко, и в большинстве случаев надо найти оптимальный баланс между этими двумя крайностями.

Затем проводится анализ инфраструктуры предприятия, в рамках которого оцениваются зависимостий между услугами и ИТ-ресурсами. Таким образом, анализируется степень критичности ИТ-ресурсов для поддержки ИТ-услуг, описанных ранее. Информация для проведения данного анализа может быть взята из внедренных в компании процессов управления доступностью и управление мощностями.

Оценка рисков

Больше всего сил в рамках этапа 2 потребует выявление и анализ рисков. Основная цель анализа -- определение рисков, угрожающих бизнесу в целом, и предоставление информации руководству компании. Данный анализ выявляет вероятные угрозы и уязвимости, позволяет заранее предусмотреть некоторые превентивные меры. Поскольку создание, поддержка и, что самое главное, применение плана восстановления после чрезвычайной ситуации -- мероприятия дорогостоящие, то для сокращения затрат сначала можно применить превентивные меры против наиболее серьезных и вероятных рисков. Приняв такие меры, необходимо оценить остальные риски на предмет включения их в план обеспечения непрерывности работы (Contingency Plan -- согласно ITIL). В ходе проведения анализа необходимо учитывать все произошедшие в прошлом сбои, а также сбои, характерные для данного бизнеса, для данной местности и т. п. И хотя части системы, подвергающиеся сбоям, необходимо учесть в разработке мер защиты и планов восстановления в первую очередь, тем не менее эти части нужно рассматривать лишь как некоторые из множества частей целой, единой системы.

Анализ рисков в рамках реализации процесса управления непрерывностью ИТ-услуг включает в себя определение вовлеченных в процесс компонентов (активов), таких как здания, системы, данные и т. д. Эффективная идентификация требует определения владельцев активов, а если таковые отсутствуют -- их назначения. Одновременно с этим анализируются угрозы и их зависимости, оценивается вероятность возникновения чрезвычайной ситуации, а также идентифицируются и классифицируются уязвимости. На последнем этапе происходит привязка выявленных угроз и уязвимостей к конкретным компонентам ИТ-инфраструктуры.

При комплексном внедрении нескольких процессов ITIL следует учитывать и разделять области действия процессов. Некоторые риски можно нивелировать с помощью мер, принимаемых другими процессами, такими как, например, процесс управления доступностью.
При проведении анализа рисков выявляются также выгоды для бизнеса, которые можно получить при реализации процесса. Когда определен возможный риск для бизнеса, а не только для конкретной ИТ-услуги, появляется возможность обосновать необходимые средства для принятия превентивных мер и мер по борьбе с чрезвычайными происшествиями, например плана восстановления после катастрофы. При возникновении чрезвычайной ситуации использование процесса ITSCM дает бизнесу дополнительные преимущества: возможность управления восстановлением своих систем, уменьшение простоев в работе, сведение к минимуму перерывов в ведении бизнеса.

Стратегия обеспечения непрерывности ИТ-услуг

Бизнес всегда старается найти экономически обоснованное равновесие между сокращением степени риска и планированием мероприятий на случай чрезвычайного происшествия. Остановимся на этих понятиях поподробнее.

· Превентивные меры. Меры, позволяющие уменьшить степень риска возникновения внештатной ситуации и разрушающее воздействие происшествия, в нашем случае -- воздействие на доступность ИТ-услуги. Угрозы никогда нельзя устранить полностью. При этом важно учитывать, что уменьшение одного вида риска может привести к увеличению другого. Например, использование аутсорсинга приводит к повышению рисков в области безопасности.

· Восстановление. Для всех видов рисков, которые не удалось устранить с помощью превентивных мер, планируется восстановление. Под восстановлением ITIL подразумевает не только собственно восстановление, а также предоставление на время ремонта дополнительных дублирующих систем, которые обеспечат непрерывность предоставления ИТ-услуг. Восстановление должно в себя включать персонал и его размещение, ИТ-системы и сети, вспомогательные службы, архив документации, услуги сторонних организаций.

Существует огромное количество способов быстро восстановить предоставление ИТ-услуг. Во врезке приведена классификация этих способов.

Организация процесса и планирование внедрения

Определив стратегию бизнеса, выбрав способ и технологию восстановления, начинают непосредственно внедрять процесс управления непрерывностью ИТ-услуг. Разрабатываются детальные планы использования выбранных средств восстановления. Для реализации процесса создается трехуровневая организационная структура: руководитель (Crisis Manager), назначаемый из числа топ-менеджмента компании, координационное звено, назначаемое обычно из уровня руководства на уровень ниже руководителя, и непосредственные команды исполнителей. Команды формируются по области ответственности за восстановление критичных бизнес-процессов или ИТ-услуг.

Планирование ведется на всех уровнях компании. На самом высоком уровне оно включает планы экстренного реагирования, оценки повреждений, восстановления работы, работы с критичными данными и план руководства в случае кризисной ситуации и связей с общественностью. На более низких уровнях иерархии планы детализируются вплоть до конкретных действий и назначения ответственных специалистов. Создаются дополнительные инструкции и памятки -- например, должностные инструкции на случай чрезвычайного происшествия. Эти памятки и инструкции доводятся до сведения каждого сотрудника предприятия.

Внедрение. Меры по резервированию и уменьшению риска

Этап 3 заключается в практическом воплощении определенных ранее превентивных мер и способов восстановления. Принятием превентивных мер по уменьшению степени воздействия обычно сопровождается деятельность в рамках процесса управления доступностью.

Когда действуют непредвиденные обстоятельства, уже необходимо предпринимать определенные шаги, которые позволят предоставлять услуги в "аварийном" режиме и восстанавливать нормальную деятельность предприятия. На такой случай должны быть заготовлены и подписаны специальные договоры с поставщиками. При возникновении чрезвычайной ситуации необходимо только активизировать эти обязательства, и поставщик начнет исполнять заказ по уже согласованной ранее цене. Правда, такие договоры необходимо время от времени пересматривать, так как цены и модели компонентов могут со временем меняться.

Разработка планов и процедур восстановления

Детальные планы восстановления после их разработки оформляются официальными документами компании. Любые изменения в них согласуются со всеми заинтересованными сторонами, принимающими участие в процессе. Если в организации внедрен процесс управления изменениями, то рассмотрение изменения, согласование с ответственными лицами и анализ влияния изменения на процесс управления непрерывностью выполняются в рамках процесса управления изменениями.

План восстановления должен включать все виды деятельности, связанные с предоставлением услуг во время чрезвычайной ситуации и восстановлением предоставления ИТ-услуг. В плане также должны быть определены процедуры, необходимые для его выполнения, эффективные и понятные настолько, чтобы каждый специалист мог выполнять работы по восстановлению, следуя этим процедурам.

Предварительное тестирование

Тестирование является ключевой частью процесса ITSCM, так как проверка -- это единственная возможность гарантировать, что выбранная стратегия, планы и процедуры восстановления бизнеса работают на практике. ИТ отвечают за разработку эффективных процедур тестирования и предоставление необходимых для этого технических компонентов. Предварительное тестирование обычно не требует привлечения бизнес-подразделений компании.

Операционное управление непрерывностью ИТ-услуг

Обучение, подготовка. Обучение персонала и его осведомленность -- критические факторы успешной реализации процесса. Обучение охватывает всю организацию, но особое внимание уделяется подготовке персонала ИТ-подразделения. Качественное обучение персонала позволит гарантировать, что все сотрудники компании понимают свою роль в процессе ITSCM и воспринимают ее как часть своей повседневной работы.

Анализ и аудит. Необходимо регулярно проверять актуальность всех планов. Аудит затрагивает все аспекты, касающиеся реализации процесса. Кроме регулярных проверок, аудит следует проводить при любом значительном изменении ИТ-инфраструктуры, а также стратегии ИТ-подразделения и бизнеса в целом.

Тестирование. Тестирование подобно объявлению учебных тревог на борту корабля. Если тестирование не проводится, то при внештатной ситуации действия персонала могут быть рассогласованы, а эффективность восстановления низка. В первый раз после запуска процесса управления непрерывностью тестирование в любой компании выявляет несоответствия в плане и рассогласованность деятельности по процессу. Поэтому после первого тестирования всегда надо быть готовым к частичному пересмотру и корректировке планов. Проводить тестирование необходимо при запуске процесса, каждый раз при проведении значительного изменения процесса, а также периодически, даже если не проводилось изменений. За проведение тестирования, как правило, отвечают выделенные специалисты ИТ-подразделения.

Управление изменениями. Процесс управления изменениями проводит подробный анализ воздействия любого инициированного изменения на планы восстановления и тем самым поддерживает эти планы в актуальном состоянии.

Тренинг. ИТ-подразделение организации должно организовывать и проводить обучение других, не входящих в состав ИТ-подразделения, членов команды восстановления, чтобы гарантировать необходимый уровень их компетенции для совместного участия в процедурах восстановления.

Обеспечение гарантий выполнения. Анализ соответствия качества процесса (процедур, планов и документации) бизнес-потребностям компании сможет гарантировать работоспособность процесса.

Особенности российского подхода

Подход многих российских компаний к реализации процесса управления непрерывностью ИТ-услуг обычно отличается от западных стандартов. Основное отличие в том, что владельцем процесса является не ИТ-служба компании, а служба безопасности.
Среди недостатков такого варианта реализации процесса можно выделить следующие.

· Низкая компетенция сотрудников службы безопасности в части предоставления ИТ-услуг. Для оценки важности каждой конкретной ИТ-услуги для бизнеса необходимо иметь в составе службы безопасности квалифицированных ИТ-специалистов. ИТ-служба компании имеет в своем составе необходимых сотрудников, и нанимать аналогичных специалистов в параллельный отдел компании нерационально и нерентабельно. Тем более что осуществление функционирования процесса управления непрерывностью ИТ-услуг не требует полной загрузки специалистов в период между сбоями.

· Излишняя численность персонала службы безопасности. Данный недостаток напрямую связан с предыдущим, для компенсации низкой компетенции, служба безопасности расширяет штат дорогостоящими ИТ-специалистами.

· Сложности административного подчинения сотрудников ИТ-службы и службы безопасности. Сложность заключается в том, что владелец процесса -- служба безопасности, а непосредственные исполнители, ИТ-специалисты, подчинены начальнику ИТ-службы. Поэтому сложно согласовать и провести любое действие, связанное с реализацией процесса. Например, решение начальника службы безопасности о проведении тренинга среди ИТ-специалистов, занятых в процессе, наталкивается на запрет со стороны начальника ИТ-службы в связи с высокой загруженностью специалистов текущей работой.

Но у такого подхода есть и достоинства. Среди них -- четкое разделение обязанностей и ответственности. В повседневной деятельности заняты только специалисты ИТ-службы, а в реализации процесса непрерывности предоставления ИТ-услуг -- только специалисты службы безопасности.

Следующие остальные особенности реализации процесса характерны для любой деятельности ИТ-подразделения в России.

· Недостаточное финансирование ИТ-сферы. ИТ-подразделению российской компании зачастую уделяется слишком мало внимания. В России сложилось неверное представление о том, что ИТ -- это лишь модная "фенечка", которая нужна "постольку поскольку". И вложение денег в ИТ-инфраструктуру откладывается до последнего момента.

· Низкая компетенция специалистов. К сожалению, надо признать, что квалификация российских ИТ-специалистов сейчас в среднем ниже западных. И обучением, и переподготовкой штата ИТ-подразделения занимаются разве что крупные российские компании. Вероятнее всего, это связано с недостаточным пониманием важности ИТ для бизнеса и, как следствие этого, с недостатком финансирования ИТ в целом.

· Проблемы поддержания актуальности информации. Зачастую компании, осознав необходимость развития ИТ, вкладывают деньги во внедрение некоторых процессов, после чего останавливаются и ждут результатов. Но отдача от внедрения какого-либо изменения не происходит моментально, для этого необходимо определенное время. И за функционированием процесса нельзя безучастно наблюдать, необходимо постоянно корректировать его работу, приспосабливая его к меняющимся условиям современного бизнеса. Иначе через какое-то время процесс не только станет работать неэффективно, но и, вероятно, не сможет работать вовсе.

Впрочем, современные тенденции развития ИТ направлены в сторону улучшения текущей обстановки. Руководство большинства компаний постепенно осознает значимость ИТ, это подтверждается постоянным ростом бюджетов ИТ-подразделений. Появляются и средства на обучение, тренинги, внедрение уже зарекомендовавших себя и новых информационных технологий. Важность ИТ для бизнеса продолжает расти, а вместе с тем растет и необходимость внедрять процесс управления непрерывностью ИТ-услуг.

Как восстановить предоставление ИТ-услуг

 

 

 

 

 

 

 

 

 

· Ничего не делать. Лишь немногие компании могут отказаться от быстрого восстановления ИТ-услуг. На это способны компании с низким уровнем развития ИТ-инфраструктуры и зависимости от информационных технологий.

· Возврат к ручной (неавтоматизированной) системе. Также редко встречающийся тип восстановления. Основная проблема -- трудно найти персонал, знакомый с традиционной системой. Способ обычно применяется для второстепенных, критически не важных для бизнеса ИТ-услуг.

· Взаимные соглашения. Способ подразумевает договоренность с другой аналогичной организацией о взаимном предоставлении ИТ-услуг в случае чрезвычайного происшествия в одной из них.

· Поэтапное восстановление ("холодный" резервный центр). Используется в сферах бизнеса, в которых можно обойтись без ИТ-услуг в течение некоторого промежутка времени -- 72 часов. За это время предоставляется зарезервированный заранее компьютерный зал или доставляется необходимое оборудование для развертывания такого зала на территории компании.

· Промежуточное восстановление ("теплый" резерв). Позволяет восстановить работу в течение короткого промежутка времени (от 24 до 72 часов). Для реализации такого подхода используют, например, среду тестирования как рабочую среду или мобильный компьютерный центр, расположенный в трейлере.

· Немедленное восстановление ("горячий" старт). Данный способ позволяет немедленно, менее чем за 24 часа, восстановить работу путем предоставления идентичной рабочей среды. Вариант обычно разрабатывается совместно с процессом управления доступностью.

Комбинация способов. Использование только одного способа восстановления практически не встречается. На практике обычно применяется комбинация представленных способов восстановления. Например, применение дорогостоящего "горячего" старта, но только до момента развертывания "холодного" резервного центра.