Начиная с 1993 года Uptime Institute занимается анализом нарушений в работе оборудования центров обработки данных (ЦОД) и предлагает рекомендации по обеспечению его бесперебойного функционирования. Институт этот является инициатором многих нововведений в промышленности, в том числе классификации для ЦОДов, которая сегодня претендует на роль отраслевых стандартов. По данным Uptime Institute можно быстро оценить, какой класс оборудования и какой размер помещения вам нужен, какова оптимальная мощность техники и сколько система может простаивать в год. В зависимости от этих показателей можно посчитать, во что обойдется строительство такого ЦОДа. В этой статье мы расскажем о классификации ЦОДов по версии Uptime Institute и обсудим некоторые моменты её применимости.
Классификация ЦОДов
Занимаясь изучением ЦОДов, специалисты Uptime Institute обследовали более тысячи реально действующих центров. В результате этой работы были определены четыре устойчивые категории, или уровня центров обработки данных. Первая реализация ЦОДа уровня 1 приходится на 1965 год, уровня 2 — на 1970-й, первый ЦОД уровня 3 был построен в 1985-м, а уровня 4 — в 1995 году.
Уровень 1 — это самый простой ЦОД, без резервирования какой бы то ни было избыточности и возможностей проведения регламентных работ без остановки систем (табл. 1). На уровне 2 сюда добавляется резервирование вычислительных мощностей по схеме N+1. Уровень 3 — это уже принципиально другой класс ЦОДов, в которых дублируется не только вычислительная система, но и системы распределения электропитания и кондиционирования. Наконец, уровень 4 — это по сути два ЦОДа: самая надежная система, все компоненты и системы которой зарезервированы. Поэтому точек отказа у ЦОДов первого и второго уровней может быть много, у третьего — несколько, но у ЦОДа уровня 4 их нет совсем.
Здания и помещения, применяемые в ЦОДах разных уровней, различаются довольно сильно. Так, если для уровней 1 и 2, по данным Uptime Institute, помещения, как правило, арендуются, то для ЦОДов уровней 3 и 4 необходимы уже собственные помещения или отдельные здания (табл. 2). Когда строится новый ЦОД, важно понимать, сколько дополнительных площадей нужно будет зарезервировать для вспомогательных систем. Оценки Uptime Institute примерно таковы: для ЦОДа уровня 1 необходимо дополнительно 20% пространства, для уровня 2 — от 20 до 30%, для уровня 3 — от 80 до 90%, и для вспомогательных систем ЦОДа уровня 4 нужно зарезервировать такое же пространство, как и для основных.
Обратная сторона «компактизации»
По оценке специалистов APC, одной из центральных проблем современных ЦОДов является повышение энергетической плотности. Прежде всего это обусловлено миниатюризацией микросхем, темпы которой превосходят темпы роста энергетического КПД, в результате чего энергетическая плотность продолжает расти. Как свидетельствуют данные APC, еще три-четыре года назад энергопотребление составляло 2—3 кВт на стойку, а сегодня это уже 10—20 кВт, а в некоторых случаях и больше. Такой рост уже совсем не просто переварить. Скажем, предел работоспособности ЦОДа разные производители оценивают величиной от 3 до 6 кВт на стойку (аналитики из Gartner, к примеру, считают, что это 4 кВт). А дальнейшее увеличение плотности энерговыделения ведет к тому, что кондиционеры начинают занимать слишком много места в машинном зале, сводя на нет весь эффект от повышения компактности систем.
Кроме того, это повышение существенно увеличивает расходы на инженерную инфраструктуру. По словам специалистов APC, если сегодня вы решите потратить на высокопроизводительное ИТ-оборудование такую же сумму, как три года назад, то получите в 2,7 раза больше процессоров, в 12 раз больше вычислительной мощности и в 2—3 раза больше мощности ИБП. Вот уже более десяти лет инфраструктурные расходы составляют 3—5% от стоимости ИТ-оборудования. Но двух-трёхкратное увеличение нагрузки на ИБП означает такое же увеличение инфраструктурных расходов в пределах того же пространства. Всё это необходимо учитывать при проектировании ЦОДа. Поэтому прежде чем принимать решение по развертыванию высокопроизводительных серверов, необходимо тщательно оценить их воздействие на инфраструктуру. Известны случаи, когда расходы на электропитание и охлаждение большой группы высокопроизводительных серверных систем аннулировали всю экономическую выгоду от использования новейшего ИТ-оборудования.
Энергопотребление и охлаждение
Поэтому одна из важнейших характеристик ЦОДов — средний и максимальный уровни энергопотребления на единицу площади. Согласно классификации Uptime Institute для ЦОДа первого уровня энергопотребление в среднем составляет 200—320 Вт / м2, для второго и третьего уровней он возрастает примерно в два раза, а для ЦОДа уровня 4 — ещё больше. Соответственно и максимальная нагруженность машзала будет 200—320 Вт/м2 для уровней 1 и 2, 1000—1600 Вт/м2 для уровня 3 и более 1600 Вт/м2 для уровня 4.
Стабильное электропитание обеспечивается с помощью ИБП и резервных генераторов, но понятно, что для достижения высокой эксплуатационной готовности оборудования необходимо стабильное бесперебойное охлаждение. Тем не менее, согласно классификации Uptime Institute для ЦОДов уровней 1 и 2 бесперебойное охлаждение не предусмотрено, но ЦОДы уровней 3 и 4 необходимо строить с таковым. Кроме того, как показывает опыт Uptime Institute, в большинстве ЦОДов охлаждение распределено неравномерно и имеются зоны перегрева. Чтобы создать естественное охлаждение, в классификации Uptime Institute для каждого уровня предусмотрена своя типичная высота фальшпола. Для ЦОДа уровня 1 она составляет 30 см, для уровня 2 — 45 см, для ЦОДов уровней 3 и 4 требуемая по стандартам Uptime Institute высота фальшпола находится в пределах 75—90 см.
Еще одна проблема — резервирование систем охлаждения. Например, что произойдёт, если отключится энергоснабжение, а резервный генератор не запустится? ИБП поддержит электропитание ИТ-оборудования, но кондиционирование остановится и, значит, температура в помещении будет расти. Производители определяют максимальный темп прироста температуры на 9° в час, а влажности — на 5% в час. По наблюдениям специалистов APC такие аварии происходят ежегодно и далеко не всегда укладываются в эти параметры. Именно поэтому в ЦОД уровней 3 и 4 системы охлаждения зарезервированы.
Уровни надежности ЦОДов
Естественно, построенные ЦОДы различаются по коэффициенту готовности инженерных систем, или по уровню надежности. Данные о реальной работе ЦОДов, собранные Uptime Institute, позволяют говорить, что коэффициент готовности для уровня 1 составляет 99,67%, что соответствует запланированному времени простоя — 28,8 часа в год. Функционирование центра данных, соответствующего уровню 1, предопределяет возможность как внеплановых простоев по причине отказов, так и запланированных перерывов в работе на техническое обслуживание. У таких центров, несмотря на наличие источника бесперебойного электропитания и даже аварийного генератора, существует единая точка отказа по питанию, а проведение регламентных или ремонтных работ требует полного вывода из эксплуатации всей инфраструктуры. По оценкам Uptime Institute, реальная практическая длительность простоев таких ЦОДов — немногим больше суток за год.
Для ЦОДа уровня 2 коэффициент готовности равен 99,75%, что соответствует запланированному времени простоя 22 часа в год. В состав оборудования таких центров данных входят резервные комплекты, позволяющие существенно сократить простои по причине нештатных ситуаций, равно как и плановые перерывы в работе на техническое обслуживание. Но так же, как и для предыдущего уровня, уязвимым местом являются активные подводы в системах электропитания и вентиляции, которые не дублированы.
Коэффициент готовности для ЦОДа уровня 3 составляет 99,98%, что соответствует запланированному времени простоя 1,6 часа в год. В этих центрах допускается проведение любых запланированных действий по техническому обслуживанию без прерывания работы компьютерного оборудования.
Согласно данным Uptime Institute показатель эксплуатационной готовности, равный 99,99% (48 минут простоя в год) обеспечивают только ЦОДы уровня 4, когда все компоненты зарезервированы. Если бизнес-задачи требуют самого высокого коэффициента инженерной готовности и минимального времени простоя, то надо говорить о ЦОДе четвёртого уровня.
Инфраструктурные решения в таком проекте должны сохранять работоспособность при самых неблагоприятных обстоятельствах, которые могут сложиться при возникновении нештатной ситуации. Для этого требуется наличие в каждой системе нескольких активных каналов или даже двукратное резервирование всех систем. Специалисты Uptime Institute подчеркивают, что из всех центров данных, претендовавших на четвёртый уровень за последние пять лет, только 10% реально соответствуют требованиям. Однако у ЦОДов уровня 4 все равно есть время простоя. Почему же оно появляется? Всё дело здесь в человеческом факторе — просчетах проектировщиков, неудачных решениях, ошибках технического персонала. В своих аналитических материалах специалисты из Uptime Institute обращают особое внимание на то, что лучшие проекты ЦОДов уровня 4 обеспечивают реальную эксплуатационную готовность 99,995%.
Наконец, в Uptime Institute проведена оценка реальной стоимости ЦОДов различных уровней. Квадратный метр ЦОДа уровня 4 будет стоить 12 тыс. долл., уровня 3 — около 10 тыс., уровня 2 — 6500, а уровня 1 — 4800 долл. Причем это данные только по стоимости инженерной инфраструктуры, которая включает в себя стойки, систему гарантированного электропитания, кондиционирования, вентиляции и пожаротушения. Стоимость строительства помещения и вычислительных средств в ЦОДе в них не включена.
Намного большую проблему представляет отсутствие электрических мощностей
Руслан Заединов, руководитель направления центров обработки данных компании КРОК
Классификация ЦОДов, приведенная в статье, давно стала стандартом, правда, американским. Но многие российские компании из-за отсутствия национальных стандартов в этой области ориентируются на стандарт EIA/TIA-942. Требований данного стандарта придерживается и КРОК, что позволяет еще на этапе проектирования оценивать такие важные показатели, как среднее время простоя ЦОДа и его устойчивость к различным авариям. Так было, к примеру, при реализации проекта по созданию резервного ЦОДа и его интеграции в существующую информационную инфраструктуру Ханты-Мансийского банка.
При создании современных ЦОДов проблемы получения требуемой электрической мощности и отвода тепла стоят очень остро. Но при правильном проектировании вполне можно обеспечить должное охлаждение ИТ-оборудования без возникновения зон перегрева. Для этого совсем не обязательно использовать точечное охлаждение — всё решается путём правильного взаимного размещения ИТ-оборудования и кондиционеров. Намного большую проблему представляет отсутствие электрических мощностей. Для решения данного вопроса приходится строить системы малой энергетики или выводить ЦОД в регионы. Размещение ЦОДа на удаленной региональной площадке целесообразно при построении резервного датацентра.
Однако две упомянутые проблемы не исчерпывают список задач первостепенной важности, которые приходится решать при построении ЦОДа. Еще один важный аспект — проблема, с которой сталкиваются организации при возрастании объема обрабатываемых данных. Для своих проектов КРОК при построении ЦОДов включает в прикладную инфраструктуру систему мониторинга. Она помогает предсказывать необходимость наращивания производительности ЦОДа, его емкости и отказоустойчивости для обеспечения нужного качества ИТ-сервисов.
Российские реалии
Насколько оценки Uptime Institute применимы в России? В целом большинство зафиксированных параметров вполне пригодно и в наших условиях. Это касается среднего и максимального уровней энергопотребления и вспомогательных площадей.
Однако в то, что касается стоимости ЦОДов каждого уровня, придется вносить серьезные коррективы. Прежде всего эта стоимость включает услуги внешней компании по прокладке и монтажу инженерных систем, а здесь цены сильно различаются в России и США. Во-вторых, российские компании далеко не все работы поручают внешним исполнителям, очень многие занимаются монтажом инженерных систем самостоятельно, что для ЦОДов уровней 1 и 2 вполне оправданно. По этим причинам оценка стоимости квадратного метра по классификации Uptime Institute для России кажется сильно завышенной.
Кроме того, в Росиии ЦОДы уровня 3 пока в новинку, а об уровне 4 нам и вовсе неизвестно. Большинство компаний останавливаются на ЦОДе уровня 2. Даже телекоммуникационные операторы, для которых функционирование приложений абсолютно критично, имеют ЦОД второго уровня и лишь приближаются к третьему. И считают, что этого достаточно. Выбор уровня в конечном итоге зависит от потенциальных потерь из-за сбоя датацентра, а пока такие потери в российских компаниях не очень велики.
В заключение отметим, что для обеспечения высокой эксплуатационной готовности необходима не только хорошо спроектированная и реализованная архитектура центра обработки данных, но и регламентированное круглосуточное присутствие квалифицированного персонала, отлаженные процессы, хороший механизм управления инцидентами и эффективное обучение. А поскольку у многих российских компаний именно это — традиционное слабое место, то здесь и лежат основные пути повышения уровня надежности ЦОДа.
Эта классификация абсолютно применима к российским реалиям
Олег Письменский, директор департамента управления проектами APC-MGE
С Uptime Institute нас связывают долгие годы плодотворного сотрудничества, нашедшего свое отражение как в документах самого этого института, так и в технике и системах, производимых APC. С точки зрения служб, обеспечивающих непрерывность функционирования ИТ-оборудования, данная классификация информативна и достаточна для того, чтобы оценить необходимый уровень доступности, а также сопутствующие требования.
Эта классификация абсолютно применима к российским реалиям. Я вообще не сторонник некоторого обособления России или постсоветского пространства: законы физики одинаковы везде. При статистическом распределении стоимости эксплуатации квадратного метра в наблюдаемых нами ЦОДах в рамках одного класса в первом приближении мы получаем цифры, соизмеримые с данными Uptime Institute. Прочие же параметры очень сильно «гуляют», и это говорит о том, что рынок ещё не устоялся. Точных, приведенных и систематизированных данных по стоимости эксплуатации площадей ЦОДов в России на настоящий момент нет, и любая другая информация будет иметь на порядок меньшую достоверность, в связи с чем я рекомендовал бы к рассмотрению именно данные Uptime Institute.
Некоторая уникальность нашей ситуации заключается в том, что по причине очень быстрого изменения ценности, объема, критичности и доступности информации и, как следствие, скачкообразного развития сетей мы минуем ряд итераций, которые совершали наши западные коллеги. В связи с этим многие компании столкнулись с банальной проблемой: существующая инфраструктура ЦОД более не в состоянии обеспечить требуемые вычислительные мощности. Как правило, инженерная инфраструктура потребляет свыше 50% подводимой электроэнергии, остальное приходится на ИТ-оборудование. Задача состоит в изменении данного соотношения в пользу ИТ при одновременном соблюдении требований по доступности. Если мы говорим именно о центре обработки данных, т. е. о сложном и энергоемком объекте, то, безусловно, охлаждение критично, а расходы на электроэнергию составляют значимую часть в эксплуатационном бюджете.
Отмечу еще два на мой взгляд критичных при построении центра обработки данных момента — это планирование ЦОДа и управление проектом. По статистике до 80% проектов, реализованных с ненадлежащим качеством или не реализованных вообще, потерпели неудачу именно из-за этих проблем. И я доверил бы строительство ЦОДа компании, владеющей лучшими практиками в этой области. Чтобы результат не разочаровал.