Сегодня бурно развиваются высокопроизводительные вычисления, и Россия не является здесь исключением. Кластеры и суперкомпьютеры запускались в последние годы с завидной регулярностью. А тема снижения затрат на поддержание их работоспособности актуальна точно так же, как и для обычного ЦОДа. ГВЦ Росгидромета имеет богатейший опыт эксплуатации всевозможных вычислительных систем. О том, как можно снизить затраты на поддержание работы вычислительного оборудования, мы беседуем с директором этого центра, лауреатом премии IT Лидер за 2008 год Владимиром Анцыповичем.
Intelligent Enterprise: Не так давно Uptime Institute обнародовал результаты исследования основных источников утечки финансовых средств в центрах обработки данных и на их основе дал ряд рекомендаций. Первой из них было следить за уровнем загрузки серверов, причем по мнению экспертов одинаково плохо, когда системы недозагружены и когда они перегружены. Как вы прокомментируете это?
Владимир Анцыпович: Да, проблема балансировки нагрузки существует, и за этим необходимо следить. Хотя у нас в ГВЦ Росгидромета ситуация совсем не та, что характерна для серверов, где работают бизнес-приложения. Там системы обычно «вычислительно» загружены слабо, а у нас проблема обратная, наши вычислители перегружены именно вычислениями. И именно по этой причине мы пошли на создание гетерогенной системы, которая состоит из двух вычислителей на разных платформах. Один из них предназначен для решения более вычислительноемких задач, другой — для среднего уровня. Ну а для совсем простых вычислительных задач мы используем обычные серверы и даже настольные системы. Максимализация использования вычислительных ресурсов очень важна для нас, и мы к проблеме распределения задач между разными вычислительными архитектурами подходим предельно серьезно. И именно по этой причине мы пошли на создание несимметричной системы.
Вторая рекомендация касается борьбы с «призраками» — системами, которые уже не используются в реальных задачах, но в силу каких‑то причин запускаются. И таких, как показало исследование Uptime Institute, может быть до трети всех вычислений.
И такая проблема есть, но нам сложно с ней бороться. В нашем случае она связана с тем, что мы сами разрабатываем ПО. Некоторые программы имеют очень длительную историю эксплуатации, и часто бывает, что их авторы уходят. Причем, увы, не просто в другую организацию или на пенсию, а вообще из жизни. Системы же эти, как правило, очень плохо документированы. И обеспечивать их работоспособность на новом оборудовании довольно сложно, тут могут появляться «призраки». В результате для решения таких задач нам приходится держать устаревшие и затратные вычислительные ресурсы.
Как показало всё то же исследование Uptime Institute, в среднем один сервер форм-фактора 1U тратит в год электроэнергии на 700 долларов. Отсюда — рекомендации внимательным образом подходить к энергопотреблению. Плюс специфическая российская проблема выделения мощности, тем более в центре Москвы. Как она решается у вас?
Безусловно, вы упомянули крайне серьезную проблему. Мы практически вышли на предел отпущенной нам электрической мощности. И именно в эту проблему упирается очередной цикл развития ИТ в ГВЦ Росгидромета. Мы сейчас реконструируем энергетическую подстанцию — ставим систему мониторинга к каждому потребителю. Конечно, речь не идет о любом оборудовании, которое подключено к розетке, имеются в виду энергоемкие системы. Так мы надеемся найти те элементы, на которых можно экономить. С другой стороны, мы пережили пик, когда после персональных систем каждое подразделение стремилось купить себе свой сервер и «затащить его себе под стол». Хорошо ещё, если этот сервер был один. И так почти в каждой комнате. Естественно, со временем встала проблема консолидации всего этого оборудования в специально предназначенном для этого помещении. В результате проблема решилась практически сама собой, просто за счет оптимизации расходов на отвод тепла и устранения лишнего оборудования, которое использовалось неэффективно. К слову, здание, в котором мы с вами находимся, отапливается тем, что выделяет наше оборудование, в том числе и серверы. И это направление мы будем развивать дальше.
Для преодоления недозагрузки Uptime Institute рекомендует также использовать виртуализацию и консолидацию. А следующая рекомендация связана с эффективным использованием систем охлаждения. У вас интересное решение — есть режимы летней и зимней эксплуатации ЦОДа. Как эта идея родилась?
В нашей системе комбинированного (жидкостного и воздушного) охлаждения и правда есть режимы летней и зимней эксплуатации. Мы действовали в рамках программы по энергосбережению, принятой правительством. И в ней рекомендованы и утилизация выделяемого тепла, и изменение режимов работы в зависимости от времени года и температуры воздуха. Всё это нашло отражение в предложениях интеграторов. Некоторое время назад было модно использовать только воздушное охлаждение и наблюдалось весьма настороженное отношение к жидкостному. Это полная чепуха. Эффективное охлаждение возможно только с использованием специальных теплоносителей, особенно на системах высокой плотности. Жидкостное охлаждение намного эффективнее и требует меньших энергозатрат. Мы используем такие системы с начала 70‑х годов. Потом, правда, был перерыв до конца 80‑х. Случалось всякое, но ни одной аварии с такими системами охлаждения не было. Так что я считаю, что жидкостное охлаждение в специализированных мощных ЦОДах использовать необходимо.
А вот такая рекомендация Uptime Institute: следить за балансом капитальных и эксплуатационных затрат, а именно за тем, чтобы затраты на поддержание оборудования в работоспособном состоянии не превышали его конечную стоимость. Вы с этим сталкивались?
И сталкивались, и сталкиваемся. Прежде всего это касается целого ряда использовавшихся нами ранее подходов, направленных на повышение надежности. К примеру, мы практически отказались от «горячего» резервирования, поскольку выяснилось, что затраты не оправдывают достигаемого эффекта. Потери от отказа систем оказались несоизмеримо меньше, чем затраты на поддержание оборудования, которое приходилось держать в качестве такого резерва.
У этой проблемы есть и другой аспект: в Росгидромете вычислительная техника стоит в 93 организациях по всей территории России. И, естественно, держать ИТ-персонал в каждой из них целесообразно далеко не всегда. Здесь мы сталкиваемся с целым рядом сложностей, прежде всего связанных с вопросами стандартизации. Так получилось, что вопрос приобретения техники «в лихое время» был передан на места, поскольку средств, выделяемых из центра, не хватало. Так и произошел разлад в этом вопросе, и сейчас стоит задача создать единую структуру и отслеживать ее состояние. И обновляться технологические решения должны централизованно и в одно и то же время. Это более серьезная проблема и, кстати, еще более затратная, чем та, о которой я говорил ранее.
Часто говорят о том, что аутсорсинг и аутстаффинг являются путями к снижению затрат на эксплуатацию ЦОДа. Кое-где в России, причем именно в государственных структурах, уже отказываются от своего ИТ-персонала в пользу услуг сторонних компаний, и это получается дешевле. Пользуетесь ли вы такой практикой?
Выигрыш при аутсорсинге достигается тогда, когда один квалифицированный специалист может обслуживать несколько организаций и затраты каждой из них будут ниже, чем в том случае, если держать их в своем штате. Но у нас мощный вычислительный центр. У нас нет избыточного персонала, который простаивал бы. Нагрузка на одного нашего сотрудника выше, чем в коммерческих компаниях. А заработная плата у нас при этом более чем вдвое ниже, чем в среднем по Москве. В результате аутсорсинг нам обойдется дороже, причем значительно. Так что у нас более актуальна проблема удержания кадров. Тот, кто работает у нас, получает колоссальный опыт, и его, что называется, с руками и ногами берут в другие места. И надо найти стимулы, чтобы работник остался.
Как финансовые, так и другие. Кроме того, при аутсорсинге необходимо не забывать и о времени реакции на возникшую при эксплуатации проблему. В случае «собственного» ИТ-персонала время реакции на проблему, как правило, меньше, что весьма необходимо для ЦОДов, работающих в режиме 24×7.