Запуск вычислительного кластера «АЛ-100» в конце августа 2008 года стал для НПО «Сатурн» важной вехой в программе технического перевооружения предприятия. Использование средств моделирования серьезно экономит ресурсы: время на разработку нового двигателя уменьшается втрое, а материальные затраты — в пять раз. Применение суперкомпьютерных технологий повышает конкурентоспособность продукции по важнейшим параметрам. При строительстве вычислительных комплексов приходится решать сопутствующие задачи, связанные с отводом тепла и обеспечением непрерывности работы. О решениях, найденных при проектировании и создании «АЛ‑100», мы беседовали с Юрием Зеленковым, директором по ИТ НПО «Сатурн».

Intelligent Enterprise: Почему возникла необходимость в создании новой установки? Ведь только в 2005 году был запущен кластер — предшественник «АЛ-100». Как выбиралось решение? Что оно собой представляет?

Юрий Зеленков: В 2005 году, когда был запущен предшествующий кластер, нам казалось, что возможностей такой установки хватит минимум на пять лет. Но объем вычислений вырос в 60 раз, особенно после того, как мы обеспечили удаленный доступ к системе для филиалов из Москвы и Перми. В результате уже спустя год после запуска кластера загрузка оказалась близкой к 100%. К тому же на 1 Тфлопс мощности потреблялось 27 кВт электроэнергии. Плюс ко всему, любое оборудование скорее рано, чем поздно устаревает, и уже в начале 2010 года мы этот кластер полностью останавливаем и утилизируем.

Поэтому в апреле 2007 года был объявлен конкурс на строительство нового вычислительного кластера. В результате выбрали решение от IBM, которое предполагало использование на новом суперкомпьютере ПО Tivoli Workload Scheduler LoadLeveler и параллельной файловой системы GPFS. Дело в том, что у нас уже имелся целый ряд собственных разработок, автоматизирующих деятельность инженера при расчетах (так называемый scientific workflow), именно для данных систем. По нашим оценкам, для переноса этих решений на другую систему управления заданиями потребовалось бы шесть месяцев. Вместе с тем, неправильно было бы говорить, что выбор решения от КРОК и IBM был обусловлен только преемственностью. Решения отличались кардинально. Необходимо напомнить, что предшествующий кластер имел неоднородную архитектуру: в нем использовались узлы на базе x86 и Itanium, что практически привело к удвоению проблем и сложностей. Помня об этом, в новом кластере мы перешли на однородную архитектуру. Существенно отличались и системы инженерной инфраструктуры.

«АЛ-100» построен на базе решения IBM System Cluster 1350. Основой для вычислительного поля стали 168 серверов‑лезвий HS21 на базе 4‑ядерных процессоров Intel Xeon 5335, объединенные высокоскоростной сетью DDR Infiniband пропускной способностью 732 Гбайт/с. Стоит отметить, что данные серверы изначально ориентированы на специфику высокопроизводительных вычислений. Установка содержит 1344 процессорных ядра и 1344 Гбайт оперативной памяти. Емкость подсистемы хранения данных составляет 28,8 Тбайт. Она состоит из 12 СХД IBM DS 3400 и двух коммутаторов Brocade.

Почему было выбрано решение от APC by Schneider Electric?

Предложения конкурентов APC были очень близки по составу технических решений и стоимости собственно оборудования, но стоимость работ по инсталляции резко отличалась в большую сторону. Это было для нас неприемлемо, и мы выбрали APC. В результате стоимость всей инженерной инфраструктуры, а она включает в себя не только системы этого вендора, составила около 40% общих затрат на реализацию проекта.

Кто проектировал комплекс инженерной инфраструктуры для кластера «АЛ-100»? Каково было участие в этом процессе ИТ‑службы НПО «Сатурн»? Повлиял ли как‑то накопленный опыт?

Наш новый кластер построен с использованием систем высокой плотности, так что наш предшествующий опыт оказался не вполне применим. Первоначально мы хотели использовать чисто воздушную систему охлаждения, тем более что у нас уже были промышленные кондиционеры. Но с накоплением опыта мы стали понимать, где находятся границы применения такой воздушной системы. При тепловыделении в 20 кВт на стойку у нас просто не оставалось выбора: тут могла справиться только система с двухконтурным охлаждением, где горячий воздух охлаждается с участием жидкого носителя. Это способствовало и снижению уровня шума, а значит, не потребовались дополнительные работы по шумоизоляции помещения.

Кроме того, помня о прежних ошибках, мы выбрали комплексное решение. На прежнем кластере системы энергопитания и охлаждения были от разных производителей, что создавало массу сложностей, прежде всего, с созданием систем мониторинга и автоматизации, хотя и в том, и в другом случае использовалась классическая система с «горячим» и «холодным» коридорами.

Проектирование комплекса проводили мы сами, но при участии специалистов APC и ведущего интегратора КРОК, который был подрядчиком этого проекта.

Какие сложности были в ходе реализации проекта? Какие проблемы обнаружились уже в ходе эксплуатации?

Основные сложности были организационного характера. Компании, участвующие в проекте, часто прибегали к услугам субподрядчиков. Хотя был менеджер проекта, который пытался управлять ситуацией и выстраивать взаимоотношения между всеми вовлеченными в проект компаниями, нередко возникала ситуация, когда приезжали какие‑то люди, приваривали какие‑то трубы, но, как оказывалось впоследствии, приваривали их не тем концом. Часть работ делали наши строители. В итоге дирекции по ИТ НПО «Сатурн» пришлось выделить специального сотрудника, который взял на себя функции генерального менеджера проекта. В его подчинении были менеджеры проектов более низкого уровня, работу которых также было необходимо координировать. Но тем не менее все получилось, проект был сдан в срок и без превышения бюджета. Пришлось приложить немало усилий в поисках помещения. А когда оно было найдено, потребовался весьма серьезный ремонт. К счастью, при этом обошлись без работ по усилению межэтажных перекрытий, часто необходимых при реализации аналогичных проектов. Помещение именно на первом этаже и с усиленными полами мы искали с расчетом, чтобы избежать проведения таких работ.

Уже после запуска системы пришлось приложить немало усилий, настраивая параметры, связанные с согласованием показателей всех систем. В процессе эксплуатации всегда всплывает большое количество всяческого рода мелких нестыковок, которое приходилось устранять. Так было и на этот раз, но это в порядке вещей. А по‑настоящему серьезных проблем не возникало.

Каким образом удалось снизить энергопотребление комплекса?

Честно говоря, специальных усилий мы к этому не прилагали. Мы взяли предложенное оборудование, как вычислительное, так и инфраструктурное, и получилось, что оно потребляет всего 72 кВт. Возможно, некоторой экономии удалось достичь за счет того, что в холодное время года не задействованы чиллеры, которые также потребляют энергию, и не так уж мало. Но это обычный здравый смысл: когда на улице –20, нет необходимости в использовании дополнительной системы охлаждения. Кроме того, эффект общего снижения энергопотребления может быть и результатом комплексности решения, имеющего централизованную систему мониторинга.

Какой накоплен опыт в эксплуатации? Есть что‑то, что нужно было бы сделать иначе?

Для такой системы ничего по‑другому мы делать бы не стали, это решение получилось вполне сбалансированным, а в будущем придется все же идти другими путями. Мы сейчас рассматриваем возможность построения нового суперкомпьютера. По нашим расчетам, его мощность в расчете на стойку составит 20—25 Тфлопс против 4,5 Тфлопс у «АЛ-100». Тут справится только одноконтурное жидкостное охлаждение с подводом охладителя непосредственно к процессорам и прочим разогревающимся в процессе работы элементам, и такие решения уже появляются на рынке.

Как обосновать необходимость выделения средств на инженерную инфраструктуру, особенно на фоне того, что трудно рассчитывать ROI?

В данном проекте мы не разрывали весь комплекс, который составляли сам кластер и инфраструктура. Это очевидно, что кластер просто не будет работать без всей инфраструктуры. Мы четко осознавали, что покупать одно без другого бессмысленно. Так что все шло одним пакетом, и не возникало задачи обосновать необходимость приобретения таких систем. Хотя вычислитель мы выбирали отдельно, а инженерные системы отдельно, проект был единым.

Еще раз о теме возврата инвестиций. На пресс-конференции, посвященной запуску «АЛ-100», говорилось, что он окупит себя за полгода. Можно ли подтвердить или опровергнуть это утверждение?

У меня есть сейчас только косвенные данные, но, с большой долей вероятности, можно говорить, что это произошло. Например, ранее в процессе проектирования двигателя приходилось изготавливать не менее 15—18 комплектов опытных образцов лопатки вентилятора. После изготовления первого комплекта проводились его испытания, проверялись технические характеристики, и в результате уточнялись параметры конструкции. Затем изготавливался следующий комплект, испытывался, вновь уточнялись параметры конструкции, и так далее, до получения приемлемых аэродинамических и механических характеристик. Для двигателей, которые находятся сейчас в разработке, все параметры конструкции обсчитываются и оптимизируются на суперкомпьютере. В результате мы изготавливаем лопатку вентилятора с нужными характеристиками с первого раза. При этом надо понимать, что изготовление одного опытного комплекта лопаток, который после испытаний фактически становится больше не нужен, — весьма дорогостоящее мероприятие. Ведь используются дорогие материалы, очень сложное оборудование и т.д. Кроме того, на экспериментальную доводку тратится много времени. В итоге чем больше мы считаем, тем меньше мы тратим времени и денег на экспериментальную доводку, поэтому и сокращается цикл проектирования в три раза. И все за счет того, что, имея больше вычислительной мощности, мы можем задать такие параметры при моделировании, что его результаты практически полностью совпадут с натурными испытаниями.

Алексей Дьяченко,
руководитель направления по работе с корпоративными заказчиками APC by Schneider Electric, направление «Энергетика и промышленность»

В рамках комплексного решения для дата-центра НПО «Сатурн» компания АРС by Schneider Electric предложила и установила комплекс инженерной инфраструктуры APC InfraStruXure. В качестве системы бесперебойного питания использовались два модульных ИБП APC Symmetra PX мощностью 60 кВт с «n+1» резервированием и возможностью расширения своей мощности в будущем. Система кондиционирования была построена на базе восьми кондиционеров серии APC Inrow RC c использованием холодной воды, расположенных между стойками. Для организации более эффективной системы охлаждения стоек с оборудованием, стойки и кондиционеры были установлены в комплекс с изоляцией «горячего» коридора HACS (защищенная патентом разработка АРС). Такая система позволила с легкостью охлаждать высоконагруженные стойки ЦОДа. Для качественного анализа ситуации с элементами инженерной инфраструктуры в дата-центре была установления система мониторинга APC InfraStruXure Central. Данная система выдавала в режиме онлайн всю информацию о состояния параметров окружающей среды: температура каждой стойки с нагрузкой, влажность в помещении, наличие пыли и видеонаблюдение в зале. Помимо этого, система мониторинга APC InfraStruXure Central контролировала состояние всех ИБП Symmetra PX, блоков кондиционирования InRow RC и систему распределения питания в стойках.