В настоящее время в России, как и во всем мире, наблюдается самый настоящий бум в области построения вычислительных кластеров. Однако если на Западе и зарубежном Дальнем Востоке кластеры используют прежде всего в промышленности, то у нас пока тон задают научные и учебные учреждения. Одним из исключений является вычислительный кластер «АЛ-100», запущенный в научно-производственном объединении «Сатурн».
НПО «Сатурн» — ведущая двигателестроительная корпорация, специализирующаяся на разработке и производстве газотурбинных двигателей. «АЛ-100» — это не первый опыт «Сатурна» в области высокопроизводительных вычислений. Внедрение суперкомпьютера, запущенного в эксплуатацию ещё в 2005 году, позволило конструкторским подразделениям предприятия перейти на новый уровень аналитического проектирования, основанный на использовании численных методов на всех этапах разработки газотурбинных двигателей. «Современный рынок газотурбинных двигателей требует от разработчика существенного сокращения сроков и затрат при создании нового продукта, — говорит Михаил Кузьменко, генеральный конструктор и технический директор НПО “Сатурн”. — Для выполнения данной задачи необходимо провести колоссальный объём инженерных расчетов по направлениям газодинамики, прочности, акустики. А моделирование цифрового эксперимента на суперкомпьютере вообще трудно переоценить, так как это существенно сокращает количество дорогостоящих натурных испытаний изделий. Сегодня с внедрением кластерных технологий мы перешли на качественно новый уровень выполнения конструкторских работ, а с вводом данного суперкомпьютера значительно расширяем свои возможности». В результате цикл разработки газотурбинной установки удалось сократить втрое, до четырёх-пяти лет против двенадцати-пятнадцати в 70—80‑х годах, а количество опытных образцов — в пять раз, с полусотни до десяти. Кроме того, применение высокопроизводительных вычислений позволяет существенно снизить расход топлива и шумность разрабатываемого двигателя, что также является важным параметром, влияющим на конкурентоспобность продукции.
Однако к концу 2006 года, когда к суперкомпьютеру были подключены филиалы в Москве и Перми, загрузка вычислительных мощностей кластера вплотную приблизилась к 100%. К тому же объем вычислений вырос в 160 раз. И в середине 2007‑го было принято решение о создании нового суперкомпьютера, который должен был обойти по производительности уже имевшийся более чем в 20 раз. Заказчиком такого проекта снова стала конструкторская служба. А исполнителем работ, как и в первый раз, была выбрана компания КРОК, предложившая решение на базе технологий IBM. По словам директора по ИТ «Сатурна» Александра Пионтковского, технологии IBM были выбраны не в память о прошлом, а по результатам конкурса. В финал вышли IBM и HP практически с одинаковыми предложениями. По словам Александра Пионтковского, IBM победила потому, что сотрудники ИТ‑службы «Сатурна» знают ее ПО управления кластером, а при выборе HP их пришлось бы переучивать.
Проект начался с формирования требований к создаваемому суперкомпьютеру и выбора оптимального варианта решения. Этот этап специалисты КРОКа и НПО «Сатурн» проводили совместно в центре тестирования IBM в Монпелье (Франция). «Проект по созданию нового суперкомпьютерного центра был весьма сложной технической задачей, — комментирует Юрий Зеленков, заместитель директора по ИТ “Сатурна”. — Нужно было построить вычислительный кластер, максимально адаптированный для поддержки всего программного комплекса, который используют конструкторские подразделения при решении инженерных задач».
Технические подробности
Созданное решение представляет собой высокопроизводительный кластер на базе решения IBM System Cluster 1350 с пиковой производительностью 14,3 Терафлопс. Основой для вычислительного поля стали серверы-лезвия HS21 на базе четырёхъядерных процессоров Intel Xeon, объединенные высокоскоростной сетью DDR Infiniband (см. рисунок). Расчетное поле кластера включает 1344 процессорных ядра и 1344 Гбайт оперативной памяти. За управление кластером отвечает ПО IBM Cluster Systems Management. Для управления вычислительными заданиями в состав кластерного ПО входит система IBM Tivoli Workload Scheduler LoadLeveler.
Работоспособность вычислительного комплекса обеспечивается инженерной инфраструктурой, включающей в себя системы бесперебойного электропитания, прецизионного кондиционирования и автоматического газового пожаротушения. Основой для построения инфраструктуры было выбрано комплексное решение APC InfraStruXure. Решение включает систему энергообеспечения мощностью 250 кВТ, воздушное охлаждение с горячим и холодным коридорами, а также водяное охлаждение в кондиционерах. По словам Александра Пионтковского, APC InfraStruXure привлекла своей комплексностью, поскольку они «набили шишек» при использовании отдельных систем энергопитания и охлаждения при построении первого суперкомпьютера. В результате удалось добиться более высокой плотности размещения оборудования, существенно уменьшить затраты на электроэнергию («АЛ-100» потребляет всего 72 кВт) и снизить уровень шума. Весь комплекс объединен системами централизованного мониторинга и автоматизации.
Специалисты предприятия тщательно подошли и к выбору помещения. Обычно при установке оборудования вычислительных кластеров приходится усиливать межэтажные перекрытия, что серьезно удорожает проект и растягивает его временные рамки. Но в НПО «Сатурн» разместили оборудование в неиспользуемой генераторной, где полы уже были рассчитаны на соответствующие нагрузки. В результате удалось обойтись лишь косметическим ремонтом, который потребовал относительно небольших материальных и временных затрат.
Окупаемость — уже через полгода
«Почти год над созданием кластера работало множество квалифицированных специалистов как со стороны НПО «Сатурн» и генподрядчика компании КРОК, так и со стороны производителей оборудования и подсистем суперкомпьютера, — вспоминает Юрий Зеленков. — Благодаря слаженной работе проектной команды поставленную задачу удалось полностью решить».
В результате на момент запуска данный суперкомпьютер являлся самым высокопроизводительным в промышленности России и СНГ, занимает пятое место в списке суперкомпьютеров СНГ Top 50 и вошел в десятку мощнейших в промышленных предприятиях Европы. По прогнозам мощностей суперкомпьютера должно хватить на два-три года. Причем 50—60% его ресурсов предполагается отдать под разработку двигателя для истребителя пятого поколения.
Отдельно отметим, что менеджеры НПО «Сатурн» представили подробную информацию о денежной составляющей проекта — такое в российской практике случается очень редко. При этом были названы практически уникальные по скорости окупаемости инвестиций параметры проекта. По словам Александра Пионтковского, затраты на создание суперкомпьютера, впоследствии названного «АЛ-100», составили около 100 млн. рублей. Из них 30 млн. ушли на разработку своими силами ПО для инженерных расчетов (решение задач газовой динамики и прочности, оптимизации конструкции двигателя), а 70 млн. — непосредственно на оборудование и системное ПО, переустройство помещений и т. д. При этом по словам менеджеров «Сатурна» на инженерную инфраструктуру ушло около 40% всех проектных расходов.
Полностью окупить эти затраты предполагается довольно быстро. Как отметил Александр Пионтковский, первый суперкомпьютер окупил себя уже спустя полгода. В последние три года в «Сатурне» перешли на виртуальное проектирование. Именно так были разработаны двигатели SaM146 и АЛ-55И, ныне проходящие лётные испытания. Заместитель генерального конструктора НПО «Сатурн» Юрий Шмотин подчеркнул, что результаты моделирования с помощью кластера практически полностью совпадали с натурными испытаниями. Причем это касается не только изучения автоколебаний и последствий обрыва лопаток, но и попадания в двигатель посторонних предметов (птиц, камней, кусков льда, земляных и снежных комков и т. д.). А это уже напрямую влияет на безопасность эксплуатации двигателей и самолетов, которыми они оснащаются.
Системы такого уровня в мировой практике имеют собственные имена. В НПО «Сатурн» был объявлен конкурс среди работников на лучшее название нового суперкомпьютера. Из нескольких сотен предложений победителем признано имя «АЛ-100» — в честь столетия со дня рождения основателя компании, выдающегося ученого и конструктора Архипа Михайловича Люльки, двигателям которого традиционно присваивалась марка «АЛ».
«Построение нового суперкомпьютерного центра является одним из этапов комплексной программы развития ИТ на предприятии, — подвел итоги проекта Александр Пионтковский. — С введением в эксплуатацию самого мощного суперкомпьютера в промышленности России и СНГ конструкторские подразделения НПО “Сатурн” получили мощный инструмент для создания конкурентной продукции, востребованной рынком».