Intelligent Enterprise: Когда появилась идея запустить кластер? Для решения каких задач предполагалось его использовать?
Ольга Юфрякова: Наш коллектив сложился около десяти лет назад. Тогда же началась разработка курсов по параллельному программированию. Кроме образовательной деятельности велась научно-исследовательская работа в областях гидрогазодинамики, молекулярной динамики, материаловедения, биологии и экологии, геофизических исследований. Помимо этого мы занимались различными вопросами теории параллельных вычислений, например, оценкой оптимального количества процессорных элементов для наискорейшего исполнения параллельных алгоритмов. С появлением кластера спектр решаемых задач расширился, им в качестве инструмента для инженерных расчетов заинтересовались как другие подразделения нашего университета, так и внешние заказчики. Это и расчет конструкции морских судов, и решение целого комплекса задач для энергетики…
Мы пытались решать эти задачи своими силами, собирая вычислители из персональных систем. Самая мощная наша система включала 16 процессорных ядер, но даже на таких расчеты могли длиться сутками. Конечно, это не сравнить с комплексом из восьмисот с лишним ядер, который сейчас находится в нашем распоряжении. Его мощность больше даже не в разы, а на порядки. Тем более, что значение имеет не только количество процессорных ядер, но и их качество. Плюс наличие быстрого интерконнекта между узлами.
Есть примеры, когда сложные расчетные задачи удавалось решить с помощью распределенных систем, объединяющих множество компьютеров по всему миру, в частности в ходе проекта SETI@HOME, но это лишь единичные случаи. В первую очередь потому, что далеко не все алгоритмы являются многозадачными по своей структуре. А вот параллельную обработку допускает куда больше расчетных задач.
Экспериментировали мы и с кластерами виртуальных машин, но их использование оказалось возможным лишь для образовательных целей, а никак не для наукоёмких задач.
Помимо этого мы решали свои задачи на вычислительных мощностях других вузов, у которых уже были свои суперкомпьютеры. Так, на V международной молодежной научно-практической школе «Высокопроизводительные вычисления на Grid-системах», которая проходила в 2014 году, для проведения мастер-классов «Программирование для Intel Xeon Phi» мы подключались к суперкомпьютеру «Торнадо», который развернут в Южно-Уральском государственном университете. И несколько раз обращались к ресурсам комплекса «Ломоносов».
Наши сотрудники, проходившие стажировку в шведских университетах, использовали развернутые там вычислительные мощности для решения своих задач. Например, у одного из них, он занимается разработкой мембран для производства биотоплива, на это ушел год работы.
Около пяти лет назад стало ясно, что без создания полноценной локальной вычислительной системы нам не обойтись. Без нее невозможно проводить ни научные исследования, ни обучение студентов, магистрантов и аспирантов. И именно тогда мы начали работу над реализацией этих идей.
Повлияло и то, что САФУ вошел в Суперкомпьютерный консорциум университетов России и принимает в его работе весьма активное участие. Наша кафедра активно участвовала в становлении суперкомпьютерного образования не только в нашем регионе, но и в масштабах всей страны. Этот момент, естественно, тоже сыграл свою роль в качестве одного из мотивов для приобретения собственного вычислительного кластера.
Как ваши планы по созданию кластера реализовывались в жизни? Учитывали ли вы чужой опыт?
Начиналось всё с подготовки и согласования технического задания. Этот процесс оказался довольно сложным и занял у нас примерно год. Плюс ко всему свою роль сыграла и специфика бюджетного учреждения, где любые траты требуют обоснований. Но коллектив у нас дружный, все мы друг друга понимаем, так что результата со временем достигли. Естественно, при этом мы учитывали опыт коллег из России и не только, но в силу целого ряда ограничений он оказался не вполне применим в условиях САФУ. Да и в целом любой суперкомпьютер представляет собой штучное изделие. Не случайно, что серийного производства суперкомпьютеров так никто и не создал, хотя попытки и предпринимались.
Нам предлагали свои услуги множество компаний. В итоге в своего рода шортлист предложений, устраивавших нас по цене, вошли системы от Fujitsu, HP, IBM и «Т-Платформ». Однако только оборудование Fujitsu, с одной стороны, отвечало нашим весьма жестким требованиям по энергоэффективности, а с другой, оказалось настолько компактным, что могло разместиться в трех монтажных шкафах-стойках. Именно столько места, и никак не больше, мог предоставить нам центр обработки данных университета. При этом производительность комплекса Fujitsu была наиболее высокой из всех предложенных.
Работы по монтажу комплекса прошли быстро и практически без проблем. Не откладывая дела в долгий ящик, специалисты Fujitsu всё смонтировали и протестировали. Было обнаружено одно неисправное лезвие в одной из платформ PRIMERGY CX270 S2, но его тут же заменили. Дальше всё работало без каких бы то ни было проблем и сбоев в заранее установленные сроки. Работы по монтажу комплекса не превысили одного месяца.
Масштабная модернизация инженерных систем центра обработки данных не потребовалась. Озаботились мы только созданием системы автономного электроснабжения, и эти работы сейчас идут. Мы закупили дизельный генератор и ждем, когда его нам доставят и смонтируют.
Практическое использование кластера… Оно проходит так, как намечалось, или появились какие-то новые задачи, решать которые раньше не предполагали?
В настоящее время на кластере запущено более четырёх тысяч задач. Уровень его утилизации составляет более 40%. Однако он работает у нас всего год, а этого мало для того, чтобы задействовать все его возможности.
Только на освоение администрирования кластера у нас ушло несколько месяцев. А без этого о практическом использовании систем не может быть и речи. Кроме того, мы закупили не всё необходимое ПО. Так, например, на данный момент у нас не завершен процесс приобретения пакета FlowVision. Требует обновления и пакет ANSYS.
Мы используем кластер для тех задач, для которых и предполагали. Прежде всего образовательных. И пытаемся учить не только своих студентов, но и химиков, биологов, инженеров, геологов. Пока на кластере работают лишь две группы. Но их количество будет расти.
Мы пытаемся также заинтересовать предприятия и учреждения нашего региона, не только Архангельской области, в том, чтобы использовать возможности, которые могут дать им высокопроизводительные вычисления. Регулярно приглашаем их на нашу традиционную научно-практическую школу «Высокопроизводительные вычисления на Grid-системах». Но успех тут пока ниже ожидаемого. У предприятий ВПК, в частности у известного завода «Звездочка», такой интерес появляется. Мы им показали, как можно оптимизировать процессы сварки, и у них прямо-таки глаза загорелись. А, скажем, целлюлозно-бумажный комбинат от нас просто отмахивался. Хотя наши сотрудники решают задачи, которые для них вполне могут представлять интерес. Всё это скорее всего от непонимания. И мы будем менять эту ситуацию. Нужна активная популяризация темы параллельных вычислений и того, что может дать их использование буквально каждому предприятию.
А прорабатывались ли вопросы аренды ваших вычислительных мощностей?
В принципе мы готовы предоставлять наши мощности. Хотя с практической точки зрения этот вопрос пока не рассматривали. Большого интереса со стороны потенциальных заказчиков просто нет. Возможно, пока.
Надо также иметь в виду, что наш кластер не слишком мощный. Его пиковая производительность составляет менее 12 Tфлопс. К тому же совсем не исключено, что мы полностью задействуем ресурсы кластера для нужд университета. Ведь сейчас наш проект проходит фазу становления.
Планируется ли использовать кластер для нужд вашего региона?
Конечно, наш суперкомпьютер уже используется в этих целях. Например, для решения задач отраслевой практической деятельности. Это могут быть, в частности, экологические проблемы из-за воздействия на окружающую среду паров топлива, которые сквозь микротрещины испаряются из пустых емкостей, во множестве хранящихся на побережье и островах Арктического Севера. Могут быть задачи, связанные с рациональным использованием биологических ресурсов прибрежной части Белого и Баренцева морей. А в медицинской отрасли кластер можно использовать для массовой обработки медико-биологических данных с целью улучшения ранней диагностики заболеваний.
Все эти задачи мы решаем совместно с сотрудниками специализированных ведомств, и в будущем, надеемся, данное сотрудничество будет только расширяться.
Кластер САФУ. Технические подробности
Кластер состоит из двенадцати вычислительных узлов на базе серверов Fujitsu PRIMERGY CX250 S2 и восьми узлов на серверах Fujitsu PRIMERGY CX270 S2 с процессорами Intel Xeon E5-2680 v2 (2,8 ГГц) и ОЗУ 64 Гбайт. В серверах PRIMERGY CX270 S2 установлено восемь сопроцессоров Intel Xeon Phi 5110P. Эти сопроцессоры ускоряют решение задач с высокопроизводительными вычислениями.
Вычислительные узлы объединены в единый комплекс посредством коммутаторов InfiniBand и осуществляют доступ к системам хранения данных (СХД) ETERNUS DX80 S2 через серверы PRIMERGY RX300. Для управления кластером также применяются два PRIMERGY RX300. Они обладают быстрой системой автоматического восстановления и гибкого выделения доступных ресурсов по требованию.
При сбоях в функционировании СХД ETERNUS DX80 S2 защищает ценные информационные ресурсы, в дистанционном режиме копируя данные на другие дисковые массивы. Эта система имеет интерфейсы FC, FCoE, iSCSI или SAS, которые можно поменять в ходе эксплуатации, а новый интерфейс FCoE 10 Гбит/с предоставляет возможность легкого слияния различных инфраструктур. Для одновременного подключения к сетям различных типов СХД ETERNUS DX80 S2 может использовать интерфейсы в смешанной конфигурации.
Файловая система FEFS содержит три основных функциональных модуля.
- Сервер метаданных (metadata server), соединенный с одной целью метаданных (metadata target). В файловой системе FEFS хранятся метаданные о пространстве имен.
- Несколько серверов хранения объектов (object storage server – OSS), хранящих данные файлов из одной или нескольких целей хранения объектов (object storage targets – OST). Обычно OSS обслуживает от двух до восьми OST, а каждая OST управляет одной локальной дисковой файловой системой.
- Клиенты, обращающиеся и использующие данные. FEFS предоставляет им унифицированное пространство имен для всех файлов и данных в файловой системе, а также обеспечивает параллельный когерентный доступ к файлам для записи и чтения.
С Ольгой Юфряковой беседовал Яков Шпунт