Инженеры компании Тринити, системного интегратора и российского производителя ИТ-оборудования, разработали высокопроизводительный сервер для обучения нейросетей на базе двухпроцессорного двухюнитового сервера Тринити, включенного в реестр российской промышленной продукции Минпромторга, с использованием трёх GPU TESLA T4.
Использование нейросетей сегодня повсеместно, например, для решения задач видеоаналитики, обработки медиаданных, криптографии, 3D-моделирования и анимации, научных исследований — все эти системы обучаются на больших объемах данных. Поскольку инфраструктура подобных систем весьма масштабна (обычно речь идет о десятках и сотнях серверов), нужна высокая плотность размещения вычислительных ресурсов, что диктует особые требования к конструкции, питанию и охлаждению серверов. При этом для Российских компаний важно, чтобы оборудование отвечало требованиям импортонезависимости, и обеспечивало стабильную работу инфраструктуры.
Для решения подобных задач инженеры Тринити разработали специализированную версию сервера Тринити ER220R, внесенного в реестр Минпромторга.
При установке нескольких GPU в стандартный сервер наблюдается перегрев как всей машины, так и, особенно, самих графических ускорителей. Компоненты сервера, разумеется, имеют встроенную термозащиту, но при длительных максимальных нагрузках снижаются частоты процессоров и GPU (троттлинг) — что снижает экономическую эффективность внедрения комплекса (требуется больше серверов для обеспечения стабильной производительности).
Кроме того, некоторые популярные GPU, при установке нескольких штук в одну машину, потребовали внесения изменений в настройки микрокода материнской платы.
В рамках разработки проекта крупной аналитической системы для одного из заказчиков инженеры Тринити оперативно разработали и изготовили решение, обеспечивающее эффективное охлаждение нескольких GPU.
Был разработан вариант дополнительного охлаждения, а именно термокожухи на видеокарты и охладительный элемент к каждой.
Данная модификация позволяет эксплуатировать сервер под любой нагрузкой в течение неограниченного времени. При этом все компоненты работают на своих максимальных частотах и с большим запасом по температуре, что обеспечивает стабильную производительность, высокую надежность и длительный срок эксплуатации комплекса.
Современные технологии проектирования и малосерийного изготовления позволяют в короткие сроки адаптировать серийные изделия под внезапно возникшие нестандартные задачи. Это могут быть как другие GPU, так и разного рода неграфические ускорители и иные высоконагруженные компоненты.
Небольшие партии компонентов можно изготавливать аддитивными технологиями «с экрана», а если речь идет о крупных тиражах, то уже отлажены производственные цепочки для быстрого «традиционного» изготовления в металле и пластике.