HGX-2: интеллект и производительность

Производители серверов намерены начать поставки систем на базе новой платформы к концу текущего года.

Компания Nvidia представила новую серверную платформу HGX-2, сделав очередной шаг к новым рекордам вычислительной производительности и эффективности. Мощь 16 графических процессоров Tesla V100 Tensor Core должна удовлетворить потребности искусственного интеллекта и высокопроизводительных вычислений.

Компании Lenovo, Supermicro, Wiwynn и QCT, выпускающие серверы для ЦОДов, сообщили о намерении начать поставки систем HGX-2 к концу текущего года. Некоторые крупные пользователи систем HGX-2 станут одновременно и их поставщиками. Ожидается, что производством серверов на новой платформе для облачных ЦОД займутся Foxconn, Inventec, Quanta и Wistron.

В HGX-2 используются две графические платы, связывающие графические процессоры Tesla через коммутационную матрицу NVSwitch. Каждая из плат управляет восемью процессорами, что в сумме позволяет довести число графических процессоров до 16. Анонсированная год назад система HGX-1 объединяла только 8 графических процессоров.

Компания Nvidia называет HGX-2 «строительными блоками», с помощью которых производители серверов смогут создавать системы, настраиваемые для выполнения различных задач. На этой же платформе будет построена и готовящаяся к выпуску собственная система Nvidia DGX-2. Новость же заключается в том, что компания предоставляет свою платформу производителям серверов в качестве референсной архитектуры, благодаря чему производители систем смогут начать их поставки к концу текущего года.

Генеральный директор Nvidia Дженсен Хуанг анонсировал новую платформу на конференции GPU Technology Conference, проходившей на Тайване.

Два месяца назад на технической конференции в Сан-Хосе представители Nvidia заявили, что DGX-2, первая система на базе HGX-2, будет обладать производительностью в 2 PFLOPS. Обычно такую производительность связывают с сотнями кластеризованных серверов. Начальная цена DGX-2 составит 400 тыс. долл.

В эталонном тесте ResNet-50 опытные системы на базе HGX-2 установили рекорд скорости. Одна такая система способна заменить 300 серверов с центральными процессорами, которые стоят миллионы долларов.

Графические процессоры нашли свою нишу в обучающих наборах данных, по сути создавая модели нейронных сетей для приложений машинного обучения. Массово-параллельная архитектура графических процессоров делает их особенно подходящими для обучения искусственного интеллекта.

Преимуществом HGX-2 является возможность использования этой платформы как для обучения искусственного интеллекта, так и для выполнения правил вывода, что делает ее пригодной для построения нейронных сетей, применяемых в различных сценариях реальной жизни. Платформа HGX-2 ориентирована также на высокопроизводительные вычисления при решении научных задач, обработке изображений и рендеринге видео, а также имитационном моделировании.

«Мы верим в будущее вычислений, организованных на базе унифицированной платформы, – заявил менеджер Nvidia по маркетингу искусственного интеллекта и ускоренных вычислений Пареш Харя. – Уникальной особенностью HGX-2 являются ее возможности организации вычислений с различной точностью».

Платформа позволяет проводить при научных расчетах и моделировании вычисления с точностью до FP64 (64-разрядные или с плавающей точкой двойной точности), поддерживая одновременно FP16 (16-разрядные или с плавающей точкой половинной точности) и Int8 (8-разрядные операции с целыми числами) для задач искусственного интеллекта.

На каждой из плат HGX-2 находятся шесть неблокирующих 18-портовых коммутаторов NVSwitch. Любой из этих портов может обмениваться данными с любым другим портом на скорости NVlink (NVlink – это собственная внутренняя шина Nvidia, которую уже лицензировала компания IBM).

Две платы платформы HGX-2 имеют 48 портов NVLink. Топология позволяет всем 16 графическим процессорам (по восемь на каждой плате) одновременно обмениваться данными с любыми другими графическими процессорами на полной скорости NVLink в 300 Гбайтс/с.

«Нам удалось преодолеть множество классических системных ограничений, – сообщил Харя. – В том числе и ограничения производительности единой системы, потребляющей 10 киловатт мощности».

Nvidia анонсировала также восемь групп серверных платформ с графическими ускорителями. В каждой из них установлено два процессора Xeon и различное число графических процессоров, предназначенных для решения задач искусственного интеллекта и организации высокопроизводительных вычислений. Система старшего класса Nvidia HGX-T2 на базе HGX-2 оснащена 16 графическими процессорами Tesla V100 и предназначена для обучения гигантских многоуровневых нейронных сетей. На другом конце находится система SCX-E1, имеющая два графических процессора Tesla V100 и встроенную шину PCIe. Она потребляет 1200 ватт и предназначена для высокопроизводительных вычислений начального уровня.

В номенклатуре Nvidia присутствуют системы HGX-T для обучения искусственного интеллекта, HGX-I для искусственного интеллекта на основе правил вывода и системы SCX для организации высокопроизводительных вычислений и научных расчетов.

Nvidia занимает устойчивые позиции на рынке графических процессоров для решения задач искусственного интеллекта, но и ей приходится сталкиваться с растущей конкуренцией. В 2016 году корпорация Intel купила стартап Nervana Systems, специализировавшийся на аппаратных компонентах для поддержки глубинного обучения, и сейчас завершает работу над созданием собственного процессора Intel Nervana Neural Network Processor (NNP). Производитель микросхем FPGA компания Xylinx предлагает еще более мощные программируемые логические матрицы для построения систем искусственного интеллекта на основе правил вывода.

Микросхемам FPGA не хватает вычислительной мощности для того, чтобы успешно конкурировать с графическими процессорами в задачах машинного обучения, но их можно запрограммировать для обработки каждого из уровней нейронной сети с минимально пригодной для этого уровня точностью. Такая гибкость идеально подходит для решения задач искусственного интеллекта на основе правил вывода.