Summit: как рождается новый лидер рейтинга суперкомпьютеров

Пиковая производительность суперкомпьютера Summit составляет 200 PFLOPS

Источник: Oak Ridge National Laboratory


11:51 12.06.2018   |   3940 |  Питер Сойер |  Служба новостей IDG

Рубрика Технологии



Создатели самой быстрой на планете вычислительной системы правильно предсказали рост потребности в вычислениях, ориентированных на обработку данных, но не учли погодные факторы, из-за которых возникли проблемы с доставкой ключевых компонентов суперкомпьютера.

Команда, разработавшая новый суперкомпьютер Summit для Национальной лаборатории министерства энергетики США в Окридже, правильно предсказала рост потребности в вычислительных мощностях, ориентированных на обработку данных. Но при этом не смогла спрогнозировать сбои, возникшие при доставке ключевых компонентов из-за неблагоприятных погодных условий.

Тем не менее, спустя почти четыре года после того, как корпорация IBM выиграла контракт на строительство суперкомпьютера рекордной вычислительной мощности, он практически готов. Причем его создателям пока удается укладываться в отведенные сроки. Научный директор Oak Ridge Leadership Computing Facility Джек Уэллс ожидает, что полноценная эксплуатация машины с производительностью в 200 PFLOPS начнется в первые недели следующего года.

«Это самый большой и мощный на сегодняшний день в мире суперкомпьютер для научных исследований», – указал он.

Summit разрабатывался для решения сложных задач, в том числе сейсмологических, климатических и задач ядерной физики. Обычно в этой сфере все начинается с моделирования и определения набора начальных условий, а на пути к решению генерируются огромные объемы данных.

Впрочем, создатели Summit предусмотрели и решение ряда других вычислительных задач с выжимкой полезной информации из уже собранных данных. Одним из примеров здесь являются исследования в области генома, другим – проблемы машинного обучения.

Summit

Каждый из 4600 узлов Summit укомплектован двумя процессорами IBM Power9 и шестью графическими процессорами Nvidia Tesla V100
Источник: Oak Ridge National Laboratory

«Вероятность роста востребованности приложений с интенсивной обработкой данных мы спрогнозировали заранее… и в итоге это действительно произошло, – добавил Уэллс. – В настоящее время заявки на использование Summit поступили от участников сразу десяти проектов глубинного обучения, тогда как еще несколько лет назад у нас не было ни одного проекта подобного рода».

Особенности архитектуры Summit – распределение памяти между процессорами и возможность выполнения больших объемов вычислений с пониженной точностью – как нельзя лучше подходит для решения таких задач. (Суперкомпьютер работает под управлением ОС Red Hat Linux.)

Созданная система необычна и в других отношениях.

Если показатели быстродействия будут соответствовать прогнозам, Summit возглавит мировой рейтинг суперкомпьютеров Top500 с пиковой производительностью в 200 PFLOPS или 200 миллионов миллиардов операций с плавающей точкой в секунду.

По другим оценкам, производительность Summit может превышать 1,88 эксафлопс или 1,88 миллиардов миллиардов операций с плавающей точкой в секунду. Вместо 64-разрядной арифметики двойной точности с плавающей точкой, применяемой сегодня, как правило, при научном моделировании, расчеты будут выполняться с использованием 16-разрядной арифметики с плавающей точкой половинной точности. Этого вполне достаточно для большинства вычислений, применяемых при глубинном обучении и исследовании генома.

Число вычислительных узлов у Summit значительно меньше, чем у машины Titan (получившей звание самого быстрого в мире суперкомпьютера в ноябре 2012 года), на смену которой должен прийти новый суперкомпьютер. Но если каждый из 18 688 узлов Titan был оснащен только одним центральным процессором AMD Opteron и одним графическим процессором Nvidia Kepler, то 4600 узлов Summit оборудованы двумя процессорами IBM Power9 и шестью графическими процессорами Nvidia Tesla V100. Эти чипы позволяют эффективно управлять вычислениями с различными уровнями точности.

Каждый из узлов имеет свою оперативную память: 512 Гбайт DDR4 RAM для Power9, 96 Гбайт HBM2 (High Bandwidth Memory) для V100 и 1,6 Тбайт в качестве буфера. С точки зрения программиста, эта память делится между центральными и графическими процессорами и может быть использована в качестве единого блока, что способствует повышению скорости выполнения операций.

Все узлы подразделяются на три категории: узлы входа для компиляции кода и отправки заданий, узлы запуска для выполнения пакетов и вычислительные узлы, на которых производятся сложные вычислительные операции. Однако все узлы физически идентичны, поэтому необходимости в перекрестной компиляции заданий для разных целей нет.

Связь между узлами поддерживается с помощью сети EDR InfiniBand с двухсторонней пропускной способностью в 23 Гбайт/с для каждого узла. Коммутаторы имеют трехуровневую неблокирующую топологию толстого дерева. Это означает, что любые два узла обмениваются данными с максимальной скоростью независимо от того, что в это время делают другие узлы.

Примерно в те же сроки, когда IBM получила от минэнерго США заказ на развертывание Summit в Окридже, ей было поручено построить еще один суперкомпьютер, Sierra, для Национальной лаборатории Лоуренса в Ливерморе.

Особенности развертывания двух этих суперкомпьютеров имеют одно важное отличие: если в Ливерморе используется традиционная конструкция поднятого фальш-пола, то в Окридже электроэнергия и вода для охлаждения подаются сверху.

«Нам пришлось переориентировать систему и шкафы, с тем чтобы приспособиться к особенностям лаборатории в Окридже», – сообщил вице-президент IBM Systems по разработкам и проектированию Уэйн Хауэлл.

Это означало, что всю инфраструктуру – стойки, средства охлаждения, сеть – необходимо было смонтировать еще до доставки первого узла.

«Если бы мы попытались выстраивать инфраструктуру одновременно с подключением вычислительных мощностей, все закончилось бы полным хаосом», – подчеркнул Хауэлл.

При этом важную роль приобретал быстрый монтаж узлов за относительно короткий период времени.

«Одна из сложностей заключалась в том, что при доставке и монтаже оборудования нам нужно было исключить простои», – пояснил Хауэлл.

На ход выполнения работ могли повлиять, например, поломки трейлеров или плохие погодные условия. (Узлы планировалось устанавливать, когда в Северной Америке зима – с четвертого квартала 2017 года по первый квартал 2018-го.)

Когда транспортная авария привела к тому, что часть серверов застряла где-то между производственными подразделениями IBM в Калифорнии и лабораторией в штате Теннесси, было принято решение отправить другой трейлер на выручку сломавшемуся, с тем чтобы не ждать следующей поставки. В результате задержка на маршруте протяженностью в тысячи километров составила всего несколько часов.

А когда движению грузовиков помешали морозы и снежные бури, IBM арендовала чартерные авиарейсы.

«При доставке по территории США мы старались осуществлять перелеты, а не переезды, с тем чтобы наверстать упущенное время, – сообщил Хауэлл. – Но некоторые из компонентов по своим размерам оказались весьма велики, и нам пришлось арендовать авиатранспорт большой вместимости. С поставкой серверов была связана и другая проблема. Представьте себе все эти тюки и прочую упаковку. В Окридже просто не нашлось достаточного количества ресурсов для ее утилизации. И мы были вынуждены отправлять упаковку обратно на одном из грузовиков, перевозившем серверы. Последнюю порцию оборудования доставили в марте. Сейчас мы продолжаем развертывать системное программное обеспечение. Приемочные испытания планируется завершить летом. А полноценная эксплуатация должна начаться в январе 2019 года».


Теги: показывать на главной Самое интересное Суперкомпьютеры IBM Top500 Summit
На ту же тему: