Google: тензорный процессор кладет традиционные чипы на лопатки

Специализированные чипы ускоряют умозаключения, получаемые с помощью нейронных сетей, и демонстрируют превосходные показатели производительности в расчете на ватт.

Четыре года тому назад в Google подсчитали, что, если все пользователи начнут по три минуты в день нагружать сервисы компании для распознавания речи, ей понадобится вдвое больше центров обработки данных.

Но вместо того чтобы покупать новые здания и новые серверы, в Google решили спроектировать специализированное оборудование для задач машинного обучения. Так появился «тензорный процессор» (Tensor Processing Unit, TPU), чип, ускоряющий работу нейронных сетей, на котором происходит вывод умозаключений. Недавно компания опубликовала доклад о преимуществах TPU по сравнению с центральными и графическими процессорами.

В среднем TPU в 15-30 раз быстрее выполняет задачи вывода умозаключений, чем серверный центральный процессор Intel Haswell и видеопроцессор Nvidia K80. А производительность в расчете на ватт у TPU была в 25-80 раз выше, чем у центрального и графического чипов.

Достигнутые результаты имеют большое значение для Google, поскольку компания в последнее время активно развивает средства машинного обучения. На разработку собственного оборудования соответствующего назначения пришлось пойти из-за отсутствия перспектив существенно повысить мощность традиционных процессоров.

Это был далеко не исследовательский эксперимент: в Google задействуют тензорные процессоры с 2015 года, с их помощью ускоряют работу сервисов машинного перевода и распознавания изображений. Особенно хорошие результаты TPU демонстрируют с точки зрения энергоэффективности, а этот показатель намного увеличивает затраты, когда приходится использовать огромные массивы оборудования.

Еще одна ключевая характеристика — время отклика, оно у TPU гораздо меньше, чем у процессоров других типов. Норм Джуппи, инженер по оборудованию Google, подчеркивает, что системы машинного обучения должны выдавать ответы быстро, чтобы обеспечивать высокое качество обслуживания пользователей: «При работе с онлайн-сервисами нужно учитывать время передачи информации от устройства в облако и обратно. В самом центре обработки данных тоже происходят пересылка данных по сети и другие процессы, влияющие на скорость. Поэтому, если вы хотите, чтобы пользователь получал отклик почти мгновенно, непосредственно на обработку вам остается совсем немного времени».

В Google уже провели испытания своих процессоров на шести сервисах, в которых используется вывод умозаключений нейронными сетями, то есть почти на всех приложениях такого типа, работающих в дата-центрах компании. Среди них система игры в го DeepMind AlphaGo, которая в прошлом году победила Ли Седоля, одного из лучших мастеров, в турнире из пяти партий со счетом 4:1.

Google тестировала тензорные процессоры в сравнении с обычными, выпущенными приблизительно в то же время. Не исключено, что более новые чипы традиционной архитектуры могут как минимум сократить отставание от TPU по производительности.

Но и характеристики самого TPU можно улучшить. В частности, если использовать с ним память GDDR5, которая встроена в видеопроцессор Nvidia K80, можно было бы повысить быстродействие по сравнению с конфигурацией, на которой осуществлялось тестирование. Как следует из доклада Google, недостаточная пропускная способность памяти негативно сказалась на скорости ряда приложений.

Кроме того, авторы доклада выражают уверенность, что производительность можно было бы увеличить путем оптимизации программного обеспечения, в частности одной из сверточных нейронных сетей, носящей название CNN1. Неизвестно, однако, планируют ли в Google такую оптимизацию, учитывая, насколько велики оказались уже полученные благодаря TPU преимущества по быстродействию.

Данные в искусственных нейронных сетях передаются по той же схеме, что и в головном мозге человека, а сверточные нейросети моделируют процесс обработки мозгом визуальной информации.

«Учитывая, что CNN1 сейчас работает на TPU в 70 с лишним раз быстрее, чем на центральном процессоре, разработчики вполне удовлетворены результатом. А потому неясно, будут ли проведены описанные нами оптимизации», — поясняют авторы доклада.

Тензорный процессор имеет вид специализированной интегральной схемы — чипа, созданного для конкретной задачи и со своим набором инструкций. Но Джуппи не видит в этом проблемы и добавляет, что тензорные процессоры обладают достаточной гибкостью, и поэтому используемые модели машинного обучения можно менять: «TPU был разработан не для какой-то одной модели. Если будет предложена другая, процессор не придется проектировать заново».

Специализированное аппаратное обеспечение для машинного обучения разрабатывают и в других компаниях. В частности, есть целый ряд стартапов, специализирующихся в этой области, а Microsoft в своих ЦОД активно использует программируемые логические матрицы FPGA для ускорения работы сетей и приложений машинного обучения.