Процессор глубокого обучения

Процессор глубокого обучения (Deep learning processor, DLP) или ускоритель глубокого обучения — это электронная схема, разработанная для алгоритмов глубокого обучения, обычно с отдельной памятью данных и специализированной архитектурой набора команд. Процессоры глубокого обучения варьируются от мобильных устройств, таких как блоки нейронной обработки (NPU) в мобильных телефонах Huawei^[1], до серверов облачных вычислений, таких как Тензорный процессор Google (TPU) в Google Cloud Platform^[2].

Цель создания специализированных устройств DLP — обеспечить более высокую эффективность и производительность для алгоритмов глубокого обучения, чем обычные центральные процессоры (

CPU) и графические процессоры (GPU

). Большинство DLP используют большое количество вычислительных компонентов для использования параллелизма на высоком уровне данных, относительно большие буфер / память на кристалле для использования шаблонов повторного использования данных и операторы ограниченной ширины данных для обеспечения устойчивости к ошибкам при глубоком обучении.

История

Использование центральных и графических процессоров

Первоначально для выполнения алгоритмов глубокого обучения были адаптированы процессоры общего назначения. Позже для целей глубокого обучения стали использоваться и графические процессоры. Например, в 2012 году Алекс Крижевский использовал два графических процессора для обучения сети глубокого обучения, названной AlexNet^[3], которая стала победителем конкурса ISLVRC-2012. Поскольку интерес к алгоритмам глубокого обучения и DLP продолжил расти, производители графических процессоров начинают добавлять функции, связанные с глубоким обучением, как в аппаратное обеспечение (например, операторы INT8), так и в программное обеспечение (например, библиотеку cuDNN). Так, Nvidia выпустила ядро Turing Tensor Core — DLP — для ускорения обработки глубокого обучения.

Первые DLP

Чтобы обеспечить более высокую эффективность в производительности и энергопотреблении, разработчики оборудования обращают внимание предметно-ориентированный дизайн устройств. В 2014 году команда исследователей под руководством Tianshi Chen предложила первый в мире DLP, DianNao (по-китайски «электрический мозг»)^[4], специализированный для ускорения глубоких нейронных сетей. DianNao обеспечивает пиковую производительность 452 Gop / s (ключевых операций в глубоких нейронных сетях) при небольшой занимаемой площади 3,02 мм2 и потребляемой мощности 485 мВт. Следующие версии процессора (DaDianNao^[5], ShiDianNao^[6], PuDianNao^[7]), образующие семейство микросхем DianNao были предложены той же группой разработчиков^[8].

Дальнейшее развитие

После появления семейства процессоров DianNao, аналогичные по идеологии разработки велись как в академических кругах, так и в промышленности. Только на ежегодной Международной конференция по компьютерной архитектуре^[англ.] ISCA 2016 три сессии, 15% (!) принятых докладов описывали проекты архитектуры процессоров глубокого обучения. В числе заслуживающих упоминания проектов можно назвать Eyeriss^[9] (Массачусетский технологический институт), EIE^[10] (Стэнфорд), Minerva^[11] (Гарвард), Stripes^[12] (Университет Торонто) - из числа академических работ и TPU^[13] (Google), MLU^[14] (Cambricon) - из числа промышленных разработок.