Процессор глубокого обучения

Материал из Википедии — свободной энциклопедии

Процессор глубокого обучения (Deep learning processor, DLP) или ускоритель глубокого обучения — это электронная схема, разработанная для алгоритмов глубокого обучения, обычно с отдельной памятью данных и специализированной архитектурой набора команд. Процессоры глубокого обучения варьируются от мобильных устройств, таких как блоки нейронной обработки (NPU) в мобильных телефонах Huawei[1], до серверов облачных вычислений, таких как Тензорный процессор Google (TPU) в Google Cloud Platform[2].

Цель создания специализированных устройств DLP — обеспечить более высокую эффективность и производительность для алгоритмов глубокого обучения, чем обычные центральные процессоры (

CPU) и графические процессоры (GPU
). Большинство DLP используют большое количество вычислительных компонентов для использования параллелизма на высоком уровне данных, относительно большие буфер / память на кристалле для использования шаблонов повторного использования данных и операторы ограниченной ширины данных для обеспечения устойчивости к ошибкам при глубоком обучении.

История

Использование центральных и графических процессоров

Первоначально для выполнения алгоритмов глубокого обучения были адаптированы процессоры общего назначения. Позже для целей глубокого обучения стали использоваться и графические процессоры. Например, в 2012 году Алекс Крижевский использовал два графических процессора для обучения сети глубокого обучения, названной AlexNet[3], которая стала победителем конкурса ISLVRC-2012. Поскольку интерес к алгоритмам глубокого обучения и DLP продолжил расти, производители графических процессоров начинают добавлять функции, связанные с глубоким обучением, как в аппаратное обеспечение (например, операторы INT8), так и в программное обеспечение (например, библиотеку cuDNN). Так, Nvidia выпустила ядро Turing Tensor Core — DLP — для ускорения обработки глубокого обучения.

Первые DLP

Чтобы обеспечить более высокую эффективность в производительности и энергопотреблении, разработчики оборудования обращают внимание предметно-ориентированный дизайн устройств. В 2014 году команда исследователей под руководством Tianshi Chen предложила первый в мире DLP, DianNao (по-китайски «электрический мозг»)[4], специализированный для ускорения глубоких нейронных сетей. DianNao обеспечивает пиковую производительность 452 Gop / s (ключевых операций в глубоких нейронных сетях) при небольшой занимаемой площади 3,02 мм2 и потребляемой мощности 485 мВт. Следующие версии процессора (DaDianNao[5], ShiDianNao[6], PuDianNao[7]), образующие семейство микросхем DianNao были предложены той же группой разработчиков[8].

Дальнейшее развитие

После появления семейства процессоров DianNao, аналогичные по идеологии разработки велись как в академических кругах, так и в промышленности. Только на ежегодной Международной конференция по компьютерной архитектуре[англ.] ISCA 2016 три сессии, 15% (!) принятых докладов описывали проекты архитектуры процессоров глубокого обучения. В числе заслуживающих упоминания проектов можно назвать Eyeriss[9] (Массачусетский технологический институт), EIE[10] (Стэнфорд), Minerva[11] (Гарвард), Stripes[12] (Университет Торонто) - из числа академических работ и TPU[13] (Google), MLU[14] (Cambricon) - из числа промышленных разработок.

Примечания

  1. HUAWEI Reveals the Future of Mobile AI at IFA 2017 | HUAWEI Latest News | HUAWEI Global. consumer.huawei.com. Дата обращения: 10 ноября 2021. Архивировано 10 ноября 2021 года.
  2. 20 ноября 2021 года.
  3. 15 ноября 2021 года.
  4. 10 ноября 2021 года.
  5. 1 декабря 2021 года.
  6. 10 ноября 2021 года.
  7. 10 ноября 2021 года.
  8. 10 ноября 2021 года.
  9. 22 ноября 2018 года.
  10. Han, Song. EIE: Efficient Inference Engine on Compressed Deep Neural Network / Song Han, Xingyu Liu, Huizi Mao … [и др.]. — 2016-02-03.
  11. 1 декабря 2021 года.
  12. 8 марта 2021 года.
  13. 10 ноября 2021 года.
  14. 思元100智能加速卡 - 寒武纪. www.cambricon.com. Дата обращения: 10 ноября 2021. Архивировано 10 ноября 2021 года.