Процессор глубокого обучения
Процессор глубокого обучения (Deep learning processor, DLP) или ускоритель глубокого обучения — это электронная схема, разработанная для алгоритмов глубокого обучения, обычно с отдельной памятью данных и специализированной архитектурой набора команд. Процессоры глубокого обучения варьируются от мобильных устройств, таких как блоки нейронной обработки (NPU) в мобильных телефонах Huawei[1], до серверов облачных вычислений, таких как Тензорный процессор Google (TPU) в Google Cloud Platform[2].
Цель создания специализированных устройств DLP — обеспечить более высокую эффективность и производительность для алгоритмов глубокого обучения, чем обычные центральные процессоры (
История
Использование центральных и графических процессоров
Первоначально для выполнения алгоритмов глубокого обучения были адаптированы процессоры общего назначения. Позже для целей глубокого обучения стали использоваться и графические процессоры. Например, в 2012 году Алекс Крижевский использовал два графических процессора для обучения сети глубокого обучения, названной AlexNet[3], которая стала победителем конкурса ISLVRC-2012. Поскольку интерес к алгоритмам глубокого обучения и DLP продолжил расти, производители графических процессоров начинают добавлять функции, связанные с глубоким обучением, как в аппаратное обеспечение (например, операторы INT8), так и в программное обеспечение (например, библиотеку cuDNN). Так, Nvidia выпустила ядро Turing Tensor Core — DLP — для ускорения обработки глубокого обучения.
Первые DLP
Чтобы обеспечить более высокую эффективность в производительности и энергопотреблении, разработчики оборудования обращают внимание предметно-ориентированный дизайн устройств. В 2014 году команда исследователей под руководством Tianshi Chen предложила первый в мире DLP, DianNao (по-китайски «электрический мозг»)[4], специализированный для ускорения глубоких нейронных сетей. DianNao обеспечивает пиковую производительность 452 Gop / s (ключевых операций в глубоких нейронных сетях) при небольшой занимаемой площади 3,02 мм2 и потребляемой мощности 485 мВт. Следующие версии процессора (DaDianNao[5], ShiDianNao[6], PuDianNao[7]), образующие семейство микросхем DianNao были предложены той же группой разработчиков[8].
Дальнейшее развитие
После появления семейства процессоров DianNao, аналогичные по идеологии разработки велись как в академических кругах, так и в промышленности. Только на ежегодной Международной конференция по компьютерной архитектуре[англ.] ISCA 2016 три сессии, 15% (!) принятых докладов описывали проекты архитектуры процессоров глубокого обучения. В числе заслуживающих упоминания проектов можно назвать Eyeriss[9] (Массачусетский технологический институт), EIE[10] (Стэнфорд), Minerva[11] (Гарвард), Stripes[12] (Университет Торонто) - из числа академических работ и TPU[13] (Google), MLU[14] (Cambricon) - из числа промышленных разработок.
Примечания
- ↑ HUAWEI Reveals the Future of Mobile AI at IFA 2017 | HUAWEI Latest News | HUAWEI Global . consumer.huawei.com. Дата обращения: 10 ноября 2021. Архивировано 10 ноября 2021 года.
- 20 ноября 2021 года.
- 15 ноября 2021 года.
- 10 ноября 2021 года.
- 1 декабря 2021 года.
- 10 ноября 2021 года.
- 10 ноября 2021 года.
- 10 ноября 2021 года.
- 22 ноября 2018 года.
- ↑ Han, Song. EIE: Efficient Inference Engine on Compressed Deep Neural Network / Song Han, Xingyu Liu, Huizi Mao … [и др.]. — 2016-02-03.
- 1 декабря 2021 года.
- 8 марта 2021 года.
- 10 ноября 2021 года.
- ↑ 思元100智能加速卡 - 寒武纪 . www.cambricon.com. Дата обращения: 10 ноября 2021. Архивировано 10 ноября 2021 года.