Чипы Intel Myriad X и их масштабируемость в инференсе нейронных сетей

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Нейростики Intel NCS2, чипы Myriad X, решения сторонних производителей — компания Intel продвигает решения на базе Myriad X в самых различных вариантах.

Чем же так хороши эти ускорители? Во-первых, стоимостью одного FPS. Во-вторых, полной совместимостью с OpenVINO, где можно перенести существующие решения с CPU/GPU на стик или MyriadX без их доработки или дополнительной адаптации. Конечно же, адаптация это не особенность VPU, а, скорее, особенность OpenVINO, где каждая обученная сеть может работать на любой выбранной аппаратной платформе, будь то CPU, GPU, FPGA, VPU и выбор может быть сделан не до разработки, а после.

Рассмотрим основные показатели стиков и чипов, установленных в них, в инференсе нейронных сетей на базе топологий UNET 576x384 и Darknet19 MMR (распознавание мерок и моделей ТС):

Основные показатели Intel NCS2 в инференсе нейронных сетей UNET, Darknet19

Соответственно, при низкой стоимости мы имеем высокую эффективность применения данных устройств. А что если мы говорим об инференсе входящих видеопотоков, например, RTSP Ful HD 15 FPS H.264/H.265 в рамках серверной инфраструктуры? Стики в сервер не поставишь, все-таки это решения для дома или для экспериментов:

NSC2

Intel Neural Compute Stick

В серверном инференсе сейчас часто применяются GPU nVidia Tesla 4, Tesla V100. Но есть и вариант от Intel с Myriad X на борту – это Intel Vision Accelerator, специализированное узкопрофильное решение под PCIe или M.2 в зависимости от модификации и количества чипов на плате. Ниже представлена PCIe модификация платы:

Intel Vision Accelerator

Здесь есть три основных модификации – платы с 1, 2, 8 Myriad X на борту форматов M.2, M-PCIe или полноразмерного PCIe. Вот основные характеристики и требования:

Модификации Intel Vision Accelerator с 1, 2, 8 Myriad X на борту

Рассмотрим модификации плат от UP Board, например, UP Core AI. Подобные устройства часто применяются в инференсе в непосредственной близости от камеры или иных автономных малогабаритных устройствах, что позволяет значительно сэкономить драгоценные ресурсы имеющихся устройств и не требует их полной замены при дополнении имеющейся функциональности навыками искусственного интеллекта.

Up Core

Up Core

А что делать, если требуется большая плотность?

Интересное решение — с полноразмерная несущая плата PCIe x4 и 8-ю блейдами, в рамках каждого из которых установлено по 8 чипов Myriad X MA2485. Фактически, это блейд система на шине PCIe, где в рамках несущей платы может быть установлено от 1 до 8 планок по 8 ускорителей инференса на каждой. В итоге — это промышленное масштабируемое решение с высокой плотностью VPU для сегмента Enterprise.

Все блейды в системе отображаются как множество плат HDDL по 8 ускорителей на каждом. Это позволяет задействовать множество как под инференс одной задачи с множеством входящих потоков, так и под множество разных задач.

Myriad X Blade Board

В решении используется PLX на 12 линий PCIe, 8 из которых идут на 8 блейдов, по одной линии на каждый, а 4 на материнскую плату. Далее, каждая линия идёт на PCIe-USB свич, где 1 порт используется для соединения, а 8 проброшены на каждый подключенный Myriad X.

Общее энергопотребление платы с 64 чипами не превышает 100 Вт, но допускается в том числе и последовательное подключение нужного числа блейдов, что пропорционально сказывается и на энергопотреблении.

Итого в рамках одной полноразмерной платы PCIe мы имеем 64 Myriad X, а в рамках серверного решения на платформе, например, от Supermicro 1029GQ-TRT, 4 платы в форм-факторе 1U, т.е. 256 чипов Myriad X для инференса на 1U.

Supermicro 1029GQ-TRT

Если сравнивать решение на базе Myriad X с nVidia Tesla T4, то разумно рассматривать топологию ResNet50, в которой VPU дает 35 FPS. Итого мы имеем 35 FPS/Myriad X * 64 штуки = 2240 FPS/плата и 8960 FPS/сервер 1U, что сравнимо с показателями batch=1 nVidia Tesla V100, при стоимости ускорителя на Myriad X значительно меньше. Не только стоимость показывает целесообразность использования Myriad X в инференсе, а в том числе, возможность параллельного инференса различных нейронных сетей, а также эффективность в части тепловыделения и энергопотребления.

Источник: https://habr.com/ru/post/478182/

Вернуться к списку

Интересные статьи

Новые AMD Ryzen на архитектуре Zen 3: сравниваем с предыдущим поколением, а также с Intel Core i9

Я планировал написать эту статью еще весной 2020-го, но постоянно откладывал её в дальний ящик. Хотелось бы сказать, что причиной тому «экологическая» ситуация в стране и мире, но на ...

PCI Express в ПЛИС V-й серии Intel: основы интерфейса и особенности аппаратных ядер

Введение Знакомый многим интерфейс PCI Express или PCIe был доступен разработчикам систем на ПЛИС уже тогда, когда он только начинал распространяться в цифровой технике. В это время существовало...

Intel х86 Root of Trust: утрата доверия

Изображение: shutterstock Вот и настал момент, которого, возможно, больше всего боялись системные архитекторы, инженеры и специалисты по безопасности компании Intel: была найдена ошибка в ...

Джедайская техника уменьшения сверточных сетей — pruning

Перед тобой снова задача детектирования объектов. Приоритет — скорость работы при приемлемой точности. Берешь архитектуру YOLOv3 и дообучаешь. Точность(mAp75) больше 0.95. Но скорость прогона в...

AMD вынуждает Intel снижать цены не только на новые, но и на старые модели CPU. Это начало очередной ценовой войны

Относительная производительность CPU на один доллар после анонса нового поколения сравнительно дешёвых серверных процессоров Intel Cascade Lake-X (W-2200) в октябре 2019 года. Источник: Intel ...