ИИдентификация: комбинированная методика повторного распознавания людей

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Сотрудник отдела перспективных исследований российской компании «Криптонит» Никита Габдуллин предложил оригинальный подход к задаче повторной идентификации человека (person reidentification, re-id), комбинирующий аналитические методы с глубоким обучением (Deep Learning, DL). Он улучшает распознавание людей, которых она раньше не видела, то есть способствует обобщению (generalization) модели на новые данные.

Повторная идентификация человека (реидентификация) относится к задачам ИИ, в которой нейросеть определяет, соответствует ли предоставленное ей изображение человека одному из распознанных ранее. Для этого создаётся набор параметров, который должен максимально точно характеризовать конкретного человека. В отличие от распознавания лиц, при реидентификации рассматривается человек целиком (в полный рост), а лицо является только одним из элементов и играет второстепенную роль. Более того, метод работает и в тех случаях, когда лица человека вовсе не видно. Можно сказать, что реидентификация и распознавание лиц дополняют друг друга.

В системах машинного зрения и видеоаналитики источником данных для реидентификации оказываются кадры с изображением людей, снятые под разным углом, с разным качеством записи и при меняющихся условиях освещения. Дополнительные сложности для анализа снимков создают меняющиеся причёски и головные уборы, изменение других элементов одежды и позы человека на снимке.

В решении этой задачи в настоящее время наибольшего уровня точности позволяет достичь машинное обучение и особенно — технологии глубокого обучения. Однако DL-модели достигают стабильно высоких результатов только в случае, когда объект для реидентификации уже присутствовал в обучающем наборе данных. Чтобы они были столь же эффективны при анализе новых объектов их приходится дообучать. Это требует больших затрат времени и вычислительных ресурсов, а иногда и вовсе оказывается практически неприемлемым, так как актуального дообучающего набора данных может не быть. В контексте реидентификации это означает, что DL-модель будет менее эффективна при распознании людей, которых не было в базе данных на момент обучения – ситуация, которая является обыденной в современных системах видеонаблюдения.

Никита Габдуллин предложил использовать модель, комбинирующую DL-парсер с аналитической методикой для вычисления меры подобия элементов изображений. Она сочетает в себе парсинг изображения человека на основе DL и полностью аналитическое извлечение признаков объекта (то есть, автоматическое создание векторов атрибутов без участия оператора), а также схему их ранжирования для определения степени подобия людей на изображениях.

Под парсингом изображения человека здесь понимается разделение изображения на более мелкие семантические части, содержащие отдельные анатомические области. Например, для изображения человека в полный рост это будут как части тела: голова, туловище, руки, ноги, так и элементы одежды (головные уборы, обувь). Парсер, хотя и является DL-моделью, тренируется на данных, не имеющих непосредственного отношения к задачам реидентификации. Как показали проведенные опыты, сам по себе он имеет высокую степень обобщения при его использовании в качестве элемента комбинированного метода.

Предложенная модель использует аналитически вычисляемые функции цвета и текстуры, с которыми связаны понятные для человека меры сходства. В исследовании показано, что такое сочетание в значительной степени устраняет недостатки как существующих аналитических, так и «чистых» DL методов. Стоит отметить, что подобная методика описания характеристик людей позволяет проводить поиск по «словесным портретам». То есть, может быть легко составлен набор атрибутов, по которому модель найдёт, например, «всех блондинов в красной толстовке». Подобная задача невыполнима для «чистых» DL-моделей ввиду того, что параметры, с которыми оперирует DL-модель, абстрактны и никак не коррелируют с параметрами объекта в реальном мире. Оператор не может «объяснить» модели, что значит «красная толстовка». Более того, подавляющее большинство DL-моделей требует, чтобы на её входе было изображение, в то время как предложенный метод позволяет использовать голосовые и текстовые запросы, преобразованные оператором в векторы параметров.

Для проверки эффективности предложенного метода были проведены тесты на наборах данных Market1501 (фотографии 1501 пешехода, снятые перед супермаркетом возле Университета Цинхуа пятью камерами высокого и одной камерой низкого разрешения) и CUHK03 (фотографии 1 467 разных студентов, каждый из которых был снят минимум двумя камерами из шести установленных в Китайском университете Гонконга). Испытуемая модель достигла конкурентоспособной точности, сравнимой с точностью классических DL-моделей.

Наиболее показательно, что предложенный метод достигает точности порядка 60-90% при работе с данными из нескольких датасетов (демонстрирует высокую междоменную точность) без переобучения или каких-либо дополнительных настроек. Это значительно выше, чем у «чистых» DL-моделей, показавших точность 30–50% в подобных экспериментальных условиях.

Реидентификация играет большую роль в обеспечении безопасности, особенно в местах скопления большого количества людей (вокзалы, аэропорты, торговые центры, учебные заведения). Это универсальная технология, помогающая как находить потерявшихся детей, так и выполнять трекинг подозрительных субъектов.

Разработанный метод может использоваться для повторной идентификации людей на любых фото- и видеозаписях. Он способен сделать более «интеллектуальными» существующие средства контроля и управления доступом, а в системах видеонаблюдения может работать как в реальном времени, так и по запросу, анализируя ранее отснятые материалы.

С технической точки зрения предложенный метод проще и менее требователен к «железу», чем «чистые» DL-модели. В ряде приложений он может быть имплементирован непосредственно в камеры, реализуя концепцию «граничных вычислений» (edge computing).

Научная работа Никиты Габдуллина опубликована в электронном архиве Корнеллского университета.

Источник: https://habr.com/ru/company/kryptonite/blog/683016/

Вернуться к списку

Интересные статьи

Авторизация пользователей в системе через сервер аутентификации Blitz Identity Provider (bitrix + slim + react)

В данной статье мы рассмотрим систему аутентификации пользователей и внешних систем в личном кабинете через сервер аутентификации Blitz Identity Provider. Согласно требованиям проекта, который мы...

Наши сервисы для бесплатного распознавания речи стали лучше и удобнее

Сейчас для всех желающих доступны два наших сервиса для распознавания речи: Бот в телеграме для коротких и не очень длинных аудио (мы не стали обходить ограничения телеграма, основная задача бота...

Создана технология для реабилитации людей с травмой позвоночника

В России разработана схема устройства, способного помочь людям с повреждением спинного мозга. Учёные из Курчатовского института уверены, что их разработка позволит заново научиться ходить.В основе уст...

Как bias может повлиять на мир вообще и людей-пользователей в частности?

В прошлом посте, посвященном ошибкам искусственного интеллекта, мы обсудили причины возникновения смещений данных и привели несколько примеров, по поводу которых велась о...

Как мы считаем людей с помощью компьютерного зрения

Фото из открытых источников Массовые скопления людей создают проблемы в самых разных областях (ритейл, госслужбы, банки, застройщики). Заказчикам необходимо объединять и мониторить информаци...