Нейросеть распознает 15 документов за 1 секунду. А так можно было?

Ковер-самолет, меч-кладенец, скатерть-самобранка, шапка-невидимка, молодильные яблоки, волшебный клубочек и… ? Правильно, решение для распознавания полнотекстовых документов от Smart Engines. Оно, как и все упомянутые предметы, совершенно уникально, неповторимо и обладает самым что ни на есть волшебным функционалом. Например, распознает текстовые данные со скоростью 15 страниц в секунду. А еще распознает текст на мятых листках. А еще распознает текст в темноте. А еще распознает текст на арабском. А еще на японском и на иврите. И при этом всем существует не в сказках, не в 2030 году, а наяву. Рассказываем и показываем, как выглядит OCR без слабых мест.

Сверхбыстрая OCR на 102 языках

В декабре прошлого года Smart Engines объявила о выходе собственного решения для распознавания полнотекстовых документов. Оно является частью программного продукта Smart Document Engine, который извлекает данные из бумажных документов – первичных, бухгалтерских, налоговых, нотариальных, юридических, страховых и прочих.

Это IT-решение находит документ на фотографии или скане, а затем распознает текстовые данные на 102 языках. Причем оно отлично распознает как Latin-based языки, так и языки с собственными системами письменности.

Вот так Smart Document Engine распознает текст на русском:

А вот так, к примеру, на арабском (при свете дня и ночи):

На современном смартфоне решение Smart Engines полностью обрабатывает фотографию листа A4, в том числе с таблицами, за 3-4 секунды.

Процесс в серверных решениях протекает еще быстрее: на 64-х ядерном HPC без применения GPU скорость полнотекстового распознавания достигает 15 страниц в секунду.

Система Smart Engines – и в этом, среди прочего, ее суперсила – автоматически обрезает, "разглаживает" сложенные документы и улучшает их изображения, превращая таким образом телефон в мобильный сканер.

Помимо построчных результатов распознавания, система предоставляет координаты текстовых объектов на исходном изображении и оценки уверенности распознавания на уровне символов, слов или строк.

Решение Smart Engines может быть использовано для распознавания присутствующего текста как на изображении документа целиком, так и на изображениях отдельных фрагментов документа.

Smart Document Engine, как и другим нашим продуктам, не требуется связь с внешними сервисами или ресурсами. Все вычисления производятся непосредственно на вызывающем устройстве. Наша OCR SDK может быть развернута на on-premise сервере, персональном компьютере, в рамках автономного мобильного приложения, а также в веб-приложении.

А как же общедоступные или open-source решения?

В наше время действительно существует много общедоступных open-source распознавателей текста. Такие решения могут быть очень полезны в образовательных целях или для учебного демонстрационного приложения. Однако open-source продукты могут быть не просто бесполезны, а даже опасны для субъектов КИИ и для ИТ-систем, в которых циркулируют персональные данные россиян. Существенным недостатком подобных продуктов окажутся, с одной стороны, невысокие точность и скорость распознавания. О том, чем обернулось наше сравнение с open-source продуктами, мы писали здесь.

Но более существенные минусы – отсутствие контроля над содержимым кода, а также высокие риски внешнего вмешательства. Об этих рисках мы уже рассказывали в своем блоге. Коротко напомним об этом.

Атаки на нейронные сети - это весьма популярная тема для научных исследований. Главные типы подобных атак – отравление данных и атака уклонением с помощью состязательных примеров. При отравлении данных ошибки вводятся в сеть на этапе обучения. А при применении подобной сети распознаватель может совершить специфические серьезные ошибки. Единственный способ избежать такой атаки – быть уверенными в своих данных. А как можно быть уверенным в данных, которых вы никогда не видели?

При атаке уклонением злоумышленник пытается заставить сеть дать неверный ответ. Иногда он даже может предопределить этот ответ. Для открытых систем оптического распознавания текста такие примеры можно посчитать, так как эти системы общедоступны. Можно просто скачать модель и подобрать нужные примеры.

Но Smart Engines, напомним, работает автономно на конечном устройстве. Оно никуда не передает данные клиента, не хранит их и не требует интернет-соединения. Обработка данных ведется на стороне клиента, внутри его контура безопасности. При разработке нашего OCR-модуля мы активно пользуемся генерацией искусственных данных и не используем предобученные модели. Наше решение создано с соблюдением этических принципов ИИ, признанных во всем мире.

Лучший вариант для импортозамещения

В прошлом году российские государственные органы, банки и телеком-операторы получили новую задачу по импортозамещению ПО. 31 марта 2022 г. вступил в силу указ президента РФ, запрещающий субъектам критической информационной инфраструктуры (КИИ) закупку иностранного софта. Ведомства и компании, которые десятилетиями эксплуатировали зарубежные программные продукты, должны полностью отказаться от них к 2025 году.

Запрет распространится на различные типы ПО, в том числе, программные продукты для документооборота. Решение ожидаемое: субъектам КИИ всегда приходится работать с разными типами документов, в том числе, секретными файлами. Уже сейчас, до вступления указа в силу, применение иностранного ПО для распознавания текстовых документов сопряжено с целым рядом рисков, как в сфере кибербезопасности, так и в юридической плоскости.

По новым правилам ведомства и крупные корпорации РФ, скорее всего, будут вынуждены расстаться с продуктами, правообладатели которых зарегистрированы в недружественной юрисдикции. Замена подобных решений на отечественные программы - это вопрос времени. Для импортозамещения такого ПО субъектам КИИ скорее всего потребуется не только защищенная от внешних воздействий российская программа, но и самые современные алгоритмы искусственного интеллекта.

Итак, если вы – субъект критической информационной инфраструктуры и вам необходимо провести импортозамещение ABBYY, Kofax и аналогичных иностранных систем, то Smart Document Engine – это лучший вариант ПО, гарантирующего не только высокое качество распознавания текста, но и безопасность персональных данных.

Источник: https://habr.com/ru/companies/smartengines/articles/730012/

Вернуться к списку

Интересные статьи

Новые возможности ECMAScript 2021-2023

ECMAScript — это стандарт, на котором основан JavaScript, его часто называют ES.- Обсудим почему JavaScript и ECMAScript не одно и тоже;- Разберем краткую историческую справку о стандартах ES;- Узнаем...

Когда о человеке можно сказать, что он стал программистом

Навеяно статьёй с тем же названием: https://habr.com/ru/company/productivity_inside/blog/703038/Вначале разберем сам вопрос: Что такое "можно сказать"? Кто это может сказать? Какая информация доступна...

Можно ли снизить затраты на ремонт вагонов?

Как мы в ПГК контролируем ремонт вагонов с помощью IT-технологий. В прошлом году мы писали об одной из частей проекта «Цифровой вагон». Он нацелен на улучшение процесса ремонтов вагонов – снижение их ...

Как можно сделать плохой звук наушников отличными? Что определяет качество звучания наушников согласно исследованиям?

Начну с небольшого наглядного примера. По данной ссылке вы можете скачать и прослушать записи трех наушников разной ценовой категории (HiFiMAN Sundara — $350, Creative Aurvana Live! SE — $50, Taksta...

Обновленный проекционный калькулятор Epson – сценарии использования и новые полезные возможности

При выборе проектора очень важно иметь полное представление о том, как он впишется в помещение. Эти расчеты отнимают время, а новичка могут и вовсе запутать. Наилучшим ре...