Восстановление утраченных текстов с помощью современных алгоритмов. Софт

В первой части мы с вами поговорили о научном оборудовании, которое используется для прочтения, казалось бы, утраченных навсегда текстов. А теперь мы поговорим о том, как обрабатывать эти данные. Мы рассмотрим интересные цветовые пространства, алгоритмы, фильтры и методы статистического анализа. Но перед этим еще раз вернемся к их извлечению. Нам, простым смертным, доступны два варианта — сканеры и фотоаппараты.

Есть еще USB-микроскопы но при их цене в 500$ каждый при 12 диапазонах будет стоить слишком дорого. К тому же, он скорее для исследования деталей, чем для оцифровки. Рекламные видеоролики с примерами изображения мне не сильно понравились — перешарп изображения, как у дешевой китайщины.

Сканеры.

Сейчас подавляющее количество сканеров на контактном сенсоре (cis) что позволяет питать сканер прямо по USB без применения дополнительного питания. Это действительно удобно. Однако, у них низкая разрешающая способность 600dpi (хотя не всегда нужно выше) и очень большие проблемы с глубиной резкости. Если ваш документ приподнят над поверхностью стекла CIS сканера более чем на 3мм — ждите мыла. Более того, как рассказал мне Дмитрий Николаев он лично наблюдал откровенное маркетинговое намахалово в разных сканерах. Ты выбираешь в настройках продукта формат tiff, а по USB шине сканер гонит jpeg, и уже драйвер сканера делает преобразование.

На что только не пойдешь, чтобы удовлетворить возросшие потребности покупателей!

О, молодец! Заметил!

Сейчас будет шутка

Где-то в компьютерном

Более профессиональные сканеры на CCD сенсоре. Их сканирующая часть состоит из объектива, зеркала и самого CCD сенсора. Из-за этого проблем с глубиной резкости у них нет. Так же есть еще одна важная физическая характеристика — это глубина цвета. Теоретически, изображение с цветовой глубиной в 48 бит для анализа лучше, чем в 16 бит. Как вы уже знаете, для формирования цветного изображения сканеру необходимо три цветовых фильтра перед сенсором. Существуют специальные мультиспектральные сенсоры для спутникового оборудования, но опять же, в готовых решениях их не найти. Мне даже попадался проект опенсурсного сканера, где существовала возможность менять белый источник света сканера на любой из 12 полос оптического диапазона. Но к сожалению, проект куда-то исчез из сети.

Если вы, дорогой читатель, имеете опыт построения железок этого уровня, можем попробовать это обсудить. Взять какой нибудь сканер, и переделать ему подсветку. Однако, вы все прекрасно знаете, сколько времени сканер тратит на изображение в 1200dpi формата А4. А при необходимости 12 сканов мы получаем минимум час чистой работы железки. Это печалит. Поэтому в современных мультиспектральных системах используются 2D сенсоры. Но у сканера есть и свои преимущества.

Фотоаппараты

Если посмотреть даташиты на какие нибудь кремниевые сенсоры, то их спектральная отзывчивость от УФ до 1000нм и выше. После 700нм это уже ближний ИК диапазон, который нужно отсекать для привычной для нашего глаза картинки. Для этого перед каждым сенсором в любой потребительской технике находится ИК фильтр такого зеленого, на отлив фиолетового, цвета. Для задач мультиспектрального сканирования он только мешает. Поэтому любители ИК фотографии его удаляют самостоятельно.

Мне больше импонирует использование USB3 промышленных камер без bayer-pattern т.е. использование монохромных сенсоров. (USB 3.0 monochrome industrial cameras) например, BFS-U3-200S6M-C. Очень удобно заниматься подготовкой лаборатории, корректировкой освещения и позиционированием документа, а особенно, проверки резкости (при разных длинах волн фокус разный!) наблюдая изображение на большом экране монитора.

Не следует забывать и про любителей вглядываться в вечность. Продавец астрокамер заверил меня, что между исследованием космоса и документов нет разницы и вместо промышленных камер лучше использовать камеры с активным охлаждением матрицы (их рабочий режим до минус 45 по цельсию) Например ASI183MM Pro. (А наш терминатор кремния BarsMonster сообщал, что для коротких экспозиций до 5-10 секунд это не так важно.)

С этой камерой можно использовать объективы от потребительских камер стандарта micro 4/3. Когда я делал обычную съемку на фотоаппарат Lumix DMC-GX80 (16mpx) дневника Васи Баранова я убедился, что мой Olympus 45mm f/1.8 на диафрагме 5.6 выдает достаточно резкие фотографии и вполне пригоден для использования. Даже шумов не так много, учитывая, что света было не так много как хотелось бы.

Из истории

Как-то Павел Полян укладывал меня спать у себя в московской квартире и предварительно разгребал для этого свои архивы. Одну комнату он расчистил, а другую — завалил. И в этом процессе и был обнаружен этот дневник, оставленный с какой-то выставки. Ну мы его и оцифровали.

И так, будем считать, что у нас так или иначе есть или RGB изображение или же мультиспектральный набор из серии монохромных фотографий. Последний требует особого подхода, о нем ниже.

Софт

ImageJ

Утилита ImageJ является популярным инструментом в анализе изображений на западе. Свободные графические алгоритмы, часто пишутся под эту программу и она часто упоминается в разного рода исследованиях как платформа для быстрой отработки графических алгоритмов. Особенно интересен раздел плагинов.

ENVI

Если смотреть историю мультиспектрального анализа, то конечно же первым предметом исследования для ученых были фотографии со спутников. В них установлены те самые мультиспектральные датчики и задачи ставятся ровно такие же — произвести коррекцию и вытащить максимальное количества информации. В этом смысле нет разницы: вглядываемся ли мы в космос или в рукопись. Популярным исследовательским решением выступает программный комплекс ENVI. Я буду говорить о версии 5.3 (другой не нашел ;-) ). В нем меня очень порадовал подход с возможностью анимирования результатов обработки изображений. У меня есть стойкие причины утверждать, что распознавание мозгом деталей на изображении происходит лучше в динамике изменений. То есть вместо того, чтобы передать переводчику статические файлы с набором контрастов, лучше дать ему анимашку.

(Если знаете другое ПО, просьба сообщить)

→ Ссылка

Photoshop

Забывать его тоже не будем.

С чего начинать

Анализ каналов

ENVI / ImageJ / Photoshop plugin

RGB модель плохо подходит для максимизации отображаемых данных для нашей зрительной системы так же как и для сегментации изображений, определения краев и т.п. В 1989 году Xerox предложила цветовую модель YES. Она как раз основывается на физиологической модели нашего зрения. При съемке свитков Мертвого моря в 90-х после преобразования RGB в модель YES в канале E были обнаружены ранее непрочитанные исследователями символы.

Цветовое пространство OHTA было экспериментально выведено при статистическом изучении некорреляционных компонентов цвета из большой выборки обычных фотографий. В 2012 году был предложен новый метод сегментации огня, основанный на OHTA. С помощью этого метода можно точно разделить пламя в различных погодных условиях и в различных условиях окружающей среды.

Все это означает, что выделение требуемого контраста определенных компонентов теоретически возможно. Поэтому начинать все следует с анализа каналов известных цветовых моделей, а потом уже пускаться в статистический анализ. Вы, конечно же, можете найти в imageJ почти все популярные цветовые модели и разложить на каналы самостоятельно, но есть замечательный аналитический онлайн-ресурс retroreveal.org.

Он отобразит в галерее каналы следующего набора цветовых моделей: Yuv, YQ1Q2, HSI, HSV, HSL, LCHLuv, LSHLuv, LSHLa, XYZ, Yxy, YUV, YIQ, Luv, Lab, AC1C2, I1I2I3.

К моему удивлению, он по каким-то причинам специально недоступен через выдачу в гугле. Его robots.txt содержит запрет на индексирование.

Если результат в анализе каналов показывает, что необходимая информация в изображении проявляется, то для увеличения читаемости ничего кроме перебора всего остального из статьи я вам предложить не смогу. Так или иначе с опытом приходит понимание: есть ли в исследуемом документе что-то еще или же вам без ускорителя частиц все-таки не обойтись.

ColorTransform 2

→ colorTransformer2

Если через онлайн сервис retroreveal.org вы получаете статический файл с маленьким приростом читаемого, это совсем не означает конечный результат работы с преобразованием цветовых моделей. Вам нужна более точная корректировка. Видео с процессом работы плагина:

Playing with the Color Transformer 2 plugin for ImageJ, exploring what color spaces might help us see in medieval manuscripts @BillEndres @ffrwelin pic.twitter.com/QOwjoTtEsz
— DJ Wrisley (@DJWrisley) April 3, 2020

Фильтры

Levels and saturation

Привожу этот пример, как часть интуитивного мышления исследователя. Чуть ранее мы говорили о цветовом пространстве YES и нашем восприятии, а в пространстве RGB мы интуитивно правим изображение по уровням и насыщенности. Хорошим примером такого чутья действия выступает расшифровка медальона

Как это прям точно было реализовано я не знаю, но обработка велась в photoshop Олегом Гусевым. Я же смог добиться разборчивости через предварительное поднятие банальной насыщенности.

Обратите внимание на скриншот с развертыванием бумаги. Как много остается мокрой бумажной пыли! А ведь такая кучка вполне может содержать пигмент на целую букву! При том, что идеальное решение этой задачи существует с помощью рентгеновской микротомографии! Я точно знаю, что рентгеновский томограф есть в институте кристаллографии им. А.В.Шубникова, но там такая очередь!

(Пожалуйста, не пытайтесь обрабатывать пример выше самостоятельно, сохранив файл на компьютер. Это скриншот с видео — труп. Я проверял результат с другого увеличенного кадра и подтверждаю, что это реально)

Black&White

Подробно о применении этого фильтра я писал здесь.

Пример

Вот видео процесса и PDF-версия:

Если коротко, фильтр Black&White пересчитывает модель RGB в 7 цветных слоев, что позволяет регулировать интенсивность каждого довольно точно. Это как бы псевдо мультиспектральная съемка.

Highpass

В процессе обработки вы можете столкнуться с тем, что фильтры просвечивают и затемняют нужные зоны рукописи. В этом случае помогает фильтр highpass, его назначение именно в регулировании перепадов яркости. Опять же его практическое применение вы увидели в видео выше.

Алгоритмы

Decorrelation Stretch

ENVI / ImageJ

При отсутствии технологических возможностей, требования к анализу цифровых изображений выставляются часто предельные. Почему? Представьте, что у вас нет возможности слетать на марс с другим фотоаппаратом. Так в 2004 году марсоход Opportunity прислал фотографию после бурения породы.

На изображении три отверстия, созданные внутри «кратера выносливости» летом 2004 года. Ученые из NASA применили алгоритм Decorrelation Stretch

Поскольку цветовые вариации на марсе крайне слабы, с помощью этого алгоритма можно лучше различить структуру породы. Когда бур просверливает серый гематит, в результате получается ярко-красный порошок, а благодаря обработке можно различить процесс прохождения слоев. Первый слой красный, второй желтый, а самый глубокий — зеленый.

Реализация этого алгоритма конкретно для imageJ доступна за денежку. Его автор Jon Harman. Он написал не очень дешевое мобильное приложение с этим же функционалом, чтобы не скучать во время вылазки в горы для любителей изучения древней наскальной живописи. Ссылки на его софт встречаются в публикациях, но что касается рукописей, как-то мне ничего дельного не встретилось.

Применение к рукописям членов зондеркоммандо программы Dstretch, чьи цифровые копии лежат у меня, по моему мнению, этот алгоритм неприменим из-за проблем с детализацией. Именно поэтому он лучше подходит для поиска крупных объектов. В базе матлаба тоже есть реализация этого алгоритма, но Dstrech умеет работать с конвертированием в массу цветовых пространств.

Результат обработки обычных фотографий наскальной живописи на его сайте достаточно любопытен.

Ссылка

Colour Deconvolution

ENVI / ImageJ / Photoshop plugin

Ссылка 1 | Ссылка 2

Цветовая деконволюция активно применяется в медицине для разделения подкрашенной прозрачной клеточной ткани. У алгоритма строгие требования к однородности цветовых пигментов и необходимости их наложения с наличием полупрозрачности (то есть верхний слой пигмента не должен полностью закрашивать подложку). Но такие ситуации тоже могут быть. Например, в примерах коммерческого плагина для photoshop есть онлайн редактор. К сожалению, реализации работающего на лету алгоритма я не встретил. Нужно тупо задавать три параметра и жать кнопку. Это очень неудобно.

Мое мнение по этому алгоритму: если контраст, который мы ищем основан на разнице в цвете (не близкого по спектру), обойтись получится куда более удобными подходами выше. Но если исходить из результата, очень близкие прозрачные цвета, наложенные друг на друга могут быть успешно разделены. Повторить это из известных мне трюков в фотошопе у меня не получилось.

Методы статистической обработки

Статистические методы анализа предполагают, что разделить информацию на слои для обнаружения новых закономерностей возможно, только не ясны параметры, по которым это следует сделать.

Здесь мы переключаемся на программный пакет ENVI, специализирующийся на обработке мультиспектральных спутниковых данных. В своем наборе он содержит больше количество алгоритмов, которые выступают стандартом первичного анализа данных, полученных после оцифровки.

Метод главных компонент (PCA) и метод независимых компонент (ICA)

Спектральные полосы изображения сильно коррелируют, так как занимают близкие области в пространстве. Для анализа такой массив данных не очень удобен. За последнее десятилетие было разработано большое количество методов сокращения размерности. Однако, в этой статье я не рассматриваю их применение через непосредственное обращение к коду. Я расскажу о методах, которые существуют в коммерческих продуктах.

Методы PCA и ICA используется для снижения размерности, то есть удаления избыточной информации. Из 12 каналов можно получить 3, но более детализированных. После обработки первый канал изображения содержит наибольшую дисперсию данных (наименьший разброс случайной величины относительно ее математического ожидания т.е среднего предполагаемого положения), второй — вторую по величине и так далее до того момента, когда данные уже сливаются в хаотический шум.

Удачным примером служат некоторые страницы палимпсеста Архимеда ( 287-212 ГГ. до Н.Э.)

На этом рисунке палимпсест содержит смесь из двух наложенных текстов и, вероятно, разные слои из плесени и прочих пятен. На основе мультиспектральной съемки из итоговых 14 слоев удалось извлечь чистые страницы первичного текста Архимеда.

На изображении ниже к рукописи Лейба Лангфуса применен ICA. Особенность этого документа — практически полное отсутствие цветового пигмента чернил и отдавался он на перевод таким, какой был со сканера. После обработки появляется более значимый контраст. Даже этого достаточно, чтобы просто увеличить скорость перевода.

А здесь применение ICA для образца из главы про цветовую деконволюцию. Мы получаем результат, но теряем оригинальные цвета.

Следует отметить, что программный продукт matlab содержит в себе около 12 способов уменьшения размерности, помимо PCI и ICA.

Если вы читали в моей предыдущей статье о палимпсесте Галена, то некоторые из его страниц прочитались с помощью CVA (Метод анализа канонических переменных)

А это часть из тестируемых образцов, где метод CVA показан первым.

Какой способ и когда лучше работает — исследователи сказать не могут.

Индивидуальные подходы

В зависимости от характера повреждения текста процесс возможной обработки является уже творческой задачей. К сожалению, примеров работ с подобными трюками пока мне известно крайне мало.

Компенсация протекших чернил

В случае с рукописью марселя Наджари мне пришел в голову способ компенсирования протекших чернил.

Я уже отсылал к своей статье. Суть довольно проста — если у вас есть два скана одной страницы, вы можете использовать обратную сторону зеркально чтобы уменьшить ее влияние на восприятие информации на лицевой стороне. Так или иначе этот способ позволил значительно увеличить читаемость первой страницы Марселя и на дальнейших — значительно облегчить труд переводчика.

Оптико-электроная текстология

Из российских проектов мне известны работы по прочтению рукописи Чехова и Достоевского. Не смотря на то, что те статьи озаглавлены как «ОСНОВЫ ОПТИКО-ЭЛЕКТРОННОЙ ТЕКСТОЛОГИИ» — это кропотливый труд. Суть рассматриваемой работы заключалась в большом мастерстве автора соединять видимые элементы рукописного текста, который зрительно можно разобрать. Оказывается, можно вполне себе восстановить целые предложения.

Ниже страницы письма Ф. М. Достоевского к А. Е. Врангелю от 14 июля 1856 г. с зачеркнутым текстом.

А это результат

Не смотря на то, что были попытки проводить мультиспектральный анализ, из-за идентичного состава чернил разницы в контрасте не возникло. На этом исследователи остановились. Еще фрагмент:

Мастерству натренированного глаза можно только удивляться! По словам исследователей, данная работа продвигалась невероятно медленно. ЕЩЕ БЫ! Я когда это первый раз увидел, думал что за магия, где формулы? На мой взгляд, методы статистической обработки позволили бы сделать эту работу быстрее.

Итог

На этом, я думаю можно подводить итоги и завершать экскурс в эту интересную тему. Я надеюсь, что вы сможете поделиться данной статьей с людьми, в чьих интересах лежит схожая область или же они не подозревают о существовании таких подходов. Мемуары вашего ветерана или же другой испорченный документ может быть восстановлен с помощью современных технологий.

Обращусь к коммерческим компаниям, занимающимся как и фотокамерами так и другим исследовательским оборудованием. Для вас это может быть хорошим пиар ходом. Эту статью наверняка прочитают сотрудники государственных архивов и музеев и не долог тот час, когда вы можете быть нужны друг другу. Как много еще неизученных документов, письма Пушкина, Салтыкова-Щедрина, Достоевского, Чехова и других писателей, которые без вас еще долго будут пылиться на полках из-за отсутствия нужного оборудования. По данным из совместной работы вы можете подготовить замечательные и полезные рекламные статьи.

Источники

http://unknown-dostoevsky.ru/files/redaktor_pdf/1438251988.pdf
https://lechaim.ru/academy/shabat-chitaetsya-chetko/
https://arxiv.org/ftp/arxiv/papers/1612/1612.06457.pdf
https://www.scientific.net/AMR.485.7
https://www.manuscript-cultures.uni-hamburg.de/MC/articles/mc7_Easton_Kelbe_Carlson.pdf
https://www.sciencedirect.com/science/article/pii/S2090123219300037
https://chsopensource.org/multispectral-imaging-system/

Источник: https://habr.com/ru/post/521872/

Вернуться к списку

Интересные статьи

10 современных раскладок в одну строку CSS-кода

В данной статье рассматривается несколько эффективных строк CSS-кода, которые выполняют серьезную работу и помогают создавать надёжную современную разметку. Читать дале...

Нетривиальное слияние репозиториев с помощью GitPython

Задача Дано: проект на основе OpenWRT (а он — на основе BuildRoot) с одним дополнительным репозиторием, подключенным как feed. Задача: слить дополнительный репозиторий с основным. ...

Сравнение холодных звонков и переписок: Как получить 221 продажу за месяц с помощью одного из методов

Хотелось бы поделиться своим кейсом, где нам удалось сравнить результаты от двух близких методов: «холодных» звонков и переписок. Расскажем, как мы добивались автоматизации процесса, ...

Как я научила свой компьютер играть в Доббль с помощью OpenCV и Deep Learning

Привет, дорогие подписчики! Наверное вы уже знаете о том, что мы запустили новый курс «Компьютерное зрение», занятия по которому стартуют уже в ближайшие дни. В преддверии старта занятий подготов...

Как сделать AJAX формы 1с-Битрикс в всплывающих окнах

Эта статья посвящена одному из способов сделать в 1с-Битрикс форму в всплывающем окне. Достоинства метода: - можно использовать любые формы 1с-Битрикс, которые выводятся компонентом. Например, добавле...