Компания «Яндекс» представила новую версию технологии перевода текста на фото и изображениях на базе нейросетей. Технология позволяет переводить текст на картинках, учитывая его контекст. Это будет особенно полезно, например, в путешествиях для понимания меню ресторанов или при работе с технической документацией на иностранных языках.
«Яндекс» также усовершенствовал визуализацию перевода: текст теперь легче читается и больше похож на оригинальную вёрстку. Обновление уже доступно в «Переводчике» и «Браузере», а позже появится и в «Умной камере», сообщают в компании.
Технология основана на модели YandexGPT, которая понимает стиль оригинального текста и может сохранить игру слов, например, на фотографиях рекламных слоганов или газетных заголовков. Благодаря этому достигается корректный и идиоматический перевод без дословной передачи многозначных выражений, за счёт чего выросло качество перевода как простых текстов (например, состава косметической продукции), так и сложных — публицистических статей, энциклопедий и инструкций. Перевод работает для изображений с текстом на английском.
Чтобы читать перевод было удобнее, «Яндекс» улучшил его визуализацию. Технология стирает оригинальный текст с изображения и располагает переведённый поверх него: алгоритмы подбирают шрифт, размер и цвет букв, убирают различные артефакты, чтобы переведённые изображения выглядели естественно, и повышают контрастность для лучшей читаемости. Технология распознаёт переносы слов и может понять их значение, даже если в кадр попала только часть.