Искусственный интеллект для локализации: как Alconost разрабатывает свой продукт в потоке слухов и хайпа

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Источник: giphy.com
Источник: giphy.com

Искусственный интеллект и его применение — одна из самых нашумевших тем в сфере IT. Многие пытаются примерить искусственный интеллект на себя, представляя, что это чуть ли не панацея, «таблетка от всего». Вокруг темы много разговоров, хайпа, прогнозов и даже фантазий о том, что будет дальше. Немало и путаницы, связанной с самим термином «искусственный интеллект»: часто им называют простую автоматизацию.

Не тренда или хайпа, а дела ради, поговорили об искусственном интеллекте с тимлидом по локализации в Alconost Стасом Харевичем. Стас больше 10 лет помогает IT-компаниям выходить с новыми продуктами на зарубежные рынки, а ещё — запускает в космос пилотирует новый сервис Alconost с применением искусственного интеллекта: доменно-адаптивный машинный перевод с последующей вычиткой. Доменно-адаптивный машинный перевод, выражаясь простыми словами, это перевод, выполненный «умной» машиной, которая обучена на текстах выбранной тематики (домена). Обсудили со Стасом, чем такое решение отличается от традиционного подхода к локализации, как обучить машину и добиться высокого качества и какие есть минусы у искусственного интеллекта.

Стас, привет! Ты занимаешься внедрением искусственного интеллекта в проекты по локализации, можно так сказать? Расскажи, пожалуйста, «для чайников», что такое искусственный интеллект и с чем его едят?

— Привет! Ты знаешь, я думаю, вряд ли кто-то может компетентно рассказать прямо вот обо всех сферах применения искусственного интеллекта. Не зря ведь аналитики данных говорят, что чем специфичнее пул данных и область применения решения, тем оно точнее. Но с удовольствием расскажу о применении искусственного интеллекта в сфере локализации. 

Первым делом я бы упомянул PEMT (post edited machine translation) — машинный перевод с последующим редактированием. Есть “старые” движки машинного перевода, алгоритм которых основан на правилах и статистических данных, когда машина делает перевод без оглядки на предыдущие или текущие переводы и тематическую специализацию текста. Такой перевод нужно существенно редактировать с помощью профессиональных лингвистов. 

NMT (neural machine translation, нейронный машинный перевод) — это уже “новое” решение. Применение нейронных сетей позволило значительно улучшить качество перевода, ведь главное преимущество нейронных сетей — их обучаемость. Поэтому решение, над которым мы работаем сейчас, — это доменно-адаптивный нейронный машинный перевод, который учитывает тематику текста, глоссарий и память предыдущих переводов.

Интересно. Ты хочешь сказать, что на рынке уже есть решение по локализации с использованием нейронного машинного перевода? В чем тогда ценность решения, над которым вы работаете? Может, не нужно изобретать велосипед?

— Все верно, такие решения есть. Есть движки машинного перевода, которыми компании могут пользоваться за разовый платеж или по подписке. И их немало. К примеру, я достаточно тесно работал с как минимум двумя движками от Google: Google AutoML и GNMT (Google Neural Machine Translation). И на рынке много альтернатив, к примеру, Watson Language Translator от IBM и нейросеть от Yandex. Дело в том, что некоторые компании предлагают стоковое решение, то есть ты платишь за подписку — и просто используешь движок. Поставщики стоковых решений заявляют, что их движки обучены на огромном массиве данных и, соответственно, выдают высокое качество. 

Но правда в том, что на практике некоторые движки отлично работают только с определенными языковыми парами, а для других — качество страдает, особенно если речь идет о нишевых темах, таких как игры, к примеру. Кастомизированное решение, в отличие от стокового, позволяет дообучить машину на своем специализированном массиве данных. И это как раз то решение, над которым мы в Alconost сейчас работаем.

А почему вы думаете, что у вас получится лучше, чем у других компаний? К примеру, почему Google, со всеми их возможностями, не превратили Google Translate во что-то подобное? Я к тому, что у них много программистов, специалистов по данным, самих данных и прочих ресурсов. Но профессиональные компании приходят за локализацией к вам, а не в Google Translate…

— Во-первых, по ряду достаточно общих тем и некоторым языковым парам Google Translate, на самом деле, неплохо работает. Но в чем наш конек — так это, во-первых, в опыте нишевого перевода на IT-тематику на 100+ языков. Мы локализовали несколько тысяч проектов за время существования Alconost. И у нас есть свои «большие данные», на которых можно дообучить машину. Кроме того, у нас достаточно данных для того, чтобы адаптировать перевод даже под конкретные жанры игр: скажем, под логические игры, игры-симуляторы или файтинги. 

— А еще есть облачные платформы по локализации с открытыми данными. К примеру, на Crowdin и GitLocalize переводчики и менеджеры по локализации работают над проектами и обмениваются комментариями с клиентами в режиме реального времени. Глоссарии и память переводов, применяемые на этих платформах в рамках одного проекта, технически могут использоваться и другими проектами тоже. И мы представляем, как структурировать эти данные и чему конкретно нужно дообучить движок машинного перевода для каждого проекта. 

По сути, это составляющая науки о данных — структурирование и категоризация релевантного пула данных для дообучения машины. Это главная ценность нашего решения по локализации, которое, по сути, получается очень нишевым, а за счет этого — точным и качественным. 

Во-вторых, у нас есть своя платформа человеческого перевода, она называется Nitro. Там клиенты сами отправляют на перевод короткие тексты — и получают готовый результат в течение 2–24 часов. Интерфейс и пользовательский опыт Nitro проверен годами, и мы постоянно дорабатываем продукт. Вот недавно, к примеру, открыли доступ к Nitro API — теперь компании, у которых много задач, могут не тратить время на отправку заказа через интерфейс Nitro, а получать перевод через Nitro API прямо в свою систему управления контентом. То есть, Nitro — потенциальная клиентская оболочка для обработки заказов по машинному переводу. Ее нужно только синхронизировать с кастомным движком машинного перевода.

А расскажи, пожалуйста, как вы справляетесь именно с технической стороной вопроса? Вы же переводчики, не технари. А задача «дообучить машину» звучит по-технарски и достаточно амбициозно...

— Вообще-то мы как раз технари. Alconost как компания была основана разработчиками и для разработчиков. У нас много программистов и в команде (включая нашего CEO и фаундера), и на аутсорсе. Как-то так сложилось, что у остальных ребят тоже достаточно сильный технический бэкграунд и эдакий стартапный дух. Мы любим придумывать различные кастомные интеграции и решения, которые упрощают работу над проектами. И у нас ведь есть два своих продукта, которые мы развиваем, я упоминал их уже: Nitro и GitLocalize.

А если ближе к теме машинного перевода, то мы даже обсуждали такой сценарий, по которому мы приобретаем движок, хостим и дообучаем его на данных уже у себя, на своем hardware. Конечно, для этого нашей команде понадобятся еще как минимум ответственный программист и специалист по данным, а на проектах — инженер по локализации. Но мы технически хорошо представляем себе эту задачу.

Понятно, основательный подход. Но все-таки почему компании будут заказывать у вас именно машинный перевод, а не локализацию по старинке, человеческим ресурсом? Планируете как-то бороться с недоверием к машинному переводу? Я к тому, что у профессиональных компаний может быть устойчивая ассоциация, прости за повторение, с тем же Google Translate.

Источник: giphy.com
Источник: giphy.com

— Большинство клиентов заинтересованы в скорости и качестве. А как мы это делаем — интересует меньшинство. То есть в первую очередь речь идет об оптимизации нашей внутренней кухни. 

Я уже рассказал о нашем подходе к дообучению движка машинного перевода: у нас огромный пул данных, мы используем словари, память перевода, стайлгайды. Поэтому мы оптимистичны по поводу ожидаемого качества, иначе бы мы за это дело не брались — зачем портить то, что уже отлично работает? В любом случае, мы будем предлагать клиентам делать редактуру нашего машинного перевода, поэтому качество не будет никак страдать. 

А вот скорость… Вот представь, если ты можешь получить даже в сыром виде локализованные игровые тексты на 100 языках, скажем, на следующий день, разве это не круто? Конечно, еще уйдет время на редактуру, если она понадобится клиенту. Но машинный перевод в разы ускоряет весь проект. А кто откажется получить готовый результат в несколько раз быстрее, не потеряв в качестве?

А вот по поводу редактирования машинного перевода, не получится ли так, что «качество» как раз и окажется узким местом?

— В общем-то, у нас уже есть опыт в редактировании машинного перевода. У нас было несколько крупных проектов такого плана, и есть отдельные процессы редактирования, тестирования локализации и оценки качества. Но процесс редактирования машинного перевода отличается от стандартного процесса локализации. Тут скорее вопрос в качестве исходника. Разные машины переводят по-разному, поэтому клиенты приходят с машинным переводом разного уровня. Мы предварительно тестируем, измеряем качество. И если мы хотим получить качественные локализованные тексты, нужны глоссарий, бриф по локализации, какие-то примеры уже выполненных переводов, стайлгайд. В целом, это атрибуты любого профессионального проекта по локализации. И когда мы редактируем тексты в облачной платформе, мы автоматически добавляем в проект все эти исходные данные и потом используем их в работе. Так что в целом — да, мы уверены в качестве.

А есть какие-то неопределенные переменные в этом проекте по машинному переводу?

— Один из неопределенных вопросов — ценообразование. Разная тематика требует разных усилий по дообучению машины. И не по всем тематикам у нас одинаковое количество и качество данных. К примеру, у нас тысячи проектов по локализации игр и приложений, но если говорить о художественной литературе —  мы перевели не так много книг. То есть качество художественного машинного перевода будет ожидаемо хуже, чем перевода игр, к примеру. Но мы еще детально это не просчитывали. Возможно, мы сможем предложить какую-то гибкую цену, скажем, за наш машинный перевод с редактированием или без него. Мы еще думаем об этом, будем тестировать разные варианты исходя из потребностей клиента. 

Еще одна неопределенная переменная — точные сроки. Машине нужно будет время на дообучение, и пока сложно сказать, сколько времени понадобится на каждый проект. Я думаю, первые проекты мы будет реализовывать дольше, чтобы отладить алгоритм категоризации данных. 

А если говорить о сроках воплощения вашего решения, можешь назвать их хотя бы ориентировочно? 

— Думаю, в 2022 году у нас уже будет полное решение по кастомизированному машинному переводу. Это будет решение для английского плюс другого языка, то есть когда мы переводим с одного (английского) языка на все другие языки. Мы работаем по такому принципу уже много лет и видим, что именно такой подход обеспечивает последовательность в переводе и, в конечном итоге, его качество.

Ты видишь какие-то новые ниши, которые открывает решение доменно-адаптивного нейронного машинного перевода? 

Для нас как для компании это оптимизация рабочего времени и трудозатрат на перевод, но это внутренняя кухня. А вот по поводу новых ниш — смотри: поскольку перевод будет делаться гораздо быстрее и стоить дешевле полностью «человеческого», компании смогут переводить больше. Например, может стать целесообразным локализовывать контент, который раньше переводили не все, не всегда или не в полном объеме. Скажем, некоторые компании, такие как Booking или Airbnb, переводят отзывы клиентов на разные языки. Почему бы не реализовать это для других приложений? 

А еще сейчас очень популярны технологии текст-майнинга, майнинга изображений и видео для построения аналитики и предсказаний об аудитории. Тут тоже может помочь машинный перевод. Скажем, раньше компьютерные лингвисты анализировали отзывы пользователей для определения тона, эмоциональной окраски, настроения. Сейчас с этой работой прекрасно справятся машины. То есть такой перевод может использоваться для получения данных для построения других моделей с использованием искусственного интеллекта. Я действительно думаю, что мы знаем еще не обо всех таких возможностях.

Очень интересно, Стас. Ну, и напоследок футуристический вопрос из разряда гадания на кофейной гуще: ты веришь, что когда-нибудь машины будут переводить круче, чем человек?

Источник: giphy.com
Источник: giphy.com

— На самом деле, я думаю, такие сферы в переводе, где машины покажут себя лучше человека, действительно есть. К примеру, это тексты для поисковой оптимизации в магазинах приложений. Часто клиенты дают нам ключевые слова, которые нужно использовать как глоссарий для создания описания игры или приложения. То же самое работает при локализации рекламных текстов для Google Ads: часто в заголовок нужно включить определенные словосочетания. И эти словосочетания содержат грамматические ошибки или описки. Но они частотные, поэтому клиенту нужны именно эти слова в тексте. Опытный переводчик, как правило, негативно реагирует на такую задачу «с ошибками». А вот машина здесь сработает идеально, как я вижу. 

Еще доменно-адаптивный нейронный машинный перевод классно справится с переводом справочной документации или материалов для корпоративных вики-систем. Это, как правило, однотипные по структуре и языковым конструкциям задачи, где в приоритете точность и адекватность перевода, а не его красочность и образность.

Но ведь главный вопрос, как я уже сказал, в том, как обучена машина: на каких данных, глоссариях и правилах. А их составление — уже задача для человека. В любом случае, получается, без человека никак.


Об Alconost. Alconost занимается локализацией игр, приложений и сайтов на более 100 языков. Переводчики-носители языка, лингвистическое тестирование, облачная платформа с API, непрерывная локализация, менеджеры проектов 24/7, любые форматы строковых ресурсов. Мы также делаем рекламные и обучающие видеоролики — для сайтов, продающие, имиджевые, рекламные, обучающие, тизеры, эксплейнеры, трейлеры для Google Play и App Store.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.
А вы за или против машинного перевода?
0% За, но с вычиткой профессиональными переводчиками 0
0% За, но не сейчас: нужно время, чтобы улучшить технологии машинного перевода 0
0% Категорически против: я не верю в высокое качество машинного перевода 0
0% Категорически против: скептически отношусь к искусственному интеллекту в принципе 0
0% Другое (напишите в комментариях, пожалуйста) 0
Никто еще не голосовал. Воздержавшихся нет.
Источник: https://habr.com/ru/company/alconost/blog/594599/


Интересные статьи

Интересные статьи

Чем интенсивнее наш feature delivering, тем быстрее падает производительность. И, конечно, приходит время автоматизировать процесс слежения, чтобы просадка не дошла до прода или даже staging-окружения...
Это всего лишь беседа, в ходе которой вы задаете правильные вопросы. Во время такой беседы важно выяснить фактический прошлый опыт собеседника относительно интересующих н...
Привет, Хабр! Мы продолжаем говорить о продакт-менеджменте из прошедшего курса и этот пост посвящен работе с гипотезами, которые вы хотите реализовать при разработке программного прод...
Привет, Хабр! Интернет — это всегда хорошо. Но ещё лучше, когда контроль над ним осуществляется сообществом, а не государством и корпорациями. В этой публикации я расскажу о том, как и заче...
Однажды, в понедельник, мне пришла в голову мысль — "а покопаюсь ка я в новом ядре" (новым относительно, но об этом позже). Мысль не появилась на ровном месте, а предпосылками для нее стали: ...