Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!
Искусственный интеллект и его применение — одна из самых нашумевших тем в сфере IT. Многие пытаются примерить искусственный интеллект на себя, представляя, что это чуть ли не панацея, «таблетка от всего». Вокруг темы много разговоров, хайпа, прогнозов и даже фантазий о том, что будет дальше. Немало и путаницы, связанной с самим термином «искусственный интеллект»: часто им называют простую автоматизацию.
Не тренда или хайпа, а дела ради, поговорили об искусственном интеллекте с тимлидом по локализации в Alconost Стасом Харевичем. Стас больше 10 лет помогает IT-компаниям выходить с новыми продуктами на зарубежные рынки, а ещё — запускает в космос пилотирует новый сервис Alconost с применением искусственного интеллекта: доменно-адаптивный машинный перевод с последующей вычиткой. Доменно-адаптивный машинный перевод, выражаясь простыми словами, это перевод, выполненный «умной» машиной, которая обучена на текстах выбранной тематики (домена). Обсудили со Стасом, чем такое решение отличается от традиционного подхода к локализации, как обучить машину и добиться высокого качества и какие есть минусы у искусственного интеллекта.
— Стас, привет! Ты занимаешься внедрением искусственного интеллекта в проекты по локализации, можно так сказать? Расскажи, пожалуйста, «для чайников», что такое искусственный интеллект и с чем его едят?
— Привет! Ты знаешь, я думаю, вряд ли кто-то может компетентно рассказать прямо вот обо всех сферах применения искусственного интеллекта. Не зря ведь аналитики данных говорят, что чем специфичнее пул данных и область применения решения, тем оно точнее. Но с удовольствием расскажу о применении искусственного интеллекта в сфере локализации.
Первым делом я бы упомянул PEMT (post edited machine translation) — машинный перевод с последующим редактированием. Есть “старые” движки машинного перевода, алгоритм которых основан на правилах и статистических данных, когда машина делает перевод без оглядки на предыдущие или текущие переводы и тематическую специализацию текста. Такой перевод нужно существенно редактировать с помощью профессиональных лингвистов.
NMT (neural machine translation, нейронный машинный перевод) — это уже “новое” решение. Применение нейронных сетей позволило значительно улучшить качество перевода, ведь главное преимущество нейронных сетей — их обучаемость. Поэтому решение, над которым мы работаем сейчас, — это доменно-адаптивный нейронный машинный перевод, который учитывает тематику текста, глоссарий и память предыдущих переводов.
— Интересно. Ты хочешь сказать, что на рынке уже есть решение по локализации с использованием нейронного машинного перевода? В чем тогда ценность решения, над которым вы работаете? Может, не нужно изобретать велосипед?
— Все верно, такие решения есть. Есть движки машинного перевода, которыми компании могут пользоваться за разовый платеж или по подписке. И их немало. К примеру, я достаточно тесно работал с как минимум двумя движками от Google: Google AutoML и GNMT (Google Neural Machine Translation). И на рынке много альтернатив, к примеру, Watson Language Translator от IBM и нейросеть от Yandex. Дело в том, что некоторые компании предлагают стоковое решение, то есть ты платишь за подписку — и просто используешь движок. Поставщики стоковых решений заявляют, что их движки обучены на огромном массиве данных и, соответственно, выдают высокое качество.
Но правда в том, что на практике некоторые движки отлично работают только с определенными языковыми парами, а для других — качество страдает, особенно если речь идет о нишевых темах, таких как игры, к примеру. Кастомизированное решение, в отличие от стокового, позволяет дообучить машину на своем специализированном массиве данных. И это как раз то решение, над которым мы в Alconost сейчас работаем.
— А почему вы думаете, что у вас получится лучше, чем у других компаний? К примеру, почему Google, со всеми их возможностями, не превратили Google Translate во что-то подобное? Я к тому, что у них много программистов, специалистов по данным, самих данных и прочих ресурсов. Но профессиональные компании приходят за локализацией к вам, а не в Google Translate…
— Во-первых, по ряду достаточно общих тем и некоторым языковым парам Google Translate, на самом деле, неплохо работает. Но в чем наш конек — так это, во-первых, в опыте нишевого перевода на IT-тематику на 100+ языков. Мы локализовали несколько тысяч проектов за время существования Alconost. И у нас есть свои «большие данные», на которых можно дообучить машину. Кроме того, у нас достаточно данных для того, чтобы адаптировать перевод даже под конкретные жанры игр: скажем, под логические игры, игры-симуляторы или файтинги.
— А еще есть облачные платформы по локализации с открытыми данными. К примеру, на Crowdin и GitLocalize переводчики и менеджеры по локализации работают над проектами и обмениваются комментариями с клиентами в режиме реального времени. Глоссарии и память переводов, применяемые на этих платформах в рамках одного проекта, технически могут использоваться и другими проектами тоже. И мы представляем, как структурировать эти данные и чему конкретно нужно дообучить движок машинного перевода для каждого проекта.
По сути, это составляющая науки о данных — структурирование и категоризация релевантного пула данных для дообучения машины. Это главная ценность нашего решения по локализации, которое, по сути, получается очень нишевым, а за счет этого — точным и качественным.
Во-вторых, у нас есть своя платформа человеческого перевода, она называется Nitro. Там клиенты сами отправляют на перевод короткие тексты — и получают готовый результат в течение 2–24 часов. Интерфейс и пользовательский опыт Nitro проверен годами, и мы постоянно дорабатываем продукт. Вот недавно, к примеру, открыли доступ к Nitro API — теперь компании, у которых много задач, могут не тратить время на отправку заказа через интерфейс Nitro, а получать перевод через Nitro API прямо в свою систему управления контентом. То есть, Nitro — потенциальная клиентская оболочка для обработки заказов по машинному переводу. Ее нужно только синхронизировать с кастомным движком машинного перевода.
— А расскажи, пожалуйста, как вы справляетесь именно с технической стороной вопроса? Вы же переводчики, не технари. А задача «дообучить машину» звучит по-технарски и достаточно амбициозно...
— Вообще-то мы как раз технари. Alconost как компания была основана разработчиками и для разработчиков. У нас много программистов и в команде (включая нашего CEO и фаундера), и на аутсорсе. Как-то так сложилось, что у остальных ребят тоже достаточно сильный технический бэкграунд и эдакий стартапный дух. Мы любим придумывать различные кастомные интеграции и решения, которые упрощают работу над проектами. И у нас ведь есть два своих продукта, которые мы развиваем, я упоминал их уже: Nitro и GitLocalize.
А если ближе к теме машинного перевода, то мы даже обсуждали такой сценарий, по которому мы приобретаем движок, хостим и дообучаем его на данных уже у себя, на своем hardware. Конечно, для этого нашей команде понадобятся еще как минимум ответственный программист и специалист по данным, а на проектах — инженер по локализации. Но мы технически хорошо представляем себе эту задачу.
— Понятно, основательный подход. Но все-таки почему компании будут заказывать у вас именно машинный перевод, а не локализацию по старинке, человеческим ресурсом? Планируете как-то бороться с недоверием к машинному переводу? Я к тому, что у профессиональных компаний может быть устойчивая ассоциация, прости за повторение, с тем же Google Translate.
— Большинство клиентов заинтересованы в скорости и качестве. А как мы это делаем — интересует меньшинство. То есть в первую очередь речь идет об оптимизации нашей внутренней кухни.
Я уже рассказал о нашем подходе к дообучению движка машинного перевода: у нас огромный пул данных, мы используем словари, память перевода, стайлгайды. Поэтому мы оптимистичны по поводу ожидаемого качества, иначе бы мы за это дело не брались — зачем портить то, что уже отлично работает? В любом случае, мы будем предлагать клиентам делать редактуру нашего машинного перевода, поэтому качество не будет никак страдать.
А вот скорость… Вот представь, если ты можешь получить даже в сыром виде локализованные игровые тексты на 100 языках, скажем, на следующий день, разве это не круто? Конечно, еще уйдет время на редактуру, если она понадобится клиенту. Но машинный перевод в разы ускоряет весь проект. А кто откажется получить готовый результат в несколько раз быстрее, не потеряв в качестве?
— А вот по поводу редактирования машинного перевода, не получится ли так, что «качество» как раз и окажется узким местом?
— В общем-то, у нас уже есть опыт в редактировании машинного перевода. У нас было несколько крупных проектов такого плана, и есть отдельные процессы редактирования, тестирования локализации и оценки качества. Но процесс редактирования машинного перевода отличается от стандартного процесса локализации. Тут скорее вопрос в качестве исходника. Разные машины переводят по-разному, поэтому клиенты приходят с машинным переводом разного уровня. Мы предварительно тестируем, измеряем качество. И если мы хотим получить качественные локализованные тексты, нужны глоссарий, бриф по локализации, какие-то примеры уже выполненных переводов, стайлгайд. В целом, это атрибуты любого профессионального проекта по локализации. И когда мы редактируем тексты в облачной платформе, мы автоматически добавляем в проект все эти исходные данные и потом используем их в работе. Так что в целом — да, мы уверены в качестве.
— А есть какие-то неопределенные переменные в этом проекте по машинному переводу?
— Один из неопределенных вопросов — ценообразование. Разная тематика требует разных усилий по дообучению машины. И не по всем тематикам у нас одинаковое количество и качество данных. К примеру, у нас тысячи проектов по локализации игр и приложений, но если говорить о художественной литературе — мы перевели не так много книг. То есть качество художественного машинного перевода будет ожидаемо хуже, чем перевода игр, к примеру. Но мы еще детально это не просчитывали. Возможно, мы сможем предложить какую-то гибкую цену, скажем, за наш машинный перевод с редактированием или без него. Мы еще думаем об этом, будем тестировать разные варианты исходя из потребностей клиента.
Еще одна неопределенная переменная — точные сроки. Машине нужно будет время на дообучение, и пока сложно сказать, сколько времени понадобится на каждый проект. Я думаю, первые проекты мы будет реализовывать дольше, чтобы отладить алгоритм категоризации данных.
— А если говорить о сроках воплощения вашего решения, можешь назвать их хотя бы ориентировочно?
— Думаю, в 2022 году у нас уже будет полное решение по кастомизированному машинному переводу. Это будет решение для английского плюс другого языка, то есть когда мы переводим с одного (английского) языка на все другие языки. Мы работаем по такому принципу уже много лет и видим, что именно такой подход обеспечивает последовательность в переводе и, в конечном итоге, его качество.
— Ты видишь какие-то новые ниши, которые открывает решение доменно-адаптивного нейронного машинного перевода?
— Для нас как для компании это оптимизация рабочего времени и трудозатрат на перевод, но это внутренняя кухня. А вот по поводу новых ниш — смотри: поскольку перевод будет делаться гораздо быстрее и стоить дешевле полностью «человеческого», компании смогут переводить больше. Например, может стать целесообразным локализовывать контент, который раньше переводили не все, не всегда или не в полном объеме. Скажем, некоторые компании, такие как Booking или Airbnb, переводят отзывы клиентов на разные языки. Почему бы не реализовать это для других приложений?
А еще сейчас очень популярны технологии текст-майнинга, майнинга изображений и видео для построения аналитики и предсказаний об аудитории. Тут тоже может помочь машинный перевод. Скажем, раньше компьютерные лингвисты анализировали отзывы пользователей для определения тона, эмоциональной окраски, настроения. Сейчас с этой работой прекрасно справятся машины. То есть такой перевод может использоваться для получения данных для построения других моделей с использованием искусственного интеллекта. Я действительно думаю, что мы знаем еще не обо всех таких возможностях.
— Очень интересно, Стас. Ну, и напоследок футуристический вопрос из разряда гадания на кофейной гуще: ты веришь, что когда-нибудь машины будут переводить круче, чем человек?
— На самом деле, я думаю, такие сферы в переводе, где машины покажут себя лучше человека, действительно есть. К примеру, это тексты для поисковой оптимизации в магазинах приложений. Часто клиенты дают нам ключевые слова, которые нужно использовать как глоссарий для создания описания игры или приложения. То же самое работает при локализации рекламных текстов для Google Ads: часто в заголовок нужно включить определенные словосочетания. И эти словосочетания содержат грамматические ошибки или описки. Но они частотные, поэтому клиенту нужны именно эти слова в тексте. Опытный переводчик, как правило, негативно реагирует на такую задачу «с ошибками». А вот машина здесь сработает идеально, как я вижу.
Еще доменно-адаптивный нейронный машинный перевод классно справится с переводом справочной документации или материалов для корпоративных вики-систем. Это, как правило, однотипные по структуре и языковым конструкциям задачи, где в приоритете точность и адекватность перевода, а не его красочность и образность.
Но ведь главный вопрос, как я уже сказал, в том, как обучена машина: на каких данных, глоссариях и правилах. А их составление — уже задача для человека. В любом случае, получается, без человека никак.
Об Alconost. Alconost занимается локализацией игр, приложений и сайтов на более 100 языков. Переводчики-носители языка, лингвистическое тестирование, облачная платформа с API, непрерывная локализация, менеджеры проектов 24/7, любые форматы строковых ресурсов. Мы также делаем рекламные и обучающие видеоролики — для сайтов, продающие, имиджевые, рекламные, обучающие, тизеры, эксплейнеры, трейлеры для Google Play и App Store.