Дообучение модели машинного перевода

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Разработчики машинного перевода часто рассказывают об использовании предварительно обученных моделей. Захотелось дообучить такую модель самому, но пришлось приложить усилия, чтобы найти понятный пример. Поэтому после того, как код заработал, решил поделиться скриптами.

В качестве предварительно обученной модели взял m2m100.

Дообучал языковую пару с языка хауса на английский. Для этого воспользовался корпусом mafand.

Весь код завязан на работу с моделями и датасетами через huggingface.

Скрипты, на базе которых собирал свои, подсмотрел у ребят из TartuNLP.

Финальный код доступен на гитхабе. В colab можно посмотреть, как запустить дообучение, а потом и перевод.

Итак, что же получается. Предварительно обученная модель фразу на хауса

Wannan dai shi ne karo na 3 da birnin Landan ke karɓar baƙuncin gasar wasanni ta ƙasa da ƙasa da dama.

переводит на английский так:

This is the day of the day of the day of the day of the day of the day of the day of the day of the day.

Проверить это можно, запустив код translate_m2m.py с моделью base_model .

После дообучения, при помощи кода m2m_multiling_tune_epochs.py, перевод стал, пусть и не идеальным, но гораздо приятнее:

This is the third place for Landan to take a large number of passport disputes across the country.

Чтобы воспроизвести этот перевод, нужно запустить всё тот же translate_m2m.py, но уже с моделью local_model.

Стоит отметить, что подобные истории очень требовательны к ресурсам, и не на каждой видеокарте данный код запустится. Воспользовался Yandex Cloud, запускался на Nvidia A100. Все эксперименты обошлись примерно в 1000 рублей.

Постарался написать кратко и по существу. Спасибо!

Источник: https://habr.com/ru/articles/738086/


Интересные статьи

Интересные статьи

Приветствую! Я, Ложкинс Алексей, консультант и разработчик оптимизационных решений и математических моделей для бизнеса. Это первая в цикле работ обучающая статья, часть личного образовательного проек...
В 2017 году появилось у Додо Пиццы появилось приложение для iOS на русском языке, а в 2019 его понадобилось перевести на румынский, а потом ещё на несколько языков. При этом ни одна строка не была обё...
Привет, Хабр! Мы продолжаем рассматривать конкретный практический вопрос — интеграцию Python для внедрения ML-моделей и расширенной аналитики в BI. В прошлом посте мы уже рассуждали о том, зачем это н...
Robot factory by lucart MLflow — один из самых стабильных и легких инструментов, позволяющий специалистам по Data Science управлять жизненным циклом моделей машинного обучения. Это у...
Предисловие Начну своё вступление издалека. Давным-давно, в далеких 2016-2017 годах вашему покорному слуге удалось съездить на полугодовое обучение в далекий город Ильменау (Германия), где он ...