Машинный перевод: учимся экономить без ущерба для качества

Машинный перевод: учимся экономить без ущерба для качества

Сегодня перевод, как и остальные области нашей жизни, стремится к автоматизации. В прошлой статье я писала об использовании в переводе чата GPT, но есть и еще более простой способ получить текст на другом языке: системы машинного перевода. Самая привычная для бытового использования такая система — онлайн-переводчики типа Google Translate.

В переводческой среде мы называем системы машинного перевода движками. У нас в Angira есть собственный отдел машинного перевода, эксперты которого тренируют движок переводить разные тексты для разных клиентов.

Перевод машиной стоит намного дешевле труда профессионального переводчика, и его использование — отличный способ экономии. Основной проблемой становится качество: автоматические движки переводят дословно и не справятся со сложными, например, художественными или маркетинговыми, текстами.

Как улучшать выполненные движком переводы, найти баланс между ценой и качеством в процессе локализации и грамотно использовать машинный перевод, рассказываю в статье.

Как работает машинный перевод

Если очень поверхностно описывать работу движков, то она строится примерно так.

Для каждой языковой пары, например, английского и русского языков, у системы перевода есть базы, содержащие исходный текст и его перевод. Следовательно, когда движку поступает запрос, он отыскивает в базах фразу или слово на английском и заменяет его совпадением на русском.

Бесплатные переводчики

Бесплатные движки, например, Google Translate, не приспособлены к работе с узкой терминологией — чем более специфический материал необходимо перевести, тем больше ошибок допустит движок.

Еще один недостаток бесплатного переводчика — возможное отсутствие прямого перевода между двумя языками. Например, у движка могут быть базы для пар русский-английский и английский-китайский, но не быть баз для пары русский-китайский.

В этом случаем при переводе с русского на китайский машина сначала переведет ваш текст с русского на английский, а затем — с английского на китайский. Такая игра в испорченный телефон рождает множество ошибок.

Недавно на русскоязычном сайте коллег из Китая я увидела словосочетание «течет весна». Откуда оно взялось? Дело в том, что в оригинальном тексте была фраза «течет ручей».

На китайском и русском «ручей» и «весна» — два никак не связанных друг с другом слова, но по-английски и то, и другое — spring. Машина перевела с китайского на английский, получила словосочетание «the spring flows» и… не справилась с управлением.

У нас, переводчиков, есть любимый шуточный эксперимент. Когда новая нейросеть-художник объявляет о том, что научилась понимать запросы на русском языке, коллеги по-русски просят нарисовать ногти, а на выходе получают гвозди, поскольку оба слова на английском — nails. Так в процессе двухэтапного перевода разрушается смысл.

Зачем нужны платные переводчики

Чаще всего компании-создатели бесплатных движков делают и вторую версию переводчика: платную, конфиденциальную и кастомизируемую. Коммерческие движки есть у Google, Amazon, Microsoft. Именно такими движками пользуются переводческие компании — в том числе, мы.

Платный переводчик отличается от общедоступного по нескольким пунктам. Во-первых, он не забирает вашу информацию в общие базы, сохраняя конфиденциальность. А во-вторых, такой движок можно тренировать на текстах конкретной отрасли или даже одного клиента. И на конкретной языковой паре, нужной именно вам.

Некоторые сложные темы, например, финансы, медицина или юриспруденция, требуют от движка знания специальной узкой терминологии. Бесплатные переводчики этой терминологии не понимают. Но платные версии ей можно обучить.

Как люди тренируют движок переводить лучше

Качество машинного перевода вырастает за счет объема знаний движка: чем больше его база, тем лучше он переводит. Поэтому тренировка движка происходит за счет добавления в базы новых готовых материалов на двух языках — оригинальном и целевом.

Например, мы сделали машинный перевод 1000 текстов по теме медицина, а затем переводчик-носитель целевого языка исправил все ошибки и неточности, усовершенствовав перевод. Тогда мы возвращаем оригинальные тексты и улучшенные переводы обратно машине, чтобы она учла, запомнила и не повторяла ошибок предыдущей версии.

После каждой такой тренировки платный движок будет работать все лучше. В перспективе года обученная машина позволит сэкономить до 90% бюджета на перевод.

Совершенствовать машинный перевод можно до бесконечности: если ваша компания пользуется еще более специальной лексикой, то в движок можно загрузить глоссарий, утвердив терминологию для конкретного материала.

Если у вас уже есть большие объемы двуязычных материалов, текстов и их хороших переводов, движок можно тренировать непосредственно на них, сделав его абсолютно кастомизированным. Чаще всего практика тренировки платного движка под себя используется в крупных компаниях, как стандарт — в e-commerce, где постоянно требуются новые, но однотипные описания. Например, таким образом команда Angira сотрудничала с Aliexpress: мы обучали движок переводам специально для маркетплейса.

У Angira есть множество платных движков, каждый из которых натренирован работать со своей собственной узкой темой: один знает все юридические термины, другой разбирается в медицине и так далее. Через каждый движок прошли тысячи текстов узкой тематики, и с каждой новой версией мы расширяли базы их знаний. Благодаря такой «специализации» движков можно с первого раза получить хороший перевод даже по очень специфической теме.

Редактура машинного перевода

Любой машинный перевод, даже самый лучший, требует обработки переводчиком-человеком. Процесс такой обработки называется MTPE — machine translation post editing.

У Angira тоже есть такая услуга: мы не только пропустим текст через движок, но и поможем перепроверить и доработать его, чтобы точно избежать машинных ошибок.

Какие тексты можно и нельзя переводить машиной

Машинный перевод можно и нужно использовать в целях экономии: даже платный движок работает намного дешевле профессионального переводчика-носителя, а еще — заметно быстрее.

Но машина все же не человек и не может полностью заменить его. Поэтому, если наш клиент хочет рассмотреть вариант работы с движком, мы всегда предлагаем выбрать принцип сегментации качества.

Там, где от текстов зависит привлечение клиентов, то есть в маркетинговых материалах, должен работать только профессиональный переводчик-носитель. Машина, даже самая лучшая, не сможет сохранить голос, тон бренда, перевести шутки или игру слов. Раньше я уже писала об этом: люди видят, когда текст написан движком или сгенерирован ИИ, и автоматически пропускают его.

Если хотите узнать больше о том, как правильно локализовывать маркетинговый контент и какие ошибки легче всего допустить, читайте наши предыдущие статьи.

Но с техническими переводами, для которых меньше требований к качеству языка и больше — к точности, движок справится отлично. Тексты, идеально подходящие для машинного перевода, — это многостраничные инструкции, типовые юридические документы, технические данные для дистрибьюторов или однотипные описания товаров.

Выводим главное правило и собираем полезные ссылки

Если текст очень объемный, не будет взаимодействовать непосредственно с клиентом и не влияет на лидогенерацию, машинный перевод сэкономит вам время и деньги: и прямо сейчас, и в перспективе.

Платный движок, натренированный на текстах вашей узкой тематики, сделает процесс перевода максимально эффективным: поможет с первого раза получить терминологически и структурно верный текст и свести к минимуму необходимую работу по редактуре.

На бесплатной консультации мы расскажем о том, какую часть именно ваших материалов может взять на себя машина, — записывайтесь по ссылке.

А если вам интересны темы перевода и локализации, подписывайтесь на наш блог на VC.ru и читайте предыдущие статьи:

P.S. Меня очень позабавила история с «текущей весной». Коллеги, расскажите, с какими забавными или странными ошибками машинного перевода приходилось сталкиваться вам?

Автор статьи: Анна Войтенко.
Автор статьи: Анна Войтенко.
11
Начать дискуссию