Поиск по сайту Поиск

Google преодолевает барьер между человеческим и машинным переводом

Нейронный машинный перевод (НМП) позволяет преодолеть многие недостатки традиционных систем перевода по фразам. Но в то же время нейронные модели более сложны как в обучении, так и в самом переводе. Мы подготовили статью, в которой Google представила новую систему нейронного перевода GNMT для решения этих проблем.

Чем хорош нейронный переводчик

Нейронный машинный перевод, в отличие от традиционных систем, может напрямую изучать преобразование входных предложений в связанный с ними выходной текст. Его архитектура обычно состоит из двух рекуррентных нейронных сетей (RNN), одна из которых обрабатывает исходную последовательность, а другая генерирует переведённый документ. НМП часто использует механизм внимания, который помогает ему справляться с большим объемом входных данных, где важно сохранить контекст.

Однако на практике НМП оказывается менее точным, чем системы, основанные на статистике фраз (Phrase-Based Machine Translation, PBMT). Особенно это проявляется при обучении на больших наборах данных. 

Чем плох нейронный переводчик

Можно выделить три слабые стороны нейронного перевода: медленное обучение и скорость вывода, неэффективность при работе с редкими словами, а иногда и невозможность перевести все слова в исходном предложении. 

Первый недостаток связан с тем, что для обучения системы НМП требуется очень много времени и вычислительных ресурсов. Медленный вывод — следствие использования большого количества параметров. Вторая слабая сторона проявляется в нехватке устойчивости при переводе редких слов. И последний недостаток таких систем — иногда они оказываются не способны перевести все части исходного предложения, то есть полностью «покрыть» входные данные. Это может привести к неожиданным вариантам перевода.

Как же с этим справился Google?

В их реализации (Google’s Neural Machine Translation, GNMT) используются рекуррентные сети (Recurrent neural network, RNN) с долгой краткосрочной памятью (Long Short-Term Memory, LSTM): декодер и энкодер. Они состоят из 8 слоёв с промежуточными остаточными соединениями. 

Способы, которые Google применил для решения названных выше проблем:

Ускорить обучение и вывод: обе сети обучаются параллельно с помощью механизма внимания. Нижний слой сети декодера соединён с верхним слоем сети энкодера. Для сокращения времени вывода используется низкая точностью арифметики и ускорение с помощью TPU (Tensor Processing Unit).

Переводить редкие слова: для качественного перевода используются так называемые подслова (“wordpieces”) входных и выходных данных: символы или их последовательности. Неизвестное слово можно перевести по частям или по буквам.

Избегать пробелов в переводе: во время декодирования происходит сравнение длины переведённого предложения и исходного. Если эти длины сильно различаются, то модель «штрафуется» — это заставляет её обрабатывать все входные данные.

Модель GNMT надёжная и хорошо работает с различными датасетами на многих парах языков. Она показала гораздо лучшие результаты по сравнению с системой перевода по фразам от того же Google. Тестировавшие её люди отметили, что GNMT сократила ошибки перевода на 60% на многих парах языков и её качество приближается к людям-переводчикам.

Архитектура модели

Модель обучается по стратегии «от последовательности к последовательности» (sequence-to-sequence) с механизмом внимания. Она состоит из трёх компонентов: сеть энкодера, сеть декодера и сеть внимания. Декодер представляет собой комбинацию сети RNN и слоя softmax. Энкодер преобразует исходное предложение в список векторов, по одному на каждый входной символ. Из этого списка декодер производит по одному символу за раз, пока не будет создан специальный символ конца предложения (end-of-sentence symbol, EOS). Сети соединены через модуль внимания, который позволяет декодеру фокусироваться на разных областях входного предложения в процессе декодирования. 

На рисунке слева — сеть энкодера, справа — декодера, посередине — модуль внимания. Нижний слой энкодера является двунаправленным: розовые узлы собирают информацию слева направо, а зелёные — справа налево. Остальные слои однонаправленные. Остаточные соединения используются, начиная с третьего слоя снизу. 

Для ускорения обучения модель разбита на несколько графических процессоров. Она состоит из 8 LSTM-слоёв энкодера (1 двунаправленный и 8 однонаправленных) и 8 слоёв декодера. Каждая из сетей размещается на 8 GPU, обычно принадлежащих одному хосту. Слой softmax тоже размещён на нескольких графических процессорах. В зависимости от размера выходного словаря используются либо те же GPU, что и для сетей энкодера и декодера, либо выделенные процессоры.

В ходе экспериментов было обнаружено, что для достижения хорошей точности RNN энкодера и декодера должны быть достаточно глубокими. Это поможет им улавливать неравномерности в исходном и целевом языках. В реализации Google каждый дополнительный слой уменьшал перплексию почти на 10%. Перплексия — мера того, насколько хорошо модель предсказывает детали тестовой коллекции (чем меньше перплексия, тем лучше модель).

Остаточные соединения

Несмотря на глубину сетей, недостаточно просто использовать большое число идущих друг за другом слоёв. Чем глубже нейросеть, тем более медленной и труднообучаемой она становится. Скорее всего, это связано с проблемами взрыва или вымывания градиента. В опытах Google простые LSTM сети хорошо работали с 4 слоями, более-менее с 6 и совсем плохо с 8 и более.

Для решения этой проблемы исследователи ввели остаточные соединения между слоями. Они значительно улучшают спуск градиента и позволяют обучать очень глубокие сети энкодера и декодера. В большинстве экспериментов используется 8 слоёв, но можно обучать и гораздо более глубокие архитектуры.

На рисунке слева изображены простые слои LSTM, справа — слои с остаточными соединениями. Входные данные для нижнего слоя поэлементно добавляются к его выходным данным, и их сумма будет служить новым входом для верхнего слоя.

Двунаправленный слой энкодера

В европейских языках чаще всего предложения воспринимаются слева направо. Но в системах перевода, в зависимости от языковой пары, контекст для конкретного слова может находиться в разных областях исходной фразы. Поэтому имеет смысл использовать двунаправленную RNN-сеть для энкодера, чтобы получить наилучший возможный контекст. 

Рисунок ниже иллюстрирует использование двунаправленных LSTM на нижнем слое энкодера.

Слой LSTMf обрабатывает предложение слева направо, а LSTMb — справа налево. Выходы из них объединяются и подаются на следующий слой LSTM1.

Перевод редких слов

Модели нейронного машинного перевода обычно оперируют фиксированными словарями. Но в языках часто встречаются слова и выражения, которых нет в словарях (имена, даты, числа, слэнг и так далее), поэтому перевод — проблема открытого словаря.  Существует два подхода к их переводу. Первый — просто скопировать слово из исходного предложения в вывод, используя либо модель внимания, либо более сложные сети. И второй — использовать сегментацию на единицы подслов: символы и наборы символов.

Сегментация тоже может применяться двумя способами. В первом используется смешанный перевод (слово/символ). Он предполагает разбиение слова на последовательность символов, к которым добавляются специальные префиксы: начало слова, середина и конец. Модель может переводить как отдельные символы, так и их комбинации. Полученное слово с помощью префиксов можно обратить к исходному, если в дальнейшем потребуется обработать его повторно.

Наиболее успешным оказалось применение второго способа сегментации с помощью модели Wordpiece (Wordpiece model, WPM), которая изначально разрабатывалась для решения этой проблемы в японском и корейском языках. Она полностью основана на данных и генерирует подслова для любой возможной последовательности символов. 

Модель Wordpiece работает следующим образом: сначала слова разбиваются на подслова с добавлением символов границы. Затем во время декодирования последовательность подслов снова преобразуется в последовательность слов. Более наглядно это можно увидеть на примере:

— Слова: Jet makers feud over seat width with big orders at stake

— Подслова: : _J et _makers _fe ud _over _seat _width _with _big _orders _at _stake  

Здесь слово “Jet” разбито на две части: “_J” и “et”, а слово “feud” на “_fe” и “ud”. Остальные слова остались без изменений. “_” — символ, обозначающий начало слова.

Подслова помогают модели работать практически с бесконечным словарём и улучшают её показатели BLEU. BLEU (bilingual evaluation understudy) — это алгоритм оценки качества текста, автоматически переведённого с одного языка на другой. Мерой качества считается соответствие между эффективностью машины и человека.

Эксперименты и результаты

Эксперименты проводились на двух общедоступных датасетах: WMT’14 English-to-French (WMT En→Fr) и English-to-German (WMT En→De). На этих наборах исследователи Google сравнили модели GNMT четырёх видов: основанные на словарных, символьных, смешанных (слово/символ) и wordpiece-словарях. Также им удалось улучшить эффективность модели с помощью точной настройки обучения с подкреплением и применения ансамбля методов (ансамбль методов использует несколько обучающих алгоритмов для получения лучшей эффективности прогнозирования). Основная цель — показать вклад этих компонентов в реализацию.

Оценка метода максимального правдоподобия

Рассмотрим четыре вида моделей с различными размерами словарей.

Для словарной модели выбрано 212 тыс. наиболее часто встречающихся слов в качестве исходного обучающего словаря и 80 тыс. популярных слов в качестве целевого словаря. Неизвестные слова преобразуются в специальные символы <first_char>_UNK_<last_char>. С помощью механизма внимания исходное слово копируется и заменяет неизвестное слово во время декодирования. 

Словарный запас для смешанной модели составляет 32 тыс. слов.  Для символьной модели слова разделяются на составные элементы, в результате чего обычно получается набор из нескольких сотен основных символов. Модель Wordpiece обучена на трёх словарях размером 8, 16 и 32 тыс. слов.

В таблице ниже отражены результаты на наборах данных WMT En→Fr (слева) и WMT En→De (справа). В нижней части таблицы также приведены результаты архитектур, в которых не используется ансамбль методов.

Перевод с английского на немецкий (WMT En→De) считается более сложным, чем с английского на французский, поскольку в нём гораздо меньше обучающих данных. Модель WPM-32K показала наилучший результат и самую быструю скорость вывода (здесь используется средняя оценка восьми разных моделей).

Оценка моделей обучения с подкреплением

Модели из предыдущего раздела оптимизируются с помощью логарифмической функции правдоподобия. Но поскольку они могут плохо коррелировать с качеством перевода, для них использовалось обучение с подкреплением. Результаты точной настройки лучших моделей En→Fr и En→De представлены в таблице:

Точная настройка обучения с подкреплением на WMT En → Fr помогает улучшить оценку BLEU почти на 1 балл, хотя на En → De эффективность немного снизилась. Исследователи предположили, что в менее точно настроенном декодере оценка была бы выше, как видно из сравнения результатов предыдущих моделей.

Оценка ансамбля методов 

Оценки для En→Fr:

Оценки для En→De:

Ансамбль методов существенно повысил оценки BLEU для обоих моделей.

Результаты на данных Google

Оценка BLUE не полностью отражает качество перевода. По этой причине введены параллельные оценки (“side-by-side evaluations”) для сравнения машинного и человеческого переводов. Параллельные оценки варьируются от 0 до 6, где 0 — совершенно бессмысленный перевод, 6 — идеальный перевод. Оценки ставятся людьми, которые совершенно свободно владеют обоими языками.

Google провели обширные эксперименты на своих внутренних наборах данных. Поскольку из приведённых выше опытов не было ясно, улучшает ли обучение с подкреплением качество перевода или просто повышает метрику BLEU, они не использовали его на этих данных. 

Исследователи попросили людей оценивать три способа перевода:

  1. перевод системы, основанной на статистике фраз (PBMT)
  2. перевод GNMT
  3. перевод людей, свободно говорящих на обоих языках.

В таблице приведены усреднённые оценки для датасетов English ↔ French, English ↔ Spanish и English ↔ Chinese. Оценивающие данные состоят из 500 произвольно выбранных предложений из Википедии и новостных вебсайтов, а также соответствующих им человеческих переводов.

Результаты показывает, что модель GNMT уменьшает ошибки перевода более чем на 60% по сравнению с моделью PBMT. Распределение оценок показано на рисунке:

Гистограмма параллельных оценок для 500 выборочных предложений из Википедии и новостных сайтов для пары языков английский → испанский (синий — PBMT, красный — GNMT, оранжевый — человек).

В некоторых случаях (обычно в простых предложениях) человеческий и GNMT-перевод почти неразличимы. Хотя стоит учитывать, что оценщики могут не в полной мере понимать контекст каждого предложения из выборки, а переводчики — предлагать наилучший вариант перевода. Поэтому однозначно оценить качество довольно затруднительно. 

Что дальше?

Мы знаем, что профессиональные переводчики передают смысл предложений, не обращая внимания на структуру исходного текста. Нейронный переводчик же оперирует смыслом более мелких элементов (слов и фраз) и жёстко привязан к их структуре. Поэтому машинному переводу всё ещё не хватает более широких смысловых трансформаций. 

Тем не менее, на качество перевода сильно влияют тематика и стиль исходного текста. Например, художественные произведения переводить сложнее всего. Но чем более формальный стиль используется в документе, тем большего качества перевода можно ожидать.

Вот пример сравнения машинного и человеческого переводов:

Оригинал: Green Lantern can’t turn lemons into lemonade and I'm left equally equipped to make smart decisions about the spectrum which shades our world.

Google: Зеленый Фонарь не может превратить лимоны в лимонад, и я остаюсь в равной степени способным принимать разумные решения относительно спектра, который затеняет наш мир.

Человек: Как Зеленый фонарь не сможет превратить свои лимоны в лимонад, так и я чувствую себя беззащитным, когда мне требуется принять взвешенное решение и выбрать подходящие оттенки.

Оригинал: But the truth is that color is too dependent on personal experiences to be universally translated to specific feelings.

Google: Но правда в том, что цвет слишком зависит от личного опыта, чтобы повсеместно переводиться на конкретные чувства.

Человек: Однако истина заключается в том, что восприятие цвета слишком сильно зависит от личного опыта.

(Пример взят из перевода статьи “The Psychology of Color in Marketing and Branding” сайтом vc.ru)

С оригинальной статьёй можно ознакомиться на портале arxiv.org.


Как открыть интернет-магазин с нуля: гайд по запуску онлайн-бизнеса

К 2024 году интернет-магазины набрали большую популярность: большинство людей совершали онлайн-покупки хотя бы один раз в жизни. Как известно, спрос...
Read More

Машинное обучение: что такое и где применяют

Мир вокруг нас меняется быстрее, чем когда-либо. Алгоритмы, которые еще вчера были научной фантастикой, сегодня помогают водить автомобили, рекомендовать фильмы...
Read More

Коммерческое предложение: что это, зачем нужно, как его оформить

Коммерческое предложение — это ключевой инструмент, который позволяет компаниям представлять свои товары и услуги потенциальным клиентам. Рассмотрим, в каких случаях...
Read More

Как внедрить CRM-систему для подбора персонала в облаке и ускорить наем: кейс DIY Service

В кейсе рассказываем, как маркетинговое агентство DIY Service автоматизировало подбор и передачу кандидатов на вакансии в операционный отдел и оптимизировало...
Read More

Что такое CentOS – обзор, версии ОС

В мире IT есть много операционных систем, каждая из которых претендует на звание «лучшей». Среди этого множества дистрибутивов есть CentOS...
Read More

Холдинг: что это такое, как работает и кому выгоден

Рассмотрим, в чем особенности этой корпоративной структуры, какие у нее преимущества и недостатки. (далее…)
Read More

Байер: кто такой, чем занимается, сколько может заработать

Байера можно назвать менеджером по закупкам, но эта профессия подразумевает больше личного вовлечения. Для успешной карьеры в этой области нужно...
Read More

Что такое комплаенс: как бизнесу управлять рисками и вовремя решать проблемы

Соответствие требованиям закона и отраслевым стандартам — это не только юридическая необходимость, но и решающий фактор успеха и репутации компании....
Read More

Основные средства в 2024 году: бухгалтерский учет, стоимость, амортизация

В любом бизнесе важно иметь четкое представление о состоянии активов компании для планирования ее дальнейшего развития. Рассказываем, что такое основные...
Read More

Нотариус: кто это, чем занимается и чем полезен бизнесу и физлицам

Нотариус обладает исключительным правом подтверждать, что юридическая процедура была совершена по всем требованиям закона. Это важно, например, чтобы защититься от...
Read More