Проблема распознавания контекстного значения слов машинным переводом в художественных текстах — различия между версиями

Материал из wiki
Перейти к: навигация, поиск
(Итоги анализа и выявление проблемы)
 
Строка 56: Строка 56:
  
 
== '''Характеристика текста человека-переводчика''' ==
 
== '''Характеристика текста человека-переводчика''' ==
[[Файл:облакочел.png|300px|thumb|right|Облако слов из текста перевода В.Арканова]]
+
[[Файл:облакочел.png|300px|thumb|right|Облако слов из текста перевода В.Арканова. Выполнено с помощью [https://wordscloud.pythonanywhere.com/ wordscloud]]]
 
1. Осознанная адаптация на язык перевода;
 
1. Осознанная адаптация на язык перевода;
  
Строка 67: Строка 67:
 
== '''Характеристика текста машинного перевода''' ==
 
== '''Характеристика текста машинного перевода''' ==
  
[[Файл:Облакомп.png|300px|thumb|right|Облако слов из текстов машинного перевода]]
+
[[Файл:Облакомп.png|300px|thumb|right|Облако слов из текстов машинного перевода. Выполнено с помощью [https://wordscloud.pythonanywhere.com/ wordscloud]]]
 
1. Буквальный перевод слов;
 
1. Буквальный перевод слов;
  

Текущая версия на 12:20, 25 декабря 2018

Автор: Федорова Вероника

Машинный перевод (англ. machine translation) – это процесс перевода некоторого текста с одного естественного языка на другой, реализуемыйкомпьютером полностью или почти полностью. Так же называется направление научных исследований, связанных с построением подобных систем.

Несмотря на огромные возможности машинного перевода на текущий момент, всё ещё существуют различные неточности и проблемы, которые ограничивают широкое использование данных систем. Одна из таких проблем - частая невозможность программ распознать контекст переводимого слова/выражения. Это приводит к неправильному выбору значения слова и искажению понимания текста. Для того, чтобы более наглядно обозначить данную проблему, приводится сравнительный анализ текстов машинного перевода и текста переводчика.

Используемые системы

логотип Яндекса

Яндекс.Переводчик – это сервис автоматического перевода слов, фраз, целых текстов, а также веб-страниц. Сервис использует технологию машинного перевода, разработанную в Яндексе. Изначально возможным было переводить тексты и веб-страницы с русского на английский/украинский языки и обратно. Сейчас сервис предоставляет перевод для 95 языков.

логотип Google Переводчика

С начала 2018 года в работу данного онлайн переводчика были внедрены технологии нейронного перевода. Статистические методы все еще задействованы в работе, но лишь в отдельных случаях. Так как нейронный перевод выступает более эффективным при переводе целых предложений и текстов.

Google Переводчик (англ. Google Translate) — веб-служба компании Google, предназначенная для автоматического перевода части текста или веб-страницы на другой язык. Для некоторых языков пользователям предлагаются варианты переводов, например, для технических терминов, которые должны быть в будущем включены в обновления системы перевода. Программа предоставляет перевод на 103 языка мира.

Google использует собственное программное обеспечение. Предполагается, что компания использует самообучаемый алгоритм машинного перевода. В марте 2017 года Google полностью перевела движок перевода на нейросети для более качественного перевода.

Нейронный машинный перевод

Ментальная карта создана с помощью сервиса MindMeister

Нейронный машинный перевод (Neural Machine Translation (NMT)) - Один из подходов к машинному переводу. В нем используется большая искусственная нейронная сеть. От статистических систем подход отличается тем, что ему не требуются отдельно разработанные подкомпоненты. Для их работы требуется не так много памяти и все части модели нейронного перевода обучаются совместно (от начала до конца) для максимизации эффективности перевода в отличие от традиционных систем МП. На данный момент существует не так много информации про данный тип подхода, так как он является наиболее поздним и только входит в активное использование.

На ментальной карте указаны все остальные существующие типы подхода к машинному переводу.


Текст для анализа

Отрывок из романа Джонатана Сафрана Фоера «Жутко громко и запредельно близко»

 Оригинальный текст: «Mom squeezed, Grandma knitted, and I told Gerald, "I kicked a French chicken in the stomach once", because I wanted to make him crack up, because if I could make him crack up, my boots could be a little lighter. He didn't say anything, probably because he didn't hear me, so I said, "I said I kicked a French chicken in the stomach once." "Huh?" "It said, "Oeuf." " "What is that?" "It's a joke. Do you want to hear another, or you have already had un oeuf?" He looked at Grandma in the mirror and said, "What's he saying?" She said, "His grandfather loved animals more than he loved people." I said, "Get it? Oeuf?"»

В качестве примера перевода человека взята работа В. Арканова - официальная русскоязычная версия книги, издательство «Эксмо» Москва, 2013

Анализ

Сопоставление Яндекс.Переводчик
Машинный перевод В. Арканов
"Мама сжала, бабушка связала, и я сказал Джеральду: "однажды я пнул французскую курицу в живот", потому что я хотел заставить его треснуть, потому что если бы я мог заставить его треснуть, мои сапоги могли бы быть немного легче. Он ничего не сказал, вероятно, потому что не слышал меня, поэтому я сказал: "я сказал, что однажды ударил французского цыпленка в живот.""А?""Он сказал:"достаточно."""Что это такое?""Это просто шутка. Вы хотите услышать другого, или вам уже достаточно?"Он посмотрел на бабушку в зеркало и сказал: "что он говорит? Она сказала: "его дед любил животных больше, чем людей."Я сказал:" понял? Оуф?"" "Мама все сжимала, бабушка все вязала, а я сказал Джеральду: «Встречаются на парижской улице две курицы»,– мне хотелось, чтобы он по-настоящему раскололся, потому что, если бы у меня получилось по-настоящему его расколоть, гири на сердце стали бы чуть-чуть полегче. Он ничего не сказал, может, просто потому, что не услышал, поэтому я сказал: «Я сказал: на парижской улице встречаются две курицы». – «А?» – «Одна нормальная, а у другой две головы и восемь крыльев. И та, которая нормальная, говорит:Bonjour, ma tante». – «Ну и что?» – «Это шутка такая. Рассказывать следующую или вы тоже ma tante?» Он посмотрел на бабушку в зеркальце и сказал: «Что он говорит?» Она сказала: «Его дедушка любил животных больше, чем людей». Я сказал: «Дошло? Мутант?»"
Сопоставление Google Переводчик
Машинный перевод В. Арканов
"Мама сжалась, бабушка вязала, и я сказал Джеральду: «Я однажды ударил французского цыпленка в живот», потому что я хотел заставить его взломать, потому что, если я могу заставить его взломать, мои ботинки могут быть немного светлее. Он ничего не сказал, вероятно, потому, что он меня не слышал, поэтому я сказал: «Я сказал, что однажды пинал французскую курицу в животе». «А?» «Он сказал:« Оуф ».« Что это? » «Это шутка. Вы хотите услышать другую, или у вас уже есть un oeuf?» Он посмотрел на бабушку в зеркало и сказал: «Что он говорит?» Она сказала: «Его дедушка любил животных больше, чем любил людей». Я сказал: «Получите это? Оуф?»" "Мама все сжимала, бабушка все вязала, а я сказал Джеральду: «Встречаются на парижской улице две курицы»,– мне хотелось, чтобы он по-настоящему раскололся, потому что, если бы у меня получилось по-настоящему его расколоть, гири на сердце стали бы чуть-чуть полегче. Он ничего не сказал, может, просто потому, что не услышал, поэтому я сказал: «Я сказал: на парижской улице встречаются две курицы». – «А?» – «Одна нормальная, а у другой две головы и восемь крыльев. И та, которая нормальная, говорит:Bonjour, ma tante». – «Ну и что?» – «Это шутка такая. Рассказывать следующую или вы тоже ma tante?» Он посмотрел на бабушку в зеркальце и сказал: «Что он говорит?» Она сказала: «Его дедушка любил животных больше, чем людей». Я сказал: «Дошло? Мутант?»"

Характеристика текста человека-переводчика

Облако слов из текста перевода В.Арканова. Выполнено с помощью wordscloud

1. Осознанная адаптация на язык перевода;

2. Лексические трансформации;

3. Правильный выбор контекстуального значения слов;

4. Соответствующая стилистика.

Характеристика текста машинного перевода

Облако слов из текстов машинного перевода. Выполнено с помощью wordscloud

1. Буквальный перевод слов;

2. Неправильный выбор контекстуального значения слов;

3. Отсутствие адаптации текста;

4. Потеря первоначального смысла.

Итоги анализа и выявление проблемы

Проблема неправильного выявления контекста явно обозначается благодаря сравнительному анализу. Программа не учитывает возможности использования слов и выражений в переносном значении. Следовательно мы получаем буквальный перевод, не имеющий ничего общего с изначальным смыслом предложения. Опираясь на выявленные облака слов, можно заметить, что в текстах машинного перевода, есть слово "ботинки", которое отсутствует в тексте человека-переводчика, так как было адаптировано по смыслу. Несмотря на то, что наиболее часто используемые фразеологизмы и иные устойчивые выражения закреплены в системах, перевод аутентичных фраз из художественных произведений все еще представляет трудности для машинного перевода и требует адаптации человека.

Проверим знания