Плюсы и минусы машинного перевода
Машинный перевод стал неотъемлемой частью жизни современного человека. Каждый день мы видим вокруг контент на самых разных языках. Нам хочется понимать статьи в интернете, смешные картинки, песни и многое другое. Разбираемся, как перевод без участия человека стал возможен и почему Google стал самым популярным.
Немного истории
Машинный перевод — это преобразование одного языка в другой с помощью компьютера без участия человека.
До 1950-го года никто до конца не мог поверить, что такое возможно, хотя идеи витали в воздухе уже давно, особенно после Второй мировой войны. В 1954 году в Нью-Йорке провели Джорджтаунский эксперимент — IBM 701 интерпретировал 49 предложений с русского на английский, который знал всего 6 грамматических правил и 250 слов. Эксперимент вызвал резонанс в обществе и пробудил интерес к этой сфере. Финансирование проектов возросло, но ненадолго. Через десять лет Комитет по автоматической обработке языков заявил, что программа не оправдала ожиданий. Бюджет сократили и предложили сосредоточиться на автоматизированных средствах, которые могли бы ускорить работу обычных переводчиков.
В США после вердикта комитета работа над проектами пошла медленнее, но одной системе удалось успешно пережить кризис — SYSTRAN. Изначально программа предназначалась для ВВС Соединенных Штатов, но уже в 1970-х тестировалась NASA во время подготовки к полету «Союз — Аполлон». В 1996 году SYSTRAN стал первым бесплатным машинным переводчиком в сети. Еще через год — количество запросов в день возросло до 500 000.
Когда компьютеры стали мощнее, в Японии впервые предложили использовать для перевода не грамматические правила, а параллельный текст, чтобы решить проблему лексической многозначности. Новый метод успешно справлялся с фразовыми глаголами, значение которых напрямую зависит от словесного окружения. Ученые поняли, что необязательно учить компьютер правилам, достаточно показать ему как можно больше существующих примеров. Это был значительный шаг на пути к статистическому подходу.
Сегодня самый популярный переводчик — Google Translate. Проект стартовал в 2006 году и работал на статистике (собирал информацию о корпусах языка и сравнивал их между собой). С 2016 года корпорация использует нейронную сеть. Система изучает миллионы примеров и постоянно обучается.
За что его не любят?
Прежде всего его ругают за отсутствие точности.
Перевод, основанный на статистике, не учитывает грамматику. Программа анализирует большие объемы данных и примеров. По смыслу тексты получаются довольно складные, но слова в предложениях далеко не всегда согласованы.
Технология, основанная на грамматических правилах, не учитывает контекст и порой предлагает нелепые варианты. Так, российский проект PROMT в 2007 году не мог справиться с тремя котятами. SYSTRAN тоже работал по правилам, поэтому качество текстов было невысоким. Когда на рынке появился Google с более точным статистическим переводом, то такие системы как SYSTRAN отошли на второй план.
Нейронный метод на данный момент наиболее многообещающий. Имитация обработки информации мозгом учитывает и контекст, и базовую грамматику. Сегодня у машин есть в памяти большие корпуса английского, испанского, французского. Но, например, базы турецкого, суахили или финского гораздо меньше, а связность получаемых текстов значительно хуже. Безусловно, возможности нейроперевода потрясают, Google знает 133 языка, но грамматические и лексические ошибки никуда не делись. К тому же качество сильно зависит от распространенности и популярности языка.
Есть ли плюсы?
Машинные переводчики не прижились, если от них не было бы пользы.
Во-первых, они бесплатные. Профессиональный софт, например, Trados Studio, стоит денег. А Google или Яндекс бесплатно помогут с любой фразой простому пользователю в быту, путешествиях или на работе. К тому же, они удобны в использовании и не требуют никаких навыков, кроме умения пользоваться компьютером или смартфоном.
Во-вторых, они быстрые. Достаточно навести телефон на слово и на экране появится значение. И это без переключения раскладки клавиатуры! Если нужно понять общий смысл, то машины с легкостью справятся и с этой задачей. Google обрабатывает 5000 знаков за раз, это примерно полторы – две страницы в Word. Профессиональная норма человека в среднем — 8 страниц за день, машина справится с таким объемом меньше, чем за 10 минут.
Машинные переводчики не бесполезны: они помогают пользователям Интернета быстро решать рабочие задачи, выбирать хобби, общаться с друзьями. Нужны ли в таком случае люди? Да, потому что у них разные задачи. Компьютер поможет в общих чертах понять, о чем идет речь. Переводчик делает доступными научные труды, художественные произведения, сериалы и комиксы, учитывая не только лингвистические особенности, но и социокультурные. А еще человек, в отличие от машины, ответственен за результат работы.