Переводчик яндекса научился переводить текст в эмодзи

У переводчика «Яндекса» появился апдейт, который позволяет ему распознавать и переводить не только текст, но и смайлы. Он доступен абсолютно для всех языков, с которыми может работать переводчик. Исключением не стали даже латынь и эльфийский.

Стандартная схема роботизированного перевода работает на основе массивов данных из параллельных корпусов. Там проходит обработка текстов на исходном и языке перевода. Если информации оказывается недостаточно (так часто бывает, если работа происходит с искусственным или редким языком), то используются дополнительные подходы, к примеру, информация о грамматике дополняется данными из родственных языков.

Если говорить об эмодзи, то работа компьютера-переводчика становится в разы сложнее из-за того, что данные о точном переводе какого-либо конкретного знака отсутствуют. Также в языке смайликов нет и общепринятого понимания грамматики. Скажем, если существительные определить будет не так сложно, то с прилагательными, глаголами и прочими частями речи будут возникать определенные проблемы. Но, по крайне мере, переводчику теперь доступен смысл отдельных смайликов, и он работает с ними.

Когда происходит перевод текста, то переводчик разделяет его на слова или предложения, а потом конвертирует в систему векторов, основанную на их смысловом значении. Примерно в таком же виде подаются и эмодзи. После этого система сравнивает оба вектора и выдает в качестве результата тот вариант, в котором векторы максимально совпадают. Все это происходит на основе английского языка, который используется переводчиком как базовый, а перевод на прочие языки совершается уже после.

При работе с небольшими фразами или предложениями переводчик справляется неплохо, однако качественно переводить большие тексты ему пока не по силам.