29.01.2010
Недавно была обнаружена ошибка в Переводчике Google, из-за которой однотипные фразы "
Эту ошибку, в частности, можно было заметить при переводе следующих фраз:
"USA is to blame" - "США не виновата"
"Russia is to blame" - "Россия виновата"
"Google is to blame" - "Google не виноват"
"Italy is to blame" - "Италия виновата"
Для того чтобы объяснить, откуда могла появиться эта ошибка, следует коротко рассказать о том, как работает Переводчик Google и в чем его принципиальное отличие от других средств.
Обычные переводчики, как правило, преобразуют грамматические конструкции из одного языка в другой исходя из жестко прописанных правил.
Примером такого правила может быть "если в оригинале использовалась временная форма present perfect, то в русском переводе нужно использовать соответствующую форму для этого глагола".
Эти правила могут быть сложнее или проще. Могут использоваться правила, распознающие сложные конструкции и меняющие порядок слов в конечном тексте. Но в любом случае в традиционных переводчиках их пишут вручную. У этого подхода есть свои преимущества и недостатки, к которым, в частности, можно отнести нечеловеческую сложность работы, требующейся для того, чтобы покрыть такими правилами все разнообразие языка.
Переводчик Google устроен принципиально иначе. У нас есть набор статистических эвристик, например, "эта последовательность слов обычно переводится так", который дополнен рядом вспомогательных правил, обобщающих группы слов. Этих правил больше, чем можно найти в традиционных словарях, поэтому они не проходят ручную обработку, а генерируются автоматически.
Изначально для обучения Переводчика Google мы взяли набор текстов, переведенных максимально близко к оригиналу. В дальнейшем для усовершенствования правил мы дали пользователям возможность присылать нам переводы тех фраз, которые Переводчик перевел некорректно.
Откуда появились правила, по которым осуществлялся перевод "США не виновата", пока еще до конца не ясно, но мы предполагаем, что из предложений пользователей.
В любом случае, ошибка была устранена в кратчайшие сроки и, надеюсь, не повторится.
Хронология событий:
16:28 Я (Михаил Дайчик) получил сообщение о баге.
16:57 Баг передан команде поддержки. Так как команда поддержки находится в другом часовом поясе, у них была глубокая ночь.
17:32 Баг эскалирован, для чего разбудили инженера из команды технической поддержки Переводчика.
19:18 Фикс готов, тестирование началось.
19:39 Патч начали выкатывать на датацентры.
~ 20:10 Изменения вступили в силу во всем мире.
Поправка: Уточнив причину ошибочного перевода с командой Переводчика Google, мы выяснили что предложения пользователей не оказали никакого влияния на данный перевод. На самом деле, эта ошибка была результатом неверных сопоставлений фразы "виноват", сделанных статистическим алгоритмом при обработке обучающих данных.

28 comments:
Так что, теперь США виновата как и все остальные? Не приведет ли это к политическому резонансу?
У Вас (у коллектви google), что более важных дел нет!
Думал, что следующий пост будет типо - ,,гугл на марсе,,. а тут...
Засиделись Вы ребята!
Зачем разбудили инженера Переводчика, непонятно. Если после каждого бага будить сотрудников, никто спать не будет вообще, правда?
Мне понравилось!
Оперативная работа! Несмотря на всю серьезность проблемы, ситуация мне кажется крайне забавной. Рассмешили :)
Только что проверил. Все виноваты
Молодцы ребята, слаженно работаете!
Хорошо когда и мелочи имеют значение.
Разбудили, потому что Гугл таки виноват :)
Faust, ты прав - хорошо когда И мелочи имеют значениа, а не только мелочи!
Как разбудили? Небось боевую тревогу объявили и сирены включили)
Непонятно, зачем было срочно это фиксить. Google Translate настолько плохо переводит на русский, что данное исправление - попытка ложкой вычерпать океан. Через день найдется еще какой-нибудь смешной ляп.
Google - лучшая в мире корпорация! Жду от вас фаст-фуд с ценами столовой (преподской, на 2ом этаже) МГУ, а также браузер! Со всеми делами гугл в помощь, вот только не кормите))) спасибо! качественная работв на самом высоком уровне!
Вместо того чтобы принести извинения пользователям за то как облажались по-крупному Гугл пытается еще и пиариться: посмотрите, какие мы молодцы! как быстро баги исправляем!
Ох уж. Ну, потроллили вас. Виноват-не виноват. Свадьба определит.
Но, незважаючы (с) на отсутствие запятых местами, обращу внимание на один момент - Переводчик Google должен по-русски писаться либо как "переводчик Google", либо как ""Переводчик" Google". Ну, или еще как-то, но не должно быть Слов с Большой Буквы ни с Того ни С Сего в русском языке, насколько я знаю. Я бы, честно говоря, написал "программа перевода Google", во избежание. Ну, или собственное имя на русском (и всех остальных языках), все же. Потому что Переводчик Google не подпадает под текущие правила р.я., AFAIK. Почему с заглавной и без кавычек?
С уважением, ваш пытливый Г.Наци.
А алгоритмы переводчика вообще открыты? Или хотя бы часть их? Что можно почитать о работах в области автоматического перевода с таким подходом?
А с этим как?
USA authorities have provided
France authorities have provided
Cuban authorities have provided
Iranian authorities have provided
Власти США предоставили
Власти Франции предоставили
Кубинские власти не предоставили
Иранские власти не предоставили
Так же переводчик Гугл путал "важно/не важно" и еще что-то... Сейчас не упомню...
Хорошо, что исправили.
>А с этим как?
>USA authorities have provided
Сегодня опять разбудят нерадивого инженера, ибо недоглядел.
но США все также не хочет войны
http://translate.google.ru/#en|ru|USA%20wants%20war%0D%0A%0D%0A
Еще один интересный ляп?
aquarium - Аквариум
fish tank - аквариума
:)
USA wants war
Russia wants war
translate eng to rus:
США не хочет войны
Россия хочет войны
Подтверждение:
http://translate.google.ru/#en|ru|USA%20wants%20war%0ARussia%20wants%20war%0A
двойные стандарты, верно =)
Не могу зайти в iGoogle в Опере.
В Chrome могу как это понимать - дескриминация по браузерному признаку?????????????
Спасибо
А вообще вы прикольный сервис
Да ващщщееее прекрасно,,,Google??проамериканская система,,,любил её,но пора и задуматься!!!(админам,,,попробуйтетолько удалить)
Все таки быть собакой лучше, чем ее иметь=)))))))
American has dog
Estonian has dog
Russian has dog
Italian has dog
Американец собака
Эстонский имеет собаку
Русский имеет собаку
Итальянский имеет собаку
http://translate.google.com/#en|ru|%0AEstonian%20has%20dog%0ARussian%20has%20dog%0AItalian%20has%20dog
Хоть и отправил правильный перевод уже раз 5 (Contribute a better translation) - всеравно мое имя и фамилию (Viktor Yarmak) до сих пор переводит как Виктор Алехин.
http://translate.google.com/#en|ru|%0AViktor Yarmak
to Ярмак:
Действительно странно. Ну что ж, сделал свой вклад в улучшение перевода - подсказал гуглу, как правильно переводить Вашу фамилию =)
Интересная статья
Отправить комментарий