Виноват или не виноват. Разбор полетов.

29.01.2010



Недавно была обнаружена ошибка в Переводчике Google, из-за которой однотипные фразы " is to blame" переводились одним из трех случайных вариантов: " виноват", " в этом виноват" и, что самое неприятное, " не виноват".

Эту ошибку, в частности, можно было заметить при переводе следующих фраз:

"USA is to blame" - "США не виновата"
"Russia is to blame" - "Россия виновата"
"Google is to blame" - "Google не виноват"
"Italy is to blame" - "Италия виновата"

Для того чтобы объяснить, откуда могла появиться эта ошибка, следует коротко рассказать о том, как работает Переводчик Google и в чем его принципиальное отличие от других средств.

Обычные переводчики, как правило, преобразуют грамматические конструкции из одного языка в другой исходя из жестко прописанных правил.
Примером такого правила может быть "если в оригинале использовалась временная форма present perfect, то в русском переводе нужно использовать соответствующую форму для этого глагола".
Эти правила могут быть сложнее или проще. Могут использоваться правила, распознающие сложные конструкции и меняющие порядок слов в конечном тексте. Но в любом случае в традиционных переводчиках их пишут вручную. У этого подхода есть свои преимущества и недостатки, к которым, в частности, можно отнести нечеловеческую сложность работы, требующейся для того, чтобы покрыть такими правилами все разнообразие языка.

Переводчик Google устроен принципиально иначе. У нас есть набор статистических эвристик, например, "эта последовательность слов обычно переводится так", который дополнен рядом вспомогательных правил, обобщающих группы слов. Этих правил больше, чем можно найти в традиционных словарях, поэтому они не проходят ручную обработку, а генерируются автоматически.
Изначально для обучения Переводчика Google мы взяли набор текстов, переведенных максимально близко к оригиналу. В дальнейшем для усовершенствования правил мы дали пользователям возможность присылать нам переводы тех фраз, которые Переводчик перевел некорректно.

Откуда появились правила, по которым осуществлялся перевод "США не виновата", пока еще до конца не ясно, но мы предполагаем, что из предложений пользователей.
В любом случае, ошибка была устранена в кратчайшие сроки и, надеюсь, не повторится.

Хронология событий:

16:28 Я (Михаил Дайчик) получил сообщение о баге.
16:57 Баг передан команде поддержки. Так как команда поддержки находится в другом часовом поясе, у них была глубокая ночь.
17:32 Баг эскалирован, для чего разбудили инженера из команды технической поддержки Переводчика.
19:18 Фикс готов, тестирование началось.
19:39 Патч начали выкатывать на датацентры.
~ 20:10 Изменения вступили в силу во всем мире.

Поправка: Уточнив причину ошибочного перевода с командой Переводчика Google, мы выяснили что предложения пользователей не оказали никакого влияния на данный перевод. На самом деле, эта ошибка была результатом неверных сопоставлений фразы "виноват", сделанных статистическим алгоритмом при обработке обучающих данных.

Создайте уроки с помощью Jing!

28.01.2010



Недавно в рамках проекта uToodle мы опубликовали статью о том, как сделать хороший скринкаст. Многие из Вас просили рассказать о конкретных программах, которые можно использовать при создании видеоуроков. Мы попросили сделать это профессионалов своего дела, наших друзей из компании Teachvideo. Их ролики, представленные ниже, посвящены использованию бесплатной программы Jing для создания видеоуроков.




Напоминаем, что лучший пользовательский урок, присланный нам в период с 1 ноября 2009 г. по 31 января 2010 г., будет опубликован на нашем блоге, так что у всех желающих поучаствовать есть еще несколько дней, чтобы подать заявку.

Как научить компьютер понимать человеческий язык?

27.01.2010



Парадокс компьютерных наук заключается в том, что многие задачи, которые людям не под силу, легко выполняются компьютерными программами. При этом задачи, которые человек может выполнять безо всяких усилий, остаются сложны для компьютеров. Мы умеем разрабатывать шахматные программы, которые побеждают ведущих гроссмейстеров на Земле. Однако создать такую программу, которая сможет распознать объекты на фотографии или понять предложение даже на уровне, доступном ребенку, мы не можем.

Обучение компьютера пониманию языка остается одной из сложнейших задач искусственного интеллекта. Задача поисковой машины — найти именно то, что вам нужно. Важнейшую роль при этом играет понимание языка, в частности — синонимов.

Итак, что такое синоним? Приведем простейший пример. Слова "фото" и "фотография" означают одно и то же. Если вы ищете фразу [проявка фото в кофе], то Google должен понимать, что даже если на странице употребляется слово "фотография", а не "фото", эта страница все равно является результатом поиска. Хотя любой ребенок понимает, что слова "фотография" и "фото" — синонимы, научить этому компьютерную программу крайне трудно. Именно поэтому мы по праву гордимся системой подбора синонимов, разработанной в Google.

Наша система подбора синонимов является результатом более чем пятилетней работы команды качества поиска Google. Мы постоянно контролируем качество работы системы, но недавно мы отдельно проанализировали влияние подбора синонимов на результаты поиска. Возможно, вы обычно и не замечаете, что при поиске используются синонимы, — все это происходит в недрах поисковой машины. Однако, как показывают проделанные нами измерения, синонимы влияют на выполнение 70% поисковых запросов, осуществляемых на сотне языков, поддерживаемых Google. Мы выбрали такие запросы и проанализировали, насколько точно были подобраны синонимы. Результаты нас порадовали. На каждые 50 запросов, для которых использование синонимов существенно улучшало результаты поиска, только в одном случае наблюдался отрицательный эффект.

Пример плохого подбора синонима — поиск [dell system speaker driver precision 360]. В данном случае Google считает, что "pc" (ПК, персональный компьютер) является синонимом слова precision (точность). Мы знаем, что это плохой синоним, — и такие вещи иногда встречаются в результатах Google, — однако мы предпочитаем не исправлять их вручную. Вместо этого мы стараемся постоянно улучшать наши алгоритмы, чтобы добиться комплексного решения таких проблем. Мы надеемся, что в ходе дальнейших доработок мы добьемся корректной обработки и этого запроса.

Кроме того, с недавнего времени мы используем новый способ отображения синонимов в результатах поиска — в виде жирного шрифта. Сначала мы выделяли различные формы одного и того же слова. Например, для поиска, содержащего слово "картинки" мы выделяли слово "картинка". Теперь мы также выделяем слова, которые, с точки зрения наших алгоритмов, с высокой степенью достоверности совпадают по значению с исходным словом. При этом написание слов может отличаться. Теперь вы понимаете, почему результат может быть показан даже в том случае, когда он не содержит слов вашего запроса. В нашем примере [проявка фото в кофе] вы видите, что в описании первого результата слово "фотографии" выделено жирным:


Заметим, что поскольку использование синонимов зависит от многих факторов, — в частности от наличия других слов в вашем запросе, — вы не обязательно увидите выделенное слово "фотографии" в поиске, содержащем слово "фото". Целесообразность выделения синонимов определяется нашими поисковыми алгоритмами.

Для обнаружения синонимов мы используем большое количество методик, и мы писали об этом в нашем блоге. Наши системы анализируют петабайты документов, доступных в сети, а также данные по истории поиска. На основании этой информации формируется тонкое понимание смысла слов в различных контекстах. В приведенном выше примере "фото" и "фотографии" — это очевидные синонимы. Но синонимы не всегда являются взаимозаменяемыми. Например, несмотря на то что "блюдо" это одно из синонимов слова "тарелка", поисковая система должна понимать что "летающая тарелка" является вполне осмысленным запросом, а сочетание "летающее блюдо" более напоминает о сцене в ресторане, чем об НЛО.

Еще один пример — это аббревиатура "ГТО". Любой автомобилист знает что это сокращение означает: "Государственный технический осмотр транспортных средств". В случае запроса [правила прохождения гто] Google выделит в результатах поиска фразу "Государственный технический осмотр". Это показывает, что в данном случае "Государственный технический осмотр" означает то же самое, что и ГТО. Есть ли еще значения у этой аббревиатуры? Многие вспомнят, что ГТО означает еще "Готов к труду и обороне" - программа физкультурной подготовки, существовавшая в нашей стране с 1931 по 1991 год. Это словосочетание будет выделено в результатах, содержащих виды упражнений и нормативы комплекса ГТО. Например, запрос [гто СССР] вернет документы рассказывающие об истории этой программы, а также информацию о нормативах и упражнениях входящих в комплекс ГТО. Помимо этого, ГТО может обозначать "гаражно-техническое объединение", для любого знатока аниме, ГТО это сериал Great Teacher Onizuka.

Ниже на скриншотах показаны результаты запросов с различным значением аббревиатуры ГТО:


Кстати, даже такие очевидные варианты слова, как "фотография" и "фотографии" (единственное и множественное число), обычным компьютером будут восприниматься как разные условия поиска. Поэтому мы также включаем такие вариации в нашу систему подбора синонимов. Слова "фотография" и "фотографии" — это однокоренные слова, формы одного и того же слова. Система, понимающая, что "фотография" и "фото" — это одно и то же, должна понимать также, что "фотография" и "фотографии" — формы одного и того же слова. Это совсем очевидно для человека, но компьютеру не так-то просто это понять. Еще один пример — слова "животное" и "живот", которые имеют одинаковый корень и сходную этимологию, но означают совсем разные вещи. Другой пример — это использование слов "право" и "права". "Право" — это не только регулятор общественных отношений или совокупность законодательных норм, но и антоним слова "лево". А в множественном числе слово "права" означают и желанный документ, разрешающий управление автомобилем. Соответственно, запросы [получить право] и [получить права] имеют совсем разный смысл. Поиск Google достаточно умен для того, чтобы отличить одно выражение от другого, т.е. он знает, что "право" и "права" — это опасные синонимы, и их использование может привести к искажению смысла. Именно такие тонкие различия между словами, только кажущимися родственными, и затрудняют понимание правильного употребления синонимов.

Вот еще несколько примеров использования синонимов, которые, по нашему мнению, будут для вас интересны:

[концерты в спб 2010] "Санкт Петербург" выделен жирным как синоним "спб"
[пользователи жж] жирным выделены "Живой Журнал", а также английское название ресурса "LiveJournal"
[клуб квн] "Клуб Веселых и Находчивых" выделен жирным как синоним сокращения "квн"
[институт маи] "маи" расшифровывается как "Московский авиационный институт"
[академия маи] ну, а в этом случае мы считаем что "маи" это "Международная академия информатизации"

Разумеется, сложность и разнообразие языка, используемого современной человеческой культурой, неисчерпаемы. Поэтому наши сегодняшние алгоритмы иногда ошибаются. Нам становится досадно, когда мы обнаруживаем такие ошибки, но мы постоянно работаем над их устранением. Чтобы лучше справляться с проблемами, мы уделяем большое внимание откликам реальных пользователей Google. Они вдохновляют нас на улучшение наших компьютерных программ. Если у вас есть конкретные замечания по работе нашей системы подбора синонимов, вы можете задать вопрос в справочном форуме веб-поиска или создать сообщение в twitter с тегом #googlesyns. Также вы можете отключить поиск по синонимам конкретного слова, если поставите перед ним "+" или заключите слово в кавычки.

Gmail: ещё более качественная реклама

21.01.2010

Стив Кроссан: менеджер продукта Gmail

С момента запуска Gmail мы постоянно работаем над усовершенствованием наших алгоритмов, чтобы информация, которую пользователи видят в своей электронной почте, становилась еще более качественной и полезной.

Когда вы открываете письмо в Gmail, вы часто видите рекламные объявления, соответствующие содержанию сообщения. Предположим, вы получили подтверждение бронирования от отеля в Чикаго. Рядом с текстом письма вы можете увидеть рекламу авиарейсов в Чикаго.

Но бывают случаи, когда подобрать подходящие рекламные объявления к конкретному сообщению не удается. Начиная с сегодняшнего дня, в таких случаях реклама будет подобрана по содержанию другого недавно полученного письма. Например, приятель прислал вам поздравление с днем рождения. Если для словосочетания «день рождения» подходящей рекламы нет, вы увидите рекламу авиарейсов в Чикаго, соответствующую предыдущему сообщению вашей почты.

Для показа такой рекламы нашей системе не нужно сохранять никакой дополнительной информации: Gmail просто выберет другое недавно полученное сообщение и подберет для него рекламные объявления. Процесс полностью автоматизирован. В подборе рекламы не участвуют люди, и рекламодатели не получают доступа ни к адресам электронной почты, ни к другой личной информации пользователей.

Мы обновили статью в справочном центре и несколько часто задаваемых вопросов, в которых ранее говорилось, что реклама в электронной почте соответствует исключительно тексту текущего сообщения. Теперь рекламные возможности расширились, но это не повлияло на политику конфиденциальности Gmail. Чтобы лучше объяснить вам суть изменений, мы создали небольшой видеоролик.

Изменения будут реализованы в течение нескольких дней. Мы надеемся, что новые возможности сделают рекламу в Gmail более качественной и содержательной.

Какой улов?

19.01.2010



Мы продолжаем нашу серию статей по теме безопасности. Сегодня мы рассмотрим тему мошеннических писем или, так называемого, фишинга. Слово фишинг произошло от английского "phishing" или "fishing", что традиционно означает "рыбная ловля", а в данном контексте - "выуживание информации".

Получали ли вы когда-либо письмо от "Google" о том, что вы выиграли лотерею? Просил ли "Google" вас авторизовать ящик в срочном порядке? Угрожал ли "Google" заблокировать ваш профиль?

Если да, то эта статья будет крайне полезна для вас и многих других пользователей, кто может столкнуться с подобными попытками получения личной информации в будущем.

Google никогда не посылает подобных сообщений. Если вы получили письмо, в котором вас просят пройти по ссылке, не нажимайте на ссылку, так как даже одного нажатия мышкой часто достаточно для заражения вашего компьютера. Если вас просят предоставить личную информацию или пароль, ничего никому не отсылайте. При получении подобных мошеннических сообщений, просто нажмите в письме на маленький треугольник рядом с кнопкой "Ответить" и выберите "Сообщить о фишинге".

О фишинг-атаках можно также сообщить нам по адресу phishing@google.com .

Зачем мошенникам нужна ваша личная информация, догадаться не сложно. Попытки взлома почтовых аккаунтов, доступа к банковским счетам или идентификационным данным осуществляются мошенниками постоянно.

Помните, что защитить себя от неправомерного использования вашей информации можете только вы. Будьте бдительны!

Ларс Бак в Инженерном Центре Google в Санкт-Петербурге: изменения

15.01.2010



В связи с большим количеством зарегистрировавшихся выступление состоится не в Инженерном Центре Google, а в конференц-зале гостиницы Novotel (это соседнее здание, ул. Маяковского д. 3А).

Время прежнее: 19:00, 19 января 2010 года.

Протокол HTTPS по умолчанию для пользователей Gmail

13.01.2010



Сегодня мы начинаем серию статей, посвящённых конфиденциальности и безопасности аккаунта Gmail.

В 2008 году мы добавили возможность постоянного использования протокола HTTPS: шифрования почты во время её путешествия между веб-браузером и нашими серверами. Использование HTTPS позволяет защитить данные от доступа третьими лицами, особенно при подключении к Интернету в общественных местах с точками доступа Wi-Fi. Изначально мы предоcтавили вам выбор: использовать HTTPS постоянно или нет. Но недавно мы пересмотрели своё решение.

В последние несколько месяцев мы провели ряд исследований в области безопасности. Мы взвесили все "за" и "против" и пришли к выводу, что в целях обеспечения безопасности наших пользователей, имеет смысл включить постоянное соединение HTTPS по умолчанию. С сегодняшнего дня мы начинаем переключение на постоянное соединение по протоколу HTTPS для всех пользователей Gmail. Шифрованное соединение может сделать вашу почту медленнее. Если вы по какой-либо причине захотите переключиться на обычное соединение, это можно сделать в "Настройках".

Дополнительные советы по обеспечению безопасности вашего аккаунта можно найти в нашем справочном центре.

Примечание: Если вы используете Gmail Офлайн с соединением HTTP, переход на HTTPS может вызвать затруднения. Прочитайте о том, как справиться с этой проблемой.