Введение в ранжирование результатов поиска Google
25 февраля 2009 г.
О работе Группы качества поиска вы узнали из поста Уди Манбера.
Мы обычно называем эту группу просто "Качество" (Quality). Она включает в себя команду базовой функциональности ранжирования (Core Ranking), команду международного поиска (International Search), команду пользовательских интерфейсов (User Interfaces), команду контроля качества (Evaluation), команду борьбы с интернет-спамом (Webspam) и другие. В этом посте я хочу рассказать вам о работе команды базовой функциональности ранжирования.
Вначале несколько слов о себе. Меня зовут Амит Сингал. Я руковожу группой ранжирования в компании Google. В области технологий поиска я работаю вот уже восемнадцать лет. Впервые я познакомился с поиском в 1990 г., когда писал диплом по информатике. В академической среде поиск называют «информационно-поисковыми технологиями», по-английски — Information Retrieval (IR). Проработав в области фундаментальных IR-исследований 10 лет, в 2000 году я устроился на работу в Google. С тех пор я занимаюсь технологиями ранжирования результатов поиска Google.
Ранжирование в Google — это набор алгоритмов, позволяющих найти именно те документы, которые наилучшим образом отвечают на запрос пользователя. Мы обрабатываем сотни миллионов запросов в день, обращаясь к базе, состоящей из многих миллиардов страниц. Наши алгоритмы применяются практически в каждом поисковом сервисе Google по отношению к любому запросу, вводимому пользователями. Хотя поиск в интернете – это наиболее широко используемый и самый известный поисковый сервис Google, те же самые алгоритмы ранжирования используются, в различных модификациях, и в других сервисах — Картинки, Новости, YouTube, Карты, Поиск по продуктам, Поиск по книгам и др.
Самый частый вопрос, который мне задают о ранжировании: «Как же вам это удается?». Конечно, создание такой передовой и современной системы ранжирования, как наша, включает в себя много различных аспектов. К примеру, технологические вопросы ранжирования я хотел бы подробнее обсудить в следующем посте. А сегодня я хочу рассказать вам о принципах, на которых строится ранжирование в Google. Если говорить коротко, эти принципы можно описать тремя фразами:
1) Наилучшее качество результатов поиска с учетом местной специфики в любой точке земного шара.
2) Все должно быть просто и ясно.
3) Никаких изменений вручную.
Первый принцип очевиден. При нашей страсти к развитию поиска мы делаем все возможное, чтобы на каждый свой запрос пользователь получал именно те результаты, которые ему нужны. Мы часто говорим, что ни один запрос не остается без внимания. Если результат запроса оказался неидеальным (ведь задача поиска, строго говоря, еще не решена до конца), то независимо от языка и страны происхождения запроса каждый такой случай является для нас источником вдохновения для дальнейшего развития технологий.
Второй принцип тоже достаточно очевиден. Разве не каждый системный архитектор стремится, чтобы его система оставалась как можно более простой? На самом деле, по мере развития поисковых систем мы сталкиваемся с таким многообразием пользовательских запросов на различных языках, что очень велика опасность все большего усложнения системы при добавлении каждого нового типа запросов. Мы очень стараемся, чтобы наша система оставалась простой без ущерба для качества результатов поиска. Эта задача чрезвычайно важна, и о ней ни на минуту нельзя забывать. Каждую неделю мы производим порядка 10 изменений в алгоритмах ранжирования, и при запуске каждого изменения мы очень большое внимание уделяем простоте. Наши разработчики точно знают, почему конкретная страница находится именно на этом месте в результатах поиска. Наличие простой системы, в которой легко разобраться, позволяет нам быстро внедрять инновации. Это значит, что принцип простоты сослужил нам очень хорошую службу.
Ни одно из обсуждений механизмов ранжирования Google не проходит без стандартного — но основанного на предубеждении! :) — вопроса: «А редактируют ли сотрудники Google результаты поиска вручную?». На этот вопрос отвечает наш третий основополагающий принцип: никаких изменений вручную! Наша точка зрения такова. Интернет создается людьми. Вы – те люди, которые создают страницы и ссылаются в них на другие страницы. А мы используем все это созданное человеческими руками богатство в наших алгоритмах. Когда наши алгоритмы окончательно упорядочивают результаты по запросу, они используют результаты деятельности всего интернет-сообщества, а не мнение отдельных сотрудников компании Google. Мы считаем, что субъективные суждения любого человека являются … субъективными, и информация, которую наши алгоритмы извлекли из огромного многообразия человеческого знания, заключенного в веб-страницах и ссылках, лучше любой человеческой субъективности.
Есть еще одна причина, почему мы принципиально против ручной корректировки результатов поиска. Если запрос выполняется неправильно – это лишний повод для нас улучшить алгоритм ранжирования. Доработка поискового алгоритма не просто улучшает результаты конкретного запроса, она приводит к повышению качества сразу для целого класса запросов, зачастую на всех языках. При всем при этом я должен добавить, что существует четко прописанная политика, определяющая, каким требованиям должны удовлетворять рекомендуемые Google сайты. Мы принимаем меры по отношению к тем сайтам, которые нарушают нашу политику, требования закона, распространяют детскую порнографию, вирусы, вредоносное программное обеспечение и т.д.
Буду рад, если вы ознакомитесь с моим следующим постом, в котором я подробно расскажу, какие технологии используются при ранжировании. На ряде примеров вы сможете увидеть, как работают различные методы упорядочивания результатов поиска. В заключение данного поста я хотел бы добавить, что наша страсть к развитию поисковых методов сильна как никогда. А это значит, что у меня, как исследователя в области информационного поиска, самая лучшая работа на Земле :-).
Постоянная ссылка на оригинал