Выбрать главу

- Входят ли блоги и социальные сети в круг индексируемых быстрым поиском сайтов или ими отдельно занимается движок «Яндекс.Блогов»?

Да, Orange работает в связке с поиском по блогам «Яндекса» и получает от него информацию о новых постах. Но он индексирует её не на 100%, отбирая более ценные сообщения по разным критериям — в их числе, например, авторитетность блога. Это связано, в частности, с тем, что блогохостинги — очень крупные сайты, имеющие ограничения на количество скачиваний url в сутки.

- В пресс-релизе сказано, что быстрый поиск стремится находить в первую очередь новости. Используется ли для этого каким-нибудь образом алгоритм «Яндекс.Новостей»? Использует ли быстрый поиск каналы RSS, отдаваемые сайтами?

Мы используем много разных способов получения сигналов о появлении новой информации в интернете. Один из механизмов — из RSS-потоков партнеров "Яндекс.Новостей"; в то же время, Orange умеет и самостоятельно обнаруживать и прокачивать RSS-потоки в интернете, частота переохода которых зависит от авторитетности сайта. Общая рекомендация для вебмастеров — помимо создания RSS-потоков не забывать ставить на них ссылки из заголовков html страниц вида <link rel="alternate" type="application/rss+xml" ...>, это увеличивает шанс обнаружения RSS-потока и получения им большего веса

- Требует ли быстрый поиск какого-то особенно быстрого канала? Или те секунды, за которые он срабатывает — это и есть скорость скачивания страниц?

Средняя скорость скачивания страницы из интернета находится в пределах одной секунды. Orange не нужно скачивать больше страниц, чем «большому роботу», который вынужден регулярно освежать все когда-то скачанные страницы. Таким образом, никаких специальных требований к скорости канала для Orange нет.

- Быстрый поиск устроен как распределённая система — есть ли у «Яндекса» другие сервисы, построенные тем же образом?

Практически все сервисы «Яндекса» работают на кластерах, однако у каждого сервиса своя специфика, поэтому в «Яндексе» применяются разные ПО и библиотеки для распределенной обработки запросов.

Большинство наших крупных сервисов, кроме, например, «Яндекс.Почты» или «Яндекс.Директа», требуют моментального ответа на запрос, но не требуют моментальной обработки данных. Поэтому задача, которую нам пришлось решать для создания архитектуры «свежего» поиска, нетипична — в её рамках мы должны одновременно обрабатывать огромное количество страниц, но таким образом, чтобы задержка для каждой измерялась секундами. Робот Orange и «Real-Time поиск» — первые проекты на этой технологи; возможно, в будущем она будет применяться и для других сервисов «Яндекса».

К оглавлению

Блоги

Анатолий Вассерман: Газогидраты

Анатолий Вассерман

Опубликовано 13 июля 2010 года

Выпуск 230

Газогидраты — несколько более ранний повод для шумихи, нежели сланцевые газы, но зато повод куда более обширный.

Здесь был вставлен Flash-объект. К сожалению, на данный момент его автоматическая обработка при конвертации в FB2 не поддерживается. Вы можете просмотреть оригинальную версию статьи здесь.

В оформлении блога использованы иллюстрации TALLSTUDIO.ru

К оглавлению

Анатолий Вассерман: Подгонка под гороскоп

Анатолий Вассерман

Опубликовано 16 июля 2010 года

Выпуск 231

Известно, что если человеку десять раз сказать, что он свинья, он захрюкает. Но если собеседнику сказать, что он человек, то и вести он себя будет по-человечески.

Здесь был вставлен Flash-объект. К сожалению, на данный момент его автоматическая обработка при конвертации в FB2 не поддерживается. Вы можете просмотреть оригинальную версию статьи здесь.