| Робот, или паук, или
червь, или crawler, или сетевой агент - программа обхода
Сети. Базовой информацией для работы этой программы
является список адресов (URL). Дополнительная информация
берется из robots.txt (файла, в котором Web-администратор
может запретить роботу заходить на те или иные разделы
сайта, подробнее см. на http://www.topserver.donetsk.ua/Robot/).
В самом общем случае робот предназначен для скачивания
страниц по указанным адресам в место, указанное его
хозяином.
Помимо robots.txt существуют и другие
джентельменские соглашения для работы роботов - например,
он не должен делать более одного коннекта, чтобы не
забить канал и дать возможность другим пользователям
Сети общаться с данным сервером.
Для поисковой машины Yandex.Ru в
состав робота входят еще модули индексации, распознавания
кодировок (если на странице содержится русский язык)
и определения уникальности документа.
Как Yandex.Ru
узнает о новых ресурсах
Как Yandex.Ru узнает о
новых серверах и страницах? Есть два способа - или владельцы
ресурсов сами добавляют их (заполнив форму AddURL на
http://yandex.ru/addurl.html
или послав письмо на addurl@yandex.ru),
или робот находит новые ссылки в проиндексированных
страницах. Так, например, с первой страницы сервера
робот берет ссылки на последующие и так далее, без ограничения
глубины, до тех пор, пока новые адреса не перестанут
появляться.
Поскольку задачей Yandex.Ru является
работа с русско-язычным и/или российско-ориентированным
Интернетом, введено следующее правило: сервера в доменах
России и стран СНГ ('su', 'ru', 'am', 'az', 'by', 'ge',
'kg', 'kz', 'md', 'tj', 'ua', 'uz') принимаются по умолчанию.
Сервера в других доменах - если на них найден русский
язык или если владельцы ресурсов убедят администрацию
поисковой машины в том, что их сервер подпадает под
указанную категорию (это обычно делается письмом на
addurl@yandex.ru).
Итак, не удивляйтесь, если URL,
который Вы добавляете, уже есть в базе робота. Наш робот
мог найти Ваш URL по ссылкам из других проиндексированных
документов. Не стоит также огорчаться, если при этом
Вы не можете найти этот документ в Yandex. Наверняка
наш "паук" просто еще не успел дойти до Вашего
документа, и он будет проиндексирован через несколько
дней.
Правила индексации
в Yandex.Ru
Yandex индексирует страницы по их
истинным адресам. Это значит, что, если на странице
стоит redirect, робот воспримет его как ссылку на новый
адрес и поступит с ним по правилам, указанным выше.
То же самое произойдет, если в одном из фреймов будет
стоять ссылка на другой сервер. В частности, если эта
ссылка находится вне доменов, разрешенных по умолчанию,
страница НЕ будет проиндексирована.
Кроме этого, Yandex начинает бороться
со спамом, и страницы со временем redirect'а равным
нулю будут исключаться из индексирования (непонятно,
какие еще цели, кроме спама, могут быть у создателей
страницы, которую пользователь в принципе не может увидеть).
Робот Yandex.Ru хранит дату последнего
обхода каждого URL, дату его изменения (присланную его
Web-сервером) и дату внесения последних изменений в
базу поиска (дату индексации). Он оптимизирует обход
Сети таким образом, чтобы чаще посещать наиболее изменяемые
сервера.
По этой причине, а также потому,
что на Yandex.Ru работает поиск и сортировка по датам,
очень хотелось бы, чтобы сервера выдавали корректные
даты изменения файлов, чего не происходит более чем
в 20 процентов случаев.
Yandex.Ru является полнотекстовой
поисковой машиной. Это значит, что в индекс попадают
все слова текста на странице, видимые пользователю (то
есть кроме комментариев и слов внутри тэгов). В ближайшее
время планируется начать индексировать Meta-keywords.
Как узнать, проиндексирован
ли ресурс
Чтобы проверить, проиндексирована
ли Ваша страница, достаточно скопировать из нее какую-нибудь
характерную строчку, желательно подлиннее (копирайт,
адрес, название и описание), и задать ее как запрос
в Yandex. Если на первой странице списка найденного
Вашей страницы не оказалось, значит, она еще не проиндексирована.
Тогда стоит проверить, есть ли она уже в базе робота.
Для этого надо пойти на страницу AddURL ( http://yandex.ru/addurl.html
) и попробовать добавить адрес еще раз. Если Вы получили
ответ, что страница уже содержится в базе робота, это
значит, что она будет проиндексирована в ближайшее время.
Если же Вы получили ответ, что страница добавлена, это
значит, что в первый раз при добавлении что-то было
сделано неверно - возможно, Вы не обратили внимание
на диагностику, которая Вам была выдана.
Правила по добавлению
URL в поисковую машину Yandex.Ru:
Добавляйте истинный адрес Вашей
страницы
Создайте файл robots.txt, если Вы хотите закрыть какие-то
разделы от индексирования.
Смотрите на ответ, который выдает Вам программа AddURL
и, при необходимости, пишите письмо на addurl@yandex.ru
(учтите, что запись URL чуствительна к регистру шрифта).
Конфигурируйте сервер так. чтобы он корректно выдавал
даты файлов и кодировки русского языка.
Добавляйте верхнюю страницу Вашего сервера - остальные
Yandex найдет сам по ссылкам.
Если Ваша страница была проиндексирована, а затем Вы
изменили ее содержание или удалили ее, не беспокойтесь
- робот автоматически обойдет ее снова и обновит индекс
(в случае, если страница больше не существует, она будет
исключена из поиска).
Ресурс в системе описан неправильно. Как это исправить?
Мы часто получаем письма вроде "Я
не заносил в Вашу систему мой ресурс, и он описан неправильно.
Как мне исправить положение?" Вообще говоря, ресурс,
если он существует, не может быть занесен неправильно.
Если он секретный, запретите доступ к нему в robots.txt.
Если он не ищется по тем словам, по которым Вам бы хотелось,
или находится не в первых рядах, обратите внимание на
то, что, собственно, написано на страницах Вашего ресурса.
Yandex.Ru - полнотекстовая
поисковая машина, поэтому страницы будут находиться
по словам, написанных на них, а не по тем ключевым словам,
которыми Вы этот ресурс описали. Учтите также, что Yandex
работает только с текстами и не умеет распознавать графические
изображения. Поэтому, если название нарисовано, то стоит
его повторить где-нибудь просто текстом. Предложения
Yandex на тему "как сделать, чтобы Вашу страницу
нашли те, кому она нужна" описаны в "Советах
Web-мастеру" (http://yandex.ru/ya_advise.html).
Источник: New
Web-Masters Club
|