Что такое "поисковый робот"?

08 мар 05

Поисковый робот (робот поисковой системы - web-crawler, spider) является неотемлимой частью поисковой системы/машины (web search engine).

Он представляет собой программу со следующими основными функциями:
  • посещение страницы веб-узлов (сайтов);
  • индексация содержимого страниц.

Кроме содержимого страниц поисковый робот индексирует и найденные на страницах ссылки на другие веб-ресурсы (именно по-этому для рейтинга вашего сайта важно, чтобы на других веб-сайтах имелись ссылки на ваш ресурс).

Робот может возвращаться на сайт через определенный промежуток времени и заново проиндексировать содержимое сайта (для этого используется тег <meta name=" revisit-after" content="# days ">, где вместо решётки # указывается количество дней).
Полученная таким образом информация заносится в базу поисковой машины, из которой впоследствии выбирается информация по пользовательскому запросу.

Индекс поисковой системы - это база поисковой машины, которая хранит в себе информацию о проиндексированных поисковым роботом html-страниц, а также файлов других типов, расположенных в каталогах веб-сервера.

Поисковый робот руководствуется инструкциями, получаемыми из файла robots.txt, расположенного в корневом каталоге сайта.

Читайте далее — Основные поисковые роботы Рунета, Мировые поисковые машины

3849http://infonew.ru/crawlers/