INCLUDE_DATA
Mar
15

Поисковые системы для отображения серпа использую индексную базу. Так вот, чтобы Ваш сайт или страница попали в эту базу необходимо, чтобы робот поисковика его или ее проиндексировал. Как они работают и какую роль выполняют Вы узнаете из этой статьи…

Робот aka Crawler (Кроулер) или Spider (Паук) представляет из себя программный модуль, который обладает базовыми функциями, необходимыми для просмотра и индексации страниц. У него нет функции для распознания фрэймов, флэш элементов, он не “видит” картинок и редко понимает, что такое Java скрипт. Вродя по страницы, робот анализирует видимый текст, а так же содержание в коде тэгов (таких как Title, Meta тэги, парные тэги <h1><h2>…<strong>). Исходя из этого поисковик принимает решение, о чем Ваша страница. Далее паук старается перейти по всем ссылкам, которые есть на ней, и “оценить” страницы или же, если они уже есть в базе, переиндексировать их.

Таким образом, даже если Вы не подавали запрос на индексацию вашего сайта у поисковика, вероятность индексации очень большая, т.к. очередной раз проходя по ссылкам, робот найдет вашу и добавит ее в очередь индексации. Это лишь вопрос времени. Есть еще много способов, которыми пауки узнают о существование страниц, например, утилита Google Toolbar, определяющая PR текущей страницы, может оставить “заметку” о том, что этот сайт еще не проиндексирован (ведь она определит, что PR страницы равен 0, а как мы уже обговорили в статье про PageRank - любая проиндексированая страница имеет свой вес!).

После того, как паук пробежался по вашему сайту, индексы добавляются в базу данных поисковика и становятся доступны для отображения в серпе. А вот теперь представьте, что робот проиндексировал страницы с каким нибудь содержанием, она стала отображатся в серпе, а Вы вдруг передумали и изменили тематику сайта, закосив при этом старые страницы. Что же будет в этом случае? Люди будут ошибочно заходить на Ваш сайт по старой индексации? Не переживайте, все обдумано и продумано :) . Поисковые роботы с каким-то определенным интервалом обходит сайт и, в случае его обновления, перестраивает таблицу индексов. Так же следует иметь ввиду, что есть причины, по которым паук не сможет проиндексировать сайт. Как я уже сказал, они очень плохо дружат с Java скриптами, поэтому если навигация на сайте выполнена с помощью них - это может сильно затруднить индексацию. Или же в момент индексации Ваш сайт был недоступен, он сильно долго грузится и т.д. Конечно же, робот вернется через некоторое время, чтобы повторить попытку, но лучше “помочь” ему. Хороший прием для улучшения индексации сайта - карта сайта, сделаная специально для поисковика (Вы можете посмотреть карту этого сайта, нажав на ссылку Google Sitemap). Она помогает роботу обнаружить страницы сайта и построить индексы, т.к. в ней каждой странице соответствует свой приоритет.

Весь этот процесс было бы глупо поручить одному пауку! Поэтому, в составе поисковой системы несколько роботов, и каждый выполняет свою функцию - первый индексирует новые страницы, другие проверяют старые на обновление, третьи - проверяют страницы на идентичность, и в случае обнаружения склеивают их (подробней об этом читайте в статье про склеивание страниц и сайтов).

А как же быть, если Вы не хотите индексировать какие-либо страницы? Да очень просто, существует много способов запрета индексации (тэги <noindex></noindex>, мета тэги, файл запрета индексации robots.txt).

Из этой статьи следует сделать вывод, что роботы поисковых систем выполняют важную роль в индексации сайта и не стоит препятствовать их работе, а по возможности, предоставить им условия для корректной и более качественной индексации.

1 комментарий

Написать комментарий

Никто не оставил ни одного комментария :(

RSS фид комментариев   TrackBack URL

Написать комментарий


:haha: :ooo: :dsadsad: :sd: :dsadasccc: :dsadas:



top