Php файл проверка веса robots txt. User-agent — приветствие с роботом

Вам потребуется только указать нужный URL. После этого инструмент проверки обработает файл robots.txt так, как это сделал бы робот Googlebot, и определит, закрыт ли доступ к этому адресу.

Процедура проверки

  1. В Google Search Console выберите ваш сайт, перейдите к инструменту проверки и просмотрите содержание файла robots.txt . Синтаксические и логические ошибки в нем будут выделены, а их количество – указано под окном редактирования.
  2. Внизу на странице интерфейса укажите нужный URL в соответствующем окне.
  3. В раскрывающемся меню справа выберите робота .
  4. Нажмите кнопку ПРОВЕРИТЬ .
  5. Отобразится статус ДОСТУПЕН или НЕДОСТУПЕН . В первом случае роботы Google могут переходить по указанному вами адресу, а во втором – нет.
  6. При необходимости внесите изменения в меню и выполните проверку заново. Внимание! Эти исправления не будут автоматически внесены в файл robots.txt на вашем сайте.
  7. Скопируйте измененное содержание и добавьте его в файл robots.txt на вашем веб-сервере.

На что следует обратить внимание

  • Изменения, внесенные в редакторе, не сохраняются на веб-сервере. Необходимо скопировать полученный код и вставить его в файл robots.txt .
  • Инструмент проверки файла robots.txt предоставляет результаты только для агентов пользователя Google и роботов, относящихся к Google (например, для робота Googlebot) . Мы не можем гарантировать, что другие поисковые роботы будут так же интерпретировать содержание вашего файла.
  • это появление в поиске страниц, которые не несут никакой полезной информации для пользователя, и скорее всего пользователь на них все равно не зайдет, а если зайдет, то ненадолго.
  • это появление в поиске копий одной и той же страницы с разными адресами. (Дублирование контента)
  • это тратится драгоценное время на индексацию ненужных страниц поисковыми роботами. Поисковый робот вместо того чтобы заниматься нужным и полезным контентом будет тратить время на бесполезное блуждание по сайту. А так как роботы не индексируют весь сайт целиком и сразу (сайтов много и всем нужно уделить внимание), то важные страницы, которые Вы хотите увидеть в поиске, вы можете увидеть очень не скоро.

Было решено закрыть доступ для поисковых роботов к некоторым страницам сайта. В этом нам поможет файл robots.txt.

Зачем нужен robots.txt.

robots.txt – это обычный текстовый файл, в котором прописаны инструкции для поисковых роботов. Первое что делает поисковый робот при попадании на сайт, это ищет файл robots.txt. Если файл robots.txt не найден или он пустой, то поисковый робот будет бродить по всем доступным страницам и каталогам сайта (включая системные каталоги), в попытке проиндексировать содержимое. И не факт, что он проиндексирует нужную Вам страницу, если вообще доберется до нее.

С помощью robots.txt мы можем указать поисковым роботам, на какие страницы можно заходить и как часто, а куда ходить не стоит. Инструкции могут быть указаны, как для всех роботов, так и для каждого робота в отдельности. Страницы, которые закрыты от поисковых роботов, не будут появляться в поисковиках. Если этого файла нет, то его обязательно необходимо создать.

Файл robots.txt должен находиться на сервере, в корне вашего сайта. Файл robots.txt можно посмотреть на любом сайте в Интернет, для этого достаточно после адреса сайта добавить /robots.txt . Для сайта адрес, по которому можно посмотреть robots..txt.

Файл robots.txt , обычно у каждого сайта имеет свои особенности и бездумное копирование чужого файла, может создать проблемы с индексированием вашего сайта поисковыми роботами. Поэтому нужно четко понимать назначение файла robots.txt и назначение инструкций (директив), которые мы будем использовать, при его создании.

Директивы файла robots.txt.

Разберем основные инструкции (директивы), которые мы будем использовать при создании файла robots.txt.

User-agent: — указываем имя робота, для которого будут работать все нижеприведенные инструкции. Если инструкции нужно использовать для всех роботов, то в качестве имени используем * (звездочку)

Например:
User-agent:*
#инструкции действуют на всех поисковых роботов
User-agent: Yandex
#инструкции действуют только на поискового робота Яндекс

Имена самых популярных поисковиков Рунета это Googlebot (для Google) и Yandex (для Яндекса). Имена остальных поисковиков, если интересно, можно найти на просторах Интернет, но создавать для них отдельные правила, мне кажется, нет необходимости.

Disallow – запрещает для поисковых роботов доступ к некоторым частям сайта или сайту целиком.

Например:
Disallow /wp-includes/
#запрещает роботам доступ в wp-includes
Disallow /
# запрещает роботам доступ ко всему сайту.

Allow – разрешает для поисковых роботов доступ к некоторым частям сайта или сайту целиком.

Например:
Allow /wp-content/
#разрешает роботам доступ в wp-content
Allow /
#разрешает роботам доступ ко всему сайту.

Sitemap: — можно использовать для указания пути к файлу с описанием структуры вашего сайта (карты сайта). Она нужна для ускорения и улучшения индексации сайта поисковыми роботами.

Например:
.xml

Host: — Если у вашего сайта есть зеркала (копии сайта на другом домене)..сайт. С помощью файла Host можно указать главное зеркало сайта. В поиске будет участвовать только главное зеркало.

Например:
Host: сайт

Также можно использовать спецсимволы. * # и $
*(звездочка) – обозначает любую последовательность символов.

Например:
Disallow /wp-content*
#запрещает роботам доступ в /wp-content/plugins, /wp-content/themes и.т.д.

$(знак доллара) – По умолчанию в конце каждого правила предполагается наличие *(звездочка) чтобы отменить симовол *(звездочка) можно использовать символ $(знак доллара).

Например:
Disallow /example$
#запрещает роботам доступ в /example но не запрещает в /example.html

#(знак решетки) – можно использовать для комментариев в файле robots.txt

Подробнее с этими директивами, а также несколькими дополнительными, можно ознакомиться на сайте Яндекса.

Как написать robots.txt для WordPress.

Теперь приступим к созданию файла robots.txt. Так как наш блог работает на WordPress, то разберем процесс создания robots.txt для WordPress более подробно.

Вначале нужно определиться, что мы хотим разрешить поисковым роботам, а что запретить. Я для себя решил оставить только самое необходимое, это записи, страницы и разделы. Все остальное будем закрывать.

Какие папки есть в WordPress и что необходимо закрыть мы можем увидеть, если посмотрим в директорию нашего сайта. Я сделал это через панель управления хостингом на сайте reg.ru , и увидел следующую картину.

Разберемся с назначением каталогов и решим, что можно закрыть.

/cgi-bin (каталог скриптов на сервере – в поиске он нам не нужен.)

/files (каталог с файлами для загрузки. Здесь, например, лежит архивный файл с таблицей Excel для подсчета прибыли, о которой я писал в статье « «. В поиске этот каталог нам не нужен.)

/playlist(этот каталог я сделал для себя, для плейлистов на IPTV – в поиске не нужен.)

/test (этот каталог я создал для экспериментов, в поиске этот каталог не нужен)

/wp-admin/ (админка WordPress, в поиске она нам не нужна)

/wp-includes/ (системная папка от WordPress, в поиске она нам не нужна)

/wp-content/ (из этого каталога нам нужен только /wp-content/uploads/ в этом каталоге находятся картинки с сайта, поэтому каталог /wp-content/ мы запретим, а каталог с картинками разрешим отдельной инструкцией.)

Также нам не нужны в поиске следующие адреса:

Архивы – адреса вида //сайт/2013/ и похожие.

Метки — в адресе меток содержится /tag/

RSS фиды — в адресе всех фидов есть /feed

На всякий случай закрою адреса с PHP на конце так, как многие страницы доступны, как с PHP на конце, так и без. Это, как мне кажется, позволит избежать дублирования страниц в поиске.

Также закрою адреса с /GOTO/ я их использую для перехода по внешним ссылкам, в поиске им точно делать нечего.

P=209 и поиск по сайту //сайт/?s=, а также комментарии (адреса в которых содержится /?replytocom=)

А вот что у нас должно остаться:

/images (в этот каталог я закидываю некоторые картинки, пускай этот каталог роботы посещают)

/wp-content/uploads/ — содержит картинки от сайта.

Статьи, страницы и разделы, которые содержат понятные, читаемые адреса.
Например: или

А теперь придумаем инструкции для robots.txt. Вот, что у меня получилось:

#Указываем, что эти инструкции будут выполнять все роботы
User-agent: *

#Разрешаем роботам бродить по каталогу uploads.
Allow: /wp-content/uploads/

#Запрещаем папку со скриптами
Disallow: /cgi-bin/

#Запрещаем папку files
Disallow: /files/

#Запрещаем папку playlist
Disallow: /playlist/

#Запрещаем папку test
Disallow: /test/

#Запрещаем все, что начинается с /wp- , это позволит закрыть сразу несколько папок, имена которых начинаются с /wp- , эта команда вполне может помешать индексации страниц или записей которые начинаются с /wp-, но давать таких имен я не планирую.
Disallow: /wp-*

#Запрещаем адреса, в которых содержится /?p= и /?s=. Это короткие ссылки и поиск.
Disallow: /?p=
Disallow: /?s=

#Запрещаем все архивы до 2099 года.
Disallow: /20

#Запрещаем адреса с расширением PHP на конце.
Disallow: /*.php

#Запрещаем адреса, которые содержат /goto/. Можно было не прописывать, но на всякий случай вставлю.
Disallow: /goto/

#Запрещаем адреса меток
Disallow: /tag/

#Запрещаем все фиды.
Disallow: */feed

#Запрещаем индексацию комментариев.
Disallow: /?replytocom=

#Ну и напоследок прописываем путь к нашей карте сайта.
.xml

Написать файл robots.txt для WordPress можно с помощью обычного блокнота. Создадим файл и запишем в него следующие строки.

User-agent: *
Allow: /wp-content/uploads/
Disallow: /cgi-bin/
Disallow: /files/
Disallow: /playlist/
Disallow: /test/
Disallow: /wp-*
Disallow: /?p=
Disallow: /?s=
Disallow: /20
Disallow: /*.php
Disallow: /goto/
Disallow: /tag/
Disallow: /author/
Disallow: */feed
Disallow: /?replytocom=
.xml

Вначале я планировал сделать один общий блок правил для всех роботов, но Яндекс работать с общим блоком отказался. Пришлось сделать для Яндекса отдельный блок правил. Для этого просто скопировал общие правила, изменил имя робота и указал роботу главное зеркало сайта, с помощью директивы Host.

User-agent: Yandex
Allow: /wp-content/uploads/
Disallow: /cgi-bin/
Disallow: /files/
Disallow: /playlist/
Disallow: /test/
Disallow: /wp-*
Disallow: /?p=
Disallow: /?s=
Disallow: /20
Disallow: /*.php
Disallow: /goto/
Disallow: /tag/
Disallow: /author/
Disallow: */feed
Disallow: /?replytocom=
.xml
Host: сайт

Указать главное зеркало сайта можно также через , в разделе «Главное зеркало»

Теперь, когда файл robots.txt для WordPress создан, нам его необходимо загрузить на сервер, в корневой каталог нашего сайта. Это можно сделать любым удобным для Вас способом.
Также для создания и редактирования robots.txt можно воспользоваться плагином WordPress SEO. Подробнее об этом полезном плагине я напишу позже. В этом случае файл robots.txt на рабочем столе можно не создавать, а просто вставить код файла robots.txt в соответствующий раздел плагина.

Как проверить robots.txt

Теперь, когда мы создали файл robots.txt, его нужно проверить. Для этого заходим в панель управления Яндекс.Вебмастер. Далее заходим в раздел “Настройка индексирования”, а далее “анализ robots.txt” . Здесь нажимаем кнопку «Загрузить robots.txt с сайта», после этого в соответствующем окне должно появиться содержимое вашего robots.txt.

Затем нажимаем «добавить» и в появившемся окне вводим различные url с вашего сайта, которые вы хотите проверить. Я ввел несколько адресов, которые должны быть запрещены и несколько адресов, которые должны быть разрешены.

Нажимаем кнопку «Проверить», после этого Яндекс выдаст нам результаты проверки файла robots.txt. Как видим, наш файл проверку удачно прошел. То, что должно быть запрещено для поисковых роботов, у нас запрещено. То, что должно быть разрешено, у нас разрешено.

Такую же проверку можно провести для робота Google, через GoogleWebmaster, но она не сильно отличается от проверки через Яндекс, поэтому я ее описывать не буду.

Вот и все. Мы создали robots.txt для WordPress и он отлично работает. Остается только иногда поглядывать за поведением поисковых роботов на нашем сайте. Чтобы вовремя заметить ошибку и в случае необходимости внести изменения в файл robots.txt. Страницы которые были исключены из индекса и причину исключения можно посмотреть в соответствующем разделе Яндекс.ВебМастер (или GoogleWebmaster).

Удачных Инвестиций и успехов во всех ваших делах.

Привет уважаемые читатели! Свою сегодняшнюю статью мне бы хотелось посвятить важному и крайне необходимому файлу robots.txt .

Я постараюсь максимально подробно, а главное понятно рассказать, какую в себе функцию несет это файл и как его правильно составить для wordpress блогов.

Дело в том, что каждый второй начинающий блоггер совершает одну и ту же ошибку, он не придает особого значения этому файлу, как из-за своей неграмотности, так и непонимания той роли, ради которой он создается.

Разберем сегодня следующие вопросы:

  • Зачем нужен файл роботс на сайте;
  • Как создать robots.txt;
  • Пример правильного файла;
  • Проверка robots в Яндекс Вебмастер.

Для чего служит файл robots.txt

Я для создания своего блога решил использовать движок WordPress, так как он очень удобный, простой и многофункциональный.

Однако не бывает чего-то одного идеального. Дело в том, что эта cms устроена таким образом, что при написании статьи происходит ее автоматическое дублирование в архивах, рубриках, результатах поиска по сайту, .

Получается, что ваша одна статья будет иметь несколько точных копий на сайте, но с различными url-адресами.

В итоге вы сами того не желая, заполняете проект не уникальным контентом, а за такой дублированный материал поисковые системы по головке не погладят и в скором времени загонят его под фильтры: от Яндекс или от Google.

Лично я в этом убедился на своем собственном примере.

Когда я только начинал вести этот блог естественно я не имел никакого понятия о том, что есть какой-то там файл роботс, а тем более понятия каким он должен быть и что в него надо записывать.

Для меня было самым главным это побольше написать статей, чтобы в будущем с них продать ссылки в бирже . Хотелось быстрых денег, но не тут-то было...

Мной было написано около 70 статей, однако в панели Яндекс Вебмастер показывалось, что роботы поиска проиндексировали 275.

Конечно, я подозревал, что не может быть так все хорошо, однако никаких действий не предпринял, плюс добавил блог в биржу ссылок sape.ru и стал получать 5 р . в сутки.

А уже через месяц на мой проект был наложен , из индекса выпали все страницы и тем самым прикрылась моя доходная лавочка.

Поэтому вам нужно указать роботам поисковых систем, какие страницы, файлы, папки и др. необходимо индексировать, а какие обходить стороной.

Robots.txt — файл, который дает команду поисковым машинам, что на блоге можно индексировать, а что нет.

Этот файл создается в обычном текстовом редакторе (блокноте) с расширением txt и располагается в корне ресурса.

В файле robots.txt можно указать:

  • Какие страницы, файлы или папки необходимо исключить из индексации;
  • Каким поисковым машинам полностью запретить индексировать проект;
  • Указать путь к файлу sitemap.xml (карте сайта);
  • Определить основное и дополнительное зеркало сайта (с www или без www);

Что содержится в robots.txt — список команд

Итак, сейчас мы приступаем к самому сложному и важному моменту, будем разбирать основные команды и директивы, которые можно прописывать в фале роботс wordpress площадок.

1) User-agent

В этой директиве вы указываете, какому именно поисковику будут адресованы нижеприведенные правила (команды).

Например, если вы хотите, чтобы все правила были адресованы конкретно сервису Яндекс, тогда прописывает:

User-agent: Yandex

Если необходимо задать обращение абсолютно всем поисковым системам, тогда прописываем звездочку «*» результат получится следующий:

User-agent: *

2) Disallow и Allow

Disallow — запрещает индексацию указанных разделов, папок или страниц блога;

Allow — соответственно разрешает индексацию данных разделов;

Сначала вам необходимо указывать директиву Allow, а только затем Disallow. Также запомните, что не должно быть пустых строк между этими директивами, как и после директивы User-agent. Иначе поисковый робот подумает, что указания на этом закончились.

Например, вы хотите полностью открыть индексацию сайта, тогда пишем так:

Allow: /

Disallow:

Если хотим наложить запрет на индексацию сайта Яндексу, тогда пишем следующее:

User-agent: Yandex
Disallow: /

Теперь давайте запретим индексировать файл rss.html , который находится в корне моего сайта.

Disallow: /rss.html

А вот как будет выглядеть этот запрет на файл, расположенный в папке «posumer» .

Disallow: /posumer/rss.html

Теперь давайте запретим директории, которые содержат дубли страниц и ненужный мусор. Это значит, что все файлы, находящиеся в этих папках не будут доступны роботам поисковиков.

Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/

Таким образом, вам нужно запретить роботам ходить по всем страницам, папкам и файлам, которые могут негативно повлиять на развитие сайта в будущем.

3) Host

Данная директива позволяет определить роботам поисковиков, какое зеркало сайта необходимо считать главным (с www или без www). Что в свою очередь убережет проект от полного дублирования и как результат спасет от наложения фильтра.

Вам необходимо прописать эту директиву, только для поисковой системы Яндекс, после Disallow и Allow.

Host: сайт

4) Sitemap

Этой командой вы указывает, где у вас расположена карта сайта в формате XML. Если кто-то еще не создал у себя на проекте XML карту сайта, я рекомендую воспользоваться моей статьей « », где все подробно расписано.

Здесь нам необходимо указать полный адреса до карт сайта в формате xml.

Sitemap: https://сайт/sitemap.xml

Посмотрите коротенькое видео, которое очень доходчиво объяснит принцип работы файла robots.txt.

Пример правильного файла

Вам необязательно знать все тонкости настройки файла robots, а достаточно посмотреть, как его составляют другие вебмастера и повторить все действия за ними.

Мой блог сайт отлично индексируется поисковиками и в индексе нет никаких дублей и прочего мусорного материала.

Вот какой файл использован на этом проекте:

User- agent: * Disallow: / wp- Host: seoslim. ru Sitemap: https: //сайт/sitemap.xml User- agent: Googlebot- Image Allow: / wp- content/ uploads/ User- agent: YandexImages Allow: / wp- content/ uploads/

User-agent: * Disallow: /wp- Host: сайт.xml User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/

Если хотите, можете использовать в качестве примера именно его, только не забудьте изменить имя моего сайта на свой.

Теперь давайте поясню, что нам даст именно такой роботс. Дело в том, что если вы будите запрещать в этом файле какие-то страницы с помощью вышеописанных директив, то роботы поисковиков все равно из заберут в индекс, в основном это касается Google.

Если ПС начать запрещать что-то, то он наоборот это обязательно проиндексирует, так на всякий случай. Поэтому мы должны поисковикам наоборот разрешить индексацию всех страниц и файлов площадки, а уже запрещать ненужные нам страницы (пагинацию, дубли реплитоком и прочий мусор) вот такими командами метатегами:

< meta name= "robots" content= "noindex,follow" />

Первым делом к файлу.htaccess добавляем следующие строки:

RewriteRule (.+ ) / feed / $1 [ R= 301 , L] RewriteRule (.+ ) / comment- page / $1 [ R= 301 , L] RewriteRule (.+ ) / trackback / $1 [ R= 301 , L] RewriteRule (.+ ) / comments / $1 [ R= 301 , L] RewriteRule (.+ ) / attachment / $1 [ R= 301 , L] RewriteCond % { QUERY_STRING} ^attachment_id= [ NC] RewriteRule (.* ) $1 ? [ R= 301 , L]

RewriteRule (.+)/feed /$1 RewriteRule (.+)/comment-page /$1 RewriteRule (.+)/trackback /$1 RewriteRule (.+)/comments /$1 RewriteRule (.+)/attachment /$1 RewriteCond %{QUERY_STRING} ^attachment_id= RewriteRule (.*) $1?

Тем самым мы настроили редирект с дублей страниц (feed, comment-page, trackback, comments, attachment) на оригинальные статьи.

Этот файл расположен в корне вашего сайте и должен выглядеть примерно таким образом:

# BEGIN WordPress < IfModule mod_rewrite. c> RewriteEngine On RewriteBase / RewriteCond % { QUERY_STRING} ^replytocom= [ NC] RewriteRule (.* ) $1 ? [ R= 301 , L] RewriteRule (.+ ) / feed / $1 [ R= 301 , L] RewriteRule (.+ ) / comment- page / $1 [ R= 301 , L] RewriteRule (.+ ) / trackback / $1 [ R= 301 , L] RewriteRule (.+ ) / comments / $1 [ R= 301 , L] RewriteRule (.+ ) / attachment / $1 [ R= 301 , L] RewriteCond % { QUERY_STRING} ^attachment_id= [ NC] RewriteRule (.* ) $1 ? [ R= 301 , L] RewriteRule ^index\. php$ - [ L] RewriteCond % { REQUEST_FILENAME} !- f RewriteCond % { REQUEST_FILENAME} !- d RewriteRule . / index. php [ L] # END WordPress

# BEGIN WordPress RewriteEngine On RewriteBase / RewriteCond %{QUERY_STRING} ^replytocom= RewriteRule (.*) $1? RewriteRule (.+)/feed /$1 RewriteRule (.+)/comment-page /$1 RewriteRule (.+)/trackback /$1 RewriteRule (.+)/comments /$1 RewriteRule (.+)/attachment /$1 RewriteCond %{QUERY_STRING} ^attachment_id= RewriteRule (.*) $1? RewriteRule ^index\.php$ - [L] RewriteCond %{REQUEST_FILENAME} !-f RewriteCond %{REQUEST_FILENAME} !-d RewriteRule . /index.php [L] # END WordPress

/*** Закрываем от индексации с помощью noindex, nofollow страницы пагинации ***/ function my_meta_noindex () { if ( is_paged() // Указывать на все страницы пагинации ) { echo "" . "" . "\n " ; } } add_action("wp_head" , "my_meta_noindex" , 3 ) ; // добавляем команду noindex,nofollow в head шаблона

/*** Закрываем от индексации с помощью noindex, nofollow страницы пагинации ***/ function my_meta_noindex () { if (is_paged() // Указывать на все страницы пагинации) {echo "".""."\n";} } add_action("wp_head", "my_meta_noindex", 3); // добавляем команду noindex,nofollow в head шаблона

Для того чтобы закрыть категории, архивы, метки переходим в настройки плагина All in One Seo Pack и отмечаем все как на скриншоте:

Все настройки сделаны, теперь ждите пока ваш сайт переиндексируется, чтобы дубли выпали из выдачи, а трафик пошел в верх.

Для того чтобы очистить выдачу от соплей, нам пришлось разрешить файлом robots индексировать мусорные страницы, но когда роботы ПС будут на них попадать, то там они увидят метатеги noindex и не заберут их к себе в индекс.

Проверка роботс в Яндекс Вебмастер

После того, как вы правильно составили файл robots.txt и закинули его в корень сайта, можно выполнить простую проверку его работоспособности в панели Вебмастер.

Для этого переходим в панель Яндекс Вебмастер по этой ссылке

Заключение

В завершении поста хочу сказать, что если вы сделаете какие-либо изменения в фале robots.txt, то они вступят в силу только через несколько месяцев.

Для того чтобы алгоритмы поисковиков приняли решение об исключении какой-то страницы им нужно обдуманное решение — не принимает же он их туда просто так.

Хочу, чтобы вы отнеслись серьезно к созданию данного файла, так как от него будет зависеть дальнейшая судьба площадки.

Если есть какие-либо вопросы давайте их вместе решать. Оставьте комментарий и он никогда не останется без ответа. До скорой встречи!

И вновь приветствую! В продолжение я бы хотел озвучить такой аспект, как проверка прав доступа поисковых роботов к страницам сайта. Иными словами имеет ли право поисковый бот индексировать страницу и размещать ее в результатах поиска.

Для чего это нужно и где может пригодиться? Главное практическое применение — проверка директив , закрывающих доступ к разделам или отдельным страницам сайта, т.е. идет проверка разрешено индексировать страницу или нет . Кроме robots могут применяться и другие методы для ограничения доступа, например.htaccess, мета-тег noindex.

Иногда так случается, что начинающий автор блога или администратор сайта не до конца разобрался с составлением роботса и не уверен все ли правильно он сделал — на помощь приходят удобные инструменты для проверки. Давайте разберемся на примерах, а в качестве этих инструментов сегодня выступают Анализ robots.txt и Просмотреть как Googlebot в Яндекс и Гугле соответственно.

Анализ robots.txt в Яндекс

Для проверки доступа робота Яндекса к странице следует пользоваться инструментом под названием Анализ robots.txt из панели Яндекс Вебмастер. Найти его можно по ссылке на главной странице панели ЯВ.

В поле Имя хоста требуется вставить адрес главной страницы и нажать на кнопку Загрузить robots.txt с сайта, после чего содержимое файла будет отображено в текстовом поле ниже. Следующий шаг — добавляем Список URL — по одному адресу на строку и нажимаем на кнопку проверить. Еще ниже появится результат проверки URL — разрешен или запрещен доступ. Таким образом можно проверить правильно ли обрабатываются директивы роботса и все ли лишние страницы закрыты от индексации.

Просмотреть как Googlebot

Для проверки доступа робота Google к страницам воспользуемся аналогичным инструментом из панели для вебмастеров , который называется Просмотреть как Googlebot . В текстовом поле вставляем адрес страницы, выбираем тип поискового бота и нажимаем на кнопку Получить содержание. Через несколько секунд запрос будет обработан и указан статус получения — успешно или запрещено в файле robots.txt. Существует ограничение на просмотр страниц: 500 адресов на каждые десять дней.

Относительно недавно появилась функция Отправить в индекс — страницу которую отправили на проверку можно отправить на индексацию. При переходе по соответствующей ссылке откроется окно с правом выбора, состоящим из двух вариантов: отправить на индексирование только данный URL или URL и все связанные страницы.