Cum se înregistrează un fișier txt roboți. roboți Yandex

Indexarea corectă a paginilor site-ului în motoarele de căutare este una dintre sarcinile importante cu care se confruntă proprietarul resursei. Includerea paginilor inutile în index poate duce la retrogradarea documentelor în rezultatele căutării. Pentru a rezolva astfel de probleme, consorțiul W3C a adoptat standardul de excepție pentru roboți la 30 ianuarie 1994 - robots.txt.

Ce este Robots.txt?

Robots.txt este un fișier text de pe site care conține instrucțiuni pentru roboți care pagini sunt permise pentru indexare și care nu. Dar acestea nu sunt instrucțiuni directe pentru motoarele de căutare; mai degrabă, instrucțiunile sunt de natură consultativă, de exemplu, după cum scrie Google, dacă există link-uri externe către site, pagina va fi indexată.

În ilustrație puteți vedea indexarea unei resurse fără fișierul Robots.txt și cu acesta.

Ce ar trebui blocat de la indexare:

  • paginile de servicii ale site-ului
  • documente duplicate
  • pagini cu date private
  • rezultatul căutării resurselor
  • sortarea paginilor
  • pagini de autentificare și înregistrare
  • comparații de produse

Cum se creează și se adaugă Robots.txt pe site?

Robots.txt este un fișier text simplu care poate fi creat în Notepad urmând sintaxa standard descrisă mai jos. Este necesar un singur astfel de fișier pentru un site.

Fișierul trebuie adăugat în directorul rădăcină al site-ului și trebuie să fie disponibil la: http://www.site.ru/robots.txt

Sintaxa fișierului Robots.txt

Instrucțiunile pentru roboții de căutare sunt specificate folosind directive cu diverși parametri.

Directiva utilizator-agent

Folosind această directivă, puteți specifica pentru ce robot motor de căutare vor fi specificate următoarele recomandări. Fișierul robots trebuie să înceapă cu această directivă. Există oficial 302 de astfel de roboți pe World Wide Web. Dar dacă nu doriți să îi enumerați pe toți, puteți folosi următoarea linie:

Unde * este un caracter special pentru a desemna orice robot.

Lista roboților de căutare populari:

  • Googlebot este robotul principal al Google;
  • YandexBot este principalul robot de indexare;
  • Googlebot-Image - robot de imagine;
  • YandexImages - robot de indexare Yandex.Images;
  • Yandex Metrika - robot Yandex.Metrica;
  • Yandex Market—Robot Yandex.Market;
  • Googlebot-Mobile este un indexator de versiuni mobile.

Directivele Disallow și Allow

Folosind aceste directive, puteți specifica ce secțiuni sau fișiere pot fi indexate și care nu.

Nu permiteți- directivă de interzicere a indexării documentelor pe resursă. Sintaxa directivei este următoarea:

Nu permiteți: /site/

În acest exemplu, toate paginile din secțiunea site.ru/site/ au fost blocate de la indexarea de către motoarele de căutare.

Notă: Dacă această directivă este specificată goală, înseamnă că întregul site este deschis pentru indexare. Dacă specificați Nu permite: /- acest lucru va bloca indexarea întregului site.

  • Pentru a interzice un folder de site, specificați următoarele:
    Nu permiteți: /folder/
  • Pentru a interzice un singur fișier, trebuie să scrieți:
    Nu permiteți: /folder/img.jpg
  • Dacă doriți să restricționați fișierele cu o anumită rezoluție:
    Nu permiteți: /*.css$
  • Allow, dimpotrivă, este o instrucțiune permisivă pentru indexare.
    Agent utilizator: *
    Permite: /site
    Nu permite: /

    Această instrucțiune interzice indexarea întregului site, cu excepția folderului site-ului.

Directiva Sitemap

Dacă site-ul are un fișier sitemap.xml care descrie structura site-ului, calea către acesta poate fi specificată în robots.txt folosind directiva Sitemap. Dacă există mai multe astfel de fișiere, le puteți lista în roboți:

Agent utilizator: *
Nu permiteți: /site/
Permite: /
Harta site-ului: http://site.com/sitemap1.xml
Harta site-ului: http://site.com/sitemap2.xml

Directiva poate fi specificată în oricare dintre instrucțiunile pentru orice robot.

Directiva gazdă

Gazdă este o instrucțiune directă pentru robotul Yandex pentru a indica oglinda principală a site-ului. Această directivă este necesară dacă site-ul are mai multe domenii prin care este accesibil. Trebuie să specificați Gazdă în secțiunea pentru roboții Yandex:

Agent utilizator: Yandex
Nu permiteți: /site/
Gazdă: site.ru

Notă: Dacă oglinda principală a site-ului este un domeniu cu protocolul https, atunci acesta trebuie specificat în roboți în acest fel:
Gazdă: https://site.ru.

La roboți, directiva Gazdă este luată în considerare o singură dată. Dacă în fișier există 2 directive HOST, atunci roboții Yandex o vor lua în considerare numai pe prima.

Directiva Clean-param

Clean-param face posibilă interzicerea indexării paginilor site-ului care sunt generate cu parametri dinamici. Astfel de pagini pot conține același conținut, care va fi duplicat pentru motoarele de căutare și poate duce la un clasament mai scăzut al site-ului.

Directiva Clean-param are următoarea sintaxă:

Clean-param : p1[&p2&p3&p4&..&pn] [Cale către pagini dinamice]

Să ne uităm la un exemplu: site-ul are pagini dinamice:

  • https://site.ru/promo-odezhda/polo.html?kol_from=&price_to=&color=7
  • https://site.ru/promo-odezhda/polo.html?kol_from=100&price_to=&color=7

Pentru a exclude astfel de pagini din index, ar trebui să setați directiva după cum urmează:

Clean-param : kol_from1&price_to2&pcolor /polo.html # numai pentru polo.html
sau
Clean-param : kol_from1&price_to2&pcolor / # pentru toate paginile site-ului

Directiva privind întârzierea cu crawler

Dacă roboții motoarelor de căutare vizitează o resursă prea des, acest lucru poate afecta încărcarea de pe server (acest lucru este important pentru resursele cu un număr mare de pagini). Pentru a reduce sarcina pe server, puteți utiliza directiva Crawl-delay.

Parametrul pentru Crawl-delay este timpul în secunde, care le spune roboților că paginile trebuie descărcate de pe site nu mai mult de o dată în perioada specificată.

Exemplu de utilizare a directivei Crawl-delay:

Agent utilizator: *
Nu permiteți: /site
Întârziere crawler: 4

Caracteristicile fișierului Robots.txt

  • Toate directivele sunt specificate pe o linie nouă, iar directivele nu trebuie listate pe aceeași linie
  • Directiva nu trebuie să fie precedată de alte caractere ( inclusiv spațiul)
  • Parametrii directivei trebuie specificați pe o singură linie
  • Regulile în roboți sunt indicate în următoarea formă: [DirectiveName]:[spațiu opțional][valoare][spațiu opțional]
  • Parametrii nu trebuie să fie specificați între ghilimele sau alte caractere
  • Nu ar trebui să folosiți „;” după directive.
  • O linie goală este interpretată ca sfârșitul directivei User-agent; dacă nu există nicio linie goală înainte de următorul User-agent, atunci poate fi ignorată
  • În roboți, puteți specifica comentarii după semnul hash # (chiar dacă comentariul este mutat pe linia următoare, ar trebui să puneți și un # pe linia următoare)
  • Robots.txt nu face distincție între majuscule și minuscule
  • Dacă fișierul roboți cântărește mai mult de 32 KB sau, dintr-un motiv oarecare, este inaccesibil sau gol, atunci este perceput ca Disallow: (totul poate fi indexat)
  • În directivele „Allow” și „Disallow”, puteți specifica doar 1 parametru
  • În directivele „Allow” și „Disallow”, parametrul directorului site-ului este indicat cu o bară oblică (de exemplu, Disallow: /site)
  • Utilizarea alfabetului chirilic la roboți nu este permisă

Caractere speciale Robots.txt

Când specificați parametrii în directivele Disallow și Allow, este permisă utilizarea caracterelor speciale * și $ pentru a specifica expresii regulate. Simbolul * înseamnă orice succesiune de caractere (chiar goală).

Exemplu de utilizare:

Agent utilizator: *
Nu permite: /store/* .php # nu permite „/store/ex.php” și „/store/test/ex1.php”
Disallow: /* tpl # nu permite nu numai „/tpl”, ci și „/tpl/user”

În mod implicit, fiecare instrucțiune din roboți are un caracter special * la sfârșit. Pentru a anula un * la sfârșit, utilizați caracterul special $ (dar nu poate anula un * plasat în mod explicit la sfârșit).

Exemplu de utilizare a $:

Agent utilizator: *
Nu permiteți: /site$ # nu este permis pentru indexarea „/site”, dar nu este permis pentru „/ex.css”
Agent utilizator: *
Nu permiteți: /site # atât „/site” cât și „/site.css” nu sunt permise pentru indexare
Agent utilizator: *
Nu permiteți: /site$ # numai „/site” este interzisă de indexare
Disallow: /site*$ # la fel ca „Disallow: /site” nu permite atât /site.css, cât și /site

Caracteristici de configurare robots.txt pentru Yandex

Singura particularitate a instalării roboților pentru Yandex este prezența directorului Gazdă în instrucțiuni. Să ne uităm la roboții corecti folosind un exemplu:

Agent utilizator: Yandex
Nu permiteți: /site
Nu permiteți: /admin
Nu permiteți: /utilizatori
Nu permiteți: */șabloane
Nu permite: */css
Gazdă: www.site.com

În acest caz, directiva Gazdă indică roboților Yandex că oglinda principală a site-ului este www.site.com (dar această directivă este de natură consultativă).

Caracteristici de configurare robots.txt pentru Google

Pentru Google, singura particularitate este că compania însăși recomandă să nu ascunde fișierele cu stiluri CSS și scripturi JS de la roboții de căutare. În acest caz, robotul va arăta astfel:

Agent utilizator: Googlebot
Nu permiteți: /site
Nu permiteți: /admin
Nu permiteți: /utilizatori
Nu permiteți: */șabloane
Permite: *.css
Permite: *.js
Gazdă: www.site.com

Folosind directivele Allow, foile de stil și scripturile sunt disponibile roboților Google; acestea nu vor fi indexate de motorul de căutare.

Verificarea dacă roboții sunt configurați corect

Puteți verifica robots.txt pentru erori folosind instrumentul din panoul Yandex.Webmaster:


De asemenea, puteți utiliza acest instrument pentru a verifica dacă paginile sunt permise sau interzise pentru indexare:


Un alt instrument pentru verificarea corectitudinii roboților este „Instrumentul de verificare a fișierelor Robots.txt” din panoul Google Search Console:


Dar acest instrument este disponibil numai dacă site-ul este adăugat la panoul Google Webmaster.

Concluzie

Robots.txt este un instrument important pentru gestionarea indexării site-urilor de către motoarele de căutare. Este foarte important să-l ții la zi, și nu uita să deschizi documentele necesare pentru indexare și să închizi acele pagini care pot dăuna bunei ierarhii a resursei în rezultatele căutării.

Exemplu de configurare a roboților pentru WordPress

Robots.txt-ul corect pentru Wordpress ar trebui compilat în acest fel (nu trebuie să fie plasat tot ceea ce este specificat în comentarii):

Agent utilizator: Yandex



Gazdă: www.site.ru

Agent utilizator: Googlebot
Disallow: /cgi-bin # folder de servicii pentru stocarea scripturilor de server
Nu permiteți: /? # toți parametrii de solicitare pe pagina principală
Nu permiteți: /wp- # fișiere WP: /wp-json/, /wp-includes, /wp-content/plugins
Nu permiteți: **s= # rezultate de căutare
Nu permiteți: /căutare # rezultate de căutare
Nu permiteți: */page/ # pagini de paginare
Nu permiteți: /*print= # pagini de imprimat
Permite: *.css # deschide toate fișierele de stil
Permite: *.js # deschide totul cu scripturi js

Agent utilizator: *
Disallow: /cgi-bin # folder de servicii pentru stocarea scripturilor de server
Nu permiteți: /? # toți parametrii de solicitare pe pagina principală
Nu permiteți: /wp- # fișiere WP: /wp-json/, /wp-includes, /wp-content/plugins
Nu permiteți: **s= # rezultate de căutare
Nu permiteți: /căutare # rezultate de căutare
Nu permiteți: */page/ # pagini de paginare
Nu permiteți: /*print= # pagini de imprimat


Harta site-ului: http://site.ru/sitemap1.xml

Exemplu de configurare a roboților pentru Bitrix

Dacă site-ul rulează pe motorul Bitrix, pot apărea următoarele probleme:

  • intrarea în rezultatele unui număr mare de pagini de servicii;
  • indexarea paginilor duplicate ale site-ului.

Pentru a evita astfel de probleme care pot afecta poziția site-ului în rezultatele căutării, ar trebui să configurați corect fișierul robots.txt. Mai jos este un exemplu de robots.txt pentru CMS 1C-Bitrix:

Agent utilizator: Yandex
Nu permiteți: /personal/
Nu permiteți: /căutare/
Nu permiteți: /auth/
Nu permiteți: /bitrix/
Nu permiteți: /login/
Nu permiteți: /*?action=
Nu permiteți: /?mySort=
Nu permiteți: */filtru/
Nu permiteți: */clear/
Permite: /personal/coș/
GAZDA: https://site.ru

Agent utilizator: *
Nu permiteți: /personal/
Nu permiteți: /căutare/
Nu permiteți: /auth/
Nu permiteți: /bitrix/
Nu permiteți: /login/
Nu permiteți: /*?action=
Nu permiteți: /?mySort=
Nu permiteți: */filtru/
Nu permiteți: */clear/
Permite: /personal/coș/

Agent utilizator: Googlebot
Nu permiteți: /personal/
Nu permiteți: /căutare/
Nu permiteți: /auth/
Nu permiteți: /bitrix/
Nu permiteți: /login/
Nu permiteți: /*?action=
Nu permiteți: /?mySort=
Nu permiteți: */filtru/
Nu permiteți: */clear/
Permite: /bitrix/js/
Permite: /bitrix/şabloane/
Permite: /bitrix/tools/conversion/ajax_counter.php
Permite: /bitrix/components/main/
Permite: /bitrix/css/
Permite: /bitrix/templates/comfer/img/logo.png
Permite: /personal/coș/
Harta site-ului: https://site.ru/sitemap.xml

Exemplu de configurare a roboților pentru OpenCart

Robots.txt corect pentru OpenCart ar trebui să fie compus astfel:

Agent utilizator: Yandex
Nu permiteți: /*route=account/
Nu permiteți: /*route=afiliat/
Nu permiteți: /*route=checkout/
Nu permiteți: /index.php
Nu permiteți: /admin
Disallow: /catalog
Disallow: /descărcare
Nu permiteți: /export
Disallow: /system
Nu permiteți: /*?sort=
Nu permiteți: /*&sort=
Nu permiteți: /*?comanda=
Nu permiteți: /*&order=
Nu permite: /*?limit=
Nu permiteți: /*&limit=
Nu permiteți: /*?filter_name=
Nu permiteți: /*&filter_name=


Nu permiteți: /*?tracking=
Nu permiteți: /*&tracking=
Nu permite: /*?page=
Nu permiteți: /*&page=
Disallow: /listă de dorințe
Nu permite: /login
Gazdă: site.ru

Agent utilizator: Googlebot
Nu permiteți: /*route=account/
Nu permiteți: /*route=afiliat/
Nu permiteți: /*route=checkout/
Nu permiteți: /*route=product/search
Nu permiteți: /index.php
Nu permiteți: /admin
Disallow: /catalog
Disallow: /descărcare
Nu permiteți: /export
Disallow: /system
Nu permiteți: /*?sort=
Nu permiteți: /*&sort=
Nu permiteți: /*?comanda=
Nu permiteți: /*&order=
Nu permite: /*?limit=
Nu permiteți: /*&limit=
Nu permiteți: /*?filter_name=
Nu permiteți: /*&filter_name=
Nu permiteți: /*?filter_sub_category=
Nu permiteți: /*&filter_sub_category=
Nu permiteți: /*?filter_description=
Nu permiteți: /*&filter_description=
Nu permiteți: /*?tracking=
Nu permiteți: /*&tracking=
Nu permite: /*?page=
Nu permiteți: /*&page=
Disallow: /listă de dorințe
Nu permite: /login
Permite: *.css
Permite: *.js

Agent utilizator: *
Nu permiteți: /*route=account/
Nu permiteți: /*route=afiliat/
Nu permiteți: /*route=checkout/
Nu permiteți: /*route=product/search
Nu permiteți: /index.php
Nu permiteți: /admin
Disallow: /catalog
Disallow: /descărcare
Nu permiteți: /export
Disallow: /system
Nu permiteți: /*?sort=
Nu permiteți: /*&sort=
Nu permiteți: /*?comanda=
Nu permiteți: /*&order=
Nu permite: /*?limit=
Nu permiteți: /*&limit=
Nu permiteți: /*?filter_name=
Nu permiteți: /*&filter_name=
Nu permiteți: /*?filter_sub_category=
Nu permiteți: /*&filter_sub_category=
Nu permiteți: /*?filter_description=
Nu permiteți: /*&filter_description=
Nu permiteți: /*?tracking=
Nu permiteți: /*&tracking=
Nu permite: /*?page=
Nu permiteți: /*&page=
Disallow: /listă de dorințe
Nu permite: /login

Harta site-ului: http://site.ru/sitemap.xml

Exemplu de configurare a roboților pentru Umi.CMS

Robots.txt corect pentru Umi CMS ar trebui compilat în acest fel (nu ar trebui să existe nicio problemă cu paginile duplicate în acest caz):

Agent utilizator: Yandex
Nu permiteți: /?
Nu permiteți: /emarket/basket
Nu permiteți: /go_out.php
Nu permiteți: /imagini
Nu permiteți: /fișiere
Nu permiteți: /utilizatori
Nu permiteți: /admin
Nu permite: /căutare
Disallow: /install-temp
Disallow: /install-static
Nu permiteți: /install-libs
Gazdă: site.ru

Agent utilizator: Googlebot
Nu permiteți: /?
Nu permiteți: /emarket/addToCompare
Nu permiteți: /emarket/basket
Nu permiteți: /go_out.php
Nu permiteți: /imagini
Nu permiteți: /fișiere
Nu permiteți: /utilizatori
Nu permiteți: /admin
Nu permite: /căutare
Disallow: /install-temp
Disallow: /install-static
Nu permiteți: /install-libs
Permite: *.css
Permite: *.js

Agent utilizator: *
Nu permiteți: /?
Nu permiteți: /emarket/addToCompare
Nu permiteți: /emarket/basket
Nu permiteți: /go_out.php
Nu permiteți: /imagini
Nu permiteți: /fișiere
Nu permiteți: /utilizatori
Nu permiteți: /admin
Nu permite: /căutare
Disallow: /install-temp
Disallow: /install-static
Nu permiteți: /install-libs

Harta site-ului: http://site.ru/sitemap.xml

Exemplu de configurare a roboților pentru Joomla

Robots.txt corect pentru Joomla ar trebui să fie compus astfel:

Agent utilizator: Yandex
Nu permiteți: /administrator/
Nu permiteți: /cache/
Nu permiteți: /components/
Nu permiteți: /component/
Nu permite: /include/
Disallow: /instalare/
Nu permiteți: /limba/
Nu permiteți: /biblioteci/
Nu permiteți: /media/
Nu permiteți: /module/
Nu permiteți: /plugins/
Nu permiteți: /șabloane/
Nu permiteți: /tmp/
Nu permiteți: /*?start=*
Nu permiteți: /xmlrpc/
Gazdă: www.site.ru

Agent utilizator: Googlebot
Nu permiteți: /administrator/
Nu permiteți: /cache/
Nu permiteți: /components/
Nu permiteți: /component/
Nu permite: /include/
Disallow: /instalare/
Nu permiteți: /limba/
Nu permiteți: /biblioteci/
Nu permiteți: /media/
Nu permiteți: /module/
Nu permiteți: /plugins/
Nu permiteți: /șabloane/
Nu permiteți: /tmp/
Nu permiteți: /*?start=*
Nu permiteți: /xmlrpc/
Permite: *.css
Permite: *.js

Agent utilizator: *
Nu permiteți: /administrator/
Nu permiteți: /cache/
Nu permiteți: /components/
Nu permiteți: /component/
Nu permite: /include/
Disallow: /instalare/
Nu permiteți: /limba/
Nu permiteți: /biblioteci/
Nu permiteți: /media/
Nu permiteți: /module/
Nu permiteți: /plugins/
Nu permiteți: /șabloane/
Nu permiteți: /tmp/
Nu permiteți: /*?start=*
Nu permiteți: /xmlrpc/

Harta site-ului: http://www.site.ru/sitemap.xml

Timp de citit: 7 minut(e)


Aproape fiecare proiect care vine la noi pentru audit sau promovare are un fișier robots.txt incorect și adesea lipsește cu totul. Acest lucru se întâmplă pentru că atunci când se creează un fișier, fiecare este ghidat de imaginația sa, și nu de reguli. Să ne dăm seama cum să compunem corect acest fișier, astfel încât roboții de căutare să lucreze cu el în mod eficient.

De ce trebuie să configurați robots.txt?

Robots.txt este un fișier situat în directorul rădăcină al unui site care le spune roboților motoarelor de căutare ce secțiuni și pagini ale site-ului pot accesa și pe care nu.

Configurarea robots.txt este o parte importantă în rezultatele motoarelor de căutare; roboții configurați corespunzător măresc și performanța site-ului. Lipsa Robots.txt nu va împiedica motoarele de căutare să acceseze cu crawlere și să indexeze site-ul dvs., dar dacă nu aveți acest fișier, este posibil să aveți două probleme:

    Robotul de căutare va citi întregul site, ceea ce va „submina” bugetul de crawling. Bugetul de accesare cu crawlere este numărul de pagini pe care un robot de căutare este capabil să le acceseze cu crawlere într-o anumită perioadă de timp.

    Fără un fișier roboți, motorul de căutare va avea acces la pagini nefinalizate și ascunse, la sute de pagini folosite pentru administrarea CMS-ului. Le va indexa, iar când vine vorba de paginile necesare care oferă conținut direct pentru vizitatori, bugetul de crawling se va „epuiza”.

    Indexul poate include pagina de conectare a site-ului și alte resurse de administrator, astfel încât un atacator le poate urmări cu ușurință și poate efectua un atac ddos ​​sau hack site-ul.

Cum văd roboții de căutare un site cu și fără robots.txt:


Sintaxa Robots.txt

Înainte de a începe să înțelegem sintaxa și să setăm robots.txt, să ne uităm la cum ar trebui să arate „fișierul ideal”:


Dar nu ar trebui să-l folosești imediat. Fiecare site necesită cel mai adesea propriile setări, deoarece toți avem o structură diferită a site-ului și un CMS diferit. Să ne uităm la fiecare directivă în ordine.

Agent utilizator

User-agent - definește un robot de căutare care trebuie să urmeze instrucțiunile descrise în fișier. Dacă trebuie să vă adresați tuturor simultan, utilizați pictograma *. De asemenea, puteți contacta un anumit robot de căutare. De exemplu, Yandex și Google:


Folosind această directivă, robotul înțelege ce fișiere și foldere nu pot fi indexate. Dacă doriți ca întregul dvs. site să fie deschis pentru indexare, lăsați necompletat valoarea Disallow. Pentru a ascunde tot conținutul de pe site după Disallow, puneți „/”.

Putem împiedica accesul la un anumit folder, fișier sau extensie de fișier. În exemplul nostru, contactăm toți roboții de căutare și blocăm accesul la bitrix, folderul de căutare și extensia pdf.


Permite

Permiteți ca paginile și secțiunile site-ului să fie indexate. În exemplul de mai sus, contactăm robotul de căutare Google, blocăm accesul la bitrix, folderul de căutare și extensia pdf. Dar în folderul bitrix forțăm deschiderea a 3 foldere pentru indexare: componente, js, instrumente.


Gazdă - oglindă site

Un site oglindă este un duplicat al site-ului principal. Oglinzile sunt folosite pentru o varietate de scopuri: schimbarea adresei, securitate, reducerea sarcinii pe server etc.

Gazda este una dintre cele mai importante reguli. Dacă această regulă este scrisă, robotul va înțelege care dintre oglinzile site-ului ar trebui să fie luate în considerare pentru indexare. Această directivă este necesară pentru roboții Yandex și Mail.ru. Alți roboți vor ignora această regulă. Gazda este înregistrată o singură dată!

Pentru protocoalele „https://” și „http://”, sintaxa din fișierul robots.txt va fi diferită.

Harta site - harta site-ului

Harta site-ului este o formă de navigare pe site care este utilizată pentru a informa motoarele de căutare despre paginile noi. Folosind directiva sitemap, arătăm „forțat” robotului unde se află harta.


Simboluri în robots.txt

Simboluri utilizate în fișier: „/, *, $, #”.


Verificarea funcționalității după configurarea robots.txt

După ce ați plasat Robots.txt pe site-ul dvs. web, trebuie să îl adăugați și să îl verificați în Yandex și Google webmaster.

Verificare Yandex:

  1. Urmați linkul https://webmaster.yandex.ru/tools/robotstxt/.
  2. Selectați: Setări de indexare - Analiză Robots.txt.

Verificare Google:

  1. Accesați https://support.google.com/webmasters/answer/6062598.
  2. Selectați: Scanare - Instrument de inspecție a fișierelor Robots.txt.

În acest fel, puteți verifica fișierul robots.txt pentru erori și puteți face ajustările necesare, dacă este necesar.

  1. Conținutul dosarului trebuie scris cu majuscule.
  2. Trebuie specificat un singur fișier sau director în directiva Disallow.
  3. Linia „User-agent” nu trebuie să fie goală.
  4. User-agent ar trebui să vină întotdeauna înainte de Disallow.
  5. Nu uitați să includeți o bară oblică dacă trebuie să dezactivați indexarea unui director.
  6. Înainte de a încărca un fișier pe server, asigurați-vă că îl verificați pentru erori de sintaxă și ortografie.

Robots.txt- acesta este un fișier text care se află la rădăcina site-ului - http://site.ru/robots.txt. Scopul său principal este de a seta anumite directive pentru motoarele de căutare - ce și când să facă pe site.

Cei mai simpli Robots.txt

Cel mai simplu robots.txt, care permite tuturor motoarelor de căutare să indexeze totul, arată astfel:

Agent utilizator: *
Nu permiteți:

Dacă directiva Disallow nu are o bară oblică finală, atunci toate paginile sunt permise pentru indexare.

Această directivă interzice complet site-ului să indexeze:

Agent utilizator: *
Nu permite: /

User-agent - indică cui sunt destinate directivele, asteriscul indică faptul că pentru toate PS, pentru Yandex indicați User-agent: Yandex.

Ajutorul Yandex spune că roboții săi de căutare procesează User-agent: * , dar dacă User-agent: Yandex este prezent, User-agent: * este ignorat.

Directivele Disallow și Allow

Există două directive principale:

Interzice - interzice

Permite - permite

Exemplu: Pe blog, am interzis indexarea folderului /wp-content/ în care se află fișierele plugin, șabloane etc. Dar există și imagini care trebuie indexate de PS pentru a putea participa la căutarea imaginilor. Pentru a face acest lucru, trebuie să utilizați următoarea schemă:

Agent utilizator: *
Permite: /wp-content/uploads/ # Permite indexarea imaginilor în folderul de încărcări
Nu permiteți: /wp-content/

Ordinea în care sunt utilizate directivele contează pentru Yandex dacă se aplică acelorași pagini sau foldere. Dacă o specificați astfel:

Agent utilizator: *
Nu permiteți: /wp-content/
Permite: /wp-content/uploads/

Imaginile nu vor fi descărcate de robotul Yandex din directorul /uploads/, deoarece se execută prima directivă, care interzice orice acces la folderul wp-content.

Google ia totul mai ușor și execută toate directivele din fișierul robots.txt, indiferent de locația lor.

De asemenea, nu uitați că directivele cu și fără bare oblice îndeplinesc roluri diferite:

Nu permite: /aproximativ Acesta va refuza accesul la întregul director site.ru/about/, iar paginile care conțin despre - site.ru/about.html, site.ru/aboutlive.html etc. nu vor fi indexate.

Nu permiteți: /despre/ Le va interzice roboților să indexeze pagini din directorul site.ru/about/ și pagini precum site.ru/about.html etc. vor fi disponibile pentru indexare.

Expresii regulate în robots.txt

Sunt acceptate două caractere, acestea sunt:

* - implică orice ordine a caracterelor.

Exemplu:

Nu permite: /despre* va refuza accesul la toate paginile care conțin despre; în principiu, o astfel de directivă va funcționa la fel fără un asterisc. Dar în unele cazuri această expresie nu este înlocuibilă. De exemplu, într-o categorie sunt pagini cu și fără .html la sfârșit, pentru a bloca toate paginile care conțin html de la indexare scriem următoarea directivă:

Nu permiteți: /about/*.html

Acum pagina site.ru/about/live.html este închisă de la indexare, iar pagina site.ru/about/live este deschisă.

Un alt exemplu prin analogie:

Agent utilizator: Yandex
Permite: /about/*.html #permite indexarea
Nu permiteți: /despre/

Toate paginile vor fi închise, cu excepția paginilor care se termină în .html

$ - decupează partea rămasă și marchează sfârșitul liniei.

Exemplu:

Nu permite: /aproximativ- Această directivă robots.txt interzice indexarea tuturor paginilor care încep cu about , și, de asemenea, interzice paginile din directorul /about/.

Adăugând un simbol dolar la sfârșit - Disallow: /about$ vom spune roboților că numai pagina /about nu poate fi indexată, ci directorul /about/, /aboutlive pagini etc. pot fi indexate.

Directiva Sitemap

Această directivă specifică calea către Harta site-ului, sub această formă:

Harta site-ului: http://site.ru/sitemap.xml

Directiva gazdă

Este indicat sub această formă:

Gazdă: site.ru

Fără http:// , bare oblice și altele asemenea. Dacă aveți un site oglindă principal cu www, atunci scrieți:

Gazdă: www.site.ru

Exemplu robots.txt pentru WordPress

După ce au fost adăugate toate directivele necesare descrise mai sus. Ar trebui să ajungeți cu un fișier roboți cam așa:

Agent utilizator: *
Permite: /wp-content/uploads/
Nu permiteți: /cgi-bin
Nu permiteți: /wp-login.php
Nu permiteți: /wp-register.php
Nu permiteți: /wp-content/
Nu permiteți: /wp-admin/
Nu permiteți: /wp-includes/
Nu permiteți: /comments
Disallow: /trackback
Nu permite: */trackback
Nu permiteți: */*/trackback
Nu permiteți: */*/feed/*/
Nu permiteți: */feed
Nu permite: /*?*
Nu permiteți: */comment-page*
Nu permiteți: /tag
Permite: /
Harta site-ului: https://site/sitemap.xml

Agent utilizator: Yandex
Permite: /wp-content/uploads/
Nu permiteți: /cgi-bin
Nu permiteți: /wp-login.php
Nu permiteți: /wp-register.php
Nu permiteți: /wp-content/
Nu permiteți: /wp-admin/
Nu permiteți: /wp-includes/
Nu permiteți: /comments
Disallow: /trackback
Nu permite: */trackback
Nu permiteți: */*/trackback
Nu permiteți: */*/feed/*/
Nu permiteți: */feed
Nu permite: /*?*
Nu permiteți: */comment-page*
Nu permiteți: /tag
Permite: /
Gazdă: site web

Harta site-ului: https://site/sitemap.xml

Aceasta este, ca să spunem așa, versiunea de bază a robots.txt pentru WordPress. Există doi agenți de utilizator aici - unul pentru toată lumea și al doilea pentru Yandex, unde este specificată directiva Gazdă.

Meta-roboți etichete

Este posibil să blocați indexarea unei pagini sau a unui site web nu numai cu fișierul robots.txt, acest lucru se poate face folosind o metaetichetă.

<meta name = „roboți” conținut = „noindex,nofollow” >

Trebuie să fie scris în etichetă iar această metaetichetă va împiedica indexarea site-ului. Există pluginuri în WordPress care vă permit să setați astfel de metaetichete, de exemplu – Platinum Seo Pack. Cu el puteți bloca orice pagină de la indexare; folosește metaetichete.

Directiva privind întârzierea cu crawler

Folosind această directivă, puteți seta timpul pentru care botul de căutare ar trebui să fie întrerupt între descărcarea paginilor site-ului.

Agent utilizator: *
Întârziere crawler: 5

Timpul de expirare dintre încărcarea a două pagini va fi de 5 secunde. Pentru a reduce sarcina pe server, de obicei o setează la 15-20 de secunde. Această directivă este necesară pentru site-urile mari, actualizate frecvent, unde roboții de căutare pur și simplu „trăiesc”.

Pentru site-uri/bloguri obișnuite, această directivă nu este necesară, dar în acest fel puteți limita comportamentul altor roboți de căutare irelevanți (Rambler, Yahoo, Bing) etc. La urma urmei, merg și pe site și îl indexează, creând astfel o încărcare pe server.

Robots.txt este un fișier text care conține instrucțiuni speciale pentru roboții motoarelor de căutare care explorează site-ul dvs. pe Internet. Aceste instrucțiuni sunt numite directive— poate interzice indexarea unor pagini ale site-ului, poate indica „oglindirea” corectă a domeniului etc.

Pentru site-urile care rulează pe platforma Nubex, un fișier cu directive este creat automat și se află la domen.ru/robots.txt, unde domen.ru este numele de domeniu al site-ului..ru/robots.txt.

Puteți modifica robots.txt și puteți adăuga directive suplimentare pentru motoarele de căutare în panoul de administrare a site-ului. Pentru a face acest lucru, selectați secțiunea de pe panoul de control „Setări”, și în el există un punct „SEO”.

Găsiți câmpul „Textul fișierului robots.txt”și notează în el directivele necesare. Este recomandabil să activați caseta de selectare „Adăugați un link către un fișier sitemap.xml generat automat în robots.txt”: astfel botul de căutare va putea să încarce harta site-ului și să găsească toate paginile necesare pentru indexare.

Directive de bază pentru fișierul robots txt

Când încarcă robots.txt, robotul de căutare caută mai întâi o intrare care începe cu Agent utilizator: Valoarea acestui câmp trebuie să fie numele robotului ale cărui drepturi de acces sunt setate în această intrare. Acestea. Directiva User-agent este un fel de apel către robot.

1. Dacă valoarea câmpului User-agent conține simbolul " * ", atunci drepturile de acces specificate în această intrare se aplică oricăror roboți de căutare care solicită fișierul /robots.txt.

2. Dacă într-o intrare sunt specificate mai multe nume de robot, atunci drepturile de acces se aplică tuturor numelor specificate.

3. Caracterele mari sau mici nu contează.

4. Dacă este detectat șirul User-agent: BotName, directivele pentru User-agent: * nu sunt luate în considerare (acesta este cazul dacă faceți mai multe intrări pentru roboți diferiți). Acestea. robotul va scana mai întâi textul pentru intrarea User-agent: MyName, iar dacă îl găsește, va urma aceste instrucțiuni; dacă nu, va acționa conform instrucțiunilor din intrarea User-agent: * (pentru toți roboții).

Apropo, este recomandat să introduceți un avans de linie gol (Enter) înainte de fiecare nouă directivă User-agent.

5. Dacă liniile User-agent: BotName și User-agent: * lipsesc, se consideră că accesul robotului nu este limitat.

Interzicerea și permiterea indexării site-urilor: directivele Disallow și Allow

Pentru a interzice sau a permite roboților de căutare accesul la anumite pagini ale site-ului, se folosesc directive Nu permitețiȘi Permite respectiv.

Sensul acestor directive indică calea completă sau parțială către secțiune:

  • Nu permiteți: /admin/— interzice indexarea tuturor paginilor situate în interiorul secțiunii admin;
  • Nu permiteți: /help— interzice indexarea atât a /help.html, cât și a /help/index.html;
  • Nu permiteți: /help/ —închide doar /help/index.html;
  • Nu permite: /— blochează accesul la întregul site.

Dacă nu este specificată valoarea Disallow, atunci accesul nu este limitat:

  • Nu permiteți:— este permisă indexarea tuturor paginilor site-ului.

Puteți utiliza directiva allow pentru a configura excepții Permite. De exemplu, o astfel de intrare va interzice roboților să indexeze toate secțiunile site-ului, cu excepția celor a căror cale începe cu /search:

Nu contează în ce ordine vor fi enumerate directivele pentru interzicerea și permiterea indexării. Când citește, robotul le va sorta în continuare după lungimea prefixului URL (de la cel mai mic la cel mai mare) și le va aplica secvenţial. Adică, exemplul de mai sus în percepția botului va arăta astfel:

— numai paginile care încep cu /search pot fi indexate. Astfel, ordinea directivelor nu va afecta în niciun fel rezultatul.

Directiva gazdă: cum să specificați domeniul principal al site-ului

Dacă site-ului dvs. sunt asociate mai multe nume de domenii (adrese tehnice, oglinzi etc.), motorul de căutare poate decide că acestea sunt toate site-uri diferite. Și cu același conținut. Soluţie? Interzice! Și un bot știe ce domeniu va fi „pedepsit” - cel principal sau cel tehnic.

Pentru a evita această problemă, trebuie să spuneți robotului de căutare la ce adresă site-ul dvs. participă la căutare. Această adresă va fi desemnată ca fiind cea principală, iar restul va forma un grup de oglinzi ale site-ului dvs.

Puteți face acest lucru folosind Directive gazdă. Acesta trebuie adăugat la intrarea începând cu User-Agent, imediat după directivele Disallow și Allow. În valoarea directivei Gazdă, trebuie să specificați domeniul principal cu numărul portului (80 în mod implicit). De exemplu:

Gazdă: test-o-la-la.ru

O astfel de intrare înseamnă că site-ul va fi afișat în rezultatele căutării cu un link către domeniul test-o-la-la.ru, și nu www.test-o-la-la.ru și s10364.. captură de ecran de mai sus).

În constructorul Nubex, directiva Host este adăugată automat textului fișierului robots.txt atunci când specificați în panoul de administrare care domeniu este cel principal.

În textul robots.txt, directiva gazdă poate fi folosită o singură dată. Dacă îl scrieți de mai multe ori, robotul va accepta doar prima intrare în ordine.

Directiva de întârziere cu crawlere: cum să setați intervalul de încărcare a paginii

Pentru a indica robotului intervalul minim dintre terminarea încărcării unei pagini și începerea încărcării următoarei, utilizați Directiva privind întârzierea cu crawler. Acesta trebuie adăugat la intrarea începând cu User-Agent, imediat după directivele Disallow și Allow. În valoarea directivei, specificați timpul în secunde.

Folosirea unei astfel de întârzieri la procesarea paginilor va fi convenabilă pentru serverele supraîncărcate.

Există și alte directive pentru roboții de căutare, dar cele cinci descrise - User-Agent, Disallow, Allow, Host and Crawl-întârziere - de obicei suficient pentru a compune textul fișierului robots.txt.

Soluții gata făcute pentru o problemă sau alta apar în fiecare zi pe Internet. Nu există bani pentru un designer? Utilizați unul dintre miile de șabloane gratuite. Nu vrei să angajezi un specialist SEO? Utilizați serviciile unui serviciu gratuit bine-cunoscut, citiți singur câteva articole.

De multă vreme nu este nevoie să scrieți singur același robots.txt de la zero. Apropo, acesta este un fișier special care este disponibil pe aproape orice site și conține instrucțiuni pentru roboții de căutare. Sintaxa comenzii este foarte simplă, dar va dura totuși timp pentru a compila propriul fișier. Mai bine te uiti pe alt site. Există câteva avertismente aici:

Site-ul trebuie să fie pe același motor cu al tău. În principiu, astăzi există o mulțime de servicii pe Internet unde puteți afla numele cms-urilor aproape oricărei resurse web.

Acesta ar trebui să fie un site mai mult sau mai puțin de succes, care să aibă totul în ordine cu traficul de căutare. Acest lucru sugerează că robots.txt este compus în mod normal.

Deci, pentru a vizualiza acest fișier trebuie să tastați în bara de adrese: domain-name.zone/robots.txt

Totul este incredibil de simplu, nu? Dacă adresa nu este găsită, înseamnă că un astfel de fișier nu există pe site, sau accesul la acesta este interzis. Dar, în cele mai multe cazuri, veți vedea conținutul fișierului în fața dvs.:

În principiu, chiar și o persoană care nu este deosebit de versată în cod va înțelege rapid ce să scrie aici. Comanda allow permite ceva să fie indexat, în timp ce comanda disallow o interzice. User-agent este o indicație a roboților de căutare cărora le sunt adresate instrucțiunile. Acest lucru este necesar atunci când trebuie să specificați comenzi pentru un motor de căutare separat.

Ce e de facut in continuare?

Copiați totul și schimbați-l pentru site-ul dvs. Cum se schimbă? Am spus deja că motoarele site-ului trebuie să se potrivească, altfel nu are rost să schimbi nimic - trebuie să rescrii absolut totul.

Deci, va trebui să parcurgeți liniile și să determinați ce secțiuni dintre acestea sunt prezente pe site-ul dvs. și care nu sunt. În captura de ecran de mai sus vedeți un exemplu de robots.txt pentru un site wordpress și există un forum într-un director separat. Concluzie? Dacă nu aveți un forum, toate aceste rânduri trebuie șterse, deoarece astfel de secțiuni și pagini pur și simplu nu există pentru dvs., atunci de ce să le închideți?

Cel mai simplu robots.txt ar putea arăta astfel:

User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Allow: /wp-content/uploads/

Agent utilizator: *

Nu permiteți: /wp - admin

Nu permite: /wp - include

Nu permiteți: /wp-content

Permite: /wp-content/uploads/

Cu toții probabil cunoașteți structura standard de foldere în Wordpress dacă ați instalat acest motor cel puțin o dată. Acestea sunt dosarele wp-admin, wp-content și wp-includes. De obicei, toate cele 3 sunt închise de la indexare deoarece conțin fișiere pur tehnice necesare funcționării motorului, plugin-uri și șabloane.

Directorul de încărcări este deschis deoarece conține imagini și sunt de obicei indexate.

Practic, trebuie să parcurgeți fișierul robots.txt copiat și să vedeți ce este de fapt pe site-ul dvs. și ce nu. Desigur, va fi dificil de determinat singur. Pot spune doar că dacă nu ștergeți ceva, atunci este în regulă, va exista doar o linie suplimentară, care nu dăunează în niciun fel (pentru că nu există nicio secțiune).

Este atât de importantă configurarea robots.txt?

Desigur, trebuie să aveți acest fișier și cel puțin să închideți directoarele principale prin el. Dar este compilația sa critică? După cum arată practica, nu. Eu personal văd site-uri pe aceleași motoare cu robots.txt complet diferit, care sunt promovate la fel de cu succes în motoarele de căutare.

Nu susțin că poți face vreun fel de greșeală. De exemplu, închideți imaginile sau lăsați un director inutil deschis, dar ceva super groaznic nu se va întâmpla. În primul rând, pentru că motoarele de căutare sunt mai inteligente astăzi și pot ignora unele indicații din fișier. În al doilea rând, s-au scris sute de articole despre configurarea robots.txt și puteți înțelege ceva din ele.

Am văzut fișiere care aveau 6-7 linii care interziceau indexarea câtorva directoare. Am văzut și fișiere cu o sută-două linii de cod, unde totul era posibil. Ambele site-uri au evoluat normal.

WordPress are așa-numitele duplicate. Asta e rău. Mulți oameni luptă împotriva acestui lucru închizând duplicate similare astfel:

Disallow: /wp-feed Disallow: */trackback Disallow: */feed Disallow: /tag/ Disallow: /archive/

Nu permiteți: /wp-feed

Aici trebuie să luptăm altfel. De exemplu, folosind redirecționări sau plugin-uri care vor distruge duplicatele. Cu toate acestea, acesta este un subiect pentru un articol separat.

Unde se află robots.txt?

Acest fișier se află întotdeauna la rădăcina site-ului, așa că îl putem accesa scriind adresa site-ului și numele fișierului separate printr-o bară oblică. După părerea mea, totul este cât se poate de simplu.

În general, astăzi am analizat întrebarea cum să vizualizați conținutul fișierului robots.txt, să îl copiați și să îl modificați pentru a se potrivi nevoilor dvs. De asemenea, voi mai scrie 1-2 articole despre configurare în viitorul apropiat, pentru că nu am acoperit totul în acest articol. Apropo, puteți găsi și o mulțime de informații despre promovarea site-urilor de bloguri la noi. Și cu asta, îmi iau rămas bun de la tine deocamdată.