Cuprins robots txt. Textul corect al roboților

Am lansat o nouă carte, Social Media Content Marketing: How to Get Inside Your Followers' Heads and Make them to Love with Your Brand.

Abonati-va

Robots.txt este un fișier text care conține informații pentru roboții de căutare care ajută la indexarea paginilor portalului.


Mai multe videoclipuri pe canalul nostru - învață marketingul pe internet cu SEMANTICA

Imaginează-ți că te-ai dus pe o insulă după comori. Ai o hartă. Acolo este indicat traseul: „Apropiați-vă de un ciot mare. De acolo, faceți 10 pași spre est, apoi ajungeți la stâncă. Virați la dreapta, găsiți o peșteră.”

Acestea sunt directiile. Urmându-le, urmezi traseul și găsești comoara. Un robot de căutare funcționează în același mod atunci când începe să indexeze un site sau o pagină. Găsește fișierul robots.txt. Citește ce pagini trebuie indexate și care nu. Și urmând aceste comenzi, accesează cu crawlere portalul și își adaugă paginile la index.

Pentru ce este robots.txt?

Ei încep să viziteze site-uri și să indexeze pagini după ce site-ul este încărcat pe hosting și DNS este înregistrat. Ei își fac treaba indiferent dacă aveți sau nu fișiere tehnice. Roboții le spune motoarelor de căutare că atunci când accesează cu crawlere un site web, trebuie să țină cont de parametrii pe care îi conține.

Absența unui fișier robots.txt poate duce la probleme cu viteza de accesare cu crawlere a site-ului și prezența gunoiului în index. Configurarea incorectă a fișierului poate duce la excluderea unor părți importante ale resursei din index și la prezența paginilor inutile în rezultat.

Toate acestea, ca urmare, duc la probleme cu promovarea.

Să aruncăm o privire mai atentă la instrucțiunile conținute în acest fișier și la modul în care acestea afectează comportamentul botului pe site-ul dvs.

Cum se creează robots.txt

În primul rând, verificați dacă aveți acest fișier.

Introdu adresa site-ului în bara de adrese a browserului, urmată de o bară oblică numele fișierului, de exemplu, https://www.xxxxx.ru/robots.txt

Dacă fișierul este prezent, pe ecran va apărea o listă cu parametrii acestuia.

Dacă nu există fișier:

  1. Fișierul este creat într-un editor de text obișnuit, cum ar fi Notepad sau Notepad++.
  2. Trebuie să setați numele roboților, extensia .txt. Introduceți datele ținând cont de standardele de proiectare acceptate.
  3. Puteți verifica erorile utilizând servicii precum Yandex Webmaster. Acolo trebuie să selectați elementul „Analiză Robots.txt” din secțiunea „Instrumente” și să urmați instrucțiunile.
  4. Când fișierul este gata, încărcați-l în directorul rădăcină al site-ului.

Stabilirea regulilor

Motoarele de căutare au mai mult de un robot. Unii roboți indexează doar conținutul text, alții doar conținutul grafic. Și chiar și printre motoarele de căutare, modul în care funcționează crawlerele poate fi diferit. Acest lucru trebuie luat în considerare la compilarea fișierului.

Unii dintre ei pot ignora unele dintre reguli, de exemplu, GoogleBot nu răspunde la informații despre ce oglindă a site-ului este considerată cea principală. Dar, în general, ei percep și se ghidează după dosar.

Sintaxa fișierului

Parametrii documentului: numele robotului (bot) „User-agent”, directive: permiterea „Allow” și interzicerea „Disallow”.

Acum există două motoare de căutare cheie: Yandex și, respectiv, Google, este important să țineți cont de cerințele ambelor atunci când creați un site web.

Formatul pentru crearea intrărilor este următorul, vă rugăm să rețineți spațiile necesare și liniile goale.

Directiva utilizator-agent

Robotul caută înregistrări care încep cu User-agent, ar trebui să conțină indicații despre numele robotului de căutare. Dacă nu este specificat, accesul bot este considerat a fi nelimitat.

Directivele Disallow și Allow

Dacă trebuie să dezactivați indexarea în robots.txt, utilizați Disallow. Cu ajutorul acestuia, accesul botului la site sau la anumite secțiuni este limitat.

Dacă robots.txt nu conține nicio directivă de interzicere „Disallow”, se consideră că este permisă indexarea întregului site. De obicei, interdicțiile sunt prescrise după fiecare bot separat.

Toate informațiile care apar după semnul # sunt un comentariu și nu pot fi citite de mașină.

Allow este folosit pentru a permite accesul.

Simbolul asterisc servește ca o indicație a ceea ce se aplică tuturor: User-agent: *.

Această opțiune, dimpotrivă, înseamnă interzicerea completă a indexării pentru toată lumea.

Preveniți vizualizarea întregului conținut al unui director specific

Pentru a bloca un fișier, trebuie să specificați calea lui absolută


Harta site-ului, directive gazdă

Pentru Yandex, este obișnuit să indicați ce oglindă doriți să o desemnați ca principală. Și Google, așa cum ne amintim, îl ignoră. Dacă nu există oglinzi, notați pur și simplu dacă credeți că este corect să scrieți numele site-ului dvs. cu sau fără www.

Directiva Clean-param

Poate fi folosit dacă adresele URL ale paginilor site-ului web conțin parametri modificabili care nu le afectează conținutul (acestea ar putea fi ID-uri de utilizator, referrere).

De exemplu, în pagina adresa „ref” determină sursa traficului, adică. indică de unde a venit vizitatorul pe site. Pagina va fi aceeași pentru toți utilizatorii.

Puteți indica acest lucru robotului și acesta nu va descărca informații duplicate. Acest lucru va reduce încărcarea serverului.

Directiva privind întârzierea cu crawler

Folosind aceasta, puteți determina cât de des va încărca botul pagini pentru analiză. Această comandă este utilizată atunci când serverul este supraîncărcat și indică faptul că procesul de accesare cu crawlere ar trebui să fie accelerat.

Erori Robots.txt

  1. Fișierul nu se află în directorul rădăcină. Robotul nu o va căuta mai adânc și nu o va ține cont.
  2. Literele din nume trebuie să fie latine mici.
    Există o greșeală în nume, uneori le lipsește litera S de la sfârșit și scriu robot.
  3. Nu puteți utiliza caractere chirilice în fișierul robots.txt. Dacă trebuie să specificați un domeniu în limba rusă, utilizați formatul din codarea specială Punycode.
  4. Aceasta este o metodă de conversie a numelor de domenii într-o secvență de caractere ASCII. Pentru a face acest lucru, puteți utiliza convertoare speciale.

Această codificare arată astfel:
site.rf = xn--80aswg.xn--p1ai

Informații suplimentare despre ce să închideți în robots txt și despre setări în conformitate cu cerințele motoarelor de căutare Google și Yandex pot fi găsite în documentele de ajutor. Diferiții cm-uri pot avea și propriile lor caracteristici, acest lucru ar trebui să fie luat în considerare.

Bună seara dragi prieteni! Știți cu toții că optimizarea pentru motoarele de căutare este o chestiune responsabilă și delicată. Trebuie să ții cont absolut de fiecare mic detaliu pentru a obține un rezultat acceptabil.

Astăzi vom vorbi despre robots.txt - un fișier care este familiar oricărui webmaster. Conține toate instrucțiunile de bază pentru roboții de căutare. De regulă, sunt bucuroși să urmeze instrucțiunile prescrise și, dacă sunt compilate incorect, refuză să indexeze resursa web. În continuare, vă voi spune cum să compuneți versiunea corectă a robots.txt, precum și cum să o configurați.

În prefață am descris deja despre ce este vorba. Acum vă voi spune de ce este nevoie. Robots.txt este un fișier text mic care este stocat în rădăcina site-ului. Este folosit de motoarele de căutare. Ea precizează clar regulile de indexare, adică ce secțiuni ale site-ului trebuie indexate (adăugate la căutare) și ce secțiuni nu ar trebui.

De obicei, secțiunile tehnice ale unui site sunt închise de la indexare. Ocazional, paginile care nu sunt unice sunt incluse pe lista neagră (copy-paste a politicii de confidențialitate este un exemplu în acest sens). Aici roboților li se „explica” principiile de lucru cu secțiunile care trebuie indexate. Foarte des regulile sunt prescrise pentru mai mulți roboți separat. Vom vorbi mai departe despre asta.

Dacă configurați corect robots.txt, site-ul dvs. este garantat să se ridice în clasamentul motoarelor de căutare. Roboții vor lua în considerare doar conținutul util, ignorând secțiunile duplicate sau tehnice.

Se creează robots.txt

Pentru a crea un fișier, trebuie doar să utilizați funcționalitatea standard a sistemului dvs. de operare și apoi să îl încărcați pe server prin FTP. Unde se află (pe server) este ușor de ghicit - la rădăcină. De obicei, acest folder se numește public_html.

Puteți intra cu ușurință în el folosind orice client FTP (de exemplu) sau un manager de fișiere încorporat. Desigur, nu vom încărca roboți goli pe server. Să scriem acolo câteva directive de bază (reguli).

Agent utilizator: *
Permite: /

Folosind aceste rânduri în fișierul dvs. roboți, veți contacta toți roboții (directiva User-agent), permițându-le să indexeze întregul site (inclusiv toate paginile tehnice Permiteți: /)

Desigur, această opțiune nu este deosebit de potrivită pentru noi. Fișierul nu va fi deosebit de util pentru optimizarea motoarelor de căutare. Cu siguranță are nevoie de niște reglaje adecvate. Dar înainte de asta, ne vom uita la toate directivele principale și valorile robots.txt.

Directive

Agent utilizatorUna dintre cele mai importante, deoarece indică ce roboți ar trebui să respecte regulile care îl urmează. Regulile sunt luate în considerare până la următorul User-agent din fișier.
PermitePermite indexarea oricăror blocuri de resurse. De exemplu: „/” sau „/tag/”.
Nu permitețiDimpotrivă, interzice indexarea secțiunilor.
Harta site-uluiCalea către harta site-ului (în format xml).
GazdăOglindă principală (cu sau fără www, sau dacă aveți mai multe domenii). Protocolul securizat https (dacă este disponibil) este de asemenea indicat aici. Dacă aveți http standard, nu trebuie să îl specificați.
Crawl-întârziereCu ajutorul acestuia, puteți seta intervalul în care roboții pot vizita și descărca fișiere pe site-ul dvs. Ajută la reducerea sarcinii pe gazdă.
Clean-paramVă permite să dezactivați indexarea parametrilor pe anumite pagini (cum ar fi www.site.com/cat/state?admin_id8883278).
Spre deosebire de directivele anterioare, aici sunt specificate 2 valori (adresa și parametrul în sine).

Acestea sunt toate regulile care sunt acceptate de motoarele de căutare emblematice. Cu ajutorul lor ne vom crea roboții, care operează cu diferite variante pentru o varietate de tipuri de site-uri.

Setări

Pentru a configura corect fișierul roboți, trebuie să știm exact ce secțiuni ale site-ului ar trebui să fie indexate și care nu. În cazul unui site web simplu de o pagină folosind html + css, trebuie doar să scriem câteva directive de bază, cum ar fi:

Agent utilizator: *
Permite: /
Harta site-ului: site.ru/sitemap.xml
Gazdă: www.site.ru

Aici am specificat regulile și valorile pentru toate motoarele de căutare. Dar este mai bine să adăugați directive separate pentru Google și Yandex. Va arata asa:

Agent utilizator: *
Permite: /

Agent utilizator: Yandex
Permite: /
Nu permiteți: /politika

Agent utilizator: GoogleBot
Permite: /
Nu permiteți: /etichete/

Harta site-ului: site.ru/sitemap.xml
Gazdă: site.ru

Acum absolut toate fișierele de pe site-ul nostru html vor fi indexate. Dacă dorim să excludem o pagină sau o imagine, atunci trebuie să specificăm un link relativ la acest fragment în Disallow.

Puteți utiliza serviciile roboți de generare automată a fișierelor. Nu garantez că cu ajutorul lor veți crea o versiune perfect corectă, dar o puteți încerca ca o introducere.

Printre astfel de servicii se numără:

Cu ajutorul lor, puteți crea automat robots.txt. Personal, nu recomand cu căldură această opțiune, deoarece este mult mai ușor să o faci manual, personalizând-o pentru platforma ta.

Când vorbim despre platforme, mă refer la tot felul de CMS, cadre, sisteme SaaS și multe altele. În continuare vom vorbi despre cum să configurați fișierul robot WordPress și Joomla.

Dar înainte de asta, să evidențiem câteva reguli universale care vă pot ghida atunci când creați și configurați roboți pentru aproape orice site:

Interzicerea indexării:

  • administratorul site-ului;
  • cont personal și pagini de înregistrare/autorizare;
  • coș, date din formularele de comandă (pentru un magazin online);
  • folderul cgi (situat pe gazdă);
  • secții de servicii;
  • scripturi ajax și json;
  • Etichete UTM și Openstat;
  • diverși parametri.

Deschide (permite):

  • Poze;
  • fișiere JS și CSS;
  • alte elemente care trebuie luate în considerare de motoarele de căutare.

În plus, la final, nu uitați să indicați harta site-ului (calea către harta site-ului) și datele gazdei (oglindă principală).

Robots.txt pentru WordPress

Pentru a crea un fișier, trebuie să plasăm robots.txt în rădăcina site-ului în același mod. În acest caz, îi puteți modifica conținutul utilizând același FTP și manageri de fișiere.

Există o opțiune mai convenabilă - creați un fișier folosind pluginuri. În special, Yoast SEO are o astfel de funcție. Editarea roboților direct din panoul de administrare este mult mai convenabilă, așa că eu însumi folosesc această metodă de lucru cu robots.txt.

Modul în care decideți să creați acest fișier depinde de dvs., este mai important pentru noi să înțelegem exact ce directive ar trebui să existe. Pe site-urile mele care rulează WordPress folosesc această opțiune:

User-agent: * # reguli pentru toți roboții, cu excepția Google și Yandex

Nu permiteți: /cgi-bin # folder cu scripturi
Nu permiteți: /? # solicitați parametri de pe pagina de pornire
Nu permiteți: /wp- # fișiere ale CSM-ului însuși (cu prefixul wp-)
Nu permite: *?s= # \
Nu permiteți: *&s= # totul este legat de căutare
Nu permiteți: /căutare/ # /
Nu permiteți: /autor/ # arhivele autorului
Nu permiteți: /utilizatori/ # și utilizatori
Nu permite: */trackback # notificări de la WP pe care cineva vă conectează
Nu permiteți: */feed # feed în xml
Nu permite: */rss # și rss
Nu permiteți: */încorporați # elemente încorporate
Nu permiteți: /xmlrpc.php #WordPress API
Nu permiteți: *utm= # etichete UTM
Nu permite: *openstat= # Etichete Openstat
Nu permiteți: /tag/ # etichete (dacă sunt disponibile)
Permite: */încărcări # descărcări deschise (imagini etc.)

Agent utilizator: GoogleBot # pentru Google
Nu permiteți: /cgi-bin
Nu permiteți: /?
Nu permiteți: /wp-
Nu permite: *?s=
Nu permiteți: *&s=
Nu permiteți: /căutare/
Nu permiteți: /autor/
Nu permiteți: /utilizatori/
Nu permite: */trackback
Nu permiteți: */feed
Nu permite: */rss
Nu permiteți: */încorporați
Nu permiteți: /xmlrpc.php
Nu permiteți: *utm=
Nu permite: *openstat=
Nu permiteți: /tag/
Permite: */încărcări
Permite: /*/*.js # deschide fișierele JS
Permite: /*/*.css # și CSS
Permite: /wp-*.png # și imagini în format png
Permite: /wp-*.jpg # \
Permite: /wp-*.jpeg # și alte formate
Permite: /wp-*.gif # /
# funcționează cu pluginuri

Agent utilizator: Yandex # pentru Yandex
Nu permiteți: /cgi-bin
Nu permiteți: /?
Nu permiteți: /wp-
Nu permite: *?s=
Nu permiteți: *&s=
Nu permiteți: /căutare/
Nu permiteți: /autor/
Nu permiteți: /utilizatori/
Nu permite: */trackback
Nu permiteți: */feed
Nu permite: */rss
Nu permiteți: */încorporați
Nu permiteți: /xmlrpc.php
Nu permiteți: /tag/
Permite: */încărcări
Permite: /*/*.js
Permite: /*/*.css
Permite: /wp-*.png
Permite: /wp-*.jpg
Permite: /wp-*.jpeg
Permite: /wp-*.gif
Permite: /wp-admin/admin-ajax.php
# etichete UTM curate
Clean-Param: openstat # și nu uitați de Openstat

Harta site-ului: https://site.ru/sitemap_index.xml # specificați calea către harta site-ului
Gazdă: https://site.ru # oglinda principală

Atenţie! Când copiați linii într-un fișier, nu uitați să eliminați toate comentariile (text după #).

Această opțiune robots.txt este cea mai populară printre webmasterii care folosesc WP. Este el ideal? Nu. Puteți încerca să adăugați ceva sau, dimpotrivă, să eliminați ceva. Dar rețineți că erorile sunt frecvente atunci când optimizați motorul de text al unui robot. Despre ele vom vorbi mai departe.

Robots.txt pentru Joomla

Și deși în 2018 puțini oameni folosesc Joomla, cred că acest minunat CMS nu poate fi ignorat. Când promovați proiecte pe Joomla, cu siguranță va trebui să creați un fișier roboți, altfel cum doriți să blocați elementele inutile de la indexare?

Ca și în cazul precedent, puteți crea un fișier manual, pur și simplu încărcându-l pe gazdă sau utilizați un modul în aceste scopuri. În ambele cazuri, va trebui să-l configurați corect. Iată cum va arăta opțiunea corectă pentru Joomla:

Agent utilizator: *
Permite: /*.css?*$
Permite: /*.js?*$
Permite: /*.jpg?*$
Permite: /*.png?*$
Nu permiteți: /cache/
Nu permiteți: /*.pdf
Nu permiteți: /administrator/
Nu permiteți: /instalare/
Nu permiteți: /cli/
Nu permiteți: /biblioteci/
Nu permiteți: /limba/
Nu permiteți: /components/
Nu permiteți: /module/
Nu permite: /include/
Nu permiteți: /bin/
Nu permiteți: /component/
Nu permiteți: /tmp/
Nu permiteți: /index.php
Nu permiteți: /plugins/
Nu permiteți: /*mailto/

Nu permiteți: /logs/
Nu permiteți: /component/tags*
Nu permite: /*%
Nu permiteți: /layouts/

Agent utilizator: Yandex
Nu permiteți: /cache/
Nu permiteți: /*.pdf
Nu permiteți: /administrator/
Nu permiteți: /instalare/
Nu permiteți: /cli/
Nu permiteți: /biblioteci/
Nu permiteți: /limba/
Nu permiteți: /components/
Nu permiteți: /module/
Nu permite: /include/
Nu permiteți: /bin/
Nu permiteți: /component/
Nu permiteți: /tmp/
Nu permiteți: /index.php
Nu permiteți: /plugins/
Nu permiteți: /*mailto/

Nu permiteți: /logs/
Nu permiteți: /component/tags*
Nu permite: /*%
Nu permiteți: /layouts/

Agent utilizator: GoogleBot
Nu permiteți: /cache/
Nu permiteți: /*.pdf
Nu permiteți: /administrator/
Nu permiteți: /instalare/
Nu permiteți: /cli/
Nu permiteți: /biblioteci/
Nu permiteți: /limba/
Nu permiteți: /components/
Nu permiteți: /module/
Nu permite: /include/
Nu permiteți: /bin/
Nu permiteți: /component/
Nu permiteți: /tmp/
Nu permiteți: /index.php
Nu permiteți: /plugins/
Nu permiteți: /*mailto/

Nu permiteți: /logs/
Nu permiteți: /component/tags*
Nu permite: /*%
Nu permiteți: /layouts/

Gazdă: site.ru # nu uita să schimbi adresa de aici cu a ta
Harta site-ului: site.ru/sitemap.xml # si aici

De regulă, acest lucru este suficient pentru a preveni intrarea fișierelor inutile în index.

Erori la configurare

Foarte des oamenii fac greșeli atunci când creează și configurează un fișier roboți. Iată cele mai comune dintre ele:

  • Regulile sunt specificate numai pentru User-agent.
  • Gazdă și Sitemap lipsesc.
  • Prezența protocolului http în directiva Gazdă (trebuie doar să specificați https).
  • Nerespectarea regulilor de cuibărit la deschiderea/închiderea imaginilor.
  • Etichetele UTM și Openstat nu sunt închise.
  • Scrierea directivelor pentru gazdă și harta site-ului pentru fiecare robot.
  • Întocmirea superficială a dosarului.

Este foarte important să configurați corect acest fișier mic. Dacă faci greșeli grave, poți pierde o parte semnificativă a traficului, așa că fii extrem de atent la configurare.

Cum se verifică un fișier?

În aceste scopuri, este mai bine să utilizați servicii speciale de la Yandex și Google, deoarece aceste motoare de căutare sunt cele mai populare și solicitate (de cele mai multe ori singurele utilizate nu are rost să luați în considerare motoarele de căutare precum Bing, Yahoo sau Hoinar.

În primul rând, să luăm în considerare opțiunea cu Yandex. Accesați webmaster. Apoi accesați Instrumente – Analiza robots.txt.

Aici puteți verifica fișierul pentru erori, precum și puteți verifica în timp real ce pagini sunt deschise pentru indexare și care nu. Foarte convenabil.

Google are exact același serviciu. Să mergem la Search Console. Găsiți fila Scanare și selectați Instrumentul de verificare a fișierelor Robots.txt.

Funcțiile de aici sunt exact aceleași ca în serviciul casnic.

Vă rugăm să rețineți că îmi arată 2 erori. Acest lucru se datorează faptului că Google nu recunoaște directivele pentru ștergerea parametrilor pe care i-am specificat pentru Yandex:

Clean-Param: utm_source&utm_medium&utm_campaign
Clean-Param: openstat

Nu ar trebui să acordați atenție acestui lucru, deoarece roboții Google folosesc doar regulile GoogleBot.

Concluzie

Fișierul robots.txt este foarte important pentru optimizarea SEO a site-ului dvs. Abordați configurarea acestuia cu toată responsabilitatea, deoarece dacă este implementat incorect, totul se poate risipi.

Țineți minte toate instrucțiunile pe care le-am împărtășit în acest articol și nu uitați că nu trebuie să copiați exact variantele roboților mei. Este foarte posibil să fii nevoit să înțelegi în continuare fiecare dintre directive, ajustând fișierul pentru a se potrivi cazului tău specific.

Și dacă doriți să înțelegeți mai profund robots.txt și să creați site-uri web pe WordPress, atunci vă invit. Aici veți afla cum puteți crea cu ușurință un site web, fără a uita să îl optimizați pentru motoarele de căutare.

În primul rând, vă voi spune ce este robots.txt.

Robots.txt– un fișier care se află în folderul rădăcină al site-ului, unde sunt scrise instrucțiuni speciale pentru roboții de căutare. Aceste instructiuni sunt necesare pentru ca la intrarea pe site, robotul sa nu ia in calcul pagina/sectiunea cu alte cuvinte, inchidem pagina de la indexare;

De ce aveți nevoie de robots.txt?

Fișierul robots.txt este considerat o cerință cheie pentru optimizarea SEO pentru absolut orice site web. Absența acestui fișier poate afecta negativ încărcarea de la roboți și indexarea lentă și, mai mult, site-ul nu va fi complet indexat. În consecință, utilizatorii nu vor putea accesa paginile prin Yandex și Google.

Impactul robots.txt asupra motoarele de căutare?

Motoare de căutare(în special Google) va indexa site-ul, dar dacă nu există fișier robots.txt, atunci, așa cum am spus, nu toate paginile. Dacă există un astfel de fișier, atunci roboții sunt ghidați de regulile care sunt specificate în acest fișier. Mai mult, există mai multe tipuri de roboți de căutare unii pot ține cont de regulă, în timp ce alții o ignoră. În special, robotul GoogleBot nu ține cont de directivele Gazdă și Crawl-Delay, robotul YandexNews a încetat recent să ia în considerare directiva Crawl-Delay, iar roboții YandexDirect și YandexVideoParser ignoră directivele general acceptate în robots.txt (dar luați în considerare cele care sunt scrise special pentru ei).

Site-ul este încărcat cel mai mult de roboții care încarcă conținut de pe site-ul dvs. În consecință, dacă îi spunem robotului ce pagini să indexeze și care să ignore, precum și la ce intervale de timp să încarce conținutul din pagini (acest lucru se aplică mai mult site-urilor mari care au mai mult de 100.000 de pagini în indexul motorului de căutare). Acest lucru va face mult mai ușor pentru robot să indexeze și să descarce conținut de pe site.


Fișierele care nu sunt necesare pentru motoarele de căutare includ fișiere care aparțin CMS, de exemplu, în Wordpress – /wp-admin/. În plus, ajax, scripturi json responsabile pentru formulare pop-up, bannere, ieșire captcha și așa mai departe.

Pentru majoritatea roboților, recomand și blocarea tuturor fișierelor Javascript și CSS de la indexare. Dar pentru GoogleBot și Yandex, este mai bine să indexați astfel de fișiere, deoarece sunt utilizate de motoarele de căutare pentru a analiza confortul site-ului și clasarea acestuia.

Ce este o directivă robots.txt?



Directive– acestea sunt regulile pentru roboții de căutare. Primele standarde pentru scrierea robots.txt și, în consecință, au apărut în 1994, iar standardul extins în 1996. Cu toate acestea, după cum știți deja, nu toți roboții acceptă anumite directive. Prin urmare, mai jos am descris după ce se ghidează roboții principali atunci când indexează paginile site-ului.

Ce înseamnă User-agent?

Aceasta este cea mai importantă directivă care determină ce roboți de căutare vor urma alte reguli.

Pentru toți roboții:

Pentru un anumit bot:

Agent utilizator: Googlebot

Înregistrarea în robots.txt nu este important, puteți scrie atât Googlebot, cât și googlebot

roboți de căutare Google







roboți de căutare Yandex

Robotul principal de indexare al lui Yandex

Folosit în serviciul Yandex.Images

Folosit în serviciul Yandex.Video

Date multimedia

Căutare pe blog

Un robot de căutare care accesează o pagină atunci când o adaugă prin formularul „Adăugați URL”.

robot care indexează pictogramele site-ului web (favicons)

Yandex.Direct

Yandex.Metrica

Folosit în serviciul Yandex.Catalog

Folosit în serviciul Yandex.News

YandexImageResizer

Robot de căutare a serviciilor mobile

Roboti de căutare Bing, Yahoo, Mail.ru, Rambler

Directivele Disallow și Allow

Interziceți blocarea secțiunilor și paginilor site-ului dvs. de la indexare. În consecință, Permiteți, dimpotrivă, le deschide.

Există câteva particularități.

În primul rând, operatorii suplimentari sunt *, $ și #. La ce sunt folosite?

“*” – acesta este orice număr de caractere și absența acestora. În mod implicit, este deja la sfârșitul liniei, așa că nu are rost să-l puneți din nou.

“$” – indică faptul că personajul dinaintea lui ar trebui să vină ultimul.

“#” – comentează, robotul nu ține cont de tot ce vine după acest simbol.

Exemple de utilizare a Disallow:

Nu permite: *?s=

Nu permiteți: /categorie/

În consecință, robotul de căutare va închide pagini precum:

Dar pagini ca aceasta vor fi deschise pentru indexare:

Acum trebuie să înțelegeți cum sunt executate regulile de imbricare. Ordinea în care sunt scrise directivele este absolut importantă. Moștenirea regulilor este determinată de care directoare sunt specificate, adică dacă vrem să blocăm o pagină/document de la indexare, este suficient să scriem o directivă. Să ne uităm la un exemplu

Acesta este fișierul nostru robots.txt

Nu permiteți: /șablon/

Această directivă poate fi specificată oriunde și pot fi specificate mai multe fișiere sitemap.

Directiva gazdă în robots.txt

Această directivă este necesară pentru a indica oglinda principală a site-ului (deseori cu sau fără www). Vă rugăm să rețineți că directiva gazdă este specificată fără protocolul http://, dar cu protocolul https://. Directiva este luată în considerare doar de roboții de căutare Yandex și Mail.ru, iar alți roboți, inclusiv GoogleBot, nu vor lua în considerare regula. Gazda ar trebui să fie specificată o dată în fișierul robots.txt

Exemplu cu http://

Gazdă: website.ru

Exemplu cu https://

Directiva privind întârzierea cu crawler

Setează intervalul de timp pentru indexarea paginilor site-ului de către un robot de căutare. Valoarea este indicată în secunde și milisecunde.

Exemplu:

Este folosit mai ales pe marile magazine online, site-uri de informare, portaluri, unde traficul pe site este de la 5.000 pe zi. Este necesar ca robotul de căutare să facă o cerere de indexare într-o anumită perioadă de timp. Dacă această directivă nu este specificată, poate crea o sarcină serioasă pe server.

Valoarea optimă a întârzierii accesării cu crawlere este diferită pentru fiecare site. Pentru motoarele de căutare Mail, Bing, Yahoo, valoarea poate fi setată la o valoare minimă de 0,25, 0,3, deoarece acești roboți de motoare de căutare vă pot accesa cu crawlere site-ul o dată pe lună, 2 luni și așa mai departe (foarte rar). Pentru Yandex, este mai bine să setați o valoare mai mare.


Dacă încărcarea pe site-ul dvs. este minimă, atunci nu are rost să specificați această directivă.

Directiva Clean-param

Regula este interesantă deoarece îi spune crawler-ului că paginile cu anumiți parametri nu trebuie indexate. Sunt specificate două argumente: adresa URL a paginii și un parametru. Această directivă este susținută de motorul de căutare Yandex.

Exemplu:

Nu permiteți: /admin/

Nu permiteți: /plugins/

Nu permiteți: /căutare/

Nu permiteți: /cart/

Nu permite: *sortare=

Nu permite: *view=

Agent utilizator: GoogleBot

Nu permiteți: /admin/

Nu permiteți: /plugins/

Nu permiteți: /căutare/

Nu permiteți: /cart/

Nu permite: *sortare=

Nu permite: *view=

Permite: /plugins/*.css

Permite: /plugins/*.js

Permite: /plugins/*.png

Permite: /plugins/*.jpg

Permite: /plugins/*.gif

Agent utilizator: Yandex

Nu permiteți: /admin/

Nu permiteți: /plugins/

Nu permiteți: /căutare/

Nu permiteți: /cart/

Nu permite: *sortare=

Nu permite: *view=

Permite: /plugins/*.css

Permite: /plugins/*.js

Permite: /plugins/*.png

Permite: /plugins/*.jpg

Permite: /plugins/*.gif

Clean-Param: utm_source&utm_medium&utm_campaign

În exemplu, am notat regulile pentru 3 roboți diferiți.

Unde să adăugați robots.txt?

Adăugat în folderul rădăcină al site-ului. În plus, pentru a putea urmări linkul:

Cum se verifică robots.txt?

Webmaster Yandex

În fila Instrumente, selectați Robots.txt Analysis și apoi faceți clic pe Verificare

Google Search Console

Pe fila Scanare alege Instrument de inspecție a fișierelor Robots.txt apoi faceți clic pe verificare.

Concluzie:

Fișierul robots.txt trebuie să fie prezent pe fiecare site web promovat și doar configurarea lui corectă vă va permite să obțineți indexarea necesară.

Și, în sfârșit, dacă aveți întrebări, adresați-le în comentariile de sub articol și, de asemenea, mă întreb, cum scrieți robots.txt?

Bună ziua, astăzi vom vorbi despre cum să creați textul corect pentru roboți și de ce este necesar.

Conţinut:


Ce este robots txt

Într-unul dintre articolele noastre anterioare, am vorbit despre cum funcționează roboții de căutare. Fișierul robots txt oferă instrucțiuni pentru a căuta roboți despre cum să vă indexeze corect site-ul. Folosind directive, puteți, de exemplu, să spuneți robotului care pagini sau directoare ar trebui indexate și care nu, să creați un grup de oglinzi pentru site-ul dvs. (dacă le aveți), să specificați calea către fișierul sitemap și așa mai departe. Este folosit în principal pentru a interzice indexarea anumitor pagini ale unui site.

Cum să creați textul corect al roboților

În orice editor de text, creați un fișier numit robots txt. Apoi, folosind directivele descrise mai jos, direcționați robotul către paginile site-ului care trebuie adăugate sau, dimpotrivă, eliminate din rezultatele căutării. După ce ați creat fișierul, verificați dacă există erori utilizând Yandex Webmaster sau Google Search Console.

Plasați fișierul terminat în directorul rădăcină al site-ului dvs. (unde se află fișierul index.html).


Directiva utilizator-agent

Acesta este un fel de salut pentru roboții de căutare.

Linia „User-agent:*” va spune tuturor roboților de căutare să folosească instrucțiunile conținute în acest fișier. Și, de exemplu, linia „User-agent: Yandex” va oferi instrucțiuni numai pentru robotul de căutare Yandex. Exemple de utilizare sunt enumerate mai jos. Motoarele de căutare au și roboți auxiliari pentru diferite categorii. De exemplu, YandexNews și Googlebot-News sunt roboți pentru lucrul cu știri.


Directivele Allow și Disallow

Folosind directiva Disallow, specificați care pagini sau directoare ale site-ului nu pot fi indexate. Și folosind directiva Allow, în consecință, este posibil.

Exemple:
Agent utilizator:*
Nu permite: /
Permite:/catalog/

O astfel de înregistrare va informa toți roboții de căutare că din întregul site pot indexa doar directorul de catalog.

Apropo, simbolul # este destinat să descrie comentariile. Totul după acest caracter și până la sfârșitul rândului nu este luat în considerare.

Iată un exemplu robots txt cu instrucțiuni individuale pentru diferite motoare de căutare:

#permite robotului să indexeze întregul site, cu excepția secțiunii de biciclete
Agent utilizator:*
Nu permiteți: /biciclete/

#interzice robotului să indexeze site-ul, cu excepția secțiunii cu bărci
Agent utilizator: Googlebot
Permite: /barci/
Nu permiteți:/

#va interzice tuturor celorlalte motoare de căutare să indexeze site-ul
Agent utilizator: *
Nu permite: /

Notă că nu pot exista linii goale între directivele User-agent, Allow și Disallow!


Caracterele speciale * și $

În directivele allow și disallow, puteți folosi caracterele speciale * și $ pentru a specifica expresii regulate. *-selectează secvența specificată

De exemplu: #Interzice roboților să indexeze toate paginile a căror adresă URL conține privat
Agent utilizator:*
Nu permite: /*privat

În mod implicit, caracterul special * trebuie adăugat la sfârșitul fiecărei reguli. Și pentru a anula * la sfârșitul regulii, utilizați simbolul $.

De exemplu: # dezactivează „/lock”
# dar nu dezactivează „/lock.html”
Agent utilizator:*
Nu permite: /lock$
# dezactivează și „/lock”.
# și „/lock.html”
Agent utilizator:*
Dezactivați: /blocare

Caracterul special $ nu interzice * specificat la sfârșit, adică:

Agent utilizator:*
Nu permite: /lock$# dezactivează doar „/lock”
Nu permite: /lock*$# la fel ca „Disallow: /lock”
# dezactivează atât /lock.html, cât și /lock


Directiva Sitemap

Dacă utilizați un sitemap, atunci utilizați directiva sitemap și specificați calea către unul (sau mai multe fișiere).

Agent utilizator:*
Harta site-ului:https://site.com/sitemap.xml


Directiva gazdă

Dacă site-ul dvs. are oglinzi, atunci folosind această directivă un robot special va forma un grup de oglinzi ale site-ului dvs. și va include doar oglinda principală în căutare. Această directivă nu garantează selecția site-ului specificat în ea ca oglindă principală, dar îi acordă o prioritate ridicată atunci când se ia o decizie.

Exemplu:

#indicați oglinda principală a site-ului

Agent utilizator: Yandex
Disallow:/mg-admin
Gazdă: https://www.zerkalo.ru

Notă. Această directivă este utilizată exclusiv pentru Yandex! + Este procesată o singură directivă Gazdă pentru fiecare fișier robots.txt. Dacă în fișier sunt specificate mai multe directive, robotul o folosește pe prima.

Directiva gazdă trebuie să conțină:

  1. Protocolul HTTPS dacă oglinda este accesibilă numai printr-un canal securizat. Dacă utilizați protocolul HTTP, nu este necesar să îl specificați.
  2. Un nume de domeniu valid care respectă RFC 952 și nu este o adresă IP.
  3. Numărul portului, dacă este necesar (Gazdă: myhost.ru:8080).


Este posibil să utilizați chirilic în robots txt?

Nu, nu poți folosi alfabetul chirilic. Pentru a specifica numele de domenii în chirilic, utilizați, de exemplu, acest serviciu.


Configurarea roboților txt MogutaCMS

În MogutaCMS, nu trebuie să completați robots.txt, deoarece se umple automat la instalarea motorului.

Acum știți cum să setați roboții corect txt și, de asemenea, știți să folosiți diverse directive pentru a gestiona indexarea site-ului dvs., iar dacă mai aveți întrebări, suntem gata să le răspundem într-o discuție specială pe VK sau în comentariile de mai jos. Ne mai vedem!

Robots.txt este un fișier text care conține parametrii de indexare a site-ului pentru roboții motoarelor de căutare.

Yandex acceptă următoarele directive:

Directivă Ce face
Agent utilizator *
Nu permiteți
Harta site-ului
Clean-param
Permite
Crawl-întârziere
Directivă Ce face
Agent utilizator * Indică un robot pentru care se aplică regulile enumerate în robots.txt.
Nu permiteți Interzice indexarea secțiunilor sau a paginilor individuale ale site-ului.
Harta site-ului Specifică calea către fișierul Sitemap care se află pe site.
Clean-param Indică robotului că adresa URL a paginii conține parametri (de exemplu, etichete UTM) care nu trebuie să fie luate în considerare la indexare.
Permite Permite indexarea secțiunilor sau a paginilor individuale ale site-ului.
Crawl-întârziere Setează perioada minimă de timp (în secunde) pentru robot între terminarea încărcării unei pagini și începerea încărcării următoarei.

* Directiva obligatorie.

Cele mai comune directive de care ați putea avea nevoie sunt Disallow, Sitemap și Clean-param. De exemplu:

User-agent: * #specificați pentru ce directive roboți sunt instalate\nDisallow: /bin/ # interzice link-urile din \"Coșul de cumpărături\".\nDisallow: /search/ # interzice link-uri către pagini integrate în site-ul de căutare\nDisallow: /admin / # interzice link-urile de la panoul de administrare\nSitemap: http://example.com/sitemap # indică robotul către fișierul sitemap pentru site\nClean-param: ref /some_dir/get_book.pl

Roboții din alte motoare de căutare și servicii pot interpreta aceste directive în mod diferit.

Notă. Robotul ține cont de majuscule atunci când scrie subșiruri (nume sau cale către fișier, numele robotului) și nu ține cont de majuscule în numele directivelor.

Folosind alfabetul chirilic

Utilizarea chirilicului este interzisă în fișierul robots.txt și antetele HTTP ale serverului.

Pentru a specifica nume de domenii, utilizați Punycode. Specificați adresele paginii în codificare care corespunde codificării structurii actuale a site-ului.

Exemplu de fișier robots.txt:

#False:\nUser-agent: Yandex\nDisallow: /cart\n\n#Corect:\nUser-agent: Yandex\nDisallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0% B8%D0%BD%D0%B0

Cum se creează robots.txt

Intrebari si raspunsuri

În Yandex.Webmaster, pe pagina „Diagnosticare site”, apare eroarea „Serverul răspunde cu o redirecționare la solicitarea /robots.txt”

Pentru ca un fișier robots.txt să fie luat în considerare de către robot, acesta trebuie să fie localizat în directorul rădăcină al site-ului și să răspundă cu un cod HTTP 200 Robotul de indexare nu acceptă utilizarea fișierelor aflate pe alte site-uri.

Puteți verifica răspunsul serverului și disponibilitatea fișierului robots.txt pentru robot folosind instrumentul Verificarea răspunsului serverului .

Dacă robots.txt redirecționează către un alt fișier robots.txt (de exemplu, când mutați un site), adăugați site-ul care este ținta redirecționării la Yandex.Webmaster și confirmați drepturile de gestionare a site-ului.