Fișier PHP roboți txt verificare greutate. User-agent - salut cu un robot

Trebuie doar să specificați adresa URL dorită. După care instrument de verificare va procesa fișierul robots.txt ca un robot Google și va determina dacă accesul la această adresă este blocat.

Procedura de verificare

În Google Search Console, selectați site-ul dvs., accesați instrumentul de verificare și examinați conținutul fișierului robots.txt. SintacticȘi joc de inteligență erorile din acesta vor fi evidențiate, iar numărul lor este indicat sub fereastra de editare.
În partea de jos a paginii interfeței, specificați adresa URL dorită în fereastra corespunzătoare.
Din meniul drop-down din dreapta, selectați robot.
Faceți clic pe butonul VERIFICA.
Va fi afișată starea DISPONIBIL sau NU ESTE DISPONIBIL. În primul caz, roboții Google pot merge la adresa specificată de dvs., dar în al doilea nu pot.
Dacă este necesar, faceți modificări în meniu și efectuați din nou testul. Atenţie! Aceste corecții nu vor fi adăugate automat în fișierul robots.txt de pe site-ul dvs.
Copiați conținutul modificat și adăugați-l în fișierul robots.txt de pe serverul dvs. web.

La ce să fii atent

Modificările făcute în editor nu sunt salvate pe serverul web. Trebuie să copiați codul rezultat și să-l inserați în fișierul robots.txt.
Instrument de inspecție a fișierelor Robots.txt oferă rezultate numai pentru agenții de utilizare Google și roboții specifici Google (cum ar fi Googlebot). Nu putem garanta că alți roboți de căutare vor interpreta conținutul fișierului dvs. în același mod.

Aceasta este apariția în căutarea paginilor care nu poartă nicio informație utilă pentru utilizator și, cel mai probabil, utilizatorul oricum nu le va vizita, iar dacă o face, nu va dura mult timp.
Aceasta este apariția în căutările de copii ale aceleiași pagini cu adrese diferite. (Conținut duplicat)
Acest lucru pierde timp prețios în indexarea paginilor inutile de către roboții de căutare. Robotul de căutare, în loc să se angajeze în conținut necesar și util, va pierde timpul rătăcind inutil prin site. Și din moment ce roboții nu indexează întregul site deodată (există multe site-uri și toată lumea are nevoie de atenție), este posibil să nu vedeți paginile importante pe care doriți să le vedeți în căutare foarte curând.

S-a decis blocarea accesului roboților de căutare la unele pagini ale site-ului. Fișierul robots.txt ne va ajuta în acest sens.

De ce aveți nevoie de robots.txt?

robots.txt este un fișier text obișnuit care conține instrucțiuni pentru roboții de căutare. Primul lucru pe care îl face un robot de căutare când accesează un site este să caute fișierul robots.txt. Dacă fișierul robots.txt nu este găsit sau este gol, crawler-ul va trece prin toate paginile și directoarele disponibile de pe site (inclusiv directoarele de sistem) în încercarea de a indexa conținutul. Și nu este un fapt că va indexa pagina de care aveți nevoie, dacă ajunge deloc la ea.

Folosind robots.txt, putem spune roboților de căutare ce pagini pot vizita și cât de des și unde nu ar trebui să meargă. Instrucțiunile pot fi specificate pentru toți roboții sau pentru fiecare robot individual. Paginile care sunt închise de la roboții de căutare nu vor apărea în motoarele de căutare. Dacă acest fișier nu există, atunci trebuie creat.

Fișierul robots.txt ar trebui să fie localizat pe server, la rădăcina site-ului dvs. Fișierul robots.txt poate fi vizualizat pe orice site de pe Internet, pentru a face acest lucru, trebuie doar să adăugați /robots.txt după adresa site-ului web; Pentru site, adresa unde puteti vizualiza robots..txt.

Fișierul robots.txt, de obicei fiecare site are propriile sale caracteristici, iar copierea fără gânduri a fișierului altcuiva poate crea probleme cu indexarea site-ului dvs. de către roboții de căutare. Prin urmare, trebuie să înțelegem clar scopul fișierului robots.txt și scopul instrucțiunilor (directivelor) pe care le vom folosi atunci când îl creăm.

Directivele fișierului Robots.txt.

Să ne uităm la instrucțiunile de bază (directive) pe care le vom folosi la crearea fișierului robots.txt.

User-agent: — specificați numele robotului pentru care vor funcționa toate instrucțiunile de mai jos. Dacă instrucțiunile trebuie folosite pentru toți roboții, atunci utilizați * (asterisc) ca nume.

De exemplu:
Agent utilizator:*
#instrucțiunile se aplică tuturor roboților de căutare
Agent utilizator: Yandex
#instrucțiunile se aplică numai robotului de căutare Yandex

Numele celor mai populare motoare de căutare Runet sunt Googlebot (pentru Google) și Yandex (pentru Yandex). Numele altor motoare de căutare, dacă sunt interesate, pot fi găsite pe Internet, dar mi se pare că nu este nevoie să creăm reguli separate pentru ele.

Disallow – interzice roboților de căutare să acceseze anumite părți ale site-ului sau întregul site.

De exemplu:
Nu permiteți /wp-includes/
#niză accesul roboților la wp-includes
Nu permite /
# Interzice roboților accesul la întregul site.

Permite – permite roboților de căutare accesul la unele părți ale site-ului sau la întregul site.

De exemplu:
Permite /wp-content/
#permite accesul roboților la conținutul wp
Permite /
#Permite roboților accesul la întregul site.

Harta site-ului: - poate fi folosit pentru a specifica calea către un fișier care descrie structura site-ului dvs. (harta site-ului). Este necesar pentru a accelera și îmbunătăți indexarea site-urilor de către roboții de căutare.

De exemplu:
.xml

Gazda: - Daca site-ul tau are oglinzi (copii ale site-ului pe alt domeniu)..site. Folosind fișierul Host, puteți specifica oglinda principală a site-ului. Numai oglinda principală va participa la căutare.

De exemplu:
Gazdă: site web

Puteți folosi și caractere speciale. *# și $
*(asterisc) – denotă orice succesiune de caractere.

De exemplu:
Nu permite /wp-content*
#niză accesul roboților la /wp-content/plugins, /wp-content/themes etc.

$(semnul dolar) – În mod implicit, fiecare regulă este de așteptat să aibă un *(asterisc) la sfârșitul regulii pentru a înlocui caracterul *(asterisc), puteți utiliza caracterul $(semnul dolar);

De exemplu:
Nu permiteți /example$
#niză accesul roboților la /example, dar nu interzice accesul la /example.html

#(semnul lire sterline) – poate fi folosit pentru comentarii în fișierul robots.txt

Mai multe detalii despre aceste directive, precum și câteva altele suplimentare, pot fi găsite pe site-ul Yandex.

Cum se scrie robots.txt pentru WordPress.

Acum să începem să creăm fișierul robots.txt. Deoarece blogul nostru rulează pe WordPress, să ne uităm la procesul de creare robots.txt pentru WordPress in detalii.

În primul rând, trebuie să decidem ce vrem să permitem roboților de căutare și ce să interzicem. Am decis să las doar esențialul pentru mine, acestea sunt postări, pagini și secțiuni. Vom închide totul.

Putem vedea ce foldere sunt în WordPress și ce trebuie închis dacă ne uităm la directorul site-ului nostru. Am făcut asta prin intermediul panoului de control al găzduirii de pe site reg.ruși am văzut imaginea următoare.

Să ne uităm la scopul directoarelor și să decidem ce poate fi închis.

/cgi-bin (directorul de scripturi de pe server - nu avem nevoie de el în căutare.)

/fișiere (director cu fișiere pentru descărcare. Aici, de exemplu, este un fișier de arhivă cu un tabel Excel pentru calcularea profiturilor, despre care am scris în articolul „“. Nu avem nevoie de acest director în căutare.)

/playlist (Am făcut acest director pentru mine, pentru liste de redare pe IPTV - nu este necesar în căutare.)

/test (am creat acest director pentru experimente; acest director nu este necesar în căutare)

/wp-admin/ (administrator WordPress, nu avem nevoie de el în căutare)

/wp-includes/ (dosarul de sistem din WordPress, nu avem nevoie de el în căutare)

/wp-content/ (din acest director avem nevoie doar de /wp-content/uploads/; acest director conține imagini de pe site, așa că vom interzice directorul /wp-content/ și vom permite directorul cu imagini cu o instrucțiune separată .)

De asemenea, nu avem nevoie de următoarele adrese în căutare:

Arhive – adrese precum //site/2013/ și similare.

Etichete - adresa etichetei conține /etichetă/

Fluxuri RSS - toate fluxurile au /feed în adresa lor

Pentru orice eventualitate, voi închide adresele cu PHP la sfârșit, deoarece sunt disponibile multe pagini, atât cu PHP la sfârșit, cât și fără. Acest lucru, mi se pare, va evita duplicarea paginilor în căutare.

Voi inchide si adresele cu /GOTO/ le folosesc pentru a urma link-uri externe cu siguranta nu au ce face in cautari.

P=209 și căutare pe site //site/?s=, precum și comentarii (adrese care conțin /?replytocom=)

Iată cu ce ar trebui să rămânem:

/images (am pus câteva imagini în acest director, lăsați roboții să viziteze acest director)

/wp-content/uploads/ - conține imagini de pe site.

Articole, pagini și secțiuni care conțin adrese clare și lizibile.
De exemplu: sau

Acum să venim cu instrucțiuni pentru robots.txt. Iată ce am primit:

# Indicăm că aceste instrucțiuni vor fi executate de toți roboții
Agent utilizator: *

#Permitem roboților să circule în directorul de încărcări.
Permite: /wp-content/uploads/

#Interzice folderul cu scripturi
Nu permiteți: /cgi-bin/

#Interzice folderul cu fișiere
Nu permiteți: /fișiere/

#Interzice folderul playlist
Nu permiteți: /listă de redare/

#Interzice folderul de testare
Nu permiteți: /test/

#Interzicem tot ce începe cu /wp- , acest lucru vă va permite să închideți mai multe foldere deodată ale căror nume încep cu /wp- , această comandă poate preveni indexarea paginilor sau postărilor care încep cu /wp-, dar eu fac nu plănuiesc să dea astfel de nume.
Nu permiteți: /wp-*

#Interzicem adresele care conțin /?p= și /?s=. Acestea sunt link-uri scurte și căutare.
Nu permiteți: /?p=
Nu permiteți: /?s=

#Interzicem toate arhivele înainte de 2099.
Nu permite: /20

#Interzicem adresele cu extensie PHP la sfârșit.
Nu permiteți: /*.php

#Interzicem adresele care conțin /goto/. Nu a trebuit să-l notez, dar îl voi adăuga pentru orice eventualitate.
Nu permiteți: /goto/

#Interzicem adresele de etichete
Nu permiteți: /tag/

#Interzicem toate fluxurile.
Nu permiteți: */feed

#Interzicem indexarea comentariilor.
Nepermite: /?replytocom=

#Și, în sfârșit, scriem calea către harta site-ului nostru.
.xml

Scrieți fișierul robots.txt pentru WordPress Puteți folosi un blocnotes obișnuit. Să creăm un fișier și să scriem următoarele rânduri în el.

Agent utilizator: *
Permite: /wp-content/uploads/
Nu permiteți: /cgi-bin/
Nu permiteți: /fișiere/
Nu permiteți: /listă de redare/
Nu permiteți: /test/
Nu permiteți: /wp-*
Nu permiteți: /?p=
Nu permiteți: /?s=
Nu permite: /20
Nu permiteți: /*.php
Nu permiteți: /goto/
Nu permiteți: /tag/
Nu permiteți: /autor/
Nu permiteți: */feed
Nepermite: /?replytocom=
.xml

La început, am plănuit să fac un bloc comun de reguli pentru toți roboții, dar Yandex a refuzat să lucreze cu blocul comun. A trebuit să fac un bloc separat de reguli pentru Yandex. Pentru a face acest lucru, pur și simplu am copiat regulile generale, am schimbat numele robotului și am îndreptat robotul către oglinda principală a site-ului folosind directiva Gazdă.

Agent utilizator: Yandex
Permite: /wp-content/uploads/
Nu permiteți: /cgi-bin/
Nu permiteți: /fișiere/
Nu permiteți: /listă de redare/
Nu permiteți: /test/
Nu permiteți: /wp-*
Nu permiteți: /?p=
Nu permiteți: /?s=
Nu permite: /20
Nu permiteți: /*.php
Nu permiteți: /goto/
Nu permiteți: /tag/
Nu permiteți: /autor/
Nu permiteți: */feed
Nepermite: /?replytocom=
.xml
Gazdă: site web

De asemenea, puteți specifica oglinda principală a site-ului prin, în secțiunea „Oglinda principală”.

Acum că fișierul robots.txt pentru WordPress creat, trebuie să-l încărcăm pe server, în directorul rădăcină al site-ului nostru. Acest lucru se poate face în orice mod convenabil pentru dvs.
De asemenea, puteți utiliza pluginul WordPress SEO pentru a crea și edita robots.txt. Voi scrie mai multe despre acest plugin util mai târziu. În acest caz, nu trebuie să creați un fișier robots.txt pe desktop, ci pur și simplu să lipiți codul fișierului robots.txt în secțiunea corespunzătoare a pluginului.

Cum se verifică robots.txt

Acum că am creat fișierul robots.txt, trebuie să-l verificăm. Pentru a face acest lucru, accesați panoul de control Yandex.Webmaster. Apoi, accesați secțiunea „Configurare indexare”, apoi „analiza robots.txt”. Aici facem clic pe butonul „Încărcați robots.txt de pe site”, după care conținutul robots.txt ar trebui să apară în fereastra corespunzătoare.

Apoi faceți clic pe „adăugați” și în fereastra care apare, introduceți diverse adrese URL de pe site-ul dvs. pe care doriți să le verificați. Am introdus mai multe adrese care ar trebui refuzate și mai multe adrese care ar trebui permise.

Faceți clic pe butonul „Verifică”, după care Yandex ne va oferi rezultatele verificării fișierului robots.txt. După cum puteți vedea, fișierul nostru a trecut testul cu succes. Ceea ce ar trebui interzis pentru roboții de căutare este interzis aici. Ceea ce ar trebui permis este permis aici.

Aceeași verificare poate fi efectuată și pentru robotul Google, prin GoogleWebmaster, dar nu este mult diferită de verificarea prin Yandex, așa că nu o voi descrie.

Asta e tot. Am creat robots.txt pentru WordPress și funcționează excelent. Tot ce rămâne este să ne uităm ocazional la comportamentul roboților de căutare pe site-ul nostru. Pentru a observa o eroare la timp și, dacă este necesar, a face modificări în fișierul robots.txt. Paginile care au fost excluse din index și motivul excluderii pot fi vizualizate în secțiunea corespunzătoare din Yandex.WebMaster (sau GoogleWebmaster).

Investiții bune și succes în toate eforturile tale.

Salutare dragi cititori! Aș dori să dedic articolul meu de astăzi unui dosar important și extrem de necesar robots.txt.

Voi încerca să explic cât mai detaliat posibil și, cel mai important, clar, ce funcție are acest fișier și cum să îl compun corect pentru blogurile Wordpress.

Cert este că fiecare al doilea blogger începător face aceeași greșeală nu acordă prea multă importanță acestui fișier, atât din cauza analfabetismului, cât și a lipsei de înțelegere a rolului pentru care este creat;

Astăzi ne vom uita la următoarele întrebări:

De ce aveți nevoie de un fișier roboți pe site?
Cum se creează robots.txt;
Exemplu de fișier corect;
Roboții verifică Yandex Webmaster.

Pentru ce este folosit fișierul robots.txt?

Am decis să folosesc motorul WordPress pentru a-mi crea blogul, deoarece este foarte convenabil, simplu și multifuncțional.

Cu toate acestea, nu există un singur lucru care să fie ideal. Cert este că acest cms este conceput în așa fel încât la redactarea unui articol, acesta să fie automat duplicat în arhive, categorii, rezultate de căutare pe site, .

Se pare că articolul tău va avea mai multe copii exacte pe site, dar cu adrese URL diferite.

Drept urmare, tu, fără să știi, umpleți proiectul cu conținut neunic, iar motoarele de căutare nu vă vor bate pe cap pentru un astfel de material duplicat și îl vor pune în curând sub filtre: de la Yandex sau Google.

Personal, m-am convins de acest lucru prin propriul meu exemplu.

Când tocmai am început să scriu acest blog, firește, nu aveam idee că există un fel de fișier roboți, cu atât mai puțin idee despre ce ar trebui să fie și ce ar trebui să fie scris în el.

Cel mai important lucru pentru mine a fost să scriu mai multe articole pentru ca pe viitor să pot vinde link-uri de la ele pe schimb. Am vrut bani rapid, dar nu a fost cazul...

Am scris aproximativ 70 de articole, dar panoul Yandex Webmaster a arătat că roboții de căutare au indexat 275.

Bineînțeles, am bănuit că totul nu poate fi atât de bine, dar nu am luat nicio măsură, plus că am adăugat blogul la schimbul de linkuri sape.ruși a început să primească 5 ruble. pe zi.

Și o lună mai târziu, proiectul meu a fost impus, toate paginile au căzut din index și astfel magazinul meu profitabil a fost închis.

Prin urmare, trebuie să spuneți roboților motoarelor de căutare care pagini, fișiere, foldere etc. trebuie indexate și pe care să le evite.

Robots.txt- un fișier care dă comenzi motoarelor de căutare ce poate fi indexat pe un blog și ce nu.

Acest fișier este creat într-un editor de text obișnuit (notepad) cu extensia TXTși se află la rădăcina resursei.

În fișierul robots.txt puteți specifica:

Ce pagini, fișiere sau foldere trebuie excluse de la indexare;
Care motoare de căutare sunt complet interzise să indexeze proiectul;
Specificați calea către fișierul sitemap.xml (harta site-ului);
Determinați oglinda principală și suplimentară a site-ului (cu www sau fără www);

Ceea ce este conținut în robots.txt - o listă de comenzi

Așadar, acum trecem la cel mai dificil și important moment, vom analiza principalele comenzi și directive care pot fi scrise în fișierul platformelor roboților WordPress.

1) Agent utilizator

În această directivă, indicați cărui motor de căutare vor fi adresate următoarele reguli (comenzi).

De exemplu, dacă doriți ca toate regulile să fie adresate în mod specific serviciului Yandex, atunci acesta spune:

Agent utilizator: Yandex

Dacă trebuie să întrebați absolut toate motoarele de căutare, atunci introduceți asteriscul „*” și rezultatul va fi următorul:

Agent utilizator: *

2) Dezactivați și permiteți

Disallow - interzice indexarea secțiunilor, folderelor sau paginilor de blog specificate;

Permite - în consecință permite indexarea acestor secțiuni;

Mai întâi trebuie să specificați directiva Allow și abia apoi Disallow. De asemenea, amintiți-vă că nu ar trebui să existe linii goale între aceste directive, precum și după directiva User-agent. În caz contrar, robotul de căutare va crede că instrucțiunile s-au terminat.

De exemplu, doriți să deschideți complet indexarea site-ului, atunci scriem astfel:

Permite: /

Nu permiteți:

Dacă vrem să interzicem Yandex de la indexarea unui site, atunci scriem următoarele:

Agent utilizator: Yandex
Nu permite: /

Acum să împiedicăm indexarea fișierului rss.html, care se află la rădăcina site-ului meu.

Nu permiteți: /rss.html

Și așa va arăta această interdicție a unui fișier aflat într-un folder "posumer".

Nu permiteți: /posumer/rss.html

Acum să interzicem directoarele care conțin pagini duplicate și gunoi inutile. Aceasta înseamnă că toate fișierele aflate în aceste foldere nu vor fi accesibile roboților motoarelor de căutare.

Nu permiteți: /cgi-bin/
Nu permiteți: /wp-admin/
Nu permiteți: /wp-includes/

Astfel, trebuie să interziceți roboților să viziteze toate paginile, folderele și fișierele care ar putea afecta negativ dezvoltarea site-ului în viitor.

3) Gazdă

Această directivă permite roboților motoarelor de căutare să determine ce oglindă a site-ului ar trebui să fie considerată cea principală (cu www sau fără www). Care, la rândul său, va proteja proiectul de dublarea completă și, ca urmare, vă va scuti de aplicarea unui filtru.

Trebuie să înregistrați această directivă numai pentru motorul de căutare Yandex, după Disallow și Allow.

Gazdă: site web

4) Harta site-ului

Cu această comandă indicați unde se află harta site-ului dvs. în format XML. Dacă cineva nu a creat încă un sitemap XML pentru proiectul său, vă recomand să folosiți articolul meu „”, unde totul este descris în detaliu.

Aici trebuie să specificăm adresa completă a sitemap-urilor în format xml.

Harta site-ului: https://site/sitemap.xml

Urmăriți un scurt videoclip care va explica foarte clar cum funcționează fișierul robots.txt.

Exemplu de fișier valid

Nu trebuie să cunoașteți toate complexitățile instalării fișierului roboți, ci doar urmăriți cum îl compun alți webmasteri și repetați toți pașii după ei.

Site-ul meu blog este perfect indexat de motoarele de căutare și nu există duplicate sau alte materiale de gunoi în index.

Iată fișierul folosit în acest proiect:

User-agent: * Disallow: / wp- Gazdă: seoslim. ru Sitemap: https: //site/sitemap.xml User-agent: Googlebot- Image Allow: / wp- content/ uploads/ User- agent: YandexImages Allow: / wp- content/ uploads/

User-agent: * Disallow: /wp- Gazdă: site.xml User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/

Dacă doriți, puteți folosi asta ca exemplu, nu uitați să schimbați numele site-ului meu cu al dvs.

Acum să vă explic ce ne va oferi exact un astfel de robot. Faptul este că, dacă interziceți anumite pagini din acest fișier folosind directivele descrise mai sus, atunci roboții motoarelor de căutare le vor lua în continuare în index, acest lucru se referă în principal la Google.

Dacă PS începe să interzică ceva, atunci, dimpotrivă, îl va indexa cu siguranță, pentru orice eventualitate. Prin urmare, trebuie, dimpotrivă, să permitem motoarele de căutare să indexeze toate paginile și fișierele site-ului și să interzicem deja paginile de care nu avem nevoie (paginare, copii duplicate și alte gunoaie) cu următoarele comenzi folosind meta-etichete:

< meta name= "robots" content= "noindex,follow" />

Mai întâi de toate, adăugați următoarele linii în fișierul .htaccess:

RewriteRule (.+ ) / feed / $1 [ R= 301 , L] RewriteRule (.+ ) / comentariu-pagina / $1 [ R= 301 , L] RewriteRule (.+ ) / trackback / $1 [ R= 301 , L] RewriteRule (.+ ) / comentarii / $1 [ R= 301 , L] RewriteRule (.+ ) / atașament / $1 [ R= 301 , L] RewriteCond % ( QUERY_STRING) ^attachment_id= [ NC] RewriteRule (.* ) $1 ? [R= 301, L]

RewriteRule (.+)/feed /$1 RewriteRule (.+)/comment-page /$1 RewriteRule (.+)/trackback /$1 RewriteRule (.+)/comentarii /$1 RewriteRule (.+)/attachment /$1 RewriteCond %( QUERY_STRING) ^attachment_id= RewriteRule (.*) $1?

Astfel, am configurat o redirecționare de la paginile duplicate (feed, comentariu-pagină, trackback, comentarii, atașament) către articole originale.

Acest fișier se află la rădăcina site-ului dvs. și ar trebui să arate cam așa:

# ÎNCEPE WordPress< IfModule mod_rewrite. c>RewriteEngine On RewriteBase / RewriteCond % ( QUERY_STRING) ^replytocom= [ NC] RewriteRule (.* ) $1 ? [ R= 301 , L] RewriteRule (.+ ) / feed / $1 [ R= 301 , L] RewriteRule (.+ ) / pagina de comentarii / $1 [ R= 301 , L] RewriteRule (.+ ) / trackback / $1 [ R= 301 , L] RewriteRule (.+ ) / comentarii / $1 [ R= 301 , L] RewriteRule (.+ ) / atașament / $1 [ R= 301 , L] RewriteCond % ( QUERY_STRING) ^attachment_id= [ NC] RewriteRule (.* ) $1 ? [ R= 301 , L] RewriteRule ^index\. php$ - [ L] RewriteCond % ( REQUEST_FILENAME) !- f RewriteCond % ( REQUEST_FILENAME) !- d RewriteRule . /index. php[L]#ENDWordPress

# ÎNCEPE WordPress RewriteEngine On RewriteBase / RewriteCond %(QUERY_STRING) ^replytocom= RewriteRule (.*) $1? RewriteRule (.+)/feed /$1 RewriteRule (.+)/comment-page /$1 RewriteRule (.+)/trackback /$1 RewriteRule (.+)/comentarii /$1 RewriteRule (.+)/attachment /$1 RewriteCond %( QUERY_STRING) ^attachment_id= RewriteRule (.*) $1? RewriteRule ^index\.php$ - [L] RewriteCond %(REQUEST_FILENAME) !-f RewriteCond %(REQUEST_FILENAME) !-d RewriteRule . /index.php [L]#ENDWordPress

/*** Închidem paginile de paginare de la indexare folosind noindex, nofollow ***/ funcția my_meta_noindex () ( dacă ( is_paged () // Indicați spre toate paginile de paginare) ( ecou "" . "" . "\n"; ) ) add_action("wp_head" , "my_meta_noindex" , 3 ) ; // adaugă comanda noindex,nofollow la capul șablonului

/*** Închidem paginile de paginare de la indexare folosind noindex, nofollow ***/ function my_meta_noindex () ( if (is_paged() // Indicați către toate paginile de paginare) (echo ""." "."\n";) ) add_action("wp_head", "my_meta_noindex", 3); // adăugați comanda noindex,nofollow la capul șablonului

Pentru a închide categorii, arhive, etichete, accesați setările pluginului All in One Seo Pack și marcați totul ca în captură de ecran:

Toate setările au fost făcute, acum așteptați până când site-ul dvs. este reindexat, astfel încât duplicatele să cadă din rezultatele căutării și traficul să ajungă în partea de sus.

Pentru a șterge rezultatele snot-ului, a trebuit să permitem fișierului roboți să indexeze paginile de gunoi, dar când roboții PS ajung la ele, vor vedea metaetichete noindex și nu le vor introduce în indexul lor.

Verificarea roboților în Yandex Webmaster

După ce ați compilat corect fișierul robots.txt și l-ați încărcat la rădăcina site-ului, puteți efectua o simplă verificare a funcționalității acestuia în panoul pentru webmasteri.

Pentru a face acest lucru, accesați panoul Yandex Webmaster folosind aceasta legătură

Concluzie

La finalul postării, vreau să spun că, dacă vei face modificări în fișierul robots.txt, acestea vor intra în vigoare abia în câteva luni.

Pentru ca algoritmii motoarelor de căutare să decidă să excludă o pagină, au nevoie de o decizie deliberată - nu doar le acceptă acolo.

Vreau să luați în serios crearea acestui fișier, deoarece soarta viitoare a site-ului va depinde de aceasta.

Dacă există întrebări, să le rezolvăm împreună. Lasă un comentariu și nu va rămâne niciodată fără răspuns. Pe curând!

Buna din nou! În continuare, aș dori să subliniez un astfel de aspect precum verificarea drepturilor de acces ale roboților de căutare la paginile site-ului. Cu alte cuvinte, un robot de căutare are dreptul de a indexa o pagină și de a o plasa în rezultatele căutării?

De ce este necesar acest lucru și unde poate fi util? Principala aplicație practică este verificarea directivelor care blochează accesul la secțiuni sau pagini individuale ale site-ului, de ex. Control dacă pagina poate fi indexată sau nu. Pe lângă roboți, pot fi folosite și alte metode pentru a restricționa accesul, de exemplu.htaccess, metaeticheta noindex.

Uneori se întâmplă ca un autor de blog începător sau un administrator de site să nu înțeleagă pe deplin cum să compilați un robot și să nu fie sigur dacă a făcut totul corect - instrumente convenabile pentru verificare vin în ajutor. Să ne uităm la exemple, iar aceste instrumente de astăzi sunt Analysis of robots.txt și View as Googlebot în Yandex și, respectiv, Google.

Analiza robots.txt în Yandex

Pentru a verifica accesul robotului Yandex la pagină, ar trebui să utilizați un instrument numit Robots.txt Analysis din panoul Yandex Webmaster. Îl puteți găsi folosind linkul de pe pagina principală a panoului YaV.

În câmpul Hostname, trebuie să introduceți adresa paginii principale și să faceți clic pe butonul Load robots.txt de pe site, după care conținutul fișierului va fi afișat în câmpul text de mai jos. Următorul pas este să adăugați o listă de adrese URL - o adresă pe linie și să faceți clic pe butonul de verificare. Chiar și mai jos, va apărea rezultatul verificării URL-ului - accesul este permis sau refuzat. În acest fel puteți verifica dacă directivele roboților sunt procesate corect și dacă toate paginile inutile sunt blocate de la indexare.

Vedeți ca Googlebot

Pentru a verifica accesul robotului Google la pagini, vom folosi un instrument similar de la panouri pentru webmasteri Care e numit Vedeți ca Googlebot. În câmpul de text, introduceți adresa paginii, selectați tipul de bot de căutare și faceți clic pe butonul Obțineți conținut. După câteva secunde, cererea va fi procesată și starea de primire va fi indicată - reușită sau refuzată în fișierul robots.txt. Există o limită a vizualizărilor de pagină: 500 de adrese la fiecare zece zile.

Relativ recent, a apărut funcția Send to Index - o pagină care a fost trimisă spre revizuire poate fi trimisă pentru indexare. Când faceți clic pe linkul corespunzător, se va deschide o fereastră cu dreptul de a alege, constând din două opțiuni: trimiteți doar această adresă URL pentru indexare sau adresa URL și toate paginile conexe.