Cum să aflați data de indexare a unei pagini. Parametrul modtime în Yandex.Xml. Yandex marchează cu adevărat vârsta unei pagini din preocuparea pentru SEO? Verificarea numărului de pagini din indexul Yandex folosind operatori

Pentru o serie de sarcini de analiză SEO, este necesar să se determine cât timp „știe” motorul de căutare despre existența unei anumite pagini de pe site. Una dintre modalitățile comune de a afla vârsta unui document în Yandex este să căutați adresa URL folosind Yandex.Xml pentru a obține parametrul modtime. Datorită defalcării parametrului „&how=tm”, metoda a câștigat și mai multă popularitate.

Se dovedește convenabil și rapid, din fericire există o interfață vizuală la https://xml.yandex.ru/test/. Dar eu cu mare îndoială Mă raportez la această metodă.

Ce este în neregulă cu modtime?

În primul rând, documentația de service precizează doar următoarele:

Astfel, ideea că eticheta afișează data primei indexări aparține în întregime oamenilor SEO.

În al doilea rând, utilizatorii Yandex.Xml sunt, ca să spunem ușor, departe de cei mai importanți clienți pentru motorul de căutare. Accesul este gratuit, nu există reclame acolo. De ce ar fi Yandex LLC preocupat în special de acuratețea, relevanța și fiabilitatea parametrilor xml? Deși încă poți să crezi asta - ei bine, programatorii buni fac totul bine. Dar de ce furnizarea de capabilități nedocumentate este complet neclar.

Totuși, toate acestea sunt versuri și speculațiile mele. Să trecem la fapte.

Ce este „vârsta documentelor din punctul de vedere al Yandex”?

După cum îmi spun logica și Google, acesta este timpul care a trecut de la prima indexare. Cel mai adesea, ne interesează exact acest lucru - de la ce dată pagina a început să atragă trafic, să acumuleze vârsta și așa mai departe.

In realitate variaza. Nu trebuie să cauți departe pentru un exemplu.

Să verificăm modtime pentru câteva pagini din vechiul meu proiect de hobby smmup.ru.

Adresa	Data de la modtime
/	20140916T170528	2014-09-16
/activitate.php	20150422T103533	2015-04-22
/target.php	20150208T173922	2015-02-08
/kogda.php	20141112T210047	2014-11-12

Am scris deja despre istoria resursei în articol De mult timp nu a fost indexată corespunzător de Yandex. Am păstrat corespondență cu Platon, din 20 aprilie 2015. În acest moment, era o singură pagină în căutare - cea principală.

Adică, modtime pentru cel puțin două adrese URL s-a dovedit a nu fi deloc data apariției în index. Pentru /kogda.php, diferența dintre valoarea acestui parametru și timpul final de indexare este aproape șase luni! Documentul nu este în index - dar modtime este deja cu experiență (soldatul doarme - serviciul este în desfășurare).

Ce înseamnă acest lucru? Ca să exagerăm puțin: am analizat concurenții pentru cerere, am văzut acolo o grămadă de pagini vechi, ne-am speriat și nu am mers mai departe. Și jumătate dintre concurenți au fost de fapt sub filtre stricte de mult timp și nu este atât de greu să le depășești.

Situația este teoretică, am descris-o simplu ca pe un exemplu clar de ce trebuie să te bazezi pe modtime cu mare prudență.

Dar acestea sunt încă flori.

Modtime poate conține o dată ULTERIORĂ față de indexarea reală

În cazul smmup.ru, putem cel puțin interpreta modtime ca momentul primei vizite a robotului. Datele se corelează bine cu aspectul real al paginilor de pe site.

Iată un alt exemplu. Aici pur și simplu nu îndrăznesc să propun o ipoteză despre de unde vine totul.

Blogul meu nu are probleme cu indexarea (mai ales că acel articol a fost repostat în mai multe grupuri populare).
Nu au existat redirecționări, modificări de adrese sau altele asemenea.

Pentru a înlătura ultimele îndoieli:

Adică: modtime a subestimat în mod semnificativ vârsta paginii.

Acest exemplu a fost găsit în exact 2 minute (doar m-am uitat la parametrul pentru paginile de blog, fără trucuri suplimentare), ceea ce indică prevalența mare a unor astfel de rezultate. În plus, am văzut multe cazuri similare pe site-urile pe care le-am auditat (nu le arăt din motive evidente), uneori eroarea a fost de ani de zile.

Rezultate

Modtime nu afișează întotdeauna data corectă de indexare (de fapt, nimeni de la Yandex nu a promis acest lucru).
Bazați-vă numai pe acest parametru pentru a determina vârsta paginilor este interzis. Rezultatele sunt nesigure.
Prin urmare, utilizarea sa pentru analiza site-urilor web ale concurenților este o mare întrebare. Îl puteți folosi atunci când lucrați cu propriile proiecte - datorită disponibilității altor date pentru control. Cu toate acestea, gama de probleme care pot fi rezolvate în acest fel este destul de restrânsă.

Voi fi bucuros să primesc interpretări suplimentare și exemple interesante!

p.s. Pe FB a fost o discuție lungă și deloc productivă pe această temă. Poate că nu am fost în stare să formulez suficient de bine mesajul articolului. Ideea nu este că există unele erori cu modtime. Este clar că Yandex poate, dintr-un motiv sau altul, să reseta „vârsta” unei pagini. Principalul lucru este că aceste exemple ilustrează: a) nu vă puteți baza pe modtime ca dată a primei indexări b) nu există nicio certitudine că o „resetare” a vârstei conform modtime înseamnă o curățare completă a paginii de factorii acumulați care sunt direct sau indirect legate de vârstă .

Două metode pentru a obține data la care o pagină a fost prima indexată nu mai funcționează:

operatorul de dată nu funcționează corect;
adăugarea parametrului &how=tm la șirul de interogare nu mai afișează datele de indexare.

Dar aceste informații pot fi încă obținute prin Yandex XML. Pentru a face acest lucru, trebuie să urmați linkul https://xml.yandex.ru/test/ și în câmpul „&query” introduceți o interogare precum url:%page%, unde %page% este adresa paginii. Apoi, faceți clic pe „Find” și în rezultatul rezultat căutăm o etichetă care va indica data la care pagina a fost prima indexată.

Data accesării cu crawlere de către robotul de căutare și starea în baza de date de căutare

Pentru a afla data ultimei accesări cu crawlere a paginii și informații despre versiunea care se află la crearea rezultatelor căutării, trebuie să selectați „Verificați starea URL” în serviciul Yandex.Webmaster din secțiunea „Indexare”. Apoi, indicați adresa necesară și primiți datele. Această metodă funcționează numai pentru un site verificat.

Data creării copiei salvate

Pentru a afla data creării copiei salvate, trebuie să faceți clic pe meniul drop-down din rezultatele căutării (lângă numele adresei paginii).

Vizualizarea copiilor salvate în motoarele de căutare Bing și Mail va afișa versiuni mai vechi ale paginilor, deoarece acestea le reindexează mai lent decât roboții de căutare Yandex și Google.

Concluzie

După cum se arată în exemplul de mai sus, copia salvată a paginii nu este întotdeauna folosită pentru a construi baza de index. Dar, de multe ori, acest lucru este adevărat.
În plus, dacă ați făcut modificări paginii și așteptați ca aceste modificări să fie reindexate, atunci nu trebuie să concluzionați că modificările au fost luate în considerare pe baza datei ultimei accesări cu crawlere de către robotul de căutare.

Indexarea site-urilor web în motoarele de căutare este importantă pentru fiecare webmaster. La urma urmei, pentru promovarea de înaltă calitate a unui proiect, ar trebui să monitorizați indexarea acestuia. Voi descrie procesul de verificare a indexării în Yandex.

Indexarea în Yandex

Robotul Yandex scanează site-uri zi de zi în căutarea a ceva „gustos”. Colectează în topul rezultatelor acele site-uri și pagini care, în opinia sa, merită cel mai mult. Ei bine, sau Yandex a vrut doar așa, cine știe :)

Noi, ca webmasteri adevărați, vom adera la teoria conform căreia, cu cât site-ul este mai bine realizat, cu atât este mai mare poziția acestuia și cu atât mai mult trafic.

Există mai multe moduri de a verifica indexarea site-urilor în Yandex:

folosind Yandex Webmaster;
utilizarea operatorilor motoarelor de căutare;
utilizarea extensiilor și pluginurilor;
folosind servicii online.

Indexarea paginilor site-ului web în Yandex Webmaster

Pentru a înțelege ce a descoperit motorul de căutare pe site-ul nostru, trebuie să mergeți la iubitul nostru webmaster Yandex în secțiunea „Indexare”.

Ocoliți statisticile din Yandex Webmaster

Mai întâi, să mergem la elementul „Ocolire statistici”. Această secțiune vă permite să aflați ce pagini ale site-ului dvs. accesează cu crawlere robotul. Puteți identifica adrese pe care robotul nu a putut să le încarce din cauza indisponibilității serverului pe care se află site-ul sau din cauza unor erori în conținutul paginilor în sine.

Secțiunea conține informații despre pagini:

nou - pagini care au apărut recent pe site sau robotul tocmai le-a accesat cu crawlere;
schimbate - pagini pe care motorul de căutare Yandex le-a văzut anterior, dar s-au schimbat;
istoric de accesare cu crawlere - numărul de pagini pe care Yandex a accesat cu crawlere, ținând cont de codul de răspuns al serverului (200, 301, 404 și altele).

Graficul arată paginile noi (verzi) și modificate (albastre).

Și acesta este un grafic al istoricului accesării cu crawlere.

Acest articol afișează paginile găsite de Yandex.

N/a — URL-ul nu este cunoscut de robot, de ex. robotul nu o mai întâlnise niciodată.

Ce concluzii se pot trage din captura de ecran:

Yandex nu a găsit adresa /xenforo/xenforostyles/, ceea ce, de fapt, este logic, deoarece această pagină nu mai există.
Yandex a găsit adresa /bystrye-ssylki-v-yandex-webmaster/, care este, de asemenea, destul de logică, deoarece noua pagina.

Deci, în cazul meu, Yandex Webmaster reflectă ceea ce mă așteptam să văd: ceea ce nu este necesar, Yandex a eliminat și ceea ce este necesar, a adăugat Yandex. Asta înseamnă că totul este în regulă cu bypass, nu există blocaje.

Pagini în căutare

Rezultatele căutării se schimbă constant - sunt adăugate site-uri noi, cele vechi sunt șterse, pozițiile în rezultatele căutării sunt ajustate și așa mai departe.

Puteți folosi informațiile din secțiunea „Pagini în căutare”:

pentru a urmări modificările numărului de pagini din Yandex;
pentru a urmări paginile adăugate și excluse;
pentru a afla motivele excluderii unui site din rezultatele căutării;
pentru a obține informații despre data la care motorul de căutare a vizitat site-ul;
pentru a primi informații despre modificările rezultatelor căutării.

Această secțiune este necesară pentru a verifica indexarea paginilor. Aici Yandex Webmaster arată paginile adăugate la rezultatele căutării. Dacă toate paginile dvs. sunt adăugate la secțiune (una nouă va fi adăugată într-o săptămână), atunci totul este în ordine cu paginile.

Verificarea numărului de pagini din indexul Yandex folosind operatori

Pe lângă Yandex Webmaster, puteți verifica indexarea unei pagini folosind operatori direct în căutarea în sine.

Vom folosi doi operatori:

„site” - căutare în toate subdomeniile și paginile site-ului specificat;
„gazdă” - căutați pagini găzduite pe o anumită gazdă.

Să folosim operatorul „site”. Rețineți că nu există spațiu între operator și site. 18 pagini sunt în căutarea Yandex.

Să folosim operatorul „gazdă”. 19 pagini indexate de Yandex.

Verificarea indexării utilizând pluginuri și extensii

Verificați indexarea site-ului folosind serviciile

Există o mulțime de astfel de servicii. Vă arăt pe doi.

Șarpele

Serphunt este un serviciu online de analiză a site-urilor web. Au un instrument util pentru verificarea indexării paginilor.

Puteți verifica simultan până la 100 de pagini de site folosind două motoare de căutare - Yandex și Google.

Pentru a verifica indexarea unei pagini, adăugați-o la listă:

Faceți clic pe „Începe scanarea” și după câteva secunde obținem rezultatul:

Două metode pentru a obține data la care o pagină a fost prima indexată nu mai funcționează:

operatorul de dată nu funcționează corect;
adăugarea parametrului &how=tm la șirul de interogare nu mai afișează datele de indexare.

Data accesării cu crawlere de către robotul de căutare și starea în baza de date de căutare

Data creării copiei salvate

Pentru a afla data creării copiei salvate, trebuie să faceți clic pe meniul drop-down din rezultatele căutării (lângă numele adresei paginii).

Concluzie

După cum se arată în exemplul de mai sus, copia salvată a paginii nu este întotdeauna folosită pentru a construi baza de index. Dar, de multe ori, acest lucru este adevărat.
În plus, dacă ați făcut modificări paginii și așteptați ca aceste modificări să fie reindexate, atunci nu trebuie să concluzionați că modificările au fost luate în considerare pe baza datei ultimei accesări cu crawlere de către robotul de căutare.