Motoarele de căutare și caracteristicile acestora. Este posibil să controlezi acțiunile motoarelor de căutare?

Motoare de căutare

Motoarele de căutare vă permit să găsiți documente WWW legate de subiecte date sau echipat cu cuvinte cheie sau combinații ale acestora. Există două metode de căutare utilizate pe serverele de căutare:

· Conform ierarhiei conceptelor;

· Prin cuvinte cheie.

Serverele de căutare sunt populate automat sau manual. Serverul de căutare are de obicei link-uri către restul servere de căutareși le trimite o cerere de căutare la cererea utilizatorului.

Există două tipuri de motoare de căutare.

1. Motoare de căutare „full-text” care indexează fiecare cuvânt de pe o pagină web, cu excepția cuvintelor oprite.

2. Motoarele de căutare „abstracte” care creează un rezumat al fiecărei pagini.

Pentru webmasteri, motoarele full-text sunt mai utile deoarece orice cuvânt găsit pe o pagină web este analizat pentru a determina relevanța acestuia pentru interogările utilizatorilor. Cu toate acestea, motoarele abstracte pot indexa paginile mai bine decât cele cu text integral. Aceasta depinde de algoritmul de extragere a informațiilor, de exemplu, de frecvența de utilizare a acelorași cuvinte.

Principalele caracteristici ale motoarelor de căutare.

1.Mărimea unui motor de căutare este determinată de numărul de pagini indexate. Cu toate acestea, în orice moment, linkurile furnizate ca răspuns la solicitările utilizatorilor pot avea vârste diferite. Motive pentru care se întâmplă acest lucru:

· unele motoare de căutare indexează imediat pagina la cererea utilizatorului, iar apoi continuă să indexeze paginile care nu au fost încă indexate.

· alții indexează adesea cele mai populare pagini web.

2. Data indexării. Unele motoare de căutare arată data la care un document a fost indexat. Acest lucru ajută utilizatorul să determine când un document a apărut online.

3. Adâncimea de indexare arată câte pagini după cea specificată va indexa motorul de căutare. Majoritatea mașinilor nu au restricții privind adâncimea de indexare. Motive pentru care nu toate paginile pot fi indexate:

· Nu utilizarea corectă structuri de cadru.

· utilizarea unei hărți a site-ului fără a duplica link-uri obișnuite

4. Lucrul cu rame. Dacă un robot de căutare nu știe cum să lucreze cu structuri de cadre, atunci multe structuri cu cadre vor fi ratate în timpul indexării.

5. Frecvența legăturilor. Motoarele de căutare majore pot determina popularitatea unui document în funcție de cât de des este legat de acesta. Unele mașini, pe baza unor astfel de date, „conclud” dacă merită sau nu indexarea unui document.

6.Frecvența de actualizare a serverului. Dacă serverul este actualizat frecvent, motorul de căutare îl va reindexa mai des.

7. Controlul indexării. Arată ce instrumente puteți utiliza pentru a controla motorul de căutare.

8.Redirecționare. Unele site-uri redirecționează vizitatorii de la un server la altul, iar această opțiune arată cum va fi legată de documentele găsite.

9.Opriți cuvinte. Unele motoare de căutare nu includ anumite cuvinte în indexurile lor sau pot să nu includă acele cuvinte în interogările utilizatorilor. Aceste cuvinte sunt de obicei considerate prepoziții sau cuvinte folosite frecvent.

10. Amenzi pentru spam. Abilitatea de a bloca spam-ul.

11.Ștergerea datelor vechi. Un parametru care determină acțiunile webmasterului la închiderea serverului sau mutarea acestuia la o altă adresă.

Exemple de motoare de căutare.

1. Altavista. Sistemul a fost deschis în decembrie 1995. Deținut de DEC. Din 1996 colaborează cu Yahoo. AltaVista este cea mai buna varianta pentru căutare personalizată . Oricum, sortarea rezultatelor pe categorii Acest lucru nu se face și trebuie să revizuiți manual informațiile furnizate. AltaVista nu oferă niciun mijloc de a prelua liste de site-uri active, știri sau alte capabilități de căutare de conținut.

2.Excitați căutarea. Lansat la sfârșitul anului 1995. În septembrie 1996 - achiziționat de WebCrawler. Această unitate are o blană de căutare puternicăscăzut, posibilitate de setări individuale automateinformațiile furnizate, precum și calificările compilatedescrieri ale mai multor noduri de către personal calificat. Excita diferă de alte noduri de căutare prin aceea căvă permite să căutați servicii de știri și să publicați recenzii Pagini web. Motorul de căutare folosește instrumentecăutare standard de cuvinte cheie și euristicămetode de căutare a conținutului. Datorită acestei combinații,puteți găsi pagini relevante Web, dacă nu conțin o cheie specificată de utilizator cuvinte Dezavantajul Excite este o interfață oarecum haotică.

3.HotBot. Lansat în mai 1996. Deținut de Wired. Bazat pe tehnologia motorului de căutare Berkeley Inktomi. HotBot este o bază de date care conține documente indexate full-text și unul dintre cele mai cuprinzătoare motoare de căutare de pe Web. Capacitățile sale de căutare booleană și capacitatea sa de a limita căutările la orice zonă sau site web ajută utilizatorul să găsească informatie necesara, eliminând ceea ce este inutil. HotBot vă oferă posibilitatea de a alege parametrii necesari caută din listele derulante.

4.Căutare informații. Lansat înainte de 1995, ușor accesibil. În prezent, conține aproximativ 50 de milioane de adrese URL. Infoseek are o interfață bine concepută și facilități excelente de căutare. Majoritatea răspunsurilor la interogări sunt însoțite de link-uri „subiecte conexe”, iar fiecare răspuns este urmat de link-uri „pagini similare”. Baza de date a motorului de căutare a paginilor indexate după text integral. Răspunsurile sunt ordonate după doi indicatori: frecvența de apariție a cuvântului sau a frazelor pe pagină tsakh, precum și locația cuvintelor sau expresiilor pe pagini. Există un Director Web, împărțit în 12 categorii cu sute de subcategorii care pot fi căutate. Fiecare pagină de catalog conține o listă de re noduri recomandate.

5. Lycos. Funcționează din mai 1994. Cunoscut și folosit pe scară largă. Include un director cu un număr mare de adrese URL. și motorul de căutare Point cu tehnologie pentru analiza statistică a conținutului paginii, spre deosebire de indexarea textului integral. Lycos conține știri, recenzii de site-uri, link-uri către site-uri populare, hărți ale orașului și instrumente pentru găsirea adreselor, imaginilor expresii și clipuri audio și video. Lycos aranjează răspunsurile după gradul de corelaresatisfacerea unei cereri bazate pe mai multe criterii, de exemplu, numărullu termeni de căutare găsiți în rezumatul documentuluiment, interval întreface cuvinte în frază specifică document, locațietermenii din document.

6. WebCrawler. Deschis pe 20 aprilie 1994 ca proiect al Universității din Washington. WebCrawler oferă oportunități sintaxă pentru specificarea interogărilor, precum și o selecție mare adnotări de noduri cu o interfață simplă.

După fiecare răspuns, WebCrawler va afișa o pictogramă mică cu o evaluare aproximativă a faptului că cererea a fost potrivită. Comee afișează, de asemenea, o pagină cu un scurt rezumat pentru fiecare răspuns, adresa URL completă, un scor de potrivire exactă și, de asemenea, utilizează acest răspuns în interogarea exemplu ca cuvinte cheie.Interfață grafică pentru configurarea interogărilor în Nu există web crawler. N nu este permisutilizarea simbolurilor universale este de asemenea imposibilăatribuiți ponderi cuvintelor cheie.Nu există nicio modalitate de a limita câmpul de căutareo anumită zonă.

7. Yahoo. Cel mai vechi director al Yahoo a fost lansat la începutul anului 1994. Cunoscut pe scară largă, folosit frecvent și cel mai respectat. În martie 1996, a fost lansat catalogul Yahooligans pentru copii. Apar directoarele regionale și de top Yahoo. Yahoo se bazează pe abonamentele utilizatorilor. Poate servi drept punct de plecare pentru orice căutare pe Web, deoarece sistemul său de clasificare va ajuta utilizatorul să găsească un site cu informații bine organizate. Conținutul web se încadrează în 14 categorii generale, enumerate pe pagina principala Yahoo!. În funcție de specificul interogării utilizatorului, este posibil fie să lucrați cu aceste categorii pentru a explora subcategorii și liste de noduri, fie să căutați anumite cuvinte și termeni în baza de date. De asemenea, utilizatorul poate limita căutarea în orice secțiune sau subsecțiune a Yahoo!. Datorită faptului că clasificarea nodurilor este efectuată de oameni, și nu pe computer, calitatea linkurilor este de obicei foarte ridicată. Cu toate acestea, rafinarea căutării în caz de eșec este o sarcină dificilă. Alăturați-vă Yahoo ! motor de căutare inclus AltaVista, deci dacă căutați pe Yahoo! se întâmplă automat repetare folosind un motor de căutare AltaVista . Rezultatele sunt apoi trimise la Yahoo!. Yahoo! oferă posibilitatea de a trimite interogări de căutare către Usenet și Fourl 1 pentru a afla adrese de e-mail.

Motoarele de căutare rusești includ:

1. Rambler. Acesta este un motor de căutare în limba rusă. Secțiunile enumerate pe pagina de pornire Rambler acoperă resurse web în limba rusă. Există un clasificator de informații. O caracteristică convenabilă este de a oferi o listă cu cele mai vizitate noduri pentru fiecare tema propusă.

2. Căutare Aport. Aport se clasează printre cele mai importante motoare de căutare certificate Microsoft precum motoarele de căutare localesisteme pentru versiunea rusă Microsoft Internet Explorer. Unul dintre avantajele Aport este traducerea engleză-rusă și rusă-engleză a interogărilor online și a rezultatelor căutărilor, datorită cărora puteți căuta în resursele de internet ruse. , chiar și fără să cunoască limba rusă. în plus poti cauta informatii ment folosind expresii, chiar și pentru propoziții.Printre principalele proprietăți ale sistemului de căutare Aport putețiîmpărțiți următoarele:

Traducerea interogării și a rezultatelor căutării din rusă în englezălimba chineză și invers;

Verificare automată greșeli de ortografie cerere;

Afișare informativă a rezultatelor căutării pentru site-urile găsite;

Abilitatea de a căuta în orice formă gramaticală;

limbaj avansat de interogare pentru profesioniști utilizatorii de numerar.

Alte proprietăți de căutare includ:suport pentru cinci pagini de cod principale (operare diferităsisteme) pentru limba rusă, folosind tehnologia de căutarenu există restricții cu privire la URL și data documentelor, implementarea căutăriiprin titluri, comentarii și semnăturila imagini etc., salvarea parametrilor de căutare și definirea numărul de solicitări anterioare ale utilizatorilor, fuzionarea copii ale documentului aflat pe servere diferite.

3.Lista. ru ( http://www.list.ru) În implementarea sa, acest server are multecomun cu sistemul în limba engleză Yahoo!. Pe pagina principala serverul conține link-uri către cele mai populare categorii de căutare.

O listă de link-uri către principalele categorii ale catalogului ocupă partea centrală. Căutarea în catalog este implementată în așa fel încât rezultatul unei interogări să poată fi găsit atât pe site-uri individuale, cât și pe categorii. Dacă căutarea are succes, sunt afișate adresa URL, titlul, descrierea și cuvintele cheie. Utilizare acceptabilă Limbajul de interogare Yandex. CUlinkul „Structurăcatalog" deschide întreaga categorie de kata într-o fereastră separatăButuruga. A fost implementată capacitatea de a trece de la rubricator la orice subcategorie selectată. Diviziune tematică mai detaliatăsecțiunea curentă este reprezentată de o listă de legături. Catalogul este organizat astfel astfel încât toate site-urile conținute pe niveluri inferioare stroktururile sunt, de asemenea, prezentate în secțiuni.Lista de resurse afișată este organizată alfabetic, dar puteți alege să sortați după: după timp adaugă meniu, prin tranziție, prin ordinea adaugarii in catalog, conformpopularitate în rândul vizitatorilor catalogului.

4. Yandex. Produse software Seria Yandex reprezintă un set de instrumente pentru indexarea textului integral și căutarea datelor text, ținând cont de morfologia limbii ruse. Yandex include module pentru analiză și sinteză morfologică, indexare și căutare, precum și un set de module auxiliare, cum ar fi un analizor de documente, limbaje de marcare, convertoare de format și un păianjen.

Algoritmii de analiză morfologică și de sinteză bazați pe dicționarul de bază sunt capabili să normalizeze cuvintele, adică să găsească forma lor inițială și, de asemenea, să construiască ipoteze pentru cuvintele care nu sunt conținute în dicționarul de bază. Sistemul de indexare full-text vă permite să creați un index compact și să căutați rapid folosind operatori logici.

Yandex este proiectat să funcționeze cu texte în rețelele locale și globale și poate fi, de asemenea, conectat ca modul la alte sisteme.

Cum funcționează motoarele de căutare? Unul dintre lucrurile minunate despre Internet este că există sute de milioane de resurse web care așteaptă și sunt gata să ne fie prezentate. Dar răul este că există aceleași milioane de pagini care, chiar dacă avem nevoie de ele, nu vor apărea în fața noastră, pentru că... pur și simplu necunoscut nouă. Cum să afli ce și unde poți găsi pe internet? Pentru a face acest lucru, de obicei apelăm la motoarele de căutare.

Motoarele de căutare pe Internet sunt site-uri speciale din rețeaua globală care sunt concepute pentru a ajuta oamenii să găsească informațiile de care au nevoie pe World Wide Web. Există diferențe în modul în care motoarele de căutare își îndeplinesc funcțiile, dar în general există 3 funcții principale și identice:

Toți „căută” pe Internet (sau un anumit sector al Internetului) - pe baza unor cuvinte cheie date;
- toate motoarele de căutare indexează cuvintele pe care le caută și locurile în care le găsesc;
- toate motoarele de căutare permit utilizatorilor să caute cuvinte sau combinații de cuvinte cheie pe baza paginilor web deja indexate și incluse în bazele lor de date.

Primele motoare de căutare au indexat până la câteva sute de mii de pagini și au primit 1.000 - 2.000 de solicitări pe zi. Astăzi, motoarele de căutare de top au indexat și indexează continuu sute de milioane de pagini și procesează zeci de milioane de solicitări pe zi. Mai jos vom vorbi despre modul în care funcționează motoarele de căutare și despre modul în care „adună” toate informațiile găsite pentru a putea răspunde la orice întrebare care ne interesează.

Să ne uităm la Web

Când oamenii vorbesc despre Motoarele de căutare pe internet mașini, ele înseamnă de fapt motoarele de căutare Lume Wide Web . Înainte ca Web-ul să devină cea mai vizibilă parte a Internetului, motoarele de căutare existau deja pentru a ajuta oamenii să găsească informații pe Internet. Programele numite „gopher” și „Archie” au putut indexa fișierele aflate pe diferite servere conectate la Internet și au redus foarte mult timpul petrecut căutând programele sau documentele necesare. La sfârșitul anilor 80 ai secolului trecut, un sinonim pentru „capacitatea de a lucra pe internet” era capacitatea de a folosi gopher, Archie, Veronica etc. programe de căutare. Astăzi, majoritatea utilizatorilor de Internet își limitează căutarea la World Wide Web sau WWW.

Un mic început

Înainte să-ți spun unde să găsești documentul solicitat sau un fișier, acest fișier sau document trebuie să fi fost deja găsit la un moment dat. Pentru a găsi informații despre sute de milioane de pagini WEB existente, motorul de căutare folosește un program special de robot. Acest program se mai numește și spider („păianjen”) și este folosit pentru a construi o listă de cuvinte găsite pe pagină. Procesul de construire a unei astfel de liste este numit crawling pe web(Crawling pe web). Pentru a construi și a capta în continuare o listă de cuvinte „utilă” (semnificativă), păianjenul de căutare trebuie să „se uite prin” multe alte pagini.

Cum începe cineva? păianjen(păianjen) călătoria ta pe web? De obicei, punctul de plecare sunt cele mai mari servere din lume și pagini web foarte populare. Păianjenul își începe călătoria de pe un astfel de site, indexează toate cuvintele găsite și își continuă mișcarea mai departe, urmărind link-uri către alte site-uri. Astfel, robotul păianjen începe să acopere „bucăți” din ce în ce mai mari de spațiu web. Google.com a început ca un motor de căutare academic. Într-un articol care descrie modul în care a fost creat acest motor de căutare, Sergey Brin și Lawrence Page (fondatorii și proprietarii Google) a dat un exemplu despre cât de repede funcționează păianjenii Google. Există mai multe dintre ele și de obicei căutarea începe cu utilizarea a 3 păianjeni. Fiecare păianjen suportă până la 300 simultan conexiuni deschise cu pagini web. La sarcina maximă, folosind 4 spider, sistemul Google este capabil să proceseze 100 de pagini pe secundă, generând un trafic de aproximativ 600 kilobytes/sec.

Pentru a oferi păianjenilor datele pe care trebuie să le proceseze, Google obișnuia să aibă un server care nu făcea altceva decât să hrănească păianjenii din ce în ce mai multe adrese URL. Pentru a nu depinde de furnizorii de servicii Internet în ceea ce privește serverele de nume de domeniu (DNS) care traduc URL-urile în adrese IP, Google și-a achiziționat propriul server DNS, reducând la minimum tot timpul petrecut cu indexarea paginilor.

Când robotul Google vizitează Pagina HTML, ține cont de 2 lucruri:

Cuvinte (text) pe pagină;
- locația lor (în ce parte a corpului paginii).

Cuvinte situate cu secțiuni de serviciu precum titlu, subtitrări, metaetichete iar altele au fost marcate ca fiind deosebit de importante pentru interogările de căutare ale utilizatorilor. Google Spider a fost creat pentru a indexa fiecare cuvânt similar de pe o pagină, cu excepția interjecțiilor precum „a”, „an” și „the”. Alte motoare de căutare au o abordare ușor diferită a indexării.

Toate abordările și algoritmii motoarelor de căutare sunt în cele din urmă menite să facă roboții păianjen să funcționeze mai rapid și mai eficient. De exemplu, unii roboți de căutare Ei urmăresc cuvintele din titlu, link-uri și până la 100 de cuvinte cele mai frecvent utilizate pe o pagină în timpul indexării și chiar fiecare dintre cuvintele din primele 20 de rânduri de conținut text de pe pagină. Acesta este algoritmul de indexare, în special, al Lycos.

Alte motoare de căutare, cum ar fi AltaVista, merg în cealaltă direcție, indexând fiecare cuvânt dintr-o pagină, inclusiv „a”, „an”, „the” și alte cuvinte neimportante.

Meta etichete

Metaetichetele permit proprietarului unei pagini web să specifice cuvintele cheie și conceptele care definesc esența conținutului acesteia. Acesta este un instrument foarte util, mai ales când aceste cuvinte cheie pot fi repetate de până la 2-3 ori în textul paginii. În acest caz, metaetichetele pot „direcționa” robotul de căutare către alegerea corecta cuvinte cheie pentru indexarea paginilor. Există posibilitatea de a „înșela” meta-etichete cu interogări de căutare populare și concepte care nu au nicio legătură cu conținutul paginii în sine. Roboții de căutare sunt capabili să combată acest lucru, de exemplu, analizând corelația meta-etichetelor și conținutul unei pagini web, „aruncând” din considerare acele meta-etichete (respectiv cuvinte cheie) care nu corespund conținutului paginilor.

Toate acestea se aplică în acele cazuri în care proprietarul unei resurse web dorește cu adevărat să fie inclus în rezultatele căutării pentru cuvintele de căutare dorite. Dar se întâmplă adesea ca proprietarul să nu dorească deloc să fie indexat de robot. Dar astfel de cazuri nu sunt subiectul articolului nostru.

Construcția indexului

Odată ce păianjenii și-au terminat munca de a găsi noi pagini web, motoarele de căutare trebuie să plaseze toate informațiile găsite astfel încât să fie convenabil să le folosească în viitor. Există 2 componente cheie care contează aici:

Informații stocate cu date;
- metoda prin care se indexează aceste informații.

În cel mai simplu caz, un motor de căutare ar putea pur și simplu plasa cuvântul și adresa URL, unde este localizat. Dar acest lucru ar face din motorul de căutare un instrument complet primitiv, deoarece nu există informații despre ce parte a documentului se află acest cuvânt (meta tag-uri sau în text simplu), dacă acest cuvânt este folosit o dată sau în mod repetat și dacă este conținute într-un link către o altă resursă importantă și conexe. Cu alte cuvinte, această metodă nu va clasa site-urile, nu va oferi rezultate relevante utilizatorilor etc.

Pentru a ne oferi date utile, motoarele de căutare stochează nu numai informații din cuvânt și URL-ul acestuia. Un motor de căutare poate salva date despre numărul (frecvența) mențiunilor unui cuvânt pe o pagină, poate atribui o „greutate” cuvântului, ceea ce va ajuta apoi la producerea listelor de căutare (rezultate) bazate pe clasarea ponderată după acest cuvânt, ținând cont de locația acestuia (în linkuri, meta-etichete, titlul paginii etc.). Fiecare motor de căutare comercial are propria formulă pentru calcularea „greutății” cuvintelor cheie în timpul indexării. Acesta este unul dintre motivele pentru care motoarele de căutare produc rezultate complet diferite pentru aceeași interogare de căutare.

Următorul punct important la procesarea informațiilor găsite - codificarea acesteia pentru a reduce cantitatea de spațiu pe disc pentru stocarea acesteia. De exemplu, articolul original Google descrie că 2 octeți (8 biți fiecare) sunt utilizați pentru a stoca datele de greutate ale cuvintelor - acest lucru ia în considerare tipul de cuvânt (cu litere mari), dimensiunea literelor în sine (Font-Size). ), și alte informații care ajută la clasarea site-ului. Fiecare astfel de „informație” necesită 2-3 biți de date într-un set complet de 2 octeți. Ca rezultat, o cantitate imensă de informații poate fi stocată într-o formă foarte compactă. Odată ce informațiile sunt „comprimate”, este timpul să începeți indexarea.

Scopul indexării este unul: asigurarea unei căutări cât mai rapide a informațiilor necesare. Există mai multe moduri de a construi indici, dar cea mai eficientă este construirea tabele de hash(tabel hash). La hashing este folosit formula specifica, cu ajutorul căruia fiecărui cuvânt i se atribuie o anumită valoare numerică.

În orice limbă, există litere cu care încep mult mai multe cuvinte decât cu restul literelor alfabetului. De exemplu, cuvinte care încep cu „M” în secțiune Dictionar englez semnificativ mai mult decât litera „X”. Aceasta înseamnă că căutarea unui cuvânt care începe cu cea mai populară literă va dura mai mult decât orice alt cuvânt. Hashing(Hashing) egalizează această diferență și reduce timpul mediu de căutare și, de asemenea, separă indexul însuși de datele reale. Un tabel hash conține valori hash împreună cu un pointer către datele corespunzătoare acelei valori. Indexarea eficientă + plasarea eficientă împreună oferă de mare viteză căutare, chiar dacă utilizatorul solicită o interogare de căutare foarte complexă.

Viitorul motoarelor de căutare

O căutare bazată pe operatori booleeni ("și", "sau", "nu") este o căutare literală - motorul de căutare primește cuvinte de căutare exact cum au fost introduse. Acest lucru poate cauza o problemă atunci când, de exemplu, cuvântul introdus are mai multe semnificații. „Cheie”, de exemplu, poate însemna „un mijloc de a deschide o ușă” sau poate însemna o „parolă” pentru conectarea la un server. Dacă sunteți interesat doar de un singur sens al unui cuvânt, atunci evident că nu veți avea nevoie de date despre cel de-al doilea sens al acestuia. Puteți, desigur, să construiți o interogare literală care va exclude ieșirea de date pe baza semnificației inutile a unui cuvânt, dar ar fi bine dacă motorul de căutare însuși v-ar putea ajuta.

Un domeniu de cercetare a viitorilor algoritmi pentru motoarele de căutare este regăsirea informațiilor conceptuale. Aceștia sunt algoritmi care utilizează analiza statistică a paginilor care conțin un anumit cuvânt cheie sau o expresie de căutare pentru a găsi date relevante. Este clar că un astfel de „motor de căutare conceptual” ar necesita mult mai mult spațiu de stocare pentru fiecare pagină și mai mult timp pentru procesarea fiecărei cereri. În prezent, mulți cercetători lucrează la această problemă.

Nu se lucrează mai puțin intens în domeniul dezvoltării algoritmilor de căutare bazați pe interogări. limbaj natural(Interogare în limbaj natural).

Ideea din spatele interogărilor naturale este că îți poți scrie interogarea ca și cum ai întreba un coleg care stă în fața ta. Nu trebuie să vă faceți griji pentru operatorii booleeni sau să vă luptați pentru a scrie o interogare complexă. Cel mai popular site de căutare în limbaj natural de astăzi este AskJeeves.com. Acesta convertește interogarea în cuvinte cheie, pe care apoi le folosește atunci când indexează site-urile. Această abordare funcționează numai dacă interogări simple. Totuși, progresul nu stă pe loc; este posibil ca foarte curând să „vorbim” cu motoarele de căutare în propria noastră „limbă umană”.

Se știe că utilizatorii care ajung pe un site din motoarele de căutare furnizează până la patruzeci la sută din trafic. Prin urmare, aveți grijă de indexarea corectă a site-ului dvs. în motoare de căutare foarte util. Prin „indexare corectă” înțeleg că trebuie respectată relevanța interogării și conținutul site-ului, adică în mod simplu și limbaj accesibil, conținutul site-ului trebuie să corespundă solicitării (unii „maeștri” abuzează de seturi de cuvinte cheie care nu corespund realității. De exemplu, când sora mea se pregătea să lanseze un CD cu copii locale ale primelor nivele de pagini Web, cuvântul „x#y” și altele asemenea au apărut pe serverele unor companii foarte reputate care nu au nicio legătură cu acest tip de vocabular :-).

Altavista
Preluare-căutare
Medialingua
Hoinar
RusInfOil
Russian Express
Căutare corporală
HotBot
Yandex

De ce am enumerat aceste motoare de căutare specifice? Pentru că, conform observațiilor mele, acestea sunt cele pe care internauții vorbitori de limbă rusă le folosesc. Care sunt „observațiile mele”? Aceasta este o analiză a jurnalelor de acces la serverul meu http://citforum.ru/, mai precis a părții jurnalelor în care sunt colectate informații despre HTTP_REFERER, adică. adrese (URL-uri) la care clienții au folosit un link către orice pagină de pe serverul meu.

Care este evaluarea mașinilor pe care le-am enumerat în practică, care sunt utilajele folosite mai mult, care sunt mai puțin?

Altavista este pe primul loc cu o marjă uriașă față de restul. Acest motor de căutare a fost în frunte chiar înainte ca căutarea în diferite limbi (inclusiv documente în limba rusă) să apară acolo. Ei bine, este de înțeles - un server excelent, ușor accesibil, funcționează de mult timp (de la începutul anului 1996), bază imensă documente (peste 50 de milioane de adrese). De asemenea, trebuie luat în considerare faptul că utilizatorii vorbitori de limbă rusă se află nu numai în Rusia, ci și în Bulgaria, Cehia și Slovacia, Polonia, Israel, Germania, ca să nu mai vorbim de fostele republici ale URSS - Ucraina, Belarus. .. (aș vrea să spun mai ales despre statele baltice: ei sunt cei care, când se întâlnesc pe străzile unor Kaunas sau Tallinn, nu știu rusă, dar în fața monitorului, mai ales dacă este cu adevărat necesar, ei chiar știu :-)) Deci pentru toți acești utilizatori este mai convenabil să folosească Altavista, și nu mașinile noastre domestice - mai aproape, tot...

Următorul cel mai popular motor de căutare, destul de ciudat, este cel mai tânăr din Rusia - Yandex. După cum mi-a spus Aleksey Amilyushchenko (compania Comptek), astăzi există o medie de 72.000 de solicitări pe zi și există o tendință de +10% pe săptămână (date din 04/07/98). Mi se pare că Yandex este cel mai promițător motor de căutare rusesc. Cu sistemul Comptek de analizare a „marelui și puternic” limbă rusă, Yandex poate ieși victorios în competiția cu a doua balenă din această zonă - Rambler.

Rambler este al treilea motor de căutare serios pentru utilizatorii vorbitori de limbă rusă. Principalul lucru care nu-mi place la el este că ignoră conținutul structurii . (Nu am venit cu asta, asta a spus Dmitry Kryukov de la Stack Ltd.) Probabil, tocmai din cauza refuzului de a lua în considerare cuvintele cheie este afișat un set atât de ciudat de link-uri în rezultatele interogării. Al doilea dezavantaj de natură pur interfață este că rezultatele sunt date în mod constant în codificarea KOI, indiferent de ceea ce utilizatorul a selectat înainte. Al treilea dezavantaj: păianjenul Rambler funcționează folosind protocolul HTTP 0.9, ceea ce duce la erori de indexare, de exemplu. dacă mai multe locuiesc pe aceeași adresă IP servere virtuale, Rambler îl vede doar pe primul și le consideră pe toate celelalte pur și simplu sinonime. Ei bine, să sperăm că se va rezolva în curând.

In regula, atunci ultimul locÎn ratingul meu există Aport-Search, care indexează serverele foarte ciudat, RusInfOil, care se închide regulat pentru reconstrucție și TELA-Search - un gadget frumos și aproape inutil pentru serverul www.dux.ru.

Vă puteți întreba: HotBot și metamotorul Pathfinder de la Medialingua au fost și ele pe listă? Nu le-am uitat, doar că HotBot, dintr-un motiv necunoscut, lasă o mulțime de înregistrări în jurnalele mele, care nu pot fi zboruri aleatorii ale străinilor care nu înțeleg limba rusă (sunt mult mai puține astfel de zboruri din alte mașini importate) și nu am studiat încă suficient de serios „Pathfinder”.

De ce motoarele de căutare trebuie să promoveze un site web?

Este foarte simplu, așa cum am spus deja, motoarele de căutare pot furniza până la patruzeci la sută din trafic către un site. Și pentru ca acest lucru să se întâmple, este necesar ca site-ul tău să fie indexat corect, iar pentru aceasta trebuie să știi cum se face acest lucru.

Și acest lucru se face în felul următor: fie robotul motorului de căutare ajunge însuși pe site-ul tău, fie tu însuți indicați site-ul în interfața corespunzătoare (AddUrl), care este prezent în orice motor de căutare care se respectă. Prima variantă suferă de întârzieri (robotul tot va ajunge acolo, poate într-o zi, poate într-un an: internetul este mare). Al doilea necesită o perioadă de timp (diverse software pentru înregistrare automată Site-ul dvs. nu ne oferă nimic în norul motoarelor de căutare - mașinile sunt importate).

Pentru ca totul să se întâmple în la cel mai bun mod necesar:

ar trebui să existe măcar ceva text pe site. Motoarele de căutare ignoră imaginile și testele pe ele. Adevărat, puteți duplica textul în atributul alt al etichetei img
Fiecare document de site TREBUIE să conțină un titlu semnificativ, cuvinte cheie și o scurtă descriere. Ei scriu doar că motoarele de căutare sunt full-text, dar în realitate nu este cazul.
Crearea unui fișier robots.txt (mai ales dacă aveți propriul server precum www.name.ru).
Înregistrarea manuală în fiecare motor de căutare care vă interesează și controlul ulterior al indexării site-ului dumneavoastră.

Deci, ați înregistrat deja prima pagină a site-ului dvs. în diverse motoare de căutare.

Crezi că totul este deja în contract? Indiferent cum ar fi. Dacă un link către site-ul dvs. într-un răspuns motor de căutare este afișat pe al doilea ecran, „este la fel de rău ca și cum nu ar exista deloc link” (Danny Sullivan, searchenginewatch.com)

Cu alte cuvinte, pur și simplu specificarea paginii în AddURL nu este suficientă. Este necesar să pregătiți documentul în prealabil, astfel încât, ca răspuns la solicitările corespunzătoare către motorul de căutare, în răspunsul acestuia la cerere, linkul către documentul dvs. să fie, dacă nu primul, atunci cel puțin în primele zece link-uri (sau mai bine daca in acest top zece existau mai multe link-uri catre documentele tale:- ). Ce înseamnă „pregătește”? Aceasta este o întrebare pur tehnică, nimic supranatural. Doar în secțiunea HEAD a fiecărui document de pe site-ul dvs. ar trebui să indicați titlul „vorbitor”, cuvintele cheie, descrierea și roboții.

Titlu:titlul documentului. Un titlu bun și semnificativ poate face un utilizator să-ți aleagă linkul dintre multe altele. Adesea vedeți titluri precum următoarele: „Conținut” - ce, de ce - este neclar, nu există dorința de a verifica. Un alt caz: pe toate paginile site-ului, titlul este „Bine ați venit la companie...” - de asemenea, nu este foarte atractiv să verificați toate documentele intitulate în acest fel. Imaginează-ți că ai selectat modul de căutare după titluri, fără o descriere a fiecărui document.

Cuvinte cheie:Cuvinte cheie. Conținutul acestui container este cel care afectează relevanța documentului pentru interogarea de căutare.

Indiferent cât de mult ar spune că motoarele de căutare sunt full-text, acest lucru nu este în întregime adevărat, dar conținutul acestui container va ajunge cu siguranță în indexul motorului de căutare. Din păcate, creatorii unuia dintre cele mai mari motoare de căutare interne, Rambler, nu doresc să lucreze la acest container. Dar în zadar.

câmpul de conținut nu trebuie să conțină sfârșituri de rând, ghilimele sau alte caractere speciale; caracterele nu contează.
Nu este recomandat să repeți aceleași cuvinte cheie de mai multe ori; acest lucru poate fi perceput ca spam și pagina riscă să fie eliminată din indexul motorului de căutare.
nu ar trebui să faci aceleași cuvinte cheie pentru pagini diferite Site-ul tau. Acest lucru este, desigur, mai simplu, dar conținutul documentelor în sine este diferit. Dacă doriți cu adevărat să automatizați acest proces, puteți scrie un program care să scrie toate blocurile selectate ale documentului în acest câmp, de exemplu, ce este între etichetele H, I și B.
dacă rândul în conținut este prea lung, nu este interzis să se facă mai multe construcții similare.
În general, volumul total de cuvinte cheie dintr-un document poate ajunge până la 50% din volumul acelui document.

Descriere: scurta descriere document. Un container destul de util, conținutul său este folosit ca o scurtă descriere a documentelor relevante în răspunsul motoarelor de căutare moderne. Dacă acest container nu există, atunci se returnează un anumit număr de rânduri de la începutul documentului. În consecință, nu este neobișnuit când JavaScript este situat chiar la începutul documentului și, în loc de o descriere normală, abracadabra este dat sub forma unui script.

Câmpul de conținut nu trebuie să conțină sfârșit de rând, ghilimele sau alte caractere speciale.
Este de dorit să existe un rezumat semnificativ al documentului din câteva propoziții umane, astfel încât utilizatorul motorului de căutare, pe lângă titlu, să poată înțelege semnificația documentului.
Din păcate, motoarele de căutare autohtone nu știu încă să lucreze cu acest container, deși promit că vor învăța în curând.

Este posibil să controlezi acțiunile motoarelor de căutare?

Este posibil, ba chiar necesar! Prima acțiune care trebuie făcută pentru aceasta este să scrieți un fișier robots.txt și să îl puneți în rădăcina serverului dvs. Acest fișier explică în mod popular robotului motorului de căutare ce ar trebui indexat și ce nu trebuie indexat. De exemplu, de ce indexați fișierele de servicii, cum ar fi rapoartele statistice? Sau rezultatele scripturilor? Mai mult decât atât, multe mașini „inteligente” pur și simplu nu vor indexa serverele fără a găsi robots.txt. Apropo, în acest fișier puteți specifica diferite măști de indexare pentru diferite motoare de căutare.

Puteți citi mai multe despre asta în traducerea mea „Standard pentru excluderea roboților”. A doua acțiune: furnizați paginilor site-ului etichete META Robots. Acesta este un instrument de control al indexării mai flexibil decât robots.txt. În special, în această etichetă puteți instrui robotul motorului de căutare să nu urmeze link-uri către alte servere, de exemplu, în documente cu liste de link-uri. Formatul acestei mizerie este următorul:

robot_terms este o listă separată prin virgulă cu următoarele cuvinte cheie (caracterele mari sau mici nu contează): ALL, NONE, INDEX, NOINDEX, FOLLOW, FOLLOW. NICI UNUL le spune tuturor roboților să ignore această pagină la indexare (echivalent cu utilizarea simultană a cuvintelor cheie NOINDEX, NOFOLLOW). TOATE permite indexarea acestei pagini și a tuturor legăturilor din ea (echivalent cu utilizarea simultană a cuvintelor cheie INDEX, FOLLOW). INDEX permite indexarea acestei pagini NOINDEX nu permite ca această pagină să fie indexată URMA permite indexarea tuturor linkurilor din această pagină NOFOLLOW nu permite indexarea linkurilor din această pagină

Dacă această metaetichetă este omisă sau nu sunt specificate robot_terms, atunci în mod implicit robotul de căutare acționează ca și cum robot_terms=INDEX, FOLLOW (adică ALL) ar fi fost specificate. Dacă cuvântul cheie TOATE este detectat în CONȚINUT, atunci robotul acționează în consecință, ignorând eventual alte cuvinte cheie specificate. Dacă CONȚINUT conține cuvinte cheie care au semnificații opuse, de exemplu, FOLLOW, NOFOLLOW, atunci robotul acționează la propria discreție (în acest caz, URMA).

Dacă robot_terms conține doar NOINDEX, atunci linkurile din această pagină nu sunt indexate. Dacă robot_terms conține doar NOFOLLOW, atunci pagina este indexată și linkurile sunt ignorate în consecință.

Monitorizarea stării curente a documentelor dumneavoastră în indexul motorului de căutare.

Ei bine, ai citit totul de mai sus și ai făcut-o. Ce urmeaza? Și apoi va fi o verificare lungă, plictisitoare și, cel mai important, regulată pentru a vedea cum merg lucrurile. Oricât de trist ar fi, va trebui să acordați atenție acestui lucru, fie și doar pentru că documentele dispar uneori din motoarele de căutare. De ce? Aș fi vrut să știu... Deci, în motoarele de căutare bune poți vedea ce documente și câte dintre ele sunt ora curentă este în index. Iată cum se face:

Alta Vista
În acest motor de căutare, verificarea stării adresei URL este destul de simplă - trebuie doar să tastați linia de interogare:

url: citforum.ru
url:citforum.ru/win/
url:citforum.ru/win/internet/index.shtml

În primul caz, toate paginile serverului indexate vor fi returnate. În a doua - numai pagini de codare Windows. În al treilea - există un fișier index.shtml din directorul specificat în indexul AltaVista?

Excita
Verificarea stării unei adrese URL în motorul de căutare Excite este la fel de simplă ca și în AltaVista. Doar introduceți adresa URL. De exemplu:

HotBot
Starea URL-ului este verificată în motorul de căutare HotBot într-un mod ușor diferit. Acest lucru se face astfel:

Introduceți adresa URL în câmpul de solicitare
Schimbați opțiunea „toate cuvintele” la „linkuri către această adresă URL”

Căutare de informații
În motorul de căutare Infoseek, există o modalitate de a verifica starea unei adrese URL: interfață separată cu o gamă întreagă de setări:

WebCrawler
WebCrawler oferă posibilitatea de a verifica starea unei adrese URL pe o pagină:

Hoinar
În acest motor de căutare, starea URL-ului poate fi verificată în două moduri.

În secțiunea „Căutare avansată”, specificând numele serverului ca mască într-una dintre opțiuni Top 100 de cuvinte pe Rambler

Introducere…………………………………………………………………………………………….2

1 Motoare de căutare: compoziție, funcții, principiu de funcționare

1.1 Alcătuirea motoarelor de căutare………………………………………………………3

1.2 Caracteristicile motoarelor de căutare……………………………………………………..4

1.3 Principiile motoarelor de căutare……………………………………..4

2 Privire de ansamblu asupra funcționării motoarelor de căutare

2.1 Străin motoare de căutare: compoziția și principiile de funcționare…………12

2.2 Motoare de căutare în limba rusă: compoziție și principii de funcționare….…..14

Concluzie………………………………………………………………………..……………16

Lista referințelor……………………………..………….17

Introducere

Motoarele de căutare au devenit de multă vreme o parte integrantă a internetului rusesc, datorită faptului că, deși prin diverse mijloace, oferă în mod independent toate etapele procesării informațiilor de la primirea acesteia de la nodurile sursă primară până la oferirea utilizatorului abilitatea de a căuta, acestea sunt adesea numite motoare de căutare autonome sisteme .

Motoarele de căutare sunt acum mecanisme uriașe și complexe care reprezintă nu doar un instrument de căutare a informațiilor, ci și zone tentante pentru afaceri.Aceste sisteme pot diferi prin principiul selecției informațiilor, care este prezent într-o măsură sau alta în algoritmul indexului automat. programul de scanare, precum și în regulile de conduită pentru angajații din catalog responsabili de înregistrare. De obicei, sunt comparați doi indicatori principali:

Scara spațială la care funcționează IPS este

Și specialitatea ei.

Majoritatea utilizatorilor motoarelor de căutare nu s-au gândit niciodată (sau s-au gândit la asta, dar nu au găsit un răspuns) la principiul de funcționare a motoarelor de căutare, la schema de procesare a cererilor utilizatorilor, în ce constau aceste sisteme și cum funcționează. Motoarele de căutare pot fi comparate cu un birou de asistență, ai cărui agenți parcurg întreprinderile, colectând informații într-o bază de date. Când contactați serviciul, informațiile sunt preluate din această bază de date. Datele din baza de date devin depășite, așa că agenții le actualizează periodic. Unele întreprinderi trimit informații despre ele însele, iar agenții nu trebuie să vină la ei. Cu alte cuvinte, help desk-ul are doua functii: crearea si actualizarea constanta a datelor in baza de date si cautarea informatiilor in baza de date la cererea clientului.

1 Motoare de căutare: compoziție, funcții, principiu de funcționare

1.1 Compoziția motoarelor de căutare

Un sistem de căutare este un complex software și hardware conceput să caute pe internet și să răspundă la o solicitare a utilizatorului, specificată sub forma unei fraze text (interogare de căutare), prin producerea unei liste de legături către surse de informații, în ordinea relevanței ( conform cererii). Cele mai mari motoare de căutare internaționale: Google, Yahoo, MSN. Pe internetul rusesc, acestea sunt Yandex, Rambler, Aport.

În mod similar, un motor de căutare este format din două părți: așa-numitul robot (sau păianjen), care accesează cu crawlere serverele Web și creează o bază de date a motorului de căutare.

Baza robotului este formată în principal de el însuși (robotul însuși găsește link-uri către resurse noi) și, într-o măsură mult mai mică, de proprietarii de resurse care își înregistrează site-urile într-un motor de căutare. Pe lângă robotul (agent de rețea, păianjen, vierme) care formează baza de date, există un program care determină ratingul link-urilor găsite.

Principiul de funcționare al unui motor de căutare este că acesta interogează catalogul său intern (baza de date) pentru cuvintele cheie pe care utilizatorul le specifică în câmpul de interogare și produce o listă de link-uri clasate după relevanță.

Trebuie remarcat faptul că, atunci când procesează o anumită cerere de utilizator, motorul de căutare operează tocmai pe resurse interne (și nu pornește într-o călătorie prin Web, așa cum cred adesea utilizatorii neexperimentați), iar resursele interne sunt, firesc, limitate. În ciuda faptului că baza de date a motorului de căutare este actualizată constant, motorul de căutare nu poate indexa toate documentele Web: numărul lor este prea mare. Prin urmare, există întotdeauna posibilitatea ca resursa pe care o căutați să fie pur și simplu necunoscută unui anumit motor de căutare.

1.2 Caracteristicile motoarelor de căutare

În curs procesul de căutare reprezentată de patru etape: formularea (apare înainte de începerea căutării); acțiune (începerea căutării); prezentare generală a rezultatelor (rezultatul pe care utilizatorul îl vede după căutare); și rafinament (după revizuirea rezultatelor și înainte de a reveni la căutare cu o formulare diferită a aceleiași nevoi). O schemă neliniară de căutare a informațiilor mai convenabilă constă în următorii pași:

Fixarea nevoilor de informații în limbaj natural;

Selectarea serviciilor de căutare în rețea necesare și formalizarea precisă a nevoilor de înregistrare a informațiilor în limbi specifice de regăsire a informațiilor (IRL);

Executarea interogărilor create;

Preprocesarea și selectarea listelor primite de link-uri către documente;

Contactarea adreselor selectate pentru documentele solicitate;

Previzualizează conținutul documentelor găsite;

Salvarea documentelor relevante pentru studiu ulterior;

Extragerea de link-uri din documentele relevante pentru a extinde interogarea;

Studierea întregii game de documente salvate;

Dacă nevoie de informare nu sunt complet mulțumit, apoi reveniți la prima etapă.

1.3 Cum funcționează motoarele de căutare

Scopul oricărui motor de căutare este de a oferi oamenilor informațiile pe care le caută. Învățați oamenii să facă cererile „corecte”, de ex. interogările care respectă principiile de funcționare ale motoarelor de căutare sunt imposibile. Prin urmare, dezvoltatorii creează algoritmi și principii de funcționare pentru motoarele de căutare care ar permite utilizatorilor să găsească exact informațiile pe care le caută. Aceasta înseamnă că motorul de căutare trebuie să „gândească” la fel cum gândește utilizatorul atunci când caută informații.

Majoritatea motoarelor de căutare funcționează pe principiul pre-indexării. Baza de date a majorității motoarelor de căutare funcționează pe același principiu.

Există un alt principiu de construcție. Căutare directă. Constă în ceea ce cauți cuvânt cheieîntoarce cartea pagină cu pagină. Desigur, această metodă este mult mai puțin eficientă.

În versiunea cu index inversat, motoarele de căutare se confruntă cu problema dimensiunii fișierului. De regulă, ele sunt semnificativ mari. Această problemă este de obicei rezolvată în două moduri. Primul este că tot ce nu este necesar este eliminat din fișiere și rămâne doar ceea ce este cu adevărat necesar pentru căutare. A doua metodă este că pentru fiecare poziție nu se reține o adresă absolută, ci una relativă, adică abordează diferența dintre pozițiile actuale și anterioare.

Astfel, cele două procese principale efectuate de motorul de căutare sunt indexarea site-urilor, a paginilor și căutarea. În general, procesul de indexare nu cauzează probleme motoarelor de căutare. Problema este procesarea unui milion de cereri pe zi. Acest lucru se datorează unor volume mari de informații care sunt procesate de sisteme informatice mari. Principalul factor care determină numărul de servere care participă la căutare este sarcina de căutare. Aceasta explică unele dintre ciudateniile care apar atunci când căutați informații.

Motoarele de căutare constau din cinci componente software separate:

păianjen: un program asemănător unui browser care descarcă pagini web.

tractor pe şenile: un păianjen „călător” care urmărește automat toate linkurile găsite pe o pagină.

indexator: un program „orb” care analizează paginile web descărcate de păianjeni.

baza de date: stocarea paginilor descărcate și procesate.

motorul de căutare a rezultatelor (sistemul de livrare a rezultatelor): preia rezultatele căutării din baza de date.

Păianjen: Un păianjen este un program care descarcă pagini web. Funcționează la fel ca browserul dvs. atunci când vă conectați la un site web și încărcați o pagină. Păianjenul nu are componente vizuale. Puteți observa aceeași acțiune (descărcare) atunci când vizualizați o anumită pagină și când selectați „vezi codul HTML” în browser.

Tractor pe şenile: Așa cum un păianjen descarcă pagini, poate dezlipi pagina și poate găsi toate linkurile. Este treaba lui să determine unde ar trebui să meargă păianjenul, pe baza unor link-uri sau pe baza unei liste predeterminate de adrese.

Indexator: Indexatorul analizează pagina în diferitele sale părți și le analizează. Elemente precum titlurile paginilor, titlurile, linkurile, textul, elementele structurale, elementele BOLD, elementele ITALIC și alte părți de stil ale paginii sunt izolate și analizate.

Bază de date: Baza de date este depozitul tuturor datelor pe care motorul de căutare le descarcă și le analizează. Acest lucru necesită adesea resurse enorme.

Căutare Motor Rezultate: Sistemul de rezultate este responsabil pentru clasarea paginilor. Acesta decide ce pagini satisfac cererea utilizatorului și în ce ordine ar trebui să fie sortate. Acest lucru se întâmplă conform algoritmilor de clasare a motoarelor de căutare. Aceste informații sunt cele mai valoroase și interesante pentru noi - tocmai cu această componentă a motorului de căutare interacționează optimizatorul, încercând să îmbunătățească poziția site-ului în rezultatele căutării, așa că în viitor vom lua în considerare în detaliu toți factorii care influențează clasamentul rezultatelor.

Indexul de căutare funcționează în trei etape, dintre care primele două sunt pregătitoare și invizibile pentru utilizator. În primul rând, indexul de căutare colectează informații de la Lume Lat Web . În acest scop, se folosesc programe speciale, browsere similare. Ei sunt capabili să copieze o anumită pagină Web pe un server de index de căutare, să o scaneze, să găsească toate hyperlinkurile care au acele resurse găsite acolo, să caute din nou hyperlinkurile pe care le conțin etc. Programe similare numit viermi, păianjeni, omizi, crawler, păianjeniși alte nume similare. Fiecare index de căutare folosește propriul index în acest scop. program unic, pe care adesea o dezvoltă el însuși. Multe motoare de căutare moderne s-au născut din proiecte experimentale legate de dezvoltarea și implementarea programelor automate care monitorizează Rețeaua. Teoretic, cu intrare cu succes păianjen este capabil să pieptene întregul spațiu Web într-o singură scufundare, dar acest lucru necesită mult timp și încă trebuie să se întoarcă periodic la resursele vizitate anterior pentru a monitoriza schimbările care au loc acolo și a identifica legăturile „moarte”, adică acelea care și-au pierdut relevanța.

După copierea resurselor Web căutate pe serverul motorului de căutare, începe a doua etapă de lucru - indexarea. Paginile sunt indexate de un program special numit robot. Fiecare motor de căutare are o mulțime de astfel de roboți. Toate acestea servesc scopului descărcării paralele a documentelor din diferite locuri din rețea. Nu are rost să descărcați documentele unul câte unul, este atât de ineficient. Imaginează-ți un copac care crește constant. Pe trunchiurile cărora apar petale din nou și din nou (pagini de site). Desigur, noile site-uri emergente vor fi indexate mult mai repede dacă roboții sunt trimiși de-a lungul fiecărei ramuri a copacului, mai degrabă decât să o facă secvenţial.

Din punct de vedere tehnic, modulul de descărcare este fie multimedia (Altavista Merkator), fie folosit I/O asincron(GoogleBot). De asemenea, dezvoltatorii trebuie să rezolve în mod constant problema unui server DNS cu mai multe fire.

Într-o schemă cu mai multe fire, firele de descărcare sunt numite viermi, iar managerul lor este numit wormboy.

Nu multe servere pot face față încărcăturii a câteva sute de viermi, așa că managerul are grijă să nu supraîncărceze serverele.

Roboții folosesc pentru a descărca pagini Protocoale HTTP. Funcționează după cum urmează. Robotul trimite cererea „get/path/document” și altele către server linii utileîn legătură cu Solicitare HTTP. Ca răspuns, robotul primește un flux de text care conține informații de serviciu și documentul în sine.

Scopul descărcării este de a reduce traficul de rețea, maximizând în același timp caracterul complet.

Absolut toți roboții de căutare se supun fișierului robots.txt, unde webmasterul poate limita indexarea paginilor de către robot.Roboții au și propriile filtre.

De exemplu, unii roboți se feresc de indexarea paginilor dinamice. Deși acum web masters se deplasează prin aceste locuri fără probleme. Și au rămas din ce în ce mai puțini astfel de roboți.

Fiecare bot are, de asemenea, o listă de resurse clasificate ca spam. În consecință, aceste resurse sunt vizitate de roboți semnificativ mai puțin sau sunt complet ignorate pentru un anumit timp, în timp ce motoarele de căutare nu filtrează informațiile

Modelele de descărcare în suport au alte module care funcționează functii secundare. Acestea ajută la reducerea traficului, la creșterea profunzimii căutării, la procesarea resurselor actualizate frecvent, la stocarea adreselor URL și a link-urilor pentru a nu re-descărca resurse.

Există module de urmărire duplicat. Ele ajută la filtrarea paginilor cu informații duplicate. Acestea. dacă robotul găsește un duplicat al unei pagini deja existente sau cu informații ușor modificate, atunci pur și simplu nu urmărește mai departe link-urile paginii. Există un modul separat pentru determinarea codificării și limbii documentului.

După ce pagina a fost descărcată, aceasta este procesată de parserul html. Lasa doar acele informatii din document care sunt cu adevarat importante pentru cautare: text, fonturi, link-uri etc. Deși acum roboții indexează aproape totul. Și tehnologii javascript și flash. Dar, cu toate acestea, nu ar trebui să uităm de unele limitări ale roboților.

În timpul indexării, sunt create baze de date speciale cu ajutorul cărora puteți stabili unde și când a fost găsit un anumit cuvânt pe Internet. Gândiți-vă la o bază de date indexată ca la un fel de dicționar. Este necesar ca motorul de căutare să poată răspunde solicitărilor utilizatorilor foarte rapid. Sistemele moderne pot oferi răspunsuri într-o fracțiune de secundă, dar dacă indexurile nu sunt pregătite în avans, procesarea unei singure solicitări va continua ore întregi.

La a treia etapă, cererea clientului este procesată și rezultatele căutării îi sunt furnizate sub forma unei liste de hyperlinkuri. Să presupunem că un client dorește să afle unde pe Internet există pagini Web care îl menționează pe faimosul mecanic, optician și matematician olandez Christiaan Huygens. El introduce cuvântul Huygens în caseta de cuvinte cheie și apasă butonul. Căutare. Folosind baza sa de index, motorul de căutare caută resurse Web adecvate într-o fracțiune de secundă și generează o pagină cu rezultate de căutare pe care sunt prezentate recomandări sub formă de hyperlinkuri. Clientul poate folosi apoi aceste link-uri pentru a naviga la resursele de interes.

Toate acestea par destul de simple, dar în realitate există probleme. Problema principala Internet modern asociat cu o abundență de pagini Web. Este suficient să introduceți un cuvânt atât de simplu, precum fotbal, în câmpul de căutare, iar motorul de căutare rus va returna câteva mii de link-uri, grupându-le în 10-20 de bucăți pe pagina afișată.

Câteva mii nu înseamnă atât de mult, pentru că un motor de căutare străin într-o situație similară ar returna sute de mii de link-uri. Încearcă să-l găsești pe cel de care ai nevoie printre ei! Cu toate acestea, pentru consumatorul mediu nu are absolut nicio diferență dacă i se oferă o mie de rezultate de căutare sau un milion. De regulă, clienții nu văd mai mult de 50 de link-uri în primul rând, iar ceea ce se întâmplă în continuare nu interesează pe nimeni. Cu toate acestea, clienții sunt foarte, foarte preocupați de calitate chiar primul link-uri. Clienților nu le place când există link-uri în top zece care nu mai sunt relevante; sunt enervați când există link-uri către fișiere învecinate pe același server la rând. Cea mai proastă opțiune este atunci când există mai multe link-uri la rând care duc la aceeași resursă, dar situate pe servere diferite.

Clientul are dreptul de a se aștepta ca cele mai utile link-uri să fie listate primele. Aici apare problema. O persoană poate distinge cu ușurință resursă utilă de la inutil, dar cum să explic asta programului?! De aceea, cele mai bune motoare de căutare fac minuni inteligenţă artificialăîn încercarea de a sorta legăturile găsite după calitatea resurselor lor. Și trebuie să facă acest lucru rapid - clientului nu îi place să aștepte.

Strict vorbind, toate motoarele de căutare își extrag informațiile sursă din același spațiu Web, astfel încât bazele lor de date sursă pot fi relativ similare. Și numai în a treia etapă, atunci când se livrează rezultatele căutării, fiecare motor de căutare începe să-și arate cele mai bune (sau cele mai proaste) caracteristici individuale. Operatia de sortare a rezultatelor obtinute numită clasament. Sistemul atribuie o evaluare fiecărei pagini Web găsite, care ar trebui să reflecte calitatea materialului. Dar calitatea este un concept subiectiv, iar programul are nevoie de criterii obiective care pot fi exprimate în numere potrivite pentru comparație.

Clasamentele înalte sunt obținute de paginile Web care au cuvântul cheie folosit în interogare inclus în titlu. Nivelul de clasare crește dacă cuvântul apare de mai multe ori pe o pagină Web, dar nu prea des. Intrarea are un efect benefic asupra ratingului cuvântul potrivit pentru prima dată, 5-6 paragrafe de text - sunt considerate cele mai importante pentru indexare. Din acest motiv, webmasterii experimentați evită să pună tabele la începutul paginilor lor. Pentru un motor de căutare, fiecare celulă de tabel arată ca un paragraf și, prin urmare, textul semnificativ al corpului pare să fie împins mult înapoi (deși acest lucru nu se observă pe ecran) și încetează să mai joace un rol decisiv pentru motorul de căutare.

Este grozav dacă cuvintele cheie folosite în interogare sunt incluse în textul alternativ care însoțește ilustrațiile. Pentru motorul de căutare, acesta este un semn sigur că această pagină se potrivește exact cu cererea. Un alt semn al calității unei pagini Web este faptul că are link-uri de la alte pagini Web. Cu cât sunt mai multe, cu atât mai bine. Aceasta înseamnă că această pagină Web este populară și are un nivel ridicat indicator de citare. Cele mai avansate motoare de căutare monitorizează nivelul de citare al paginilor Web pe care le înregistrează și îl iau în considerare la clasare.

Creatorii de pagini Web sunt întotdeauna interesați să le vizualizeze mai mulți oameni, așa că pregătesc paginile special astfel încât motoarele de căutare să le ofere clasamente înalte. Munca bună și competentă a unui webmaster poate crește semnificativ traficul către o pagină web, dar există și „maeștri” care încearcă să înșele motoarele de căutare și dau paginilor lor o semnificație pe care de fapt nu o au. Ei repetă în mod repetat anumite cuvinte sau grupuri de cuvinte pe o pagină Web și, pentru a nu atrage atenția cititorului, fie le fac într-un font extrem de mic, fie folosesc o culoare a textului care se potrivește cu culoarea de fundal. Pentru astfel de „smecherii”, motorul de căutare poate pedepsi o pagină Web atribuindu-i o evaluare negativă negativă.

2 Privire de ansamblu asupra funcționării motoarelor de căutare

2.1 Motoare de căutare străine: compoziție și principii de funcționare

Printre cele mai recunoscute este AltaVista, cel mai puternic potențial hardware și software, care vă permite să căutați orice cuvânt din textul unei pagini Web sau dintr-un articol dintr-un grup de știri (date din 1998). AltaVista conține informații despre 30 de milioane de pagini Web și articole din 14 mii de grupuri de știri.

Acest sistem folosește un mecanism destul de complex pentru alcătuirea unei interogări, incluzând combinații de cuvinte, expresii și semne de punctuație individuale: ghilimele, punct și virgulă, două puncte, paranteze, plus și minus, sau operatorii booleeni obișnuiți AND, OR, NOT și NEAR din urmă în cadrul unei căutări complexe - Căutare avansată). Combinația lor face posibilă crearea cât mai precisă a unei prescripții de căutare.

Astfel, un semn plus în fața unui cuvânt înseamnă că acest termen trebuie să fie prezent în document; un semn minus, dimpotrivă, elimină toate materialele care conțin acest concept. Sistemul permite căutarea după frază întreagă (în acest caz, întreaga frază este cuprinsă între ghilimele), precum și căutarea cu desinențe trunchiate, cu „*” plasat la sfârșitul cuvântului. De exemplu, pentru a obține informații despre toate documentele în limba rusă legate de biblioteconomie, este suficient să introduceți „biblioteca*”.

Utilizatorii au, de asemenea, opțiunea de a limita interogarea la data la care documentul a fost creat/ultima actualizare.

Căutarea tuturor cuvintelor din text este declarată în HotBot, care astăzi este cel mai puternic instrument de căutare special pentru World Wide Web (conține informații despre 54 de milioane de documente). Căutare aprofundată - Căutarea expertă în HotBot oferă rezultate uimitoare oportunități ample pentru detaliile cererii.

Acest lucru se realizează prin utilizarea unei oferte de meniu în mai mulți pași diverse opțiuniîntocmirea unui ordin de căutare.

Puteți căuta o combinație de mai mulți termeni diferiți într-un document, puteți căuta o singură expresie sau puteți căuta o anumită persoană sau o anumită adresă de e-mail. Pentru a detalia cererea, se pot folosi condițiile TREBUIE - „poate conține”, TREBUIE - „trebuie să conțină în mod necesar”, NU TREBUIE - „nu ar trebui să conțină” în legătură cu orice concepte.

Un instrument de căutare interesant este Excita, care oferă, de asemenea, căutarea textului integral în peste 50 de milioane de pagini Web.

Particularitatea lucrului cu acesta este că solicitările către acest sistem sunt făcute în limbaj natural (desigur în engleză) ca și cum am întreba o persoană.

Un sistem special, conceput pe baza Intelligent Concept Extraction, analizează cererea și oferă link-uri către documente care sunt relevante, în opinia sa informatică.

Practica, totuși, arată că Excite procesează corect numai interogări cu o singură silabă. Pentru a obține informații despre subiecte complexe, este mai bine să utilizați alte instrumente de căutare.

Unul dintre sisteme moderne, oferind căutare în toate cuvintele textului este OpenText .

Cu toate acestea, utilizatorul poate limita opțional domeniul de căutare doar la fragmentele principale și cele mai semnificative ale paginii Web: titlu, primul titlu, rezumat, adresa de e-mail (URL).

Acest lucru este foarte convenabil dacă doriți să găsiți doar lucrările principale pe un subiect larg. Ca și în cazurile anterioare, cele mai dificile interogări sunt efectuate folosind o căutare sofisticată - Power Search.

Interfața sa facilitează crearea unei comenzi de căutare folosind un meniu cu mai mulți pași.

Acest meniu oferă linii pentru introducerea termenilor care indică ce câmpuri ar trebui să conțină datele căutate în combinație cu operatorii familiari AND (și), SAU (sau), DAR NU (dar nu), NEAR (lângă) și URMAT DE (ar trebui în spatele) .

2.2 Motoare de căutare în limba rusă: compoziție și principii de funcționare

În ultimii ani s-a dezvoltat și practica ratingului comercial. Din punct de vedere tehnic, sunt echipate cu cele mai multe mijloace moderne, corespunzător nivelului anului 2000, și dimensiune totală Runet (sectorul rusesc al internetului) astăzi este aproximativ același cu sectorul occidental în 1994-1995. Prin urmare, astăzi în Rusia probleme speciale nu există informații cu privire la căutare și nu sunt așteptate în viitorul apropiat. Dar în sectorul occidental, problemele de căutare sunt foarte mari și diferite motoare de căutare încearcă să le depășească în moduri diferite. Vă vom spune cum se întâmplă asta.

Dintre indicii de căutare din Rusia de astăzi, există trei „stâlpi” (există și sisteme mai mici, dar nu ne vom opri asupra lor). Acestea sunt Rambler (www.rambler.ru), Yandex (www.yandex.ru) și Aport2000 (www.aport.ru).

Din punct de vedere istoric, cel mai popular motor de căutare este Rambler. A început să lucreze mai devreme decât alții și pentru o lungă perioadă de timp a fost lider în dimensiunea indexului de căutare și calitatea serviciilor de căutare. Din păcate, astăzi aceste realizări sunt în trecut. În ciuda faptului că dimensiunea indexului de căutare Rambler este aproximativ egală cu 12 milioane de pagini Web, acesta nu a fost actualizat corespunzător de mult timp și produce rezultate învechite. Astăzi, Rambler este un portal popular, cel mai bun sistem de clasificare și rating din Rusia (vă vom spune mai jos despre ce este vorba) plus o platformă de publicitate. În mod tradițional, acest sistem deține primul loc în Rusia în ceea ce privește participarea și are venit bun din publicitate. Dar fondurile, așa cum vom arăta mai jos, nu sunt investite în dezvoltarea instrumentelor de căutare. Cel mai mare index se află în centrul sistemului Yandex - aproximativ 27 de milioane de pagini web, dar nu este doar o chestiune de dimensiune. Acesta nu este doar un indicator către resurse, ci un indicator către cele mai actuale resurse. În ceea ce privește relevanța, Yandex este astăzi liderul incontestabil. Sistemul Aport câștigă la a treia etapă: în momentul prezentării informațiilor către client. Ea nu se străduiește să se creeze pe ea însăși mare indicator prin mijloace automate, dar în schimb folosește pe scară largă informațiile prelucrate manual din catalogul @Rus. Prin urmare, sistemul nu produce atât de multe rezultate ca cei mai apropiați concurenți ai săi, dar aceste rezultate sunt de obicei precise și prezentate clar.

Concluzia este scrisă la sfârșit și implică finitudine. Dar creșterea informațiilor este nesfârșită și, prin urmare, nu există nicio limită pentru îmbunătățirea motoarelor de căutare. Cea mai importantă sarcină a dezvoltatorilor este să îmbunătățească calitatea căutării, îndreptându-se către o mai mare eficiență și ușurință în utilizare a sistemului. În acest scop, algoritmii de căutare se schimbă constant, creează servicii aditionale, designul este în curs de finalizare.

Cu toate acestea, pentru a supraviețui în lumea Internetului dinamic, în timpul dezvoltării este necesar să se construiască o marjă mare de stabilitate, să privim în mod constant viitorul și să încercăm încărcarea viitoare a căutării de astăzi. Această abordare ne permite să ne confruntăm nu numai cu lupta constantă și adaptarea motorului de căutare la volumele tot mai mari de informații, ci și să implementăm ceva nou, cu adevărat important și necesar pentru îmbunătățirea eficienței căutării pe Internet.

Bibliografie:

1. E. Kolmanovskaya, CompTek International, Yandex: Sistem rusesc de căutare pe Internet/Intranet.

2. Abrosimov A.G., Abramov N.V., Motovilov N.V., Economie corporativă Sisteme de informare, academic sat SGEA, 2005.

3. Sisteme de regăsire a informațiilor. – http://www.comptek.ru/yandex/yand_about.html.

4. Troyan G.M. Căutați în partea de limbă rusă a internetului: motor de căutare Sistemul Yandex// Radioamator. Computerul tau. – Nr. 1-3, 2000.

5. Un tutorial modern pentru lucrul pe Internet. Cel mai programe populare: Practică. indemnizatie – Ed. Komyagina V.B. – M.: Editura „Triumful”, 1999. – 368 p.

Introducere…………………………………………………………………………………………….2

1 Motoare de căutare: compoziție, funcții, principiu de funcționare

1.1 Alcătuirea motoarelor de căutare………………………………………………………3

1.2 Caracteristicile motoarelor de căutare……………………………………………………..4

1.3 Principiile motoarelor de căutare……………………………………..4

2 Privire de ansamblu asupra funcționării motoarelor de căutare

2.1 Motoare de căutare străine: compoziție și principii de funcționare…………12

2.2 Motoare de căutare în limba rusă: compoziție și principii de funcționare….…..14

Concluzie………………………………………………………………………..……………16

Lista referințelor……………………………..………….17

Introducere

Motoarele de căutare au devenit de multă vreme parte integrantă a internetului rusesc Datorită faptului că, deși prin diferite mijloace, oferă în mod independent toate etapele procesării informațiilor de la primirea acesteia de la nodurile sursei primare până la oferirea utilizatorului posibilitatea de a căuta, ele sunt adesea numite motoare de căutare autonome sisteme .

Scara spațială la care funcționează IPS este

Și specialitatea ei.

1 Motoare de căutare: compoziție, funcții, principiu de funcționare

1.1 Compoziția motoarelor de căutare

1.2 Caracteristicile motoarelor de căutare

În lucrare, procesul de căutare este prezentat în patru etape: formularea (are loc înainte de începerea căutării); acțiune (începerea căutării); prezentare generală a rezultatelor (rezultatul pe care utilizatorul îl vede după căutare); și rafinament (după revizuirea rezultatelor și înainte de a reveni la căutare cu o formulare diferită a aceleiași nevoi). O schemă neliniară de căutare a informațiilor mai convenabilă constă în următorii pași:

Fixarea nevoilor de informații în limbaj natural;

Selectarea serviciilor de căutare în rețea necesare și formalizarea precisă a nevoilor de înregistrare a informațiilor în limbi specifice de regăsire a informațiilor (IRL);

Executarea interogărilor create;

Preprocesarea și selectarea listelor primite de link-uri către documente;

Contactarea adreselor selectate pentru documentele solicitate;

Previzualizează conținutul documentelor găsite;

Salvarea documentelor relevante pentru studiu ulterior;

Extragerea de link-uri din documentele relevante pentru a extinde interogarea;

Studierea întregii game de documente salvate;

Dacă nevoia de informații nu este pe deplin satisfăcută, atunci reveniți la prima etapă.

1.3 Cum funcționează motoarele de căutare

Majoritatea motoarelor de căutare funcționează pe principiul pre-indexării. Baza de date a majorității motoarelor de căutare funcționează pe același principiu.

Există un alt principiu de construcție. Căutare directă. Constă în întoarcerea cărții pagină cu pagină în căutarea unui cuvânt cheie. Desigur, această metodă este mult mai puțin eficientă.

Motoarele de căutare constau din cinci componente software separate:

păianjen: un program asemănător unui browser care descarcă pagini web.

tractor pe şenile: un păianjen „călător” care urmărește automat toate linkurile găsite pe o pagină.

indexator: un program „orb” care analizează paginile web descărcate de păianjeni.

baza de date: stocarea paginilor descărcate și procesate.

motorul de căutare a rezultatelor (sistemul de livrare a rezultatelor): preia rezultatele căutării din baza de date.

Bază de date: Baza de date este depozitul tuturor datelor pe care motorul de căutare le descarcă și le analizează. Acest lucru necesită adesea resurse enorme.

Indexul de căutare funcționează în trei etape, dintre care primele două sunt pregătitoare și invizibile pentru utilizator. În primul rând, indexul de căutare colectează informații de la Lume Lat Web . Pentru a face acest lucru, utilizați programe speciale, similare cu browserele. Ei sunt capabili să copieze o anumită pagină Web pe un server de index de căutare, să o vizualizeze, să găsească toate hyperlinkurile care au acele resurse găsite acolo, să caute din nou hyperlinkurile pe care le conțin etc. Astfel de programe sunt numite viermi, păianjeni, omizi, crawler, păianjeniși alte nume similare. Fiecare index de căutare folosește în acest scop propriul program unic, pe care adesea îl dezvoltă singur. Multe motoare de căutare moderne s-au născut din proiecte experimentale legate de dezvoltarea și implementarea programelor automate care monitorizează Rețeaua. Teoretic, cu o intrare reușită păianjen este capabil să pieptene întregul spațiu Web într-o singură scufundare, dar acest lucru necesită mult timp și încă trebuie să se întoarcă periodic la resursele vizitate anterior pentru a monitoriza schimbările care au loc acolo și a identifica legăturile „moarte”, adică acelea care și-au pierdut relevanța.