Probleme de regăsire a informațiilor: istorie și tehnologie. Căutarea informațiilor în rețelele de calculatoare: noi abordări. Sintaxa interogării Yandex

Găsirea informațiilor de care aveți nevoie pe internet este adesea destul de dificilă. Internetul se dezvoltă haotic, nu are o structură clar definită. Nimeni nu poate garanta că un domeniu va conține doar informații despre un anumit subiect, iar altul - informații despre un subiect diferit, dar și clar definit. De exemplu, pe domains.com puteți găsi nu doar informații comerciale, ci, de exemplu, diverse documentații despre produse software sau chiar glume.

Dacă structura domeniului ar fi similară cu structura directoarelor, de exemplu, în domeniul ru.comp.os.linux (ca și în sistemul de știri) ar exista toate informațiile despre operarea sistem Linuxîn rusă și un fel de organizație de moderator s-au asigurat că informațiile despre Linux nu sunt postate în alte domenii, atunci căutarea ar fi mult mai simplă. La urma urmei, am ști unde să căutăm. Îți deschizi browserul, intri în ru.comp.os.linux și primești... milioane de link-uri diferite către articole, documente HOWTO și alte informații legate de Linux într-un fel sau altul.

Eficiența căutării

    Eficiența căutării depinde de mulți factori:
  • Din informația în sine - poate exista o mulțime de informații pe un subiect, dar puține pe alta. Uneori puteți găsi o mulțime de informații pe o anumită temă, dar coeficientul acțiune utilă din această căutare va fi aproape de 0,0% și puteți găsi doar 3-4 link-uri, iar acesta va fi exact ceea ce aveți nevoie. Aceasta include și capacitatea webmasterului de a prezenta corect informațiile astfel încât motoarele de căutare înșiși să le poată găsi.Să presupunem că undeva foarte departe se află informațiile de care aveți nevoie, dar motorul de căutare nu știe nimic despre acestea. Poate că informația tocmai a fost publicată sau pur și simplu webmasterul care a publicat informația nici măcar nu este conștient de existența motoarelor de căutare. Cauți informații folosind un motor de căutare. Dacă ea nu „știe” informațiile de care aveți nevoie, atunci, prin urmare, nu veți ști nimic despre ea.
  • Din motorul de căutare - există multe motoare de căutare și toate sunt diferite. Chiar dacă aparțin aceluiași tip (vom vorbi puțin mai târziu despre tipurile de motoare de căutare), fiecare dintre ele va avea, fără îndoială, propriul algoritm. Dacă nu găsiți informații folosind un motor de căutare, încercați să le căutați folosind altul. Nu rămâne blocat într-un singur motor de căutare, indiferent cât de mult îți place.
  • Multe depind de capacitatea de a folosi un motor de căutare - cum știi să folosești un motor de căutare. Dacă nu știi cum să folosești un motor de căutare, este puțin probabil ca căutarea ta să fie eficientă.

Cum să cauți corect informațiile

Întrucât de cele mai multe ori nu selectați site-ul de care aveți nevoie din catalogul motorului de căutare, ci introduceți un anumit cuvânt cheie (sau mai multe cuvinte cheie), trebuie să fiți cât mai specific posibil cu privire la acest cuvânt cheie. Cu cât definiți mai precis subiectul căutării dvs., cu atât rezultatul va fi mai precis. Un motor de căutare nu vă poate ghici gândurile; trebuie să-i spuneți clar ceea ce căutați.

Fiecare motor de căutare are propria sa sintaxă pe care trebuie să o cunoști. Acest capitol va descrie sintaxa motoarelor de căutare Google, Yandex și Rambler. Dacă doriți să utilizați un alt motor de căutare, atunci puteți afla sintaxa acestuia pe site-ul său web (de obicei este descrisă în detaliu).

Motoarele de căutare pe internet

Acum să vorbim despre noi înșine motoare de căutare Oh.

În teritoriu fostul CSI Cele mai populare motoare de căutare sunt următoarele, conform SpyLog (Openstat):

  • 1. Yandex (www.yandex.ru);
  • 2. Google (www.google.com);
  • 3. Că[email protected] (go.mail.ru);
  • 3. Rambler (www.rambler.ru);
  • 5. Yahoo! (www.yahoo.com);
  • 6. AltaVista (www.altavista.com);
  • 7. Bing (www.bing.com).

Motoarele de căutare sunt listate în ordinea descrescătoare a popularității. După cum puteți vedea, cel mai popular motor de căutare al nostru este Yandex.

Tipuri de motoare de căutare

    Există două tipuri principale de motoare de căutare:
  • index - Google, AltaVista, Rambler, HotBot, Yandex etc.;
  • clasificare (catalog) - Rambler, Yahoo! si etc.

Nu fi surprins că motorul de căutare Sistem Rambler indicat de două ori - a fost atât index, cât și clasificare în același timp. Vom reveni la asta mai târziu, dar deocamdată să vorbim despre diferențele dintre aceste două sisteme.

Cum funcționează un motor de căutare index? Motorul de căutare lansează un program special care vizualizează conținutul serverelor web, indexând informațiile: le introduce în baza sa de date. Cuvinte cheie a unei anumite pagini web, unele informații din pagina web.

O scurtă istorie a Google

Să începem cu numele. Google este o versiune ușor modificată a cuvântului googol (nu degeaba este adesea numit „Google”). Cuvântul a fost la rândul său inventat de Milton Sirota, nepotul celebrului matematician Edward Kasner, iar apoi popularizat în cartea lui Kasner și Newman Mathematics and the Imagination. Cuvântul "googol" afișează un număr cu unu unu și 100 de zerouri. Numele „Google” reflectă o încercare de a organiza cantitatea mare de informații de pe Web.

Deci, să începem de la început. Viitorii dezvoltatori Google Sergey Brin (Sergey Brin) și Larry Page (Larry Page) s-au cunoscut în 1999 la Universitatea Stanford. Larry avea 24 de ani la acea vreme, iar Serghei 23. Larry era student la Universitatea din Michigan la acea vreme și a venit la Stanford pentru câteva zile. Serghei se afla într-un grup de studenți care trebuia să prezinte oaspeții la universitate. De la prima întâlnire, Serghei și Larry, ca să spunem ușor, nu s-au plăcut unul pe celălalt - s-au certat despre tot ce putea fi certat. Deși până la urmă s-a dovedit lucru pozitiv, deoarece opiniile lor diferite au dus la crearea unui algoritm pentru a rezolva una dintre cele mai presante probleme ale computerului: găsirea informațiilor potrivite într-o cantitate imensă de date. În ianuarie 1996, Larry și Serghei au început să lucreze la motorul de căutare BackRub, care trebuia să analizeze „backlink-urile” care indică un anumit site web. Munca pe acest server s-a desfășurat într-o lipsă constantă de fonduri - la urma urmei, la acea vreme, Sergey și Larry erau absolvenți la universitate - înțelegi tu însuți că studenții absolvenți nu au foarte mulți bani. Apropo, aceasta a fost prima dată când Larry participa la un proiect atât de serios și înainte de asta a fost implicat în tot felul de proiecte „frivole”, chiar și uneori anecdotice, de exemplu, a construit o imprimantă funcțională din Lego.

Algoritmi de căutare Google

Interfața Google este izbitoare prin simplitate: un câmp de introducere și două butoane. După cum se spune, totul ingenios este simplu.

Sintaxă specială (extinsă) Google

Pe lângă logic operatorii Google vă oferă modificatorii de căutare listați în tabel. Modificatorii de căutare se numesc sintaxă specială Google. Luați acest tabel în serios: odată ce încercați să căutați ceva folosind modificatori, nu le veți putea da jos.

Modificator de inurl Google

Modificatorul inurl este folosit pentru a căuta adresa URL specificată. Și, spre deosebire de modificatorul de site, care vă permite să căutați informații doar pe un singur site sau domeniu, modificatorul inurl vă permite să căutați informații în subdirectoarele site-ului, de exemplu:

inurl: siteskype-zvonim-besplatno

Modificatorul inurl vă permite să utilizați caracterul * pentru a indica un domeniu, de exemplu:
inurl: „*.redhat.com”

Cel mai eficient este să utilizați inurl împreună cu un site. Următoarea interogare va căuta informații în domeniul gidmir.ru, pe toate subdomeniile acestuia, cu excepția www:
site: gidmir.ru inurl: "*.gidmir" -inurl: "www.gidmir.ru"

Limba de căutare Google

Google permite sintaxa mixtă, de ex. o sintaxă în care mai mulți modificatori speciali de căutare sunt utilizați în interogare. Acest lucru vă permite să realizați cel mai bun rezultat.

Iată un exemplu foarte simplu de sintaxă mixtă:
site: ru inurl: disc

ÎN în acest caz, căutarea se va efectua pe site-uri din domeniu, iar URL-ul trebuie să conțină cuvântul disc.

Iată un alt exemplu:
site: ru -inurl: org.ua

Căutarea se va efectua pe site-uri din domeniul ru, dar rezultatele căutării nu vor conține pagini aflate pe org.ua.

Interogări de căutare Google

Pentru cele mai multe rânduri utilizatorii Google limita de 10 taste nu se observă. Dar fanii interogărilor lungi ar fi observat că Google ia în considerare doar primele 10 cuvinte cheie, iar toate celelalte sunt pur și simplu ignorate.

De ce trebuie să cauți fraze lungi? În cele mai multe cazuri, acestea sunt extrase din lucrări. Să presupunem că căutăm lucrarea „Maestrul și Margareta”. Trebuie remarcat faptul că expresia cheie ar trebui să arate ca „Maestrul Margarita”, deoarece cuvintele și, sau, și, din, sau, eu, a, și altele sunt ignorate de motorul de căutare. Dacă doriți să forțați unul dintre aceste cuvinte în căutare, precedați cuvântul cu un semn „+”, cum ar fi +the.

Construcția corectă a interogării vă permite să depășiți limita de 10 cuvinte. Următoarele recomandări vă va ajuta nu numai să reduceți lungimea interogării, ci și să creșteți eficiența căutării în ansamblu.

Căutare avansată Google

Introducem adresa în linia de introducere a browserului - www.google.ru/advanced_search și mergem la căutare avansată Google.

Folosind căutarea avansată, puteți căuta informații aproape la fel de flexibil ca folosind modificatorii de căutare. De ce „aproape”? Interfața de căutare avansată nu oferă acces la toți modificatorii de căutare.

Setarea proprietăților de căutare Google în cookie-urile browserului

Nu vreau să te deranjez detalii tehnice, așa că voi spune pe scurt ce sunt cookie-urile și nu, nu cu ce se mănâncă, ci cum trebuie să lucrați cu ele.

Să ne imaginăm că ni se dă următoarea sarcină: trebuie să scriem un raport individual de vizită pentru fiecare client al site-ului companiei noastre. Adică, pentru ca utilizatorul să nu vadă numărul total de vizite, ci să știe exact de câte ori a fost pe site-ul nostru. Pentru fiecare adresă IP trebuie să păstrăm înregistrări într-un singur tabel, care, cel mai probabil, va fi mare, și de aici rezultă că folosim timpul CPU irațional și spatiu pe disc. Ar fi mult mai corect din partea noastră să folosim acest spațiu pentru un beneficiu mai mare.

Rezultatul căutării Google

Rezultat cautare Google- acesta nu este doar un set de link-uri care corespund condițiilor de căutare specificate. Acesta este ceva mai mult care merită o analiză separată. Introduceți cuvântul „rusopen” și faceți clic pe butonul Căutare Google.

În partea de sus vedem numărul total de rezultate (883.000.000) și timpul total de căutare, și anume 0,34 secunde.

    În cele mai multe cazuri, rezultatul este prezentat astfel:
  • titlul paginii;
  • descrierea paginii;
  • Adresa URL a paginii;
  • mărimea paginii;
  • data indexării ultimei pagini;

Căutare de imagini pe Google

Google Images vă permite să găsiți diverse imaginiîn internet. Deși imaginile în sine nu pot fi indexate, paginile care conțin imaginile sunt indexate. Introduceți o descriere a imaginii și veți obține multe, multe link-uri, precum și imaginile în sine, prezentate într-o galerie.

    Pentru mai mult căutare eficientă imaginile trebuie să utilizați următorii modificatori de căutare:
  • intitle: - caută în titlul paginii;
  • tip de fișier: - vă permite să specificați tipul de imagine, puteți specifica următoarele tipuri: JPEG și GIF, nu BMP, PNG, imaginile de alte tipuri nu sunt indexate;
  • inurl: - căutare după adresa URL specificată, de exemplu inurl: www.gidmir.ru ;
  • site: caută pe domeniul specificat sau un site web, de exemplu, site: com.

aplicatii Google

Google este un motor de căutare puternic cu peste 3 miliarde de pagini. Pe lângă paginile web obișnuite, Google indexează fișierele în formatele Word, Excel, PowerPoint, PDF și RTF. Google poate fi folosit și pentru a căuta imagini și numere de telefon: respectiv, serviciu Google Imagini și agenda telefonică. În acest articol vom vorbi despre serviciile speciale Google.

E-mail Google

Încercați să utilizați e-mailul Google. Trebuie remarcat faptul că acesta nu este un webmail obișnuit.

    Unele dintre funcțiile Gmail includ următoarele:
  • dimensiune uriașă a cutiei poștale - mai mult de 7 GB;
  • în loc să ștergeți scrisorile, le puteți arhiva - atunci veți avea suficient spațiu pentru o lungă perioadă de timp și puteți restaura scrisorile pe care le-ați primit sau trimis cu câțiva ani în urmă;
  • capacitatea de a căuta după cutie poștală cu eficiența Google;
  • organizarea convenabilă a scrisorilor și a răspunsurilor la acestea: toate scrisorile și răspunsurile formează un lanț ușor de urmărit;
  • bună protecție anti-spam;
  • adresa memorabilă [email protected];
  • interfață convenabilă.

Motor de căutare Rambler

Istoria lui Rambler

Totul a început în 1991 în orașul Pușchino, regiunea Moscova. În acel an îndepărtat, s-a adunat un grup de oameni asemănători, printre care se numărau Dmitri Kryukov, Serghei Lysakov, Viktor Voronkov, Vladimir Samoilov, Yuri Ershov. Interesul comun al acestui grup era internetul. Probabil, în 1991, niciunul dintre viitorii dezvoltatori Rambler nu și-a imaginat măcar că vor deveni creatorii unuia dintre cele mai mari și mai faimoase motoare de căutare de pe Runet. La urma urmei, înainte de asta, toți au deservit dispozitive de inginerie radio la Institutul de Biochimie și Fiziologia Microorganismelor din cadrul Academiei Ruse de Științe. În 1992, a fost creată compania Stack, condusă de Serghei Lysakov. Profilul Companiei - rețele localeși internetul. În esență, Stack a fost un furnizor de servicii de internet. Compania a creat o rețea intracity, apoi a conectat Pushchino la Moscova și prin aceasta la internet. Apropo, acesta a fost primul canal IP care a trecut dincolo de Moscova. Și asta a fost în 1992! În zilele noastre, așezarea unui canal este destul de problematică - există întotdeauna o mulțime de nuanțe, dar apoi cablurile trebuiau așezate independent, manual, în subteran și toate acestea s-au făcut iarna.

Cum a funcționat căutarea Rambler

Internetul este în continuă evoluție: numărul de site-uri și dimensiunile acestora cresc în fiecare zi. Imaginați-vă: site-urile mari sunt actualizate în fiecare zi, chiar dacă volumul actualizărilor este de 1024 de octeți (1 KB), atunci dacă presupunem că există 10.000 de astfel de site-uri, în fiecare zi motorul de căutare trebuie să proceseze (indexeze) 10.000 KB (aproximativ). vorbind, 10 MB) informații. Numărul 10.000 a fost scos „din aer” - de dragul exemplului. Poate fi mai mare sau mai mică - la urma urmei, nici site-urile mari nu sunt actualizate în fiecare zi. Dimensiunea actualizării este, de asemenea, concepută. Imaginați-vă un site de informare și analitic pe care sunt publicate articole noi aproape în fiecare zi sau sunt republicate materiale de pe alte site-uri. În acest caz, dimensiunea actualizărilor va fi departe de 1 KB, dar cel puțin 10. Adăugați la toate aceste știri și alte informații și rezultă că cu numărul de site-uri actualizate 10.000, motorul de căutare trebuie să indexeze 120 MB de text. Și cu toate acestea, motorul de căutare nu trebuie doar să afișeze cu acuratețe rezultatele căutării, ci și să o facă cât mai repede posibil, astfel încât utilizatorul să poată lucra cu el în mod convenabil. Cine vrea să aștepte 10 minute pentru rezultatele căutării? Exagerez acest lucru, desigur, dar personal nu aș aștepta mai mult de 30 de secunde pentru rezultatele căutării (din momentul în care dați clic pe butonul Găsiți și până când apar primele zece rezultate). Se pare că dezvoltatorii de motoare de căutare trebuie să mențină în mod constant la nivelul corespunzător nu numai hardware-ul, care trebuie să poată procesa volume de informații în continuă creștere, ci și „matematica” nu poate fi realizată numai cu hardware. Este necesar să se îmbunătățească constant algoritmii de căutare, astfel încât pe măsură ce volumele cresc baza de cautare, timpul de căutare nu a crescut (adică o creștere semnificativă a timpului - pentru utilizator nu are nicio diferență dacă căutarea durează 2,5 secunde sau 2,0555 secunde, deoarece nu este capabil să estimeze acest timp).

Interogări Rambler, sintaxa Rambler

Solicitarea către Rambler poate consta din unul sau mai multe cuvinte, iar cererea poate conține semne de punctuație. Dezvoltatorii Rambler și-au proiectat motorul de căutare pentru confort maxim utilizator. Rambler ar putea fi folosit chiar și de un utilizator fără experiență care nu este deloc familiarizat cu limbajul de interogare. Tot ce trebuia să facă era să introducă o interogare constând din mai multe cuvinte (de exemplu, o frază) și fără semne de punctuație - Rambler însuși a găsit documente necesareși a făcut-o cât mai eficient posibil. Desigur, dacă utilizați corect limbajul de interogare, eficiența crește semnificativ, dar chiar și cu ignorarea completă a limbajului de interogare, eficiența căutării a fost nivel inalt. După cum sa menționat deja, cunoașterea limbajului de interogare este în propriul interes; pur și simplu veți putea găsi informațiile de care aveți nevoie mult mai rapid.

Motor de căutare Yandex (Yandex)

Referință istorică

În 1990, compania Arcadia, condusă de Arkady Borkovsky și Arkady Volozh, a început să dezvolte un motor de căutare software. Șase ani mai târziu, a apărut site-ul Yandex. Dar ce s-a întâmplat în acești șase ani?

În doi ani, au fost create două sisteme de regăsire a informațiilor - „Clasificarea internațională a invențiilor” și „Clasificatorul bunurilor și serviciilor”. Ambele sisteme rulau sub DOS și permiteau căutarea unui cuvânt dintr-un anumit dicționar folosind operatori booleeni.

În 1993, Arcadia a devenit o divizie a CompTek. În perioada 1993-1994, tehnologiile de căutare au fost îmbunătățite semnificativ, de exemplu, un dicționar care oferă căutare ținând cont de morfologia limbii ruse a ocupat doar 300 KB, ceea ce înseamnă că se potrivește liber în RAM, iar lucrul cu acesta s-a întâmplat foarte repede. Bazat pe acest lucru tehnologie nouăîn 1994, a fost creat „Bible Computer Reference” - un sistem de recuperare a informațiilor care funcționează cu traduceri ale Vechiului și Noului Testament.

Căutare limbă Yandex

Cum va interpreta motorul de căutare cuvântul pe care l-ați introdus?

    Acum vom vorbi despre asta:
  • Regula 1. Se dovedește că sistemul îl interpretează conform regulilor limbii ruse. Exemplu: Dacă introduceți cuvântul „mașină”, veți obține și rezultate care conțin cuvintele „mașini”, „mașină”, etc. La fel este și cu verbele - cerând „du-te” vei primi documente care conțin cuvintele „du-te”, „pleacă”, „a mers”, „a mers”, etc. După cum puteți vedea, motorul de căutare este mai inteligent decât credeați - nu este doar un mijloc de a găsi un anumit cuvânt într-o bază de date.
  • Regula 2. Atentie speciala este dat cuvintelor scrise cu majuscule. Dacă un cuvânt este scris cu majuscule și nu este primul cuvânt dintr-o propoziție, vor fi găsite numai cuvintele cu majuscule. În caz contrar, vor fi găsite cuvinte scrise atât cu litere mari, cât și cu litere mici. Exemplu: pentru cererea „Teckel A”. se vor găsi documente care conțin atât „taxă” (taxă) cât și „taxă” (nume de familie), întrucât cuvântul „taxă”, deși scris cu majuscule, este primul în propoziție. Dar interogarea „A. Dachshund” va găsi documente care conțin doar cuvântul „Teckel” scris cu majuscule.

Sintaxa Yandex

În mod implicit, Yandex utilizează operatorul logic AND. Aceasta înseamnă că, dacă ați introdus interogarea „Samsung TV”, rezultatele vor returna documente în care vor apărea cuvintele „TV” și „Samsung” în aceeași propoziție. Dacă doriți să specificați operatorul AND în mod explicit, utilizați simbolul ampersand &. Cu alte cuvinte, interogarea „Samsung TV” este aceeași cu interogarea „TV & Samsung”. De asemenea, puteți utiliza interogarea „TV + Samsung”.

Dacă doriți efectul opus, adică. Dacă doriți să obțineți documente care conțin cuvântul „TV” și cuvântul „Samsung” separat, atunci trebuie să utilizați operatorul SAU (|), de exemplu: „TV | Samsung”.

Sintaxa interogării Yandex

Yandex numerotează toate cuvintele din textul documentului în ordine. Distanța dintre cuvintele adiacente este 1 (nu 0!), iar distanța dintre cuvinte este ordine inversă este egal cu -1. Același lucru este valabil și pentru oferte.

Pentru a indica distanța dintre cuvinte, puneți un semn /, urmat imediat de un număr, ceea ce înseamnă că aceasta este distanța dintre cuvinte. De exemplu, interogarea „dezvoltator / 2 programe” va găsi documente care conțin cuvintele „dezvoltator” și „programe”, iar distanța dintre cuvinte nu trebuie să fie mai mare de două cuvinte și toate aceste cuvinte ar trebui să fie într-o singură propoziție. În acest caz, vor fi găsite documente care conțin „dezvoltator”. programe de aplicație", "dezvoltator programe de sistem" etc.

Dacă știm exact distanța și ordinea cuvintelor, atunci putem folosi sintaxa /+n. De exemplu, interogarea „red /+1 cap” va returna un rezultat în care cuvântul „cap” urmează imediat cuvântul „red”. Interogarea „scufița roșie” ar duce la același rezultat.

Operatori de căutare Yandex

Parantezele sunt folosite pentru a reprezenta o expresie întreagă într-o interogare. De exemplu, interogarea „(istorie | tehnologie | programe)/+1 Linux” va găsi documente care conțin una dintre expresiile „ Istoria Linux", "Tehnologii Linux", " programe Linux".

Zonele

Zona este locul în care puteți căuta informațiile de care aveți nevoie. Puteți specifica zona în care doriți să căutați - titluri (Zona Titlu), link-uri (ancore) sau adresa (Adresă). Puteți utiliza, de asemenea, toate zonele pentru a căuta în întregul document.

Sintaxă: cerere $zone_name.

De exemplu: solicitați $title "Microsoft" найдет все документы, в заголовках которых встречается !} fraza exacta„Microsoft”.

Opțiuni suplimentare de căutare Yandex

Motor de căutare masina Google a făcut posibilă limitarea locației de căutare la o anumită listă de servere sau, dimpotrivă, excluderea unor servere din lista de căutare. Exact aceleași capacități sunt disponibile în motorul de căutare Yandex. De asemenea, puteți căuta documente care conțin link-uri către URL-uri specifice sau poze. Când specificați o mască de fișier (de exemplu, o imagine), puteți utiliza simbolul *, adică toate caracterele, de exemplu: „audi-*”.

Sintaxa este: #element_name="valoare".


ÎN caz general- se efectuează o căutare a unei fraze de interogare pe paginile de Internet, iar folosind anumite criterii și algoritmi, rezultatele căutării sunt clasate și prezentate utilizatorului. Cele mai frecvent utilizate criterii de clasare în motoarele de căutare sunt:
– prezența cuvintelor din interogare în document, numărul acestora, apropierea de începutul documentului, apropierea între ele;
– prezența cuvintelor din cerere în rubricile și subtitlurile documentelor;
– numărul de link-uri către acest document din alte documente;
– „respectabilitatea” documentelor de trimitere.
După cum se poate observa din criteriile de clasare, criteriul real al relevanței documentului - prezența cuvintelor din interogare (expresia de căutare) - nu are un efect atât de puternic asupra rangului său în rezultatele căutării. Această situație duce la o scădere a calității căutării, deoarece documentele potențial mai utile sunt inevitabil împinse la capătul listei de către concurenții lor „optimizați”. Și într-adevăr, mulți au întâlnit ceea ce este real resurse utileîn motoarele de căutare se află pe a doua a treia pagină a interogării de căutare. Aici se manifestă ineficiența algoritmilor pentru clasarea documentelor găsite. Acest lucru se datorează în mare măsură faptului că interogările de căutare constau în medie din doar trei până la cinci cuvinte, adică pur și simplu nu există suficiente informații inițiale pentru a clasifica eficient rezultatele căutării.

Și aici sunt problemele la căutare....

Aici algoritmii pentru clasarea documentelor găsite nu sunt 100% eficienți. Desigur, această situație apare și pentru că interogările de căutare ale utilizatorilor constau în medie din doar trei până la cinci cuvinte. Adică, astfel de informații inițiale pentru motoarele de căutare sunt prea rare pentru o clasare eficientă a rezultatelor.
A doua problemă este „cum” un numar mare de procesează informații (= „resumează”, „consideră”, „evidențiază principalul lucru”, „elimină ceea ce este inutil și inutil”) pentru un anumit utilizator, ținând cont de nevoile acestuia, de sensul și subiectul solicitării, de căutarea sa anterioară istoric, localizare geografică, părerea lui despre căutarea rezultatelor etc. Desigur, motoarele de căutare se dezvoltă activ în această direcție, dar este evident că motorul de căutare este departe de a fi perfect. Pentru că astăzi doar o persoană poate evalua utilitatea semantică, calitatea, specificul informațiilor găsite etc.

Alternative pentru motoarele de căutare

Prin urmare, ca alternativă, apar servicii care structurează cumva Internetul pentru o căutare mai ușoară. solicitate de utilizator informație. Și în acest moment există deja marcaje sociale, cataloage, trackere torrent, forumuri, motoare de căutare specializate, servicii de partajare a fișierelor etc. Toate aceste servicii, într-o măsură sau alta, structurează Internetul și „reduc distanța” dintre utilizator și informațiile de care are nevoie (fie că este vorba de filme, muzică, cărți, răspunsuri la întrebări etc.). Și cel mai important, internetul este „structurat” în principal de către utilizatori înșiși.
Nu, nu există niciun indiciu aici că motoarele de căutare sunt inutile sau ineficiente. Consider că motoarele de căutare sunt ideale pentru a găsi informații superficiale și cele mai populare. Și pentru a căuta informații mai profunde, inclusiv cărți utile, articole, reviste, muzică etc. (adică cu capacitatea de a descărca toate acestea) resursele menționate mai sus „structurează Internetul” sunt mai potrivite.

Cum să nu te pierzi pe internet?


Scurt:
1.Pentru a căuta informații superficiale, utilizați motoarele de căutare, de exemplu http://google.com, http://yandex.ru , http://nigma.ru , http://nibbo.com
2. Pentru a căuta site-uri relevante pentru subiect, utilizați directoarele de pe Internet, de exemplu,

Nu cred că cineva va arunca cu roșii în mine după ce a citit titlul articolului. Sunteți de acord că nu putem trăi o zi fără informații acum. Pentru a avea informații, trebuie mai întâi să le găsiți. Există reguli? căutarea de informații pe internet? - tu intrebi.

Îți sugerez să-ți amintești de tine ca un începător pe internet sau să te uiți înapoi la prietenii tăi, dintre care fiecare dintre noi are o mulțime. Cei care folosesc internetul în cantități foarte limitate. Și acest lucru se întâmplă adesea doar pentru că o persoană nu știe cum să compună corect interogări de căutare pentru a găsi informațiile de care are nevoie. Rezultatul este să stai pe aceleași locuri și resurse, să nu înțelegi că există o lume uriașă și necunoscută sub picioarele tale, adică sub mâinile tale.

Cum cauti informatii pe internet?

Mai întâi, să decidem cine găsește informațiile de care avem nevoie pentru noi? Principalii lucrători sunt motoarele de căutare și directoarele. După cum s-a menționat corect în directorul Yandex, abilitatea de a căuta este o artă. În ciuda simplității internetului, nu toată lumea poate căuta eficient.

Diverse motoare de căutare, precum Google, Yandex, Ramble, Mail, Yahoo, găsesc informații pentru utilizatorul rus. Reguli generale Ei nu au o căutare, așa că ni se oferă libertate deplină de acțiune. Prefer să folosesc Google, deoarece are cel mai bun algoritm de clasare de căutare din lume. Pentru a compara rezultatele, apelez întotdeauna la Yandex. Dacă utilizați aceste două motoare de căutare, veți vedea că rezultatele căutării în ambele cazuri pentru aceeași interogare vor diferi unele de altele.

Motoarele de căutare caută informații pentru noi pe baza următoarelor criterii:

  • Cuvântul cheie este în titlu
  • Prezența unui cuvânt cheie în adresa domeniului sau titlul paginii
  • Cuvânt cheie îngroșat
  • Densitatea cuvintelor cheie
  • Legături pe pagină și numele cuvântului cheie în textul linkului

Adică, motorul de căutare trebuie să facă buna treaba să ne dea rezultatul. Prin urmare, primul lucru pe care trebuie să învățăm să facem este să formulăm corect interogările de căutare înainte de a le introduce în bara de căutare.

Reguli pentru căutarea informațiilor pe Internet

1. Formulați mai multe întrebări cu privire la întrebarea dvs. Rețineți că, dacă trebuie să găsiți un eseu despre un elefant, atunci prin cuvânt elefant vei gasi elefanti si tot ce poate avea sau nu legatura cu cuvantul elefant. Acestea ar putea fi cărți cu cuvântul elefant în titlu, ar putea fi site-uri web, articole, glume, basme, în general, tot ce nu are nicio legătură cu cererea ta reală. Prin urmare, scriem pe scurt și clar: eseuri despre elefanți. Pentru marire, click pe poza.

Yandex ne-a dat 2 milioane de răspunsuri, Google a estimat că 335.000 de pagini ne-ar fi utile. După cum puteți vedea, va trebui să muncim din greu pentru a găsi ceea ce avem cu adevărat nevoie.

2. Restrângeți zona de căutare. Pentru a face acest lucru, să punem interogarea noastră între ghilimele și va arăta astfel: „rezumate despre elefanți”. Să vedem ce se întâmplă:


O minune! Acum va trebui să cauți mult mai puțin! Acum suntem siguri că aceste pagini pe care ni le-au returnat motoarele de căutare vor conține informații legate de rezumate despre elefanți.

3. Nu uitați că trebuie să scrieți corect interogarea de căutare. De aceasta depinde și calitatea informațiilor furnizate nouă.

4. Scriem interogarea de căutare numai cu litere mici. Dacă folosim într-o cerere litere mari, atunci nu vom putea vedea răspunsuri unde acest cuvânt este scris cu literă mică. Utilizare litere mari numai în nume proprii.

5. Folosim în mod activ căutarea de imagini. De obicei, imaginile au subtitrări atunci când sunt încărcate, care pot conține cuvintele dvs. cheie.

6. Folosind semnele + și -, putem indica ce cuvinte vrem sau nu vrem să vedem. De exemplu, când căutați „ceai verde”, puteți marca cuvântul îmbrăcat cu un semn (-). În acest caz, poți conta pe faptul că nu vei vedea informații despre pliculețe de ceai verde.

7. Semnează | va putea să clarifice motoarele de căutare că doriți să găsiți „ori-sau”. Dacă întrebați „cum se scrie un rezumat|formatează un rezumat”, atunci răspunsurile vor include atât cum să scrieți un rezumat, cât și cum să-l formatați.

8. Familiar! indicam ceea ce vrem sa stim informatii exacte pentru un anumit cuvânt. De exemplu, când căutăm interogarea!elephant, vom vedea o potrivire exactă pentru acest cuvânt fără forme de cuvânt. Adică, căutarea nu va afișa diverse forme ale cuvântului „elefant” - elefanți, elefanți, elefanți, despre elefanți etc.

9. Rețineți că după ceva timp căutarea vă poate oferi informații complet diferite. Prin urmare, informațiile găsite, dacă sunt cu adevărat importante pentru dvs., sunt cel mai bine salvate în favorite sau marcajele browserului. Utilizați sistemul de stocare al browserului dvs. cu foldere, care pot fi create direct din panou făcând clic dreapta și selectând „adăugați folder”. Prefer să salvez cu etichete în Evernote, puteți citi despre asistentul meu preferat în articol

10. Utilizați funcțiile avansate de căutare ale motoarelor de căutare, dacă aveți nevoie de clarificări cu privire la date, geografie, limbă, format de fișier.

11. Nu neglijați căutarea pe pagina a 2-a și pe paginile următoare. Se întâmplă adesea ca informații proaspete și noi să nu fi ajuns încă în TOP 10, așa că va trebui să le căutați. Uneori îmi găsesc răspunsurile pe pagina a cincea sau chiar a zecea.

12. Dacă aveți nevoie în mod constant de informații despre un anume domeniu de activitate, utilizați rețelele sociale, comunitățile, grupurile, forumurile, directoarele pentru a colecta informații. Newsletter-ul Subcribe vă poate oferi un număr mare de grupuri tematice specializate, care vă vor trimite constant informație nouă. De asemenea, puteți salva ceea ce aveți nevoie în marcaje sau Evernote.

Dacă ați găsit acest articol util și interesant, împărtășiți-l prietenilor tăi făcând clic pe butonul de pe orice rețea de socializare.

CAUTARE INFORMATII PROFESIONALE PE INTERNET

Căutarea pe Internet este un element important al lucrului pe Internet. Aproape nimeni nu știe cu siguranță numărul exact de resurse web de pe internetul modern. În orice caz, numărul este de miliarde. Pentru a putea folosi informațiile necesare la un moment dat, indiferent de muncă sau de divertisment, trebuie mai întâi să le găsești în acest ocean de resurse alimentat constant.

Pentru ca o căutare pe Internet să aibă succes, trebuie îndeplinite două condiții: interogările trebuie bine formulate și trebuie adresate în locuri adecvate. Cu alte cuvinte, utilizatorului i se cere, pe de o parte, să își poată traduce interesele de căutare în limba interogării de căutare și, pe de altă parte, să aibă cunoștințe bune despre motoarele de căutare, instrumentele disponibile căutare, avantajele și dezavantajele acestora, care vă vor permite să alegeți cele mai potrivite instrumente de căutare în fiecare caz specific.

În prezent, nu există o singură resursă care să satisfacă toate cerințele de căutare pe Internet. Prin urmare, dacă adoptați o abordare serioasă a căutării, trebuie inevitabil să utilizați diferite instrumente, folosind fiecare în cazul cel mai potrivit.

De bază Instrumente de căutare pe internetpot fi împărțite în următoarele grupe principale:

Motoare de căutare;

directoare web;

Resurse de ajutor;

Programe locale pentru căutarea pe Internet.

Cele mai populare instrumente de căutare suntmotoare de căutare– așa-numitele motoare de căutare pe Internet (motoare de căutare). Primii trei lideri la scară globală sunt destul de stabili - Google, Yahoo! și Bing. În multe țări, propriile lor motoare de căutare locale, optimizate pentru a lucra cu conținut local, sunt adăugate la această listă. Cu ajutorul lor, teoretic puteți găsi orice cuvânt specific pe paginile a milioane de site-uri. Din punctul de vedere al utilizatorului, principalul dezavantaj al motoarelor de căutare este prezența inevitabilăzgomot informaționalîn rezultate. Acesta este numele obișnuit pentru rezultatele care sunt incluse în lista de căutare dintr-un motiv sau altul și nu corespund solicitării.

În ciuda multor diferențe, toate motoarele de căutare pe Internet funcționează pe principii similare și, din punct de vedere tehnic, constau din subsisteme similare. Prima parte structurală a motorului de căutare sunt programele speciale utilizate pentru căutare automatăși indexarea ulterioară a paginilor web. Astfel de programe sunt de obicei numite păianjeni sau roboți. Ei se uită la codul paginilor web, găsesc link-uri situate pe ele și, prin urmare, descoperă noi pagini web. Există o modalitate alternativă de a include un site în index. Multe motoare de căutare oferă proprietarilor de resurse posibilitatea de a adăuga în mod independent un site la baza lor de date. Cu toate acestea, paginile web sunt apoi descărcate, analizate și indexate. Ele evidențiază elemente structurale, găsesc cuvinte cheie și determină conexiunile acestora cu alte site-uri și pagini web. Se efectuează și alte operațiuni, al căror rezultat este formarea unei baze de date cu index al motorului de căutare. Această bază de date este al doilea element principal al oricărui motor de căutare. În prezent, nu există o singură bază de date index absolut completă care să conțină informații despre tot conținutul de pe Internet. Deoarece diferite motoare de căutare folosesc diferite programe căutați pagini web și construiți-le indexul folosind diferiți algoritmi, bazele de date cu indexuri ale motoarelor de căutare pot varia semnificativ. Unele site-uri sunt indexate de mai multe motoare de căutare, dar există întotdeauna un anumit procent de resurse incluse în baza de date a unui singur motor de căutare. Prezența unei părți a indexului atât de originală și care nu se suprapune în fiecare motor de căutare ne permite să tragem o concluzie practică importantă: dacă utilizați un singur motor de căutare, chiar și cel mai mare, veți pierde cu siguranță un anumit procent de link-uri utile .

Următoarea parte a motorului de căutare pe Internet este programul propriu-zis de căutare și sortare. Aceste programe rezolvă două probleme principale: în primul rând, găsesc pagini și fișiere în baza de date care se potrivesc cu solicitarea primită și apoi sortează matricea de date rezultată în conformitate cu diverse criterii. Succesul în atingerea obiectivelor de căutare depinde în mare măsură de eficacitatea muncii lor.

Ultimul element al motorului de căutare pe Internet este interfața cu utilizatorul. Pe lângă cerințele obișnuite de estetică și comoditate pentru orice site web, mai există o cerință pentru interfețele motoarelor de căutare: cerință importantă: ar trebui să ofere o varietate de instrumente pentru construirea și rafinarea interogărilor, precum și pentru sortarea și filtrarea rezultatelor. Avantajele motoarelor de căutare sunt acoperirea excelentă a surselor, actualizarea relativ rapidă a conținutului bazei de date și o selecție bună de funcții suplimentare.

Instrumentul principal de lucru cu motoarele de căutare este o interogare.

Folosit și pentru căutări pe Internet aplicatii speciale, instalat pe computerul local. Acestea pot fi fie programe simple, fie mai degrabă complexe complexe pentru căutarea și analiza datelor. Cele mai comune pluginuri de căutare pentru browsere sunt panourile de browser concepute pentru a funcționa cu orice anume serviciu de căutareși pachete de metacăutare cu capabilități de analiză a rezultatelor.

directoare web – acestea sunt resurse în care site-urile sunt împărțite în categorii tematice. Dacă utilizatorul lucrează cu motoarele de căutare doar prin interogări, atunci în catalog este posibil să vizualizeze secțiuni tematice în întregime. Al doilea diferenta fundamentala cataloagele din motoarele de căutare automate - acest lucru se datorează faptului că oamenii care, de regulă, participă direct la completarea lor, vizualizează resursele și clasifică site-ul într-o categorie sau alta. Directoarele web sunt de obicei împărțite în universale și tematice. Cele universale încearcă să acopere cât mai multe subiecte. Puteți găsi orice acolo: de la site-uri web despre poezie până la resurse informatice. Cu alte cuvinte, lărgimea lor de căutare este maximă. Directoarele tematice sunt specializate într-o anumită temă, oferind, prin reducerea largimii acoperirii resurselor, adâncime maximă căutare.

Avantajele cataloagelor sunt comparativ calitate superioară resurse, deoarece fiecare site din acesta este vizualizat și selectat de o persoană. Gruparea tematică a site-urilor vă permite să aranjați convenabil site-uri cu subiecte similare. Acest mod de operare este bun pentru a descoperi site-uri care sunt noi pentru tine pe o temă de interes - este mai precis decât utilizarea unui motor de căutare. Se recomandă utilizarea directoarelor web pentru prima cunoaștere cu oricare domeniul subiectului, precum și căutarea de interogări vagi - veți avea ocazia să „rătăciți” prin secțiunile catalogului și să determinați mai precis de ce aveți nevoie exact.

Dezavantajele directoarelor web sunt cunoscute. În primul rând, aceasta este o reîncărcare lentă a bazei de date, deoarece includerea unui site în catalog necesită participarea umană. În ceea ce privește eficiența, un director web nu este un rival cu motoarele de căutare. În plus, directoarele web sunt semnificativ inferioare motoarele de căutare în ceea ce privește dimensiunea bazei de date.

Când vorbim despre căutarea pe Internet, nu putem ignora o serie de termeni care sunt strâns legați de acest domeniu și sunt adesea folosiți pentru a descrie și evalua motoarele de căutare. De exemplu: lățime și adăncime Căutare pe internet. O căutare amplă este cea care captează cât mai mult posibil cantitate mare surse de informare. În acest caz, se consideră suficientă cel puțin o mențiune a unuia sau a altuia site potrivit solicitării. Profunzimea de căutare se referă la detaliile indexării și căutării ulterioare a fiecărei resurse specifice. De exemplu, multe motoare de căutare abordează indexarea diferitelor site-uri în mod diferit. Site-urile mari și populare sunt indexate în cea mai mare măsură; roboții încearcă să nu rateze o singură pagină dintr-o astfel de resursă. În același timp, pe alte site-uri, pot fi indexate doar pagina de titlu și câteva pagini de conținut. Aceste circumstanțe afectează în mod firesc căutările ulterioare. Căutarea profundă funcționează pe principiul „include mai bine în rezultate” informatii inutile mai degrabă decât să ratezi orice date relevante pentru subiectul de căutare.”

Destul de des poți întâlni concepte precum globală și locală Căutare pe internet. Căutările locale pe Internet țin cont de locația geografică a utilizatorului și dau preferință rezultatelor care sunt într-un fel legate de o anumită țară sau localitate. În timpul unei căutări globale, aceste informații nu sunt luate în considerare, iar căutarea se efectuează în toate resursele disponibile.

Când faceți o solicitare pe motoarele de căutare de pe Internet, se aplică următoarele: diverse moduri căutare. Modurile de căutare tipice găsite pe majoritatea mașinilor de internet includ: simplu si avansat căutare. O căutare simplă vă permite să specificați doar o funcție de căutare într-o singură solicitare. Căutarea avansată face posibilă crearea unei interogări din mai multe condiții, legându-le cu operatori logici.

Pentru a rafina interogările de căutare, diverse filtre . Filtrele se numesc unul sau altul ajutoare elaborarea de interogări care nu se referă la conținutul termenilor de interogare, dar limitează rezultatele căutării la o anumită caracteristică formală. Deci, de exemplu, atunci când folosește un filtru de tip de fișier la căutare, utilizatorul nu furnizează sistemului informații legate de subiectul solicitării sale, ci pur și simplu limitează rezultatele obținute la un anumit tip de fișier specificat în condiția solicitării sale.

Pentru majoritatea utilizatorilor, motoarele de căutare universale sunt principalele și adesea singurele mijloace de căutare pe Internet. Ele oferă o bună acoperire a surselor, precum și un set de instrumente suficiente pentru a rezolva problemele de căutare de bază.

Piața motoarelor de căutare universale este destul de mare. Am încercat să analizăm cele mai cunoscute motoare de căutare și am prezentat rezultatele în Tabelul 1.

Atunci când alegeți un motor de căutare universal, calitatea resurselor găsite cu ajutorul acestuia joacă un rol important. Stabilește-ți preferatul sarcini specifice Motorul de căutare poate fi utilizat folosind „metoda markerului”. Esența sa este că mai întâi este alcătuită o anumită interogare de căutare tematică, după care un grup de oameni - experți în acest domeniu - este chestionat pentru a identifica, în opinia lor, cele mai bune resurse de internet pe tema aleasă. Pe baza datelor sondajului, se formează o listă de site-uri de marcare, garantată relevante pentru cerereși care să conțină informații de calitate. Solicitarea este apoi trimisă către motoarele de căutare testate. Logica evaluării este simplă: cu cât site-urile de marcare sunt localizate mai sus în rezultatele căutării, cu atât o anumită resursă este mai potrivită pentru căutarea informațiilor despre un subiect de testare.


1. Introducere

În fiecare an, volumul Internetului crește semnificativ, deci probabilitatea de a găsi informatie necesara crește brusc. Internetul conectează milioane de computere, multe rețele diferite, iar numărul utilizatorilor crește cu 15-80% anual. Și totuși, din ce în ce mai mult, atunci când accesezi internetul, principala problemă nu este lipsa informațiilor pe care le cauți, ci capacitatea de a le găsi. De regulă, o persoană obișnuită, din cauza diverselor circumstanțe, nu poate sau nu vrea să petreacă mai mult de 15-20 de minute căutând răspunsul de care are nevoie. Prin urmare, este deosebit de important să înveți corect și competent un lucru aparent simplu - unde și cum să cauți pentru a obține răspunsurile DEZIRATE.

Pentru a găsi informațiile de care aveți nevoie, trebuie să găsiți adresa acesteia. În acest scop, există servere de căutare specializate (roboți de indexare (motoare de căutare), directoare tematice pe Internet, sisteme de meta-căutare, servicii de căutare de persoane etc.). Această clasă de master dezvăluie tehnologiile de bază pentru căutarea informațiilor pe Internet, oferă caracteristici generale ale instrumentelor de căutare și examinează structurile interogărilor de căutare pentru cele mai populare motoare de căutare în limba rusă și în limba engleză.

2. Tehnologii de căutare

Tehnologia web World Wide Web (WWW) este considerată o tehnologie specială pentru pregătirea și postarea documentelor pe Internet. WWW include pagini web, biblioteci electronice, cataloage și chiar muzee virtuale! Cu o asemenea abundență de informații, apare întrebarea: „Cum să navighezi într-un spațiu informațional atât de mare și la scară largă?”
Instrumentele de căutare vin în ajutor în rezolvarea acestei probleme.

2.1 Instrumente de căutare

Instrumentele de căutare sunt software speciale al căror scop principal este de a oferi cele mai optime și căutare de calitate informatii pentru utilizatorii de internet. Instrumentele de căutare sunt găzduite pe servere web speciale, fiecare dintre ele îndeplinește o funcție specifică:

  1. Analiza paginilor web și înregistrarea rezultatelor analizei la unul sau altul nivel al bazei de date a serverului de căutare.
  2. Căutarea informațiilor pe baza solicitării utilizatorului.
  3. Furnizarea unei interfețe convenabile pentru ca utilizatorul să caute informații și să vizualizeze rezultatele căutării.

Tehnicile de lucru folosite atunci când lucrați cu unul sau altul instrument de căutare sunt aproape aceleași. Înainte de a le discuta, să luăm în considerare următoarele concepte:

  1. Interfața instrumentului de căutare este prezentată sub forma unei pagini cu hyperlinkuri, o linie de interogare (linie de căutare) și instrumente de activare a interogărilor.
  2. Un index al motorului de căutare este o bază de informații care conține rezultatul unei analize a paginilor web, compilată după anumite reguli.
  3. O interogare este un cuvânt cheie sau o expresie pe care un utilizator o introduce în bara de căutare. Pentru a forma diverse cereri, se folosesc caractere speciale ("", ~), simboluri matematice (*, +, ?).

Schema de căutare a informațiilor pe Internet este simplă. Utilizatorul formează fraza cheieși activează căutarea, primind astfel o selecție de documente pe baza cererii formulate (specificate). Această listă de documente este clasificată în funcție de anumite criterii, astfel încât în ​​fruntea listei se află acele documente care se potrivesc cel mai bine cu solicitarea utilizatorului. Fiecare dintre instrumentele de căutare utilizează criterii diferite pentru clasarea documentelor, atât la analizarea rezultatelor căutării, cât și la crearea unui index (popularea unei baze de date indexate a paginilor web).

Astfel, dacă specificați o interogare cu același design în bara de căutare pentru fiecare instrument de căutare, puteți obține rezultate de căutare diferite. Este de mare importanță pentru utilizator ce documente vor apărea în primele două până la trei duzini de documente din rezultatele căutării și cât de bine corespund aceste documente așteptărilor utilizatorului.

Majoritatea instrumentelor de căutare oferă două metode de căutare − căutare simplă(căutare simplă) și Cautare Avansata(căutare avansată) folosind formă specială cerere și fără ea. Să luăm în considerare ambele tipuri de căutare folosind exemplul unui motor de căutare în limba engleză.

De exemplu, AltaVista este convenabil de utilizat pentru cereri arbitrare, „Ceva despre diplomele online în tehnologia informației”, în timp ce instrumentul de căutare Yahoo vă permite să obțineți știri mondiale, informații despre cursul de schimb sau prognoze meteo.

Stăpânirea criteriilor de rafinare a interogărilor și a tehnicilor avansate de căutare vă permite să creșteți eficiența căutării și să găsiți rapid informațiile necesare. În primul rând, puteți crește eficiența căutării dvs. utilizând operatori logici (operații) Or, And, Near, Not, matematici și caractere speciale. Folosind operatori și/sau simboluri, utilizatorul asociază cuvinte cheie în secvența necesară pentru a obține rezultatul de căutare cel mai potrivit pentru interogare. Formularele de cerere sunt prezentate în tabelul 1.

tabelul 1

O simplă solicitare oferă un anumit număr de link-uri către documente, deoarece... lista include documente care conțin unul dintre cuvintele introduse în timpul cererii, sau o simplă frază (vezi Tabelul 1). Operatorul și vă permite să specificați că toate cuvintele cheie trebuie incluse în conținutul documentului. Cu toate acestea, numărul documentelor poate fi încă mare și revizuirea acestora va dura destul de mult. Prin urmare, în unele cazuri este mult mai convenabil să folosiți operatorul de context lângă, ceea ce indică faptul că cuvintele ar trebui să fie amplasate într-o proximitate suficientă în document. Utilizarea aproape reduce semnificativ numărul de documente găsite. Prezența caracterului „*” în șirul de interogare înseamnă că cuvântul va fi căutat după masca acestuia. De exemplu, vom obține o listă de documente care conțin cuvinte care încep cu „gov” dacă scriem „gov*” în șirul de interogare. Acestea ar putea fi cuvintele guvern, guvernator etc.

Nu mai puțin popularul motor de căutare Rambler păstrează statistici privind traficul de linkuri din propria bază de date, aceleași sunt acceptate operatori logici AND, OR, NOT, metacaracter * (similar cu caracterul de extindere a intervalului de interogare * din AltaVista), simboluri de coeficienți + și -, pentru a crește sau a reduce semnificația cuvintelor introduse în interogare.

Să ne uităm la cele mai populare tehnologii pentru căutarea informațiilor pe Internet.

2.2 Motoare de căutare

Motoarele de căutare web sunt servere cu bază imensă Datele URL, care accesează automat paginile WWW la toate aceste adrese, examinează conținutul acestor pagini, formează și introduc cuvinte cheie din pagini în baza lor de date (indexează paginile).

Mai mult, roboții motoarelor de căutare urmăresc linkurile găsite pe pagini și le reindexează. Deoarece aproape orice pagină WWW are multe link-uri către alte pagini, atunci când lucrează astfel, motorul de căutare intră rezultat final teoretic poate ocoli toate site-urile de pe Internet.

Acest tip de instrumente de căutare este cel mai faimos și popular printre toți utilizatorii de internet. Toată lumea a auzit numele unor motoare de căutare web cunoscute (motoare de căutare) - Yandex, Rambler, Aport.

Pentru a utiliza acest tip de instrument de căutare, trebuie să accesați el și să introduceți cuvântul cheie care vă interesează în bara de căutare. În continuare, veți primi rezultate de la link-urile stocate în baza de date a motorului de căutare care sunt cele mai apropiate de solicitarea dvs. Pentru a face căutarea mai eficientă, acordați atenție în avans la următoarele puncte:

  • decide asupra subiectului cererii. Ce anume vrei să găsești până la urmă?
  • acordați atenție limbii, gramaticii, folosirii diferitelor simboluri non-literale, morfologiei.De asemenea, este important să formulați și să introduceți corect cuvintele cheie. Fiecare motor de căutare are propria sa formă de construcție a interogărilor - principiul este același, dar simbolurile sau operatorii utilizați pot diferi. Formularele de solicitare necesare variază, de asemenea, în funcție de complexitatea software-ului motorului de căutare și de serviciile pe care le furnizează. Într-un fel sau altul, fiecare motor de căutare are o secțiune „Ajutor”, în care sunt explicate clar toate regulile de sintaxă, precum și recomandările și sfaturile de căutare (captură de ecran a paginilor motorului de căutare).
  • utilizați capacitățile diferitelor motoare de căutare. Dacă nu îl găsiți pe Yandex, încercați pe Google. Utilizați servicii de căutare avansată.
  • Pentru a exclude documentele care conțin anumiți termeni, utilizați semnul „-” înaintea fiecărui astfel de cuvânt. De exemplu, dacă aveți nevoie de informații despre operele lui Shakespeare, cu excepția „Hamlet”, atunci introduceți o interogare sub forma: „Shakespeare-Hamlet”. Și pentru a vă asigura că anumite link-uri sunt incluse în rezultatele căutării, utilizați simbolul „+”. Deci, pentru a găsi link-uri despre vânzarea de mașini în mod specific, aveți nevoie de interogarea „vânzare + mașină”. Pentru a crește eficiența și acuratețea căutării dvs., utilizați combinații ale acestor simboluri.
  • Fiecare link din lista rezultatelor căutării conține mai multe rânduri din documentul găsit, printre care apar cuvintele tale cheie. Înainte de a face clic pe link, evaluați relevanța fragmentului pentru subiectul solicitării. După ce ați urmat un link către un anumit site, priviți cu atenție pagina principală. De regulă, prima pagină este suficientă pentru a înțelege dacă ați ajuns la adresa potrivită sau nu. Dacă da, atunci efectuați căutări suplimentare pentru informațiile necesare pe site-ul selectat (în secțiunile site-ului); dacă nu, reveniți la rezultatele căutării și încercați următorul link.
  • Rețineți că motoarele de căutare nu produc propriile informații (cu excepția explicațiilor despre ei înșiși). Un motor de căutare este doar un intermediar între proprietarul informațiilor (site-ului) și dumneavoastră. Bazele de date sunt actualizate în mod constant, li se adaugă noi adrese, dar decalajul din spatele informațiilor care există de fapt în lume rămâne încă. Pur și simplu pentru că motoarele de căutare nu funcționează cu viteza luminii.

La cel mai mult mașini celebre căutările web includ Google, Yahoo, Alta Vista, Excite, Hot Bot, Lycos. Dintre cei vorbitori de limbă rusă se pot evidenția Yandex, Rambler, Aport.

Motoarele de căutare sunt cele mai mari și mai valoroase, dar sunt departe de singurele surse de informații de pe Internet, deoarece pe lângă acestea, există și alte modalități de a căuta pe internet.

2.3 Directoare

Catalogul resurselor de Internet este un catalog ierarhic actualizat și extins constant, care conține multe categorii și servere web individuale cu o scurtă descriere a conținutului acestora. Metoda de căutare a catalogului presupune „deplasarea în jos”, adică trecerea de la categorii mai generale la mai multe. cele specifice. Unul dintre avantajele directoarelor tematice este că explicațiile pentru link-uri sunt date de creatorii directorului și reflectă pe deplin conținutul acestuia, adică vă oferă posibilitatea de a determina mai exact cât de bine corespunde conținutul serverului cu scopul dvs. căutare.

Un exemplu de catalog tematic în limba rusă este resursa http://www.ulitka.ru/.

Pe pagina principala Acest site conține un rubricator tematic,

cu ajutorul căruia utilizatorul se regăsește într-o secțiune cu link-uri către produse de interes pentru el.

În plus, unele directoare tematice vă permit să căutați după cuvinte cheie. Utilizatorul introduce cuvântul cheie dorit în bara de căutare

și primește o listă de link-uri cu descrieri ale site-urilor care se potrivesc cel mai bine cu solicitarea sa. Este de remarcat faptul că această căutare nu are loc în conținutul serverelor WWW, ci în acestea descriere scurta, stocat în director.

În exemplul nostru, catalogul are și capacitatea de a sorta site-urile după numărul de vizite, alfabetic și după data intrării.

Alte exemple de directoare în limba rusă:
[email protected]
Lista web
Vsego.ru
Dintre cataloagele în limba engleză putem evidenția:
http://www.DMOS.org
http://www.yahoo.com/
http://www.looksmart.com

2.4 Link colecții

Colecțiile de linkuri sunt link-uri sortate după subiect. Ele sunt destul de diferite unele de altele ca conținut, așa că pentru a găsi o selecție care se potrivește cel mai bine intereselor dvs., trebuie să le parcurgeți singur pentru a vă forma propria opinie.

Ca exemplu, să luăm o selecție de link-uri „Comori Internet” ale SA „Relcom”

Utilizatorul face clic pe oricare dintre secțiunile care îl interesează

  • CONŢINUT

    Șoferii

    • Astronomie și astrologie
    • Casa ta
    • Animalele dvs. de companie
    • Copiii sunt florile vieții
    • Timp liber
    • Orașe pe internet
    • Sănătate și medicină
    • Agenții de presă și servicii
    • Muzeul de istorie locală etc.,
    • Electronica auto.
    • Muzeul Auto Moto Antică.
    • Colegiul Protectie legala Proprietarii de mașini.
    • Sportdrive.

    Avantajul acestui tip de instrumente de căutare este concentrarea lor; de obicei, selecția include resurse rare de Internet selectate de un webmaster specific sau de proprietarul unei pagini de Internet.

    2.5 Baza de date cu adrese

    Bazele de date de adrese sunt servere speciale de căutare care folosesc de obicei clasificări după tip de activitate, după produse și servicii furnizate și după geografie. Uneori, acestea sunt completate cu căutare alfabetică. Înregistrările bazei de date stochează informații despre site-urile care oferă informații despre e-mail, organizație și adrese poștale contra cost.

    Cea mai mare bază de date de adrese în limba engleză este: http://www.lookup.com/ -

    Odată ajuns în aceste subdirectoare, utilizatorul găsește link-uri către site-uri care oferă informații de interes pentru el.

    Nu cunoaștem baze de date oficiale și accesibile pe scară largă cu adrese din Federația Rusă.

    2.6 Căutarea arhivelor Gopher

    Gopher este un sistem interconectat de servere (spațiul Gopher) distribuit pe Internet.

    Spațiul Gopher conține o bogată bibliotecă literară, dar materialele nu sunt disponibile pentru vizionare modul la distanță: Utilizatorul poate vizualiza numai cuprinsul organizat ierarhic și poate selecta un fișier după nume. Folosind un program special (Veronica), o astfel de căutare se poate face automat, folosind interogări bazate pe cuvinte cheie.

    Până în 1995, Gopher a fost cea mai dinamică tehnologie de internet: rata de creștere a numărului de servere corespunzătoare a depășit rata de creștere a serverelor tuturor celorlalte tipuri de Internet. Serverele Gopher nu au primit dezvoltare activă în rețeaua EUnet/Relcom, iar astăzi aproape nimeni nu le amintește.

    2.7 Sistem de căutare FTP

    Un instrument de căutare de fișiere FTP este un tip special de instrument de căutare pe Internet care vă permite să găsiți fișiere disponibile pe serverele FTP „anonime”. Protocolul FTP este conceput pentru transferul de fișiere printr-o rețea, iar în acest sens este funcțional un fel de analog al lui Gopher.

    Principalul criteriu de căutare este numele fișierului, specificat în diferite moduri (potrivire exactă, subșir, expresie regulată etc.). Acest tip căutarea, desigur, nu poate concura în capacități cu motoare de căutare, deoarece conținutul fișierelor nu este luat în considerare în niciun fel în timpul căutării și, după cum știți, fișierele pot primi nume arbitrare. Cu toate acestea, dacă trebuie să găsiți unele program celebru sau o descriere a standardului, apoi cu un grad mare de probabilitate fișierul care îl conține va avea numele corespunzător și îl puteți găsi folosind unul dintre serverele de căutare FTP:

    FileSearch caută fișiere pe serverele FTP pe baza numelor fișierelor și directoarelor în sine. Dacă cauți orice program sau altceva, atunci pe serverele WWW vei găsi cel mai probabil descrierea acestora, iar de pe serverele FTP le poți descărca pe tine.

    2.8 Sistem de căutare în conferințele de știri Usenet

    USENET NEWS este un sistem de teleconferință pentru comunitatea Internet. În Occident, acest serviciu este de obicei numit știri. Un analog apropiat al teleconferințelor sunt așa-numitele „ecouri” din rețeaua FIDO.

    Din punctul de vedere al abonatului unui grup de știri, USENET este un buletin cu secțiuni în care poți găsi articole despre orice, de la politică la grădinărit. Acest buletin este accesibil prin computer, similar cu e-mailul. Fără a părăsi computerul, puteți citi sau posta articole într-o anumită conferință, găsiți sfaturi utile sau angajați-vă în discuții. Desigur, articolele ocupă spațiu pe computere, așa că nu sunt stocate pentru totdeauna, ci sunt periodic distruse pentru a face loc altora noi. La nivel mondial cel mai bun serviciu pentru căutarea de informații în conferințele Usenet este server Google Grupuri (Google Inc.).

    Grupuri Google este o comunitate online gratuită și un serviciu de grup de discuții care oferă cea mai mare arhivă de mesaje Usenet de pe Internet (peste un miliard de mesaje). Pentru mai multe informații despre condițiile de utilizare a serviciului, vizitați http://groups.google.com/intl/ ro /googlegroups/tour/index.html

    Dintre cele vorbitoare de limbă rusă se remarcă serverul USENET World System și teleconferințele Relcom. La fel ca în alte servicii de căutare, utilizatorul introduce un șir de interogare, iar serverul generează o listă de conferințe care conțin cuvinte cheie. Apoi, trebuie să vă abonați la conferințe selectate din programul de știri. Există, de asemenea, un server rusesc similar FidoNet Online: conferințe Fido pe WWW.

    2.9 Metamotoare de căutare

    Pentru a căuta rapid în bazele de date ale mai multor motoare de căutare simultan, este mai bine să apelați la sistemele de meta-căutare.

    Metamotoarele de căutare sunt motoare de căutare care vă trimit cererea către un număr mare de motoare de căutare diferite, apoi procesează rezultatele, elimină adresele de resurse duplicate și prezintă o gamă mai largă de ceea ce este prezentat pe Internet.

    Cel mai popular motor de căutare meta din lume este Search.com.

    Motorul de căutare unificat al CNET, Inc. Search.com include aproape două duzini de motoare de căutare, link-uri către care sunt pline de link-uri pe internet.

    Cu toate acestea, folosind acest tip de instrumente de căutare, utilizatorul poate căuta informații într-o varietate de motoare de căutare latura negativă Aceste sisteme pot fi numite instabilitatea lor.

    2.10 Sisteme de căutare de persoane

    Sistemele de căutare de oameni sunt servere speciale, care vă permit să căutați persoane pe Internet, utilizatorul poate specifica numele lor complet. persoană și obțineți adresa de e-mail și URL-ul acesteia. Cu toate acestea, trebuie remarcat faptul că motoarele de căutare de oameni preiau în principal informații despre adrese de email din surse publice precum forumurile Usenet. Printre cele mai multe sisteme cunoscute căutarea de oameni poate fi distinsă:

    Căutați adrese de e-mail

    În coloanele speciale de căutare cu informații de contact (Prenume. Oraș, Prenume, Număr de telefon), puteți găsi informațiile care vă interesează.

    Motoarele de căutare a oamenilor sunt reale servere mari, bazele lor de date conțin aproximativ 6.000.000 de adrese.

    3. Concluzie

    Am trecut în revistă principalele tehnologii de căutare a informațiilor pe Internet și le-am prezentat în schiță generală instrumentele de căutare care există în prezent pe Internet, precum și structura interogărilor de căutare pentru cele mai populare motoare de căutare în limba rusă și în limba engleză și, pentru a rezuma cele de mai sus, am dori să remarcăm că nu există o singură schemă optimă pentru căutarea de informații pe internet. În funcție de specificul informațiilor de care aveți nevoie, puteți utiliza instrumentele și serviciile de căutare adecvate. Iar calitatea rezultatelor căutării depinde de cât de bine sunt selectate serviciile de căutare.