Compoziția componentelor și tehnologia de lucru cu IPS. Compilarea și depanarea unei interogări de subiect. Cine reglementează importul și exportul de instrumente de criptare?

17.03.1996 Pavel Hramtsov

Utilizatorii de internet cunosc bine numele unor astfel de servicii și servicii de informare precum Lycos, AltaVista, Yahoo, OpenText, InfoSeek etc. - fără serviciile acestor sisteme, astăzi este practic imposibil să găsești ceva util în marea de resurse de informare pe internet. Cum sunt aceste servicii din interior, cum sunt structurate, de ce rezultatul căutării în matrice terabyte de informații se realizează destul de repede și cum este aranjată clasarea documentelor atunci când sunt emise - toate acestea rămân de obicei în spatele scenei. Cu toate acestea, fără o planificare adecvată a unei strategii de căutare și familiarizarea cu principiile de bază ale teoriei IRS (sisteme de recuperare a informațiilor), care are o istorie de douăzeci de ani, este dificil să se utilizeze în mod eficient chiar și astfel de servicii rapide precum AltaVista sau Lycos. . Arhitectura IS modern pentru WWW Resursele informaționale și reprezentarea lor în IS Index de căutare Limba de regăsire a informațiilor a sistemului Interfața sistemului Concluzie Literatură Utilizatorii de internet cunosc deja numele unor astfel de servicii

Utilizatorii de internet cunosc bine numele unor astfel de servicii și servicii de informare precum Lycos, AltaVista, Yahoo, OpenText, InfoSeek etc. - fără serviciile acestor sisteme, astăzi este practic imposibil să găsești ceva util în marea de resurse de informare pe internet. Cum sunt aceste servicii din interior, cum sunt structurate, de ce rezultatul căutării în matrice terabyte de informații se realizează destul de repede și cum este aranjată clasarea documentelor atunci când sunt emise - toate acestea rămân de obicei în spatele scenei. Cu toate acestea, fără o planificare adecvată a unei strategii de căutare și familiarizarea cu principiile de bază ale teoriei IRS (sisteme de recuperare a informațiilor), care are o istorie de douăzeci de ani, este dificil să se utilizeze în mod eficient chiar și astfel de servicii rapide precum AltaVista sau Lycos. .

Sistemele de recuperare a informațiilor există de mult timp. Multe articole sunt dedicate teoriei și practicii construirii unor astfel de sisteme, majoritatea datând de la sfârșitul anilor 70 până la începutul anilor 80. Dintre sursele autohtone trebuie evidenţiată colecţia ştiinţifică şi tehnică „Informaţii ştiinţifice şi tehnice. Seria 2”, care este încă publicată. O „Biblie” despre dezvoltarea sistemelor de regăsire a informațiilor și modelarea proceselor de funcționare a acestora a fost, de asemenea, publicată în limba rusă. Astfel, nu se poate spune că odată cu apariția Internetului și intrarea lui rapidă în practica suportului informațional a apărut ceva fundamental nou, care nu exista până acum. Mai exact, IPS pe Internet este o recunoaștere a faptului că nici modelul ierarhic Gopher, nici modelul hipertext World Wide Web încă nu rezolva problema cautarii de informatii in volume mari de documente eterogene. Și astăzi nu există altă modalitate de a căuta rapid date, în afară de căutarea după cuvinte cheie.

Când utilizați modelul ierarhic al lui Gopher, trebuie să vă plimbați prin arborele de directoare destul de mult timp până când găsiți informațiile de care aveți nevoie. Aceste directoare trebuie să fie întreținute de cineva, iar împărțirea lor tematică trebuie să coincidă cu nevoile de informare ale utilizatorului. Având în vedere natura anarhică a Internetului și numărul mare de interese diverse în rândul utilizatorilor de internet, este clar că cineva poate avea ghinion și nu va exista un catalog pe Internet care să reflecte un anumit domeniu. Din acest motiv, programul de regăsire a informațiilor Veronica (Very Easy Rodent-Oriented Net-wide Index of Computerized Archives) a fost dezvoltat pentru multe servere Gopher, numit GopherSpace.

Evoluții similare sunt observate pe World Wide Web. De fapt, încă din 1988, într-un număr special al revistei „Communication of the ACM”, printre alte probleme legate de dezvoltarea sistemelor hipertext și utilizarea acestora, Frank Halaz a numit problema organizării recuperării informațiilor în rețele mari de hipertext ca sarcină prioritară. pentru următoarea generație de sisteme de acest tip. Până acum, multe dintre ideile exprimate în acel articol nu și-au găsit încă implementarea. Desigur, sistemul propus de Berners-Lee și care a devenit atât de răspândit pe Internet a trebuit să se confrunte cu aceleași probleme ca și predecesorii săi locali. Dovada reală a acestui lucru a fost demonstrată la a doua conferință World Wide Web din toamna anului 1994, la care au fost prezentate lucrări despre dezvoltarea sistemelor de regăsire a informațiilor pentru Web și World Wide Web Worm, dezvoltat de Oliver McBrine de la Universitatea din Colorado, a câștigat premiul pentru cel mai bun instrument de navigare. De remarcat, de asemenea, că, până la urmă, o viață lungă nu este destinată programelor miraculoase ale indivizilor talentați, ci mijloacelor care sunt rezultatul mișcării planificate și consecvente a echipelor științifice și de producție către scopul stabilit. Mai devreme sau mai târziu, etapa de cercetare se încheie și începe etapa de funcționare a sistemului, iar acesta este un tip complet diferit de activitate. Tocmai aceasta este soarta care a așteptat alte două proiecte prezentate la aceeași conferință: Lycos, susținut de Microsoft, și WebCrawler, care a devenit proprietatea America On-line.

Dezvoltarea de noi sisteme informatice pentru Web nu a fost finalizată. Mai mult, atât la etapa de scriere a sistemelor comerciale, cât și la etapa de cercetare. În ultimii doi ani, doar stratul superior al soluțiilor posibile a fost îndepărtat. Cu toate acestea, multe dintre problemele pe care le pune Internetul dezvoltatorilor IPS nu au fost încă rezolvate. Această împrejurare a determinat apariția unor proiecte precum AltaVista din Digital, scopul principal care este dezvoltarea de software de regăsire a informațiilor pentru Web și selectarea arhitecturii pentru serverul de informații Web.

Arhitectura sistemelor informatice moderne pentru WWW

Înainte de a descrie problemele construirii sistemelor de recuperare a informațiilor web și modalitățile de a le rezolva, să luăm în considerare o diagramă tipică a unui astfel de sistem. Diverse publicații dedicate unor sisteme specifice, de exemplu, oferă diagrame care diferă unele de altele doar prin modul în care sunt utilizate soluțiile software specifice, și nu prin principiul organizării diferitelor componente ale sistemului. Prin urmare, să luăm în considerare această schemă folosind un exemplu luat din lucrare (Fig.).

Orez. Diagrama tipică a unui sistem de regăsire a informațiilor.

Clientîn această diagramă este un program pentru vizualizarea unei anumite resurse de informații. Cele mai populare astăzi sunt programele multiprotocoale precum Netscape Navigator. Un astfel de program oferă vizualizarea documentelor WWW, Gopher, Wais, arhive FTP, liste de corespondență și grupuri de știri Usenet. La rândul lor, toate acestea resurse informaționale sunt obiectul de căutare al sistemului de regăsire a informaţiilor.

Interfața cu utilizatorul- acesta nu este doar un program de vizualizare; în cazul unui sistem de regăsire a informațiilor, această expresie înseamnă și modul de comunicare al utilizatorului cu motorul de căutare: sistemul de generare a interogărilor și vizualizarea rezultatelor căutării.

Motor de căutare (motor de căutare)- servește la traducerea unei cereri într-un limbaj de regăsire a informațiilor (IRL) într-o cerere formală de sistem, la căutarea de link-uri către resurse de informații din Rețea și la furnizarea rezultatelor acestei căutări utilizatorului.

Baza de date index- index, care este matricea principală de date IRS și servește la căutarea adresei unei resurse de informații. Arhitectura indexului este concepută în așa fel încât căutarea să aibă loc cât mai rapid și în același timp să fie posibilă evaluarea valorii fiecărei resurse de informații găsite în rețea.

Interogări (cereri utilizatori)- sunt salvate în baza de date personală (a utilizatorului). Este nevoie de mult timp pentru a depana fiecare interogare și, prin urmare, este extrem de important să ne amintim interogările la care sistemul oferă răspunsuri bune.

Robot index- servește la scanarea internetului și menținerea la zi a bazei de date cu index. Acest program este principala sursă de informații despre starea resurselor de informații din rețea.

site-uri WWW- acesta este întregul Internet sau, mai precis, resursele informaționale, a căror vizualizare este asigurată de programe de vizualizare.

Să luăm acum în considerare scopul și principiul de construcție al fiecăreia dintre aceste componente mai detaliat și să stabilim cum diferă acest sistem de IPS de tip local tradițional.

Resursele de informații și prezentarea lor în IRS

După cum se poate observa din figură, matricea de documente Internet IPS este întregul set de documente de șase tipuri principale: pagini WWW, fișiere Gopher, documente Wais, înregistrări arhive FTP, știri Usenet și articole din lista de corespondență. Toate acestea sunt informații destul de eterogene, care sunt prezentate sub forma unor formate de date diferite, care nu sunt deloc în concordanță între ele: texte, informații grafice și audio și, în general, tot ceea ce este disponibil în aceste depozite. Întrebarea apare în mod firesc: cum ar trebui să funcționeze un sistem de recuperare a informațiilor cu toate acestea?

Sistemele tradiționale folosesc conceptul de imagine de căutare a unui document - AML. De obicei, acest termen se referă la ceva care înlocuiește un document și este folosit în căutări în locul unui document real. Imaginea de căutare este rezultatul aplicării unui model de matrice de informații de documente la o matrice reală. Cel mai popular model este modelul vectorial, în care fiecărui document i se atribuie o listă de termeni care reflectă cel mai adecvat sensul acestuia. Pentru a fi mai precis, documentului i se atribuie un vector de dimensiune egal cu numărul de termeni care pot fi utilizați în căutare. Cu un model vectorial boolean, elementul vectorial este 1 sau 0, în funcție de prezența sau absența unui termen în POD. În modelele mai complexe, termenii sunt ponderați - elementul vectorului nu este egal cu 1 sau 0, ci cu un număr (greutate) care reflectă corespondența acest termen document. Exact Cel mai recent model a devenit cel mai popular în Internet IRS.

În general, există și alte modele pentru descrierea documentelor: modelul probabilistic al fluxurilor de informații și al căutării și modelul de căutare a seturilor neclare. Fără a intra în detalii, este logic să rețineți că până acum este folosit doar modelul liniar în sistemele Lycos, WebCrawler, AltaVista, OpenText și AliWeb. Cu toate acestea, cercetările sunt în desfășurare privind utilizarea altor modele, ale căror rezultate sunt reflectate în lucrări. Astfel, prima sarcină pe care IRS trebuie să o rezolve este alocarea unei liste de cuvinte cheie unui document sau unei resurse de informații. Această procedură se numește indexare. Adesea însă, indexarea se referă la compilarea unui fișier cu listă inversată, în care fiecare termen de indexare este asociat cu o listă de documente în care apare. Această procedură este doar un caz special, sau mai degrabă, un aspect tehnic al creării unui motor de căutare IRS. Problema indexării este că atribuirea unei imagini de căutare unui document sau unei resurse de informații se bazează pe gândirea vocabularului din care sunt selectați termenii ca o colecție fixă ​​de termeni. Sistemele tradiționale au fost împărțite în sisteme de vocabular controlat și sisteme de vocabular liber. Un vocabular controlat presupunea menținerea unei baze de date lexicale, la care adăugarea termenilor era efectuată de administratorul de sistem, iar toate documentele noi puteau fi indexate doar de acei termeni care se aflau în această bază de date. Dicționarul gratuit a fost actualizat automat pe măsură ce au apărut documente noi. Cu toate acestea, la momentul actualizării, dicționarul a fost și el reparat. Actualizarea a implicat o repornire completă a bazei de date. La momentul actualizării, documentele în sine au fost reîncărcate, iar dicționarul a fost actualizat, iar după ce a fost actualizat, documentele au fost reindexate. Procedura de actualizare a durat destul de mult și accesul la sistem a fost închis în momentul actualizării acestuia.

Acum să ne imaginăm posibilitatea unei astfel de proceduri în Internetul anarhic, unde resursele apar și dispar zilnic. Când Veronica a fost creată pentru GopherSpace, sa presupus că toate serverele ar trebui să fie înregistrate și astfel a fost înregistrată prezența sau absența unei resurse. Veronica a verificat disponibilitatea documentelor Gopher o dată pe lună și și-a actualizat baza de date AML pentru documentele Gopher. Nu există așa ceva pe WWW. Pentru a rezolva această problemă, se folosesc programe de scanare în rețea sau roboți de indexare. Dezvoltarea robotului este destul de bună sarcină non-trivială; Există pericolul ca robotul să ajungă într-o buclă sau să ajungă pe pagini virtuale. Robotul scanează web, găsește noi resurse, le atribuie termeni și le plasează în baza de date index. Întrebarea principală este ce termeni să atribuiți documentelor și de unde să le obțineți, deoarece o serie de resurse nu sunt deloc text. Astăzi, roboții folosesc de obicei următoarele surse pentru indexare pentru a-și completa dicționarele virtuale: link-uri hipertext, titluri, titluri (H1, H2), adnotări, liste de cuvinte cheie, texte complete ale documentelor, precum și mesaje de la administratori despre paginile lor Web. Pentru indexarea informațiilor telnet, gopher, ftp, non-text, se folosesc în principal URL-uri; pentru știri și liste de e-mail Usenet, sunt folosite câmpurile Subiect și Cuvinte cheie. Cel mai mare domeniu de aplicare pentru construirea AML este oferit de documente HTML. Cu toate acestea, nu trebuie să ne gândim că toți termenii din elementele documentului enumerate se încadrează în imaginile lor de căutare. Sunt folosite foarte activ listele de cuvinte interzise (stop-words), care nu pot fi folosite pentru indexare, de cuvinte uzuale (prepoziții, conjuncții etc.). Astfel, chiar și ceea ce în OpenText, de exemplu, se numește indexare full-text este de fapt o selecție de cuvinte din textul documentului și o comparație cu un set de diferite dicționare, după care termenul ajunge în AML și apoi în sistem. index. Pentru a nu umfla dicționarele și indexurile (indicele sistemului Lycos este deja de 4 TB), se folosește un concept numit ponderea termenului. Documentul este de obicei indexat prin 40 - 100 dintre cei mai „grei” termeni.

Index de cautare

După ce resursele sunt indexate și sistemul a compilat o serie de POD-uri, începe construcția motorului de căutare. Este destul de evident că o vizualizare frontală a unui fișier sau fișiere ale POD-ului va dura mult timp, ceea ce nu este absolut acceptabil pentru un sistem WWW interactiv. Pentru a accelera căutarea, este construit un index, care în majoritatea sistemelor este un set de fișiere interconectate care vizează căutarea rapidă a datelor la cerere. Structura și compoziția indicilor diferitelor sisteme pot diferi unele de altele și pot depinde de mulți factori: dimensiunea matricei de imagini de căutare, limbajul de regăsire a informațiilor, plasarea diferitelor componente ale sistemului etc. Să luăm în considerare structura indexului folosind exemplul unui sistem pentru care este posibil să se implementeze nu numai căutarea booleană primitivă, ci și căutarea contextuală și ponderată, precum și o serie de alte capabilități care lipsesc în multe motoare de căutare de pe Internet, pt. exemplu Yahoo. Indexul sistemului în cauză constă dintr-un tabel de identificare a paginii (ID-ul paginii), un tabel de cuvinte cheie (ID-Cuvânt cheie), un tabel de modificare a paginii, un tabel de antet, un tabel de link-uri hipertext, o listă inversată (IL) și un listă înainte (FL).

Page-ID mapează ID-urile paginii la adresele lor URL, ID-ul cuvântului cheie mapează fiecare cuvânt cheie identificator unic al acestui cuvânt, tabelul de titlu este identificatorul paginii din titlul paginii, tabelul cu link-uri hipertext este identificatorul paginii din linkul hipertext către această pagină. Lista inversată potrivește fiecare cuvânt cheie de document cu o listă de perechi - identificatorul paginii, poziția cuvântului în pagină. O listă directă este o serie de imagini din pagina de căutare. Toate aceste fișiere sunt folosite într-un fel sau altul în timpul căutărilor, dar principalul dintre ele este fișierul cu listă inversată. Rezultatul căutării din acest fișier este unirea și/sau intersecția listelor de identificatori de pagină. Lista rezultată, care este convertită într-o listă de titluri cu link-uri hipertext, este returnată utilizatorului în browserul său Web. Pentru a căuta rapid intrări în lista inversată, deasupra acesteia se adaugă mai multe fișiere, de exemplu, un fișier de perechi de litere care indică intrările din lista inversată începând cu aceste perechi. În plus, se folosește un mecanism de acces direct la date - hashing. O combinație a două abordări este utilizată pentru a actualiza indexul. Prima poate fi numită corectare a indexului din mers folosind un tabel de modificare a paginii. Esența acestei soluții este destul de simplă: postare veche indexul face referire la unul nou, care este folosit în căutare. Când numărul de astfel de legături devine suficient pentru a fi simțit în timpul unei căutări, are loc o actualizare completă a indexului - acesta este repornit. Eficiența căutării în fiecare sistem specific de regăsire a informațiilor este determinată exclusiv de arhitectura indexului. De regulă, modul în care sunt organizate aceste matrice este „secretul companiei” și mândria acesteia. Pentru a verifica acest lucru, trebuie doar să citiți materialele OpenText.

Limbajul de regăsire a informațiilor din sistem

Indexul este doar o parte a motorului de căutare, ascuns utilizatorului. A doua parte a acestui aparat este limbajul de regăsire a informațiilor (IRL), care vă permite să formulați o cerere către sistem într-o formă simplă și vizuală. Romantismul creării unei limbi străine ca limbă naturală a fost de mult lăsat în urmă - această abordare a fost folosită în sistemul Wais în primele etape ale implementării sale. Chiar dacă utilizatorului i se cere să introducă interogări în limbaj natural, aceasta nu înseamnă că sistemul va analiza semantic interogarea utilizatorului. Proza vieții este că, de obicei, o frază este împărțită în cuvinte, din care interzis și cuvinte uzuale, uneori vocabularul este normalizat, iar apoi toate cuvintele sunt legate fie cu ȘI logic, fie cu SAU. Deci o interogare de genul:

>Software care este utilizat pe platforma Unix

va fi convertit în:

> Unix ȘI Platformă ȘI Software

ceea ce ar insemna cam asa:" Găsiți toate documentele în care cuvintele Unix, Platformă și Software apar simultan".

Sunt posibile și variante. Astfel, pe majoritatea sistemelor, expresia „Platforma Unix” va fi recunoscută ca expresie cheie și nu va fi separată în cuvinte individuale. O altă abordare este de a calcula gradul de proximitate dintre interogare și document. Aceasta este exact abordarea folosită în Lycos. În acest caz, în conformitate cu modelul vectorial de reprezentare a documentului și a interogării, se calculează măsura de proximitate a acestora. Astăzi se cunosc aproximativ o duzină de măsuri diferite de proximitate. Cel mai des folosit este cosinusul unghiului dintre imaginea de căutare a documentului și cererea utilizatorului. De obicei, aceste procente de conformitate a documentelor cu cererea sunt furnizate ca informații de referință în lista documentelor găsite.

Alta Vista are cel mai dezvoltat limbaj de interogare dintre sistemele moderne de recuperare a informațiilor de pe Internet. Pe lângă setul obișnuit de AND, OR, NOT, acest sistem vă permite și să utilizați NEAR, ceea ce vă permite să organizați căutarea contextuală. Toate documentele din sistem sunt împărțite în câmpuri, astfel încât cererea poate indica în ce parte a documentului utilizatorul speră să vadă cuvântul cheie: link, titlu, rezumat etc. De asemenea, puteți seta câmpul de clasare a emiterii și criteriul pentru apropierea documentelor de cerere.

Interfața de sistem

Un factor important este tipul de prezentare a informațiilor în programul de interfață. Există două tipuri de pagini front-end: pagini de interogare și pagini cu rezultate ale căutării.

Când faceți o solicitare către sistem, utilizați fie meniul - abordare orientată, sau Linie de comanda. Primul vă permite să introduceți o listă de termeni, de obicei despărțiți de un spațiu, și să selectați tipul de conexiune logică dintre ei. Conexiunea logică se aplică tuturor termenilor. Diagrama din figură arată interogările salvate ale utilizatorului - în majoritatea sistemelor, aceasta este doar o expresie în FP, care poate fi extinsă prin adăugarea de noi termeni și operatori logici. Dar aceasta este doar o modalitate de a utiliza interogările salvate, numite extinderea interogărilor sau rafinarea interogărilor. Pentru a efectua această operațiune, un sistem tradițional de regăsire a informațiilor stochează nu interogarea ca atare, ci rezultatul căutării - o listă de identificatori de document, care este combinată/intersectată cu lista obținută la căutarea documentelor folosind termeni noi. Din păcate, nu se practică salvarea unei liste de identificatori ai documentelor găsite în WWW, ceea ce a fost cauzat de particularitatea protocoalelor de interacțiune între programul client și server, care nu acceptă modul sesiune.

Deci, rezultatul unei căutări în baza de date IRS este o listă de indicii către documente care satisfac cererea. Diferite sisteme prezintă această listă în mod diferit. Unele oferă doar o listă de link-uri, în timp ce altele, cum ar fi Lycos, Alta Vista și Yahoo, oferă și o scurtă descriere, care este preluată fie din titluri, fie din corpul documentului în sine. În plus, sistemul raportează cât de bine se potrivește documentul găsit cu cererea. La Yahoo, de exemplu, acesta este numărul de termeni de interogare conținute în PML, în funcție de care rezultatul căutării este clasat. Sistemul Lycos oferă o măsură a conformității documentului cu interogarea, care este utilizată pentru a-l clasifica.

Când examinați interfețele și instrumentele de căutare, nu puteți ignora procedura de corectare a interogărilor în funcție de relevanță. Relevanța este o măsură a conformității unui document găsit de sistem cu nevoile utilizatorului. Există o distincție între relevanța formală și cea reală. Primul este calculat de sistem și pe baza căruia este clasat eșantionul de documente găsite. Al doilea este evaluarea de către utilizator a documentelor găsite. Unele sisteme au un câmp special pentru aceasta, unde utilizatorul poate marca documentul ca relevant. La următoarea iterație de căutare, interogarea este extinsă cu termenii acestui document, iar rezultatul este clasat din nou. Acest lucru se întâmplă până când are loc stabilizarea, ceea ce înseamnă că nu veți obține nimic mai bun decât proba rezultată din acest sistem.

Pe lângă link-uri către documente, lista primită de utilizator poate conține link-uri către părți ale documentelor sau câmpurile acestora. Acest lucru se întâmplă atunci când există link-uri precum http://host/path#mark sau link-uri care utilizează schema WAIS. Link-uri către scripturi sunt, de asemenea, posibile, dar roboții de obicei ratează astfel de legături, iar sistemul nu le indexează. Dacă totul este mai mult sau mai puțin clar cu link-urile http, atunci linkurile WAIS sunt obiecte mult mai complexe. Faptul este că WAIS implementează arhitectura unui sistem de regăsire a informațiilor distribuite, în care un sistem de recuperare a informațiilor, de exemplu Lycos, construiește un motor de căutare deasupra motorului de căutare al altui sistem - WAIS. Cu toate acestea, serverele WAIS au propriile baze de date locale. Când încarcă documente în WAIS, administratorul poate descrie structura documentelor, împărțindu-le în câmpuri și stoca documentele ca un singur fișier. Indexul WAIS se va referi la documente individualeși câmpurile lor ca unități de stocare independente, browserul de resurse Internet în acest caz trebuie să poată lucra cu protocolul WAIS pentru a accesa aceste documente.

Concluzie

Articolul de revizuire a examinat principalele elemente ale sistemelor de regăsire a informațiilor și principiile construcției acestora. Astăzi, sistemele de regăsire a informațiilor sunt cel mai puternic mecanism de căutare a resurselor de informații din rețea pe Internet. Din păcate, în sectorul internetului rus nu există încă un studiu activ al acestei probleme, cu o posibilă excepție a proiectului LIBWEB finanțat de Fundația Rusă pentru Cercetare de bază și a sistemului Spider, care nu funcționează suficient de fiabil. VINITI are cu siguranță cea mai mare experiență în dezvoltarea acestui tip de sistem, dar aici munca este încă concentrată pe plasarea propriilor resurse pe Web, care este fundamental diferit de sistemele de regăsire a informațiilor de pe Internet precum Lycos, OpenText, Alta Vista, Yahoo, InfoSeek. , etc. S-ar părea că o astfel de muncă ar putea fi concentrată în cadrul unor proiecte precum Russia On-line de către SovamTeleport, dar aici încă vedem link-uri către motoarele de căutare ale altor persoane. Dezvoltarea IPS pentru Internet în SUA a început în urmă cu doi ani, având în vedere realitățile interne și ritmul de dezvoltare a tehnologiilor de internet în Rusia, se poate spera că avem încă totul înainte.

Literatură

1. J. Salton. Bibliotecă dinamică și sisteme informatice. Mir, Moscova, 1979.
2. Frank G. Halasz. Fișe de reflecție: șapte probleme pentru următoarea generație de sisteme hipermedia. Comunicarea acm, V31, N7, 1988, p.836-852.
3. Tim Berners-Lee. World Wide Web: Propunere pentru proiectul HyperText. 1990.
4. Alta Vista. Digital Equipment Corporation, 1996.
5. Creierul Pinkerton. Găsirea a ceea ce își doresc oamenii: experiențe cu WebCrawler.
6. Bodi Yuwono, Savio L.Lam, Jerry H.Ying, Dik L.Lee. .
7. Martin Bartschi. O prezentare generală a subiectelor de regăsire a informațiilor. IEEE Computer, N5, 1985, p.67-84.
8. Michel L. Mauldin, John R.R. Leavitt. Cercetări legate de agenți web la Centrul de traducere automată.
9. Ian R.Winship. Instrumente de căutare World Wide Web - o evaluare. VIA (99).
10. G. Salton, C. Buckley. Abordări de ponderare a termenilor în regăsirea automată a textului. Information Processing & Management, 24(5), pp. 513-523, 1988.
11. Open Text Corporation lansează cel mai înalt sistem de recuperare a textului din industrie.

Pavel Hramtsov ([email protected]) - expert independent, (Moscova).



Universitatea de Stat din Sankt Petersburg

Facultatea de Filologie

Departamentul de Lingvistică Matematică

V.P. Zaharov

Recuperarea informațiilor
sisteme

Manual educațional și metodologic

Saint Petersburg

Recenzători:

doc. tehnologie. stiinte V.Sh. Rubașkin(Universitatea de Stat din Sankt Petersburg)

Ph.D. ped. stiinte O.A. Arbatskaya(Universitatea de Stat de Cultură și Artă din Sankt Petersburg)

Tipărit prin decret
Consiliul Editorial și Editurii
St.Petersburg universitate de stat

Zaharov V.P.

Z-38 Sisteme de regăsire a informațiilor: Metodă educațională. indemnizatie. - Sankt Petersburg, 2005. - 48 p.

Manualul propus conține o descriere a elementelor de bază ale regăsirii informațiilor documentare, programul disciplinei academice „Teoria regăsirii informațiilor”, care este studiat de studenții din anul 3 ai Departamentului de Lingvistică Structurală și Aplicată a Universității de Stat din Sankt Petersburg și un set de lucrări de laborator (practice) la această disciplină. Lucrările de laborator separate sunt folosite pentru a preda studenții la alte cursuri și la alte discipline. Manualul se bazează pe activitățile de cercetare și predare ale autorului.

Pentru studenții de licență și absolvenți specializați în domeniul lingvisticii aplicate, sisteme informatice și sisteme automate de procesare a textului.

ã V.P. Zaharov, 2005

ã Sankt Petersburg
stat
Universitatea, 2005

1. Introducere în teorie și practică
regăsirea informațiilor

1.1. Concepte de bază de regăsire a informațiilor

Sistem de regăsire a informațiilor (IPS) este o colecție ordonată de documente (matrice de documente) și tehnologii informaționale concepute pentru stocarea și regăsirea informațiilor - texte (documente) sau date (fapte). Sistemele de recuperare a informațiilor sunt orice depozite de informații organizate într-un mod specific. Mai mult, sistemele de recuperare a informațiilor pot fi, de asemenea, neautomatizate. Principalul lucru este funcția țintă: stocarea și preluarea informațiilor.

În funcție de obiectul de stocare și de tipul cererii, se disting două tipuri de regăsire a informațiilor: documentară și faptică - și, în consecință, două tipuri de sisteme de regăsire a informațiilor - documentară și faptică. Acestea din urmă sunt denumite și sisteme de regăsire a informațiilor și a informațiilor de referință.

Film documentar sunt numite sisteme de regăsire a informațiilor, care implementează o căutare a interogărilor tematice într-o serie de documente sau texte și apoi furnizează utilizatorului un subset al acestor documente sau copii ale acestora. Conceptul de document poate varia de la sistem la sistem. În cazul general, acesta este un anumit obiect de informare, fixat (de obicei printr-un sistem de semne) pe unele mediu material(hârtie, fotografie și film, memorie magnetică etc.) și destinate transmiterii în spațiu și timp în sistemul comunicațiilor sociale.

Faptic Sistemele de regăsire a informațiilor implementează stocarea, căutarea și emiterea de date direct faptice (caracteristicile și proprietățile științifice, tehnice, economice ale obiectelor, proceselor, fenomenelor, adreselor, numelor, datelor cantitative etc.).

Principala diferență esențială între căutarea documentară și cea factuală este abordarea semanticii documentelor. Sistemele documentare descriu semnificația documentelor în ansamblu din punctul de vedere al conținutului lor tematic, subiect. În acest caz, este important să identificați și să denumiți (listați) principalele subiecte și obiecte cărora le este dedicat documentul. În sistemele faptice, obiectele sunt descrise, caracteristicile lor și semnificațiile acestor caracteristici sunt înregistrate. De aici diferențele în limbajele de descriere și metodele de stocare a descrierilor în sistem. În consecință, fiecare tip de căutare are propriile instrumente de căutare.

Sistemele faptice implică acumularea și căutarea într-o serie de documente cu o structură strict reglementată. O astfel de structură este fie rezultatul prelucrării intelectuale preliminare a documentelor la introducerea informațiilor în sistem, fie disponibilitatea unor astfel de documente în formă finită în domenii specifice ale activității umane, de exemplu, formulare contabile, formulare, cărți de referință, grafice etc. . Există sisteme informaționale faptice care asigură acumularea de informații și căutarea unui singur tip de obiect și un singur tip de interogare. Există, de asemenea, sisteme factografice mai dezvoltate care asigură stocarea și preluarea datelor diverse ca conținut și structură, dar această diversitate este întotdeauna finită.

În același timp, nu există nicio diferență insurmontabilă între sistemele documentare și cele factuale. Adesea, sistemele informaționale reale sunt un exemplu de sisteme mixte în care informațiile faptice sunt utilizate ca remediu suplimentar căutare documentară și invers. În sistemele documentare, textele (documentele) pot fi și ele structurate, împărțite în fragmente sau câmpuri, iar prelucrarea și livrarea informațiilor documentare pot fi efectuate la nivelul câmpurilor individuale.

Există și un al treilea tip de sisteme, care se numesc logic-informațional. Acestea sunt sisteme care răspund la întrebări la care nu se răspunde explicit în baza de informații. O bază de cunoștințe extralingvistice și informații generate algoritmic din ceea ce este deja disponibil (documentar sau factual) ajută la obținerea unui răspuns. Aceste informații noi sunt fie furnizate ca răspuns la o interogare, fie sunt utilizate suplimentar pentru căutare.

Un sistem de regăsire a informațiilor de tip document este o colecție ordonată de documente, precum și un set de instrumente și metode concepute pentru stocarea, căutarea și emiterea de informații documentare la cerere. Documentary IPS emite documente care corespund solicitării pe tema sau subiectul. Se numește un document al cărui subiect sau subiect central corespunde în general conținutului semantic al cererii de informații relevante , A proprietatea proximității semantice între două sau mai multe texte (în acest caz, între un document și o solicitare de informații) - relevanţă . Relevanța este un concept fundamental în teoria regăsării informațiilor. Ei vorbesc despre două tipuri de relevanță: semantică și formală. Corespondența unui document cu conținutul unei cereri de informații se numește relevanță semantică, iar corespondența imaginii de căutare a acestui document cu o prescripție de căutare formalizată care exprimă o cerere de informare dată se numește relevanță formală. Relevanța formală este denumită și relevanța documentului, iar relevanța semantică este relevanța informației (adică „informația conținută în document”).

Componentele sistemului informatic se numesc subsisteme. Împărțirea în subsisteme este necesară și utilă atât pentru dezvoltarea, cât și pentru descrierea tehnologiei de funcționare a sistemelor. Poate avea o bază diferită. De obicei, se au în vedere două tipuri de împărțire a sistemelor informaționale în subsisteme: după principiul funcțional (subsisteme funcționale) și după tipul mijloacelor (subsisteme suport).

Sunt numite diverse instrumente care implementează funcții IPS subsisteme suport , sau „dispoziții”. Se disting următoarele subsisteme: suport lingvistic, suport informațional, suport tehnic, software, suport tehnologic, personal etc.

Suport informațional - acestea sunt matrice de informații (documente, interogări, metadate), precum și instrumente și metode pentru descrierea, construcția și clasificarea acestora.

suport lingvistic - Acesta este un aparat logico-semantic format dintr-un limbaj de regăsire a informațiilor, reguli de aplicare (tehnici de indexare), criterii de emitere și alte mijloace lingvistice.

Software - Acestea sunt algoritmi și software care implementează toate funcțiile sistemului informațional realizat cu ajutorul unui computer.

Suport tehnic - Acest mijloace tehnice(calculatoare, telecomunicații) care asigură stocarea, preluarea și transmiterea informațiilor.

Suport tehnologic - acesta este un set și o procedură pentru efectuarea de procese și proceduri automate și neautomatizate de prelucrare a informațiilor în sistemul informațional, inclusiv descrierea acestora, diagrame de tehnologie a informației și materiale de instruire.

Sprijin de personal (sau personal). - aceștia sunt oamenii care interacționează cu sistemul și asigură funcționarea acestuia (personal de întreținere).

IPS este, de asemenea, împărțit în părți componente (subsisteme) în funcție de funcționalitate, atunci când fiecare subsistem îndeplinește o funcție specifică în procesul tehnologic: introducerea documentelor, indexarea documentelor, introducerea și corectarea interogărilor, indexarea interogărilor, căutarea, menținerea dicționarelor, menținerea statisticilor, procesarea căutării rezultate, emiterea documentelor etc. Se numesc astfel de părți subsisteme funcționale .

Conceptele importante în regăsirea informațiilor sunt documentul și interogarea. Un document este definit ca un mijloc de fixare în orice mod pe material special a oricărei informații despre fapte, evenimente, fenomene ale realității obiective și activitatea mentală umană. Documentele au diferite forme de prezentare. În sistemele automate de recuperare a informațiilor documentare, acestea sunt în primul rând informații text în limbi naturale în formă care poate fi citită de mașină.

O cerere este o nevoie de informare formulată în limbaj natural. Rezultatul „traducerii” cerere de informatie în limbajul de regăsire a informațiilor se numește imagine de interogare de căutare (POZ) sau caută rețetă (PP). Aceasta este înțeleasă ca o expresie în limbajul de interogare , care include atât FP în sine, cât și controale de căutare. Sintaxa și semantica limbajelor de interogare este determinată de structura și conținutul documentelor și de sarcinile generale ale sistemului.

A treia parte a furnizării de informații este așa-numita „problemă”, rezultatele căutării. Problemele există în două tipuri: scurte descrieri ale documentelor și documentele în sine.

Cea mai importantă componentă a sistemelor de regăsire a informațiilor este limbajul de regăsire a informațiilor. Pentru a selecta documentele necesare dintr-o serie de documente, o persoană trebuie să citească sau să le vadă conținutul. Pentru a accelera și simplifica această procedură, au apărut diverse forme de înregistrare prescurtată a conținutului documentelor - adnotări, rezumate, cataloage. Dar în toate aceste cazuri, limbajul natural este folosit pentru a selecta documentele pe baza descrierilor lor prescurtate. Asemenea „dezavantaje” ale semnelor lingvistice precum omonimia, sinonimia și polisemia sunt bine cunoscute. Valoare exacta Multe cuvinte pot fi înțelese doar în context. Acest lucru împiedică utilizarea limbajului natural pentru a captura și identifica informații conceptuale. Prin urmare, sistemele formale concepute pentru a stoca informații documentare în scopul recuperării ulterioare au necesitat crearea unor limbaje informaționale speciale. Limbile de regăsire a informațiilor sunt sisteme de semne cu propriul alfabet, vocabular, gramatică și reguli de utilizare. Să remarcăm doar că totul limbaje artificialeîntr-un fel sau altul au fost create și sunt create pe baza limbilor naturale.

La compararea documentelor și cererilor, este necesar să se determine relevanța documentului în raport cu cererea și să se ia o decizie privind emiterea sau neemiterea unui document pentru această cerere. Regulile pe care oficial se determină gradul de relevanță al documentului și al cererii, i.e. se numește conformitatea cu POD și POS criteriul corespondenței semantice (KSS), sau criteriul de emitere .

Modelele matematice și formulele de calcul al coeficientului de relevanță pot fi foarte diferite. În practică, IPA-urile cu criteriu logic de emitere , când PP-urile sunt construite folosind operatori logici (booleeni) de conjuncție (&), disjuncție (\/), negație (~). În acest caz, expresia de interogare booleană este un set elemente de căutare(de obicei cuvinte cheie) combinate cu operatori logici și paranteze necesare pentru a indica ordinea în care sunt executate instrucțiunile. Cuvintele cheie PP joacă rolul variabilelor booleene care iau valoarea 1 („adevărat”) dacă cuvânt dat conținute în document și 0 („fals”) atunci când nu există. Documentul este recunoscut relevante pentru cerere, dacă formula booleană a interogării în ansamblu este evaluată ca „adevărat” pentru un document dat și irelevantă dacă rezultatul evaluării formulei booleene este „fals”.

Simbolurile (&, \/, ~) folosite în logică pentru a desemna conjuncția, disjuncția și negația sunt de obicei înlocuite în căutările de informații de către operatorii AND, OR și, respectiv, NOT. În Rusia, denumirile AND, OR, NOT sunt mai des folosite. Totuși, în cazul general, în fiecare IRS specific, sunt selectate notațiile pentru operatorii booleeni, iar uneori, pentru confortul utilizatorului, sunt introduse mai multe simboluri pentru același operator (de exemplu, în Aport IRS, se poate specifica operatorul de conjuncție prin următoarele semne: &, spațiu, ȘI , Și, +).

Utilizarea operatorilor booleeni oferă o logică pentru compararea documentelor și a interogărilor, de înțeles utilizatorului. Căutarea (calculul adevărului pentru elementele PP), de regulă, se efectuează folosind fișiere index speciale (inversate) construite pe baza unui vocabular al matricei documentare și se caracterizează prin viteză mare. Această simplitate și claritate a CSS-ului logic sunt motivul pentru utilizarea pe scară largă.

Problema evaluării eficienței căutării este o problemă complexă, incluzând atât latura teoretică, cât și latura practică. Principalii indicatori funcționali (tehnici) ai IRS bazați pe relevanță sunt completitatea și acuratețea, care se bazează pe împărțirea documentelor în relevante și irelevante, precum și emise și neemise.

Completitudinea căutării (P) (English Recall - R) este o măsură calculată ca raport al cantității emise relevante documente pentru numărul total relevante documentele conținute în matricea de informații.

Precizia căutării (T) (English Precision - P) este raportul dintre cantitate emise relevante documente pentru numărul total de documente emise.

1.2. Căutare de informații pe internet

Trecerea la societate informaţională Secolul 21 a generat o creștere fără precedent a volumului și concentrării informațiilor în rețelele globale de calculatoare. Acest lucru a agravat drastic problema creării sistemelor de regăsire a informațiilor (IRS) și utilizarea eficientă a acestora.

Istoria sistemelor automate de recuperare a informațiilor datează de o jumătate de secol. Un sistem tipic de regăsire a informațiilor din primii ani este un sistem om-mașină, în care analiza și descrierea conținutului documentelor (indexare) se realizează manual, iar căutările sunt efectuate de mașină. Inițial, baza limbilor de regăsire a informațiilor (IRL), ale căror elemente principale sunt dicționarele de descriptori și tezaurele. Astăzi, însă, majoritatea sistemelor informaționale de lucru aparțin clasei sistemelor verbale de tip non-tezaur, atunci când termenii de indexare sunt selectați direct din textele documentelor. Creșterea de tip avalanșă a volumului de informații documentare electronice, tipul acesteia, diversitatea tematică și lingvistică este atât cauza crizei regăsirii moderne a informațiilor, cât și stimulentul pentru îmbunătățirea acesteia.

Problema căutării resurselor pe Internet a fost realizată destul de curând și, ca răspuns, au apărut diverse sisteme și instrumente software de căutare, printre care se numără sistemele Gopher, Archie, Veronica, WAIS, WHOIS etc. Recent, aceste instrumente au fost înlocuit cu „clienți” și „servere” world wide web www.

Dacă încercăm să clasificăm IPS-ul Internetului, putem distinge următoarele tipuri principale:

1. IRS de tip verbal (motoare de căutare)

2. Clasificare IRS (directoare)

3. Directoare electronice (pagini „galbene” etc.)

4. Sisteme informatice specializate pentru anumite tipuri de resurse

5. Agenți inteligenți.

Contabilitatea globală a tuturor resurselor Internet este asigurată de sisteme verbale și parțial de clasificare.

Clasificare IPS implementați navigarea în spațiul web pe baza semne speciale, care sunt „arbori” tematici construiți pe baza clasificărilor. Schemele de clasificare a resurselor de pe Internet sunt de obicei structuri arborescente ale căror noduri sunt denumite cu cuvinte în limbaj natural. Diverse scheme de clasificare diferă unele de altele în domeniul de aplicare și metodologia de compilare a acestora. Unul dintre dezavantajele clasificărilor ierarhice universale este că sunt conservatoare și sunt în urmă cu dezvoltarea științei, tehnologiei și vieții în general. Principala problemă a serviciilor de căutare a clasificării este automatizarea clasificării. Până acum, problema clasificării automate nu a găsit o soluție satisfăcătoare. Înregistrarea site-urilor web și a paginilor web în directoare este de obicei efectuată de oameni - indexatori și moderatori ai acestui sistem. Și, prin urmare, volumul bazei de date a sistemelor de tip clasificare este relativ mic în comparație cu capacitatea de informare a întregului Internet.

Pentru a rezolva problema acoperirii maxime a resurselor Internet, sistemele numite metacăutare(metamotoare de căutare). Nu au propriile baze de date de căutare, nu conțin niciun index și, atunci când caută, folosesc resursele altor motoare de căutare. Din acest motiv, probabilitatea de a găsi informatie necesara crește. Pentru a transmite o solicitare către un motor de căutare, se folosește un agent special de metacăutare, care este responsabil de procesul de transmitere a cererii către alte sisteme. După procesarea cererii primite, fiecare sistem returnează agentului de metacăutare un set de descrieri și link-uri către documente pe care le consideră relevante pentru această solicitare. În ciuda tuturor atractivității motoarelor de metacăutare, ar trebui să vă amintiți și despre dezavantajele și dezavantajele lor. În primul rând, lipsa standard uniform Limbajul de interogare nu permite metasistemelor să obțină de la motoarele de căutare care execută interogări ale metamotoarelor de căutare același rezultat pe care îl poate obține un utilizator experimentat când lucrează cu fiecare mașină separat.

Sistemele globale de recuperare a informațiilor ar trebui considerate astăzi principalul mijloc de căutare a informațiilor pe Internet. tip verbal(motoarele de căutare) indexarea (cel puțin pretinzând că este) întregul spațiu de internet. Principalele motoare de căutare de acest tip (în primul rând în ceea ce privește dimensiunea bazei de date) includ Google, Fast (AlltheWeb), AltaVista, HotBot, Inktomi, Teoma, WiseNut, MSN Search. Printre sistemele rusești, există trei principale: Yandex, Rambler și Aport! (Aport). Completitudinea bazei de date de căutare și eficiența indexării site-urilor web reprezintă principala problemă a tuturor sistemelor de regăsire a informațiilor de pe Internet. De regulă, sistemele cu un volum mai mare de baze de date oferă rezultate de căutare și cantitate mare documente. Mari, atât lingvistice cât și problema de software- multilingvism spațiu informațional Internet și varietatea de formate de prezentare a datelor. Cu toate acestea, sistemele globale majore fac față acestor probleme.

Este IPS verbal căruia i se acordă atenția principală în partea practică a manualului. În primul rând, nivelul de utilizator este modelat, exprimat în limbaje de interogare și interfețe cerere-răspuns. Se efectuează o analiză comparativă a limbajelor de interogare ale diferitelor sisteme de recuperare a informațiilor de pe Internet.

Caracteristica sistemelor moderne - căutarea textului integral. Multe sisteme verbale de regăsire a informațiilor de pe Internet calculează relevanța documentelor pentru interogări prin compararea elementelor de interogare cu textele integrale ale documentelor postate pe Internet. În ceea ce privește limbajul de regăsire a informațiilor, de regulă, elementele de căutare sunt cuvinte obișnuite limbi naturale. Cererile sunt formulate printr-o interfață specială, implementată sub formă de formulare de ecran în programele browser.

Este util să înțelegeți cum funcționează aceste sisteme. Există trei părți principale pentru orice motor de căutare.

Robot - un subsistem care asigură navigarea (scanarea) pe Internet și menținerea la zi a fișierului inversat (baza de date index). Acest pachet software este principalul mijloc de colectare a informațiilor despre disponibilitatea și starea resurselor de informații din rețea.

Căutare în baza de date - așa-zisul index - o bază de date special organizată (bază de date index engleză), care include, în primul rând, un fișier inversat, care constă din unități lexicale preluate din documente web indexate și conține o varietate de informații despre acestea (în special, pozițiile lor în documente), precum și ca despre documentele in sine si site-urile in general.

Sistem de căutare - un subsistem de căutare care procesează cererea utilizatorului (ordinea de căutare), caută în baza de date și furnizează rezultate de căutare utilizatorului. Motorul de căutare comunică cu utilizatorul prin interfețe cu utilizatorul - formulare de ecran programe browser: interfață pentru formarea interogărilor și interfață pentru vizualizarea rezultatelor căutării.

Un fișier index (sau pur și simplu index) este un set de fișiere interconectate care vizează căutarea rapidă a datelor la cerere. Indexul se bazează întotdeauna pe un fișier inversat. Circuit inversat (invers). Organizarea matricei de căutare se bazează pe principiul asigurării accesului la documente prin identificatorii de conținut al acestora (caracteristici de căutare: descriptori, cuvinte cheie, termeni, alte caracteristici). O astfel de schemă se obține prin procesarea unei matrice secvenţiale de documente pentru a crea fișiere auxiliare speciale inversate - puncte de acces.

Fiecare înregistrare a unei astfel de matrice auxiliare este identificată printr-un identificator de conținut corespunzător (descriptor, cuvânt cheie, doar un termen, numele autorului, numele organizației etc.) și conține numele (adresele de stocare) ale tuturor documentelor din imaginile de căutare ale cărora se află. este cuprins. Pentru fiecare identificator de conținut (element de date de căutare) din matricea inversată, împreună cu adresa (număr, nume) documentului, pot fi stocate (și sunt de obicei stocate) informații suplimentare, cum ar fi: numele câmpului, numărul propoziției, care conține acest element găsite în acest document, numărul cuvântului din propoziție etc. Fixarea poziției unui cuvânt în text în funcție de numărul propoziției și numărul acestui cuvânt din propoziție vă permite să construiți un limbaj de interogare flexibil care vă permite să setați distanța dintre cuvinte și propoziții dintr-un document. Caracteristicile poziționale sunt, de asemenea, utilizate la calcularea coeficientului de relevanță și clasarea documentelor în rezultatele căutării.

Găsirea documentelor necesare prin fișierul inversat nu se realizează prin scanarea continuă a întregii matrice, ci prin vizualizarea numai a acelor identificatori de conținut din fișierul inversat care sunt specificați în instrucțiunea de căutare, de exemplu. numărul de operații de comparare a cuvintelor în timpul căutării este proporțional cu numărul de termeni din prescripția de căutare. Acest mod de operare reduce timpul de căutare și vă permite să serviți consumatorii de informații în timp real.

Căutările prin index sunt operațiuni pe liste de identificatori de elemente de căutare în conformitate cu modelul de căutare și criteriile de potrivire. Lista rezultată de documente relevante (în terminologia modernă „răspuns”), care este convertită într-o listă clasificată de scurte descrieri ale documentelor, echipate cu link-uri hipertext și alte caracteristici, este returnată utilizatorului în programul său de browser client. Făcând clic pe titlul unui document în scurta sa descriere (prin intermediul unui hyperlink) se solicită acel document fie direct de pe serverul pe care se află, fie printr-o bază de date a motorului de căutare.

O componentă importantă a sistemelor informatice moderne sunt așa-numitele pagini web de interfață, adică. formulare de ecran prin care utilizatorul comunică cu motorul de căutare. Există două tipuri principale de pagini front-end: pagini de interogare și pagini cu rezultate ale căutării.

    indexarea texte complete cât mai multe site-uri;

    lucru „competent” cu forme de cuvinte - capacitatea IPS de a identifica diferite forme de cuvânt ale aceluiași lexem, într-un mod diferit, de a genera o formă canonică - o lemă și abilitatea de a evidenția o formă specifică printre multe forme de cuvânt ;

    căutarea cuvintelor cu o trunchiere dată sau arbitrară, atât la dreapta cât și la stânga;

    lucrul cu fraze – luând în considerare distanța dintre cuvintele din fraze și ordinea în care apar;

    algoritmi eficienți pentru calcularea coeficientului de relevanță semantică și clasarea rezultatelor căutării.

De asemenea, este important ce informații și sub ce formă pot fi extrase din interfețele de ieșire ale IPS. Interfața de căutare (formularul de prezentare a rezultatelor) pentru diferite sisteme include următorii parametri: statistica cuvintelor din interogare, numărul de documente găsite, numărul de site-uri, controale pentru sortarea documentelor în rezultatele căutării, o scurtă descriere a documentelor , etc. Descrierea fiecărui document, la rândul său, poate conține componența acestuia: titlul documentului, URL (adresa de rețea), volumul documentului, data creării, codificarea numelui, adnotarea, evidențierea fontului cuvintelor din cerere în adnotarea, indicarea altor pagini web relevante ale aceluiași site, link către categoria de catalog la care se referă la documentul sau site-ul găsit, coeficientul de relevanță, alte posibilități de căutare (căutare documente similare, căutare în găsit). De mare interes sunt, de asemenea caracteristicile de frecvență- informații despre numărul de documente găsite și unități lingvistice identificate. Unele sisteme păstrează un jurnal al cererilor cu posibilitatea de a repeta căutările și de a afișa statistici privind cererile. Util și oportunitate interesantă este şi repartizarea documentelor la clase tematice.

Vom arăta caracteristicile diferitelor sisteme, cele mai populare și cele cu cel mai dezvoltat suport lingvistic (vezi Tabel, p. 14). În primul rând, acestea sunt sistemele rusești de recuperare a informațiilor Yandex, Rambler și Aport. Poate cel mai puternic aparat lingvistic este cel al Artifact IRS (compania Integrum-TECHNO, Moscova), dar acest sistem este comercial și compoziția bazei de date este vizibil diferită de celelalte. Printre sistemele occidentale, dintre care majoritatea nu au mijloace lingvistice dezvoltate de analiză a materialului text, să luăm binecunoscutele IRS Google și AltaVista. Să descriem pe scurt caracteristicile acestor sisteme (prezența sau absența capacităților corespunzătoare este marcată cu semnele „+” și „-”).

„Căutare lexemă” înseamnă că rezultatul comparării cuvintelor din documente și interogări este considerat pozitiv dacă în document este prezentă orice formă a cuvântului din interogare, ceea ce este asigurat de mecanismul automat de lematizare.

„Căutare după forme de cuvânt” înseamnă că rezultatul comparării documentelor și interogărilor este considerat pozitiv dacă în document există o formă de cuvânt care se potrivește exact cu cuvântul din interogare, care apare în absența lematizării automate sau este furnizată de o formă specială. mecanism de luare în considerare a formelor cuvintelor.

„Frecvența documentelor” înseamnă că căutarea are ca rezultat un mesaj despre numărul de documente relevante, adică documente care conțin un anumit cuvânt (forma cuvânt) sau expresie.

„Frecvența cuvânt cu cuvânt” înseamnă că rezultatul căutării oferă în plus informații despre numărul total de apariții ale unui anumit lexem sau al unei anumite forme de cuvânt în baza de date de căutare (index).

Caracteristicile motoarelor de căutare

Căutare după lexeme

+ (interogare cu un singur cuvânt sau formulă booleană)

Căutați după forme de cuvinte

+ (în sintagme: o interogare cu un singur cuvânt între ghilimele sau o expresie între ghilimele)

Contabilizarea sintagmelor (expresii inextricabile)

Contabilitate pentru litere mari și mici

+ (în sintagme)

Frecvența cuvintelor

Documentar de frecvență

1.3. Limbi de interogare pe Internet IRS

După ce a contactat orice serviciu, utilizatorul, fără a părăsi browserul, lucrează cu „clientul” acestui serviciu, care ne oferă unul sau altul limbaj de interogare. De regulă, acestea sunt limbi fără control de vocabular. De fapt, avem de-a face cu un limbaj de programare normal implementat într-o arhitectură client-server, dar vedem doar partea „overhead” a acestui limbaj de programare - limbajul de interogare. Limbajul de interogare al majorității sistemelor include atât operatori booleeni tradiționali, cât și operatori contextuali speciali care țin cont de structurarea documentului, ordinea cuvintelor în text și distanța dintre cuvinte.

Limbajul de interogare descrie interogarea în sine și uneori forma în care sunt prezentate rezultatele. Următoarele componente principale pot fi distinse în limbajele de interogare IRS ale rețelei.

1) Elementele de căutare efective (obiecte de căutare).

Acestea sunt fie cuvinte cheie, fie alți identificatori de conținut.

2) Operatori de căutare.

Aproape toate limbajele de interogare folosesc operatorii logici booleeni AND, OR, NOT. Forma în care acești operatori sunt specificați în cerere este foarte diferită și variază atât în ​​​​servicii individuale, cât și în tipuri diferite interogări (simple, complexe).

3) Normalizarea elementelor de solicitare.

Aceleași unități lexicale în documente și interogări pot fi prezentate în diferite forme. Serviciile de căutare au modalități de a normaliza astfel de elemente lexicale. Această normalizare poate fi specificată de utilizator (o tehnică cunoscută sub denumirea de trunchiere sau wildcards) sau făcută automat (cel din urmă este de preferat).

4) Gramatica liniară: ordinea elementelor de căutare și distanța dintre ele.

În primul rând, acestea sunt „fraze” (fraze rigide).

În al doilea rând, există operatori contextuali speciali (ȘI contextual), când condiția pentru apariția în comun a elementelor de interogare într-un document trebuie îndeplinită într-un context de o anumită lungime.

5) Termeni de căutare suplimentari.

Pentru a reduce volumul de ieșire și pentru a crește precizia, diverse conditii suplimentare cauta, ceva de genul:

– căutare în anumite câmpuri (părți) ale documentului;

– limitarea zonei de căutare după diverse criterii (data, tipul datelor, formatul etc.).

6) Cerințe pentru forma de prezentare a rezultatelor căutării.

– cerințe pentru sortarea (clasificarea) rezultatelor căutării;

– tipul rezultatelor produse;

– numărul documentelor emise.

Pentru a primi (viziona) documentele în sine (pagini web) și a le vizualiza, trebuie să mergeți la adresa http. De regulă, sistemele oferă posibilitatea de a vizualiza contextul - fragmente de documente cu cuvinte cheie de interogare evidențiate.

În timpul procesului de căutare, utilizatorului i se oferă de obicei posibilitatea de a reveni la o interogare veche și fie pur și simplu să o clarifice, să o restrângă, fie să treacă la un alt mod de căutare care oferă instrumente de căutare mai complexe. O altă metodă de căutare este, de asemenea, destul de răspândită - căutați pagini similare. În acest caz, strategia de căutare este aleasă de sistemul însuși.

2. Program de disciplină academică
„Teoria regăsirii informațiilor”

2.1. Secția organizatorică și metodologică

Programul de disciplină este întocmit în conformitate cu standardul de învățământ superior de stat învăţământul profesionalîn direcția 021800 - Lingvistică.

Scopul cursului este de a oferi elevilor baza teoretica regăsirea informațiilor, în primul rând documentare, și abilități în utilizarea diferitelor sisteme de regăsire a informațiilor documentare, inclusiv pe internet.

Obiectivele cursului:

    familiarizarea elevilor cu conceptele de bază și problemele de regăsire automată a informațiilor;

    să familiarizeze studenții cu principiile de bază ale organizării și funcționării sistemelor de regăsire a informațiilor (IRS);

    studiază diverse sisteme informaționale, inclusiv sisteme informaționale pe Internet;

    construi abilități muncă de cercetare privind analiza și compararea diferitelor sisteme.

Locul cursului în formarea profesională a absolventului: Cursul este de natură propedeutică. Este conceput pentru o gamă largă de studenți la științe umaniste și este conceput pentru a le oferi o înțelegere fundamentală a modului de stocare și preluare a informațiilor.

Cerințe pentru nivelul de stăpânire a conținutului cursului

Ca urmare a instruirii, studentul:

    trebuie știut:

    concepte de bază legate de sistemele informaţionale;

    principalele tipuri de sisteme;

    conceptul de limbaj de regăsire a informațiilor;

    concepte de relevanţă şi criteriu de corespondenţă semantică;

    principalele motoare de căutare pe Internet;

    limbaje de interogare și interfețe ale acestor sisteme;

    ar trebui să poată:

    căutare pe internet;

    comparați și analizați diferite sisteme.

Secțiuni de curs:

      Noțiuni de bază privind regăsirea informațiilor

      Documentar IPS

      IRS real

      Căutare de informații pe internet

Secțiunea 1. Bazele regăsirii informațiilor

Subiectul, scopurile și obiectivele cursului. Legătura cursului cu alte discipline.

Informații, procese informaționale, sisteme informaționale, fluxurile de informații, tehnologia de informație. Tipuri de sisteme informatice (AIPS, ASNTI, ACS, ASNI, AOS, CAD, ES, baza de cunostinte etc.).

Concepte de bază ale regăsirii informațiilor: informație, sistem informațional, nevoie de informații, relevanță.

Date și documente. Tipuri de documente informative. Documente text. Descrierea documentelor.

Cereri. Tipuri de cereri. Căutare subiect. Principalele probleme ale automatizării proceselor de prelucrare a informațiilor semantice.

Sisteme de recuperare a informațiilor (IRS). Tipuri de IPS. O scurtă prezentare a principalelor tipuri: documentar, factual, intelectual.

Căutare bibliografică. Baze de date bibliografice si cataloage electronice. Sisteme de bibliotecă.

Sisteme informatice non-text (geografice, cartografice etc.). Căutați obiecte după descrierile lor (fișiere grafice, fișiere muzicaleși așa mai departe.). Căutați imagini și informații video.

Secțiunea 2. IRS documentar

Istoricul dezvoltării sistemelor automate de regăsire a informațiilor documentare, etape de dezvoltare. Sisteme integrate. ASNTI. Caracteristicile scenei moderne.

Componentele IPS. IPYA. . Caută modele. IPS abstract și concret.

Structura sistemelor informaționale documentare și faptice. Subsisteme funcționale. Schema structurala documentar IPS.

Sisteme cu dublu circuit. IPS cu text integral. Sisteme informatice hipertext.

Subsisteme suport. Suport tehnic. Software. Retele de calculatoare. Caracteristici ale construirii sistemelor informatice de retea.

Modelul matematic al sistemului de regăsire a informațiilor documentare.

Organizarea matricelor de căutare în sistemul de regăsire a informațiilor.

Clasificarea sistemelor de regăsire a informațiilor documentare pe diverse motive.

Secțiunea 3. IRS de fapt

Informații faptice. Informații faptice bine structurate și slab structurate.

Tabelele obiect-caracteristice.

Limbajul explicației semantice.

Eficacitatea IRS factual.

Căutarea bibliografică ca tip de cercetare faptică.

Secțiunea 4. Suport lingvistic pentru regăsirea informațiilor

Mijloace lingvistice de regăsire a informațiilor. Componența suportului lingvistic al IPS.

Conceptul de limbaj de regăsire a informațiilor (IRL). ILP ca element principal al aparatului logic-semantic al IPS.

Limbi de regăsire a informațiilor: clasificare, tipologie. Limbaje bazate pe obiecte. Clasificări. Clasificări alfabetice de subiecte și fațete.

Limbi descriptori. Limbi verbale.

Limbaje semantice și sintagmatice.

Modalități de a descrie limbile. Componentele limbilor de regăsire a informațiilor descriptoare (alfabet, dicționar, gramatică).

Standardizarea vocabularului în IPS. Dicționare de descriptori. Tezauri. Crearea de dicționare și tezaure. Controlul autoritar ca element de suport lingvistic pentru sistemele automatizate de bibliotecă.

Mijloacele gramaticale ale IPL. Relații paradigmatice și sintagmatice.

Indexarea documentelor și a interogărilor. Căutați imagini de documente și interogări.

Limbaje de interogare: concept și compoziție. Mijloace și metode de exprimare a nevoilor de informare. Căutați instrucțiuni.

Caută modele. Operatori de căutare.

Mijloace de normalizare morfologică.

Instrumente lingvistice pentru prezentarea și structurarea documentelor electronice (formate, limbi SGML, HTML, XML). Limbi metadate (Dublin Core, GILS etc.).

Suport lingvistic al sistemelor de regăsire a informațiilor faptice. Unități de bază ale IPL ale IPS faptice.

Secțiunea 5. Funcționarea și funcționarea sistemului informațional

Suport informațional, tehnologic și de personal.

Tehnologia prelucrării informațiilor înainte de mașină. Indexarea documentelor și a interogărilor. Caracteristici de căutare în funcție de tipurile de documente.

Moduri de operare IRS (IRI, căutare retrospectivă). Moduri lot și dialog.

Principalele caracteristici tehnice ale sistemelor de regăsire a informațiilor documentare (completitudine, acuratețe). Factori care influențează eficiența căutării. Evaluarea eficacității IPS.

Mijloace și metode de rezolvare a problemelor lexico-semantice în IPS. Probleme de întocmire a instrucțiunilor de căutare. Feedback de relevanță.

Furnizarea rezultatelor căutării cu documente primare. Livrarea electronică a documentelor.

Secțiunea 6. Căutare de informații pe Internet

Importanţa reţelelor de calculatoare pentru organizarea serviciilor informaţionale. Metode și mijloace de acces la matrice de documente la distanță. Protocol Z39.50 (Căutare/Recuperare).

Rețeaua de internet, ea o scurtă descriere a. Internetul ca sistem electronic de transport. Internetul ca spațiu global de informare.

Resurse de informații pe internet. Servere FTP. GOPHER. WAIS.

Conceptul de hipertext. Sisteme de hipertext înainte de apariția Internetului. servere WWW. Navigare pe web. Probleme de căutare a informațiilor.

Surse documentare de informare. Documente electronice. Formate de prezentare a informațiilor text pe Internet (html, pdf, ps, doc etc.). Publicații electronice.

Obiecte informaționale non-text. Conceptul de bibliotecă electronică.

Tipologia motoarelor de căutare pe Internet. Baze diferite pentru clasificare (după amploarea acoperirii, după caracteristici interne, după tipul de document).

Tipologia motoarelor de căutare pe Internet. Sisteme de regăsire a informațiilor de clasificare (cataloage). Sisteme de regăsire a informațiilor verbale (text, dicționar) (motoare de căutare).

Sisteme globale de recuperare a informațiilor și servicii de internet.

Limbi naturale pe internet. IPS regional. Versiuni regionale ale sistemelor globale. Internet în limba rusă.

Metode de creare a bazelor de date de căutare în sisteme globale. Indexare și înregistrare. Roboti de indexare. Instrumente de management al indexării (fișier robots.txt, elemente META).

Caracteristici ale suportului lingvistic și informațional al sistemelor de regăsire a informațiilor de pe Internet. IPL verbal. Mijloacele gramaticale ale IPL: sintagmatica. Operatori poziționali contextuali („expresii”, operatori de distanță etc.).

Probleme de clasare a documentelor în rezultatele căutării. Modalități de a gestiona clasamentele.

Interfețe de intrare. Limbi de interogare (simple, avansate). Compoziția lor, exemple. Analiza comparativă a limbajelor de interogare IPS pe Internet. Salvarea cererilor (istoricul sesiunilor).

Interfețe de ieșire. Prezentarea rezultatelor căutării. Descrierea documentelor (pagini web), descrierea site-urilor. Gruparea documentelor pe site. Identificarea și îmbinarea duplicatelor.

Managementul căutărilor. Statistici de căutare. Cauta in ceea ce a fost gasit. Cauta dupa asemanare.

Exemple de IPS verbale. Analiza comparativă a motoarelor de căutare.

Atelier de depanare a interogărilor și căutare în sistemele informaționale verbale.

Clasificare IPS. Metode de formare a unei baze de date în sisteme de clasificare. Înregistrare, site-uri speciale de înregistrare. Căutați după categorie.

Atelier de căutare în sistemele informatice de clasificare.

Secțiunea 7. Prezentul și viitorul regăsirii informațiilor

Comercializarea internetului în general și a serviciilor de căutare în special. Publicitate. Taxă de înregistrare rapidă.

Dezvoltarea sistemelor informaționale locale.

Probleme de unificare și standardizare.

Feedback înseamnă. „Comunități de căutare” informale.

Dezvoltarea suportului lingvistic.

Sisteme cu arhitectură distribuită centralizată și descentralizată.

Intelectualizarea regăsirii informațiilor. Sisteme informatice inteligente.

Elemente de prelucrare intelectuală în sistemele globale de regăsire a informațiilor de pe Internet. Agenți inteligenți.

Limbi metadate Limbaje XML, RDF, OWL și alte instrumente de descriere a conținutului.

2.3. Exemple de întrebări pentru autocontrol

Dați definiții:

    Criteriul de emitere

    Relevanţă

    Tezaur

    Componentele IPS

    Compoziția suportului lingvistic

    Fișier invers

Alege opțiuni corecte răspunsuri

    Semnul „&” din Rambler IPS înseamnă operația:

    disjuncții (OR)

    conjuncții (I)

    distante

    semnul „|”. în Yandex IPS înseamnă operația:

    ca urmare a

    conjuncții (I)

    disjuncții (OR)

    Subsistemele funcționale IPS sunt:

    suport lingvistic

    software

    suport tehnic

    intrarea documentului

    introducerea de interogări

    criteriul corespondenței semantice

    limbajul de interogare

    afișarea rezultatelor căutării

    fișiere inversate

    Tipurile de IPA sunt:

    limbaje morfologice

    limbaje descriptori

    limbaje semantice

    limbaje de clasificare

    limbaje verbale

    limbi secundare

    limbaje bazate pe obiecte

    Principalele metode de normalizare morfologică în IPS:

    bazată pe morfoanaliza automată

    trunchiere

    mascarea

    prefixare

    Criteriul corespondenței semantice este:

    reguli de indexare

    reguli de normalizare

    reguli de calcul a caracterului complet

    metode de clasare

    metode de clasificare

    Indexarea este:

    normalizarea morfologică

    compilarea unei imagini de căutare

    traducere în limbajul logicii matematice

    traducere în IPYA

    calculul relevanței

    alcătuirea unui dicționar de descriptor

    Subsistemele suport ale IPS sunt:

    suport lingvistic

    software

    suport tehnic

    intrarea documentului

    introducerea de interogări

    criteriul corespondenței semantice

    instrucțiuni de căutare

    afișarea rezultatelor căutării

    fișiere inversate

    Tipuri de IPA:

    limbaje bazate pe obiecte

    limbaje de clasificare

    limbaje morfologice

    limbaje semantice

    limbaje verbale

    limbi secundare

    limbaje descriptori

    Criteriul de emitere este:

    reguli de indexare

    reguli de normalizare

    reguli de calcul a relevanței

    reguli de calcul a caracterului complet

    metode de clasare

    metode de clasificare

2.4. Subiecte aproximative rapoarte, rezumate,
cursuri

    Analiza și descrierea IPS-ului Internetului (selectarea unui subiect de sistem în acord cu profesorul)

    Crearea unei bănci de date terminologice privind sistemele de regăsire a informațiilor (identificare, clasificare a termenilor și interpretări; rezultatul este un dicționar-index hipertext sau bază de date de căutare)

    Cercetare cu privire la modul de utilizare a dicționarelor și tezaurelor online (de exemplu, WordNet) pentru a indexa interogări în sistemele de regăsire a informațiilor

    Analiza și descrierea mecanismelor de normalizare morfologică în sistemele de regăsire a informațiilor

    Luarea în considerare a conexiunilor sintagmatice ca mijloc de creștere a eficienței căutării în sistemele de regăsire a informațiilor full-text (studiu experimental)

    Calcule de relevanță în sistemele de regăsire a informațiilor (studiu experimental)

    Analiza studiilor privind eficacitatea comparativă a sistemelor de regăsire a informațiilor full-text

    Analiza suportului lingvistic al sistemelor de regăsire a informațiilor full-text

    Revizuirea analitică a publicațiilor revistei electronice privind sistemele de regăsire a informațiilor Raport motor de căutare

2.5. Exemplu de listă de întrebări pentru examen
(credit) pentru întregul curs

    IPS abstract și concret (real).

    Sisteme de regăsire a informațiilor verbale (motoare de căutare). Arhitectura lor. Exemple de IPA verbale

    Sisteme informatice globale și regionale pe Internet. Exemple

    Mijloacele gramaticale ale IPL. Modalităţi de exprimare a relaţiilor gramaticale

    Dicționare de descriptori. Tezaurele

    Informații documentare pe internet. Documente text. Instrumente lingvistice pentru prezentarea și structurarea documentelor (din unghi de căutare)

    Indexarea documentelor și a interogărilor. Automatizarea indexării

    Sisteme informatice inteligente

    Internetul ca global mediul informațional. Resurse de informații din rețea. Probleme de căutare pe internet

    Nevoia de informații, cererea de informații, prescripția de căutare

    Sisteme de recuperare a informațiilor (IRS). Tipuri de IPS. Scurtă prezentare generală a principalelor tipuri

    Limbi de regăsire a informațiilor: clasificare, tipologie

    IPYA. Limbi descriptori. Limbi verbale

    IPYA. Limbi de clasificare

    Istoricul dezvoltării sistemelor automate de regăsire a informațiilor documentare, etape de dezvoltare. Caracteristicile scenei moderne

    Sisteme de regăsire a informațiilor de clasificare (cataloage). Exemple de clasificare IPS

    Clasificarea IRS documentar pe diverse motive

    Criteriul corespondenței semantice. Căutați modele

    Mijloace lingvistice de regăsire a informațiilor. Componența suportului lingvistic al IPS

    Metode de creare a bazelor de date de căutare în sisteme globale (indexare, înregistrare)

    Normalizarea morfologică a vocabularului în IPS

    Subsisteme suport

    Limbaje bazate pe obiecte

    Organizarea matricelor de căutare în sistemul de regăsire a informațiilor

    Principalele caracteristici tehnice ale IRS documentare (completitudine, acuratețe)

    Conceptul de limbaj de regăsire a informațiilor (IRL). Clasificarea (tipologia) IPL

    Conceptele de „informație” și „sistem”. Procese și sisteme informaționale. Tipuri de sisteme informatice

    Probleme ale căutării multilingve pe Internet. Metode de soluţionare în diferite sisteme informaţionale

    Probleme de căutare a documentelor în limba rusă. IPS în limba rusă

    Probleme de întocmire a instrucțiunilor de căutare. Feedback de relevanță

    Sisteme mixte (hibride). Metamotoare de căutare. Exemple

    Componentele limbajelor de regăsire a informațiilor descriptoare

    Componentele IPS. Relații sistemice între elementele IS

    Esența regăsirii informațiilor documentare. Conceptul de relevanță

    Limbi semantice

    Tehnologia IPS și moduri de operare. IPS cu dublu circuit

    Tipologia motoarelor de căutare pe Internet

    IRS real

    Diagrama funcțională și structurală a IPS. Subsisteme funcționale

    Limbajul de interogare al sistemului de regăsire a informațiilor Altavista. Interfața de prezentare a rezultatelor căutării

    Limbajul de interogare Google IRS. Interfața de prezentare a rezultatelor căutării

    Limbajul de interogare IRS „Aport”. Interfața de prezentare a rezultatelor căutării

    Limbajul de interogare al sistemului de regăsire a informațiilor Rambler. Interfața de prezentare a rezultatelor căutării

    Limbajul de interogare al Yandex IRS. Interfața de prezentare a rezultatelor căutării

    Limbaje de interogare ale sistemelor moderne de recuperare a informațiilor. Analiza comparativa

    Limbi de interogare. Căutați instrucțiuni.

2.6. Repartizarea orelor de curs pe subiecte
și tipuri de muncă

Numele subiectelor
si sectiuni

Sala de clasă
cursuri (ore)

Inclusiv

Muncă independentă

Seminarul

Noțiuni de bază privind regăsirea informațiilor

Documentar IPS

IRS real

Suport lingvistic pentru regăsirea informațiilor

Functionarea si functionarea sistemului informatic

Cautare de informatii
în internet

Prezentul și viitorul regăsirii informațiilor

TOTAL:

2.7. Forma de control curent, intermediar si final

Pe parcursul semestrului, studenții pregătesc lucrări scrise (rezumate) pe una dintre temele selectate, care sunt „apărate” la finalul cursului sub formă de rapoarte. La sfârșitul cursului are loc un test.

2.8. Suport educațional și metodologic al cursului

Literatura principală

Zaharov V.P. Sisteme informatice (căutarea documentelor). Sankt Petersburg, 2002.

Informatică/ Ed. K.V. Tarakanova. M., 1986.

Lahuti D.G.. Sisteme automate de regăsire a informațiilor documentar-factografice // Rezultatele științei și tehnologiei. Informatică. T. 12. M., 1988. p. 6–77.

Salton J. Bibliotecă dinamică și sisteme informatice. M., 1979.

Salton G. Procesarea, stocarea și preluarea automată a informațiilor. M., 1973.

Cherny A.I.. Introducere în teoria regăsirii informațiilor. M., 1975.

literatură suplimentară

Avetisyan D.O. Probleme de recuperare a informațiilor. M., 1991.

Arms W. Biblioteci electronice. M., 2001.

Beloozerov V.N. Noi standarde pentru terminologia de regăsire a informațiilor // NTI. Ser. 1. 1997. Nr. 11. p. 14–21.

Voiskunsky V.G. Căutare documentară și Părere// Căutarea subiectului în sistemele tradiționale și netradiționale de regăsire a informațiilor. Sankt Petersburg, 1993. Issue. 11. p. 129–141.

Voiskunsky V.G., Zaharov V.P. Complex de depanare a dialogului // Lingvistică structurală și aplicată: colecție interuniversitară. Vol. 4. Sankt Petersburg, Universitatea de Stat din Sankt Petersburg, 1993, p. 197–211.

Decker S., Melnik S., Hermelen van F. Web semantic: rolurile XML și RDF // Sisteme deschise. 2001. Nr 9. p. 23–33.

Zaharov V.P., Mordovchenko P.G., Sakharny L.V.Îmbunătățirea suportului lingvistic în sistemele de regăsire a informațiilor de tip „fără tezaur” // NTI. Ser. 2. 1980. Nr. 6. p. 14–19.

Zaharov V.P., Pankov I.P. Sisteme de regăsire a informațiilor // Lingvistică aplicată: Manual / Ed. ed. LA FEL DE. Gerd. Sankt Petersburg, Universitatea de Stat din Sankt Petersburg, 1996, p. 334–359.

Zaharov V.P., Pimenov E.N.. Abordare în limbaj natural pentru crearea suportului lingvistic pentru sistemele de regăsire a informațiilor // NTI. Ser. 2. 1997. Nr. 12.

Zmitrovich A.I. Sisteme informatice inteligente. Minsk, 1997.

Kapustin V.A. Căutarea de informații pe Internet // Internet World. 1998. Nr. 9. pp. 54–58.

Kapustin V.A. Resurse de informații - cum le vom căuta? // Lumea Internetului. 1998. Nr. 9. p. 58–61.

Kapustin V.A. Elementele de bază ale căutării de informații pe Internet: Trusa de instrumente. Sankt Petersburg, 1999.

Kurnik A. Căutare pe internet. Sankt Petersburg, 2001.

Informațional-motoare de căutare. M., 1972.

Lahuti D.G. Intelectualizarea sistemelor informaţionale: Raport ştiinţific... M., 2002.

Lyubarsky Yu.Ya. Sisteme informatice inteligente. M., 1990.

Masevici A.Ts. Două abordări ale teoriei IPS în lumina conceptelor lingvistice moderne // Căutarea subiectului în sistemele tradiționale și netradiționale de regăsire a informațiilor. L., 1989. Emisiunea. 9. P.25–49.

Moskovich V.A. Limbi de informare. M., 1971.

Parkhomenko V.F. Sistem de indexare automată a documentelor BRACKETS OS EC // M., 1983

Aplicat Lingvistică: manual. Sankt Petersburg, 1996. p. 59–67, 92–99, 360–388.

Rubașkin V.Sh. Reprezentarea și analiza semnificației în sistemele informaționale inteligente. M., 1989.

Sokolov A.V. Automatizarea căutării bibliografice. - M., 1981.

Sokolov A.V.. Introducere în teoria comunicării sociale. Sankt Petersburg, 1996.

Sokolov A.V.. Materiale metodologice privind dezvoltarea tezaurilor de regăsire a informațiilor. L., 1976.

Stepanov V. Căutare bibliografică pe Internet // Bibliografie. 1998. Nr 1. P. 5–10.

Hramtsov P.B.. Sisteme de recuperare a informațiilor de pe Internet // Sisteme deschise. 1996. Nr 3. P. 46–49.

Hramtsov P.B.. Modelarea și analiza funcționării sistemelor de regăsire a informațiilor de pe Internet // Open Systems. 1996. Nr. 6. p. 46–56.

Shemakin Yu.I., Romanov A.A.. Semantica computerului. M., 1995.

Shemakin Yu.I. Tezaur în sistemele automate de control și procesare a informațiilor. M., 1974.

Standarde

Soluții standard de proiectare pentru sisteme automate de informații științifice și tehnice. M., 1983.

GOST 34.601-90. Tehnologia de informație. Set de standarde pentru sisteme automate. Etapele creării sistemelor automatizate.

GOST 34.602-89. Tehnologia de informație. Set de standarde pentru sisteme automate. Sarcina tehnică pentru a crea un sistem automatizat.

GOST 7,52-85. Format de comunicare pentru schimbul de date bibliografice pe bandă magnetică. Căutați imaginea documentului.

GOST 7,74-96. Limbi de regăsire a informațiilor. Termeni și definiții.

RD 34.003-90. Tehnologia de informație. Termeni și definiții.

RD 34.201-89. Tehnologia de informație. Tipuri, completitudine și denumiri ale documentelor la crearea sistemelor automate.

RD 34.680-88. Instrucțiuni. Tehnologia de informație. Dispoziții de bază.

RD 34.698-90. Instrucțiuni metodice. Tehnologia de informație. Cerințe pentru conținutul documentelor.

3. Atelier (lucru de laborator)

Instrucțiuni pentru efectuarea lucrărilor de laborator

Rezultatele lucrărilor de laborator sunt salvate pe hard disk în folderul lucrării de laborator corespunzătoare Lab#N, unde N este numărul lucrării. Mai mult, toate aceste foldere, la rândul lor, sunt stocate în folderul studentului, care are următoarea cale: DISK:\ Numele profesorului\nnn-Fam\, unde nnn este numărul grupului (identificatorul), Fam este numele de familie al elevului. De exemplu, toate fișierele și folderele create și salvate în timpul lucrului de laborator nr. 2 sunt plasate în folderul D:\Zakharov\ML_3kurs-Ivanova\Lab#2. În temele de laborator, acest dosar curent al studentului se numește „ propriul folder».

În unele cazuri, înainte de a începe lucrul, conform instrucțiunilor profesorului, ar trebui să copiați (de pe computerul profesorului prin „Network Neighborhood” sau de pe o dischetă) în folderul dvs. fișiere suplimentare necesare pentru a finaliza sarcina.

Un raport text cu rezultatele lucrării corespunzătoare este creat în editorul Word. În fereastra documentului trebuie să introduceți numele, prenumele, numărul grupului/subgrupului, numărul lucrării de laborator și data finalizării lucrării. Apoi scrieți rezultatele necesare ale lucrării în acest fișier ( sub numărul articolului de sarcină corespunzător). Salvați aceste date ca fișier de raport numit ReportN în folderul dvs., unde N este numărul jobului. Pentru a evita pierderea datelor din cauza eșecurilor, fișierele generate de studenți în timpul lucrului sunt recomandate să fie salvate în mod regulat.

Pentru a prezenta profesorului rezultatele muncii tale, plasează-le pe ecran în următoarele ferestre, în cascadă de la stânga la dreapta: conținutul folderului de lucru protejat de laborator (în fereastra Explorer), fișierul de raport în editorul Word fereastra, fereastra browserului (dacă este necesar).

Lucrare de laborator nr 1

(Clasificare IPS)

    Deschideți pagina motorului de căutare Aport (ROL, Russia On-Line). Familiarizați-vă cu clasificatorul (clasificatorul) acestui sistem. Copiați titlurile de nivel superior într-un caiet și renumerotați-le. Trecând prin rubricile rubricatorului, găsiți două muzee („Muzeul literar și memorial al lui F.M. Dostoievski” și „Muzeul istoric și memorial al lui M.V. Lomonosov în satul Lomonosovo, regiunea Arhangelsk”). Familiarizați-vă cu formularul de trimitere a informațiilor despre site-urile din director.

    Pentru fiecare muzeu:

    copiați scurte descrieri ale muzeelor ​​specificate în catalog în fișierul raport Report1;

    indicați indicele de citare (sub formă de număr) și liga (sub formă de nume verbal) pentru aceste situri muzeale;

    accesați site-ul muzeului și copiați prima pagină de pornire din folderul dvs. în format ;

    creați un „marcaj” pentru site-ul web al muzeului în dosarul dvs. Favorite.

    Deschideți pagina motorului de căutare Yandex. Familiarizați-vă cu clasificatorul (clasificatorul) acestui sistem. Copiați titlurile de nivel superior într-un caiet și renumerotați-le. Marcați (încercuiți) titlurile care coincid cu titlurile Aport (în întregime sau parțial). Parcurgând rubricile rubricatorului, găsiți „Muzeul Literar și Memorial al F.M. Dostoievski” și „Muzeul Istoric și Memorial al M.V. Lomonosov în satul Lomonosovo, regiunea Arhangelsk.” Copiați descrierile lor în rubricatorul Yandex în fișierul de raport.

    Vizitați sistemul de evaluare Rambler IPS. Familiarizați-vă cu clasificatorul (clasificatorul) acestui sistem. Rubricile care coincid cu rubricile Aport (în întregime sau parțial) trebuie copiate într-un caiet. Vedeți evaluarea site-urilor pe tema „Educație”. Familiarizați-vă cu formularul de prezentare a informațiilor din catalog. Copiați numele site-ului care se află pe locul cinci, cu indicatorii săi cantitativi, în fișierul de raport Report1. Uite statistici detaliateși copiați tabelul statistic în fișierul de raport.

    Repetați același lucru în sistemul Yahoo.

Lucrări de laborator№ 2

(IPS verbal în limba rusă: analiză comparativă)

    Lucrarea constă într-un studiu comparativ al sistemelor Aport, Yandex, Rambler. Studentul trebuie să reflecte rezultatele studiului sub forma unui tabel (p. 34) în fișierul Raport2 (orientare tabel - peisaj). În celule, notați cum în fiecare sistem este reprezentat acest sau acel element al limbajului de interogare sau al interfeței de intrare/ieșire (toate metodele valide). În unele cazuri, puteți răspunde cu semnele „+” sau „–” (de exemplu, „ Descrierea documentului") sau text liber în propriile cuvinte (de exemplu, „Pagini relevante ale aceluiași site” sau "Triere").

    Accesați site-ul motorului de căutare Aport (apoi Yandex și Rambler). Găsiți în fiecare sistem link-uri către descrierea sa în ansamblu, către o descriere a limbajului de interogare, interfețe („Ajutor”, „Ajutor”, „Căutare avansată”și așa mai departe . ). Urmând linkurile, studiați cu atenție informațiile de referință și registrul de lucru Subliniați pe scurt punctele principale. După aceasta, completați celulele corespunzătoare din tabel pentru fiecare sistem (secțiunile 1, 2).

Notă. Dacă textul răspunsului nu se încadrează într-o celulă de tabel, se recomandă să faceți o notă de subsol și să o continuați sub tabel. Vă rugăm să rețineți că capacitățile sistemelor de căutare simplă și avansată diferă. Arată acest lucru în raport. Acordați atenție prezenței „altelor” secțiuni.

    Reveniți la pagina de pornire a motorului de căutare Aport (apoi Yandex și Rambler). Introduceți o interogare (de exemplu, « metode statisticeîn lingvistică") în fereastra de interogare de text și căutați. Salvați pagina cu rezultatele căutării în folderul dvs. în format "doar html".

    Studiați formularul de prezentare a rezultatelor. Notați pe scurt în caiet ce este conținut pe pagina web cu rezultatele căutării (structura paginii web). Studiați formularul de prezentare a documentelor web individuale (scurtele lor descrieri cu informații suplimentare). Pe baza studiului rezultatelor obținute și a informațiilor de bază studiate anterior, completați celulele corespunzătoare din tabel (secțiunea 3).

    Prezintă-ți munca profesorului.

Rezultatele unui studiu comparativ al sistemelor Aport, Yandex, Rambler


secțiune

Opțiuni

Aport

Yandex

Hoinar

Căutați după text

Operatori logici:

conjuncţie

disjuncție

negare

Operatori sintagmatici:

fraze (expresii, cuvinte din apropiere)

distanta in cuvinte

distanța în propoziții

Normalizare morfologică (automat, metacaractere utilizate)

Căutați după câmpuri

după titlu

după câmpul de cuvinte cheie

prin comentarii la imagini (câmp ALT)

conform textului hyperlink-urilor

pentru a lega adrese

după numele de domeniu al site-ului (server)

după format

Interfață de emisiune (formular de prezentare a rezultatelor)

statistica cuvintelor dintr-o interogare

numărul de documente găsite

numărul de site-uri găsite

numărul de documente pe pagină de rezultate

sortarea documentelor pe pagina de emisiune

cauta in gasit

descrierea documentului include următoarele elemente:

URL (adresă web)

dimensiunea documentului (volum)

data creării

codificare

rezumat (rezumat)

indicând alte pagini web relevante de pe același site

cauta documente similare

Lucrări de laborator№ 3

(IPS verbal în limba rusă: căutare)

Compilarea și depanarea unei interogări de subiect

    Faceți o solicitare în caiet la subiectul „Bătălii navale în timpul Marelui Război Patriotic”. În același timp, eliminați cuvintele nesemnificative din subiect, extindeți interogarea cu sinonime, creați o formulă logică de interogare cu utilizarea obligatorie a operatorilor de conjuncție, disjuncție, distanță și frază (frază rigidă).

    Arată solicitarea profesorului.

    Apoi notați variantele sale în limbile sistemelor Aport, Yandex, Rambler.

    Depanați interogarea în modul de căutare reală, efectuând sesiuni secvențiale în toate cele trei sisteme. Încercați să modificați cerințele de căutare pentru a obține performanțe optime de căutare. Pentru a face acest lucru, înregistrați într-un caiet rezultatele obținute pentru fiecare opțiune: acuratețe (pentru primele 20 de documente) și completitudine condiționată (volumul absolut de ieșire).

    Reveniți la cea mai bună rețetă de căutare și copiați textul interogării prin clipboard din șir de căutare(fereastra pentru introducerea unei interogări) în fereastra de fișier de raport Report3 (câte unul în fiecare sistem). Indicați indicatorii de acuratețe și completitudine în raport. Salvați prima pagină web cu rezultatele căutării în fiecare sistem în propriul folder în format "doar html".

Introducere Field Search (Căutare avansată)

    Utilizați sistemul Yandex pentru a găsi documente dedicate lui Lev Gumilyov. Înregistrați numărul de documente și site-uri găsite într-un fișier de raport. Salvați adresa (URL) a primului document din lista în Favorite în folderul „Gumilyov”.

    Apoi treceți în modul de căutare avansată și găsiți documente dedicate lui Lev Gumilev cu o dată după 1 octombrie 2004. Scrieți din nou noul număr de documente și site-uri găsite în fișierul de raport. Salvați primul document din lista cu rezultatele căutării în folderul dvs. în format „arhivă web, un fișier” (*.mht).

    Găsiți documente pe tema „Economia orașului Moscova” prin sistemul Rambler. În acest caz, setați volumul de căutare (numărul de descrieri ale documentelor din pagina de rezultate) la 30. Sortați rezultatele căutării după dată (descrescător) și salvați prima pagină web cu rezultatele căutării în dosarul dvs. în format "doar html"

    Accesați modul de căutare avansată și găsiți documente pe aceeași temă, dar aflate doar pe site. Sortați rezultatele căutării după dată (crescător) și salvați prima pagină web cu rezultatele căutării în folderul dvs. în format "doar html". Înregistrați numărul de documente și site-uri găsite în dosarul raportului.

    Găsiți documente pe tema „Educație” prin sistemul Yandex, de la care există un link către site. Salvați prima pagină web cu rezultatele căutării în folderul dvs. în format "doar html". Înregistrați numărul de documente și site-uri găsite în dosarul raportului.

    Descărcați unul dintre documentele găsite, vizualizați codul html al acestuia, găsiți în el un link către site și copiați elementul hyperlink (de la început până la sfârșit eticheta A) în fișierul de raport prin clipboard.

    Documentul în format mht, salvat în paragraful 7 (despre Lev Gumilyov), poate fi citit în editorul Word: mai întâi în format de pagină web, apoi în format „numai text”. La a doua lectură, revizuiți conținutul ferestrei de introducere a editorului Word (în special începutul și sfârșitul fișierului), copiați prima pagină a ferestrei de introducere în fișierul raport și pregătiți-vă să explicați ce este formatul mht.

Notă. Formatul mht este codificat conform standardului MIME (RFC2046 și RFC2047).

    Prezintă-ți munca profesorului.

Lucrare de laborator nr 4

(Global Verbal IPA: Analiză comparativă)

    Lucrarea constă într-un studiu comparativ al sistemelor informaționale globale ale Internetului de tip verbal.

Notă. Setul de sisteme și numărul acestora se pot schimba la discreția profesorului.

    Accesați site-ul motorului de căutare corespunzător (în continuare - numele de domeniu al sistemului: www.nume_sistem.com). Găsiți în fiecare sistem link-uri către descrierea sa în ansamblu, către o descriere a limbajului de interogare, interfețe, moduri de operare și alte caracteristici ale sistemului. Notează pe scurt descrierea fiecărui IPS în notebook-ul tău.

    Analizați și comparați capacitățile sistemelor în modul de căutare avansată. Salvați paginile interfeței de căutare avansată în propriul folder.

    Prezentați rezultatele analizei într-o formă comprimată sub forma unui tabel pivot (p. 38) în fișierul de raport Report4 (orientare tabel - peisaj). Dimensiunea mesei poate fi mărită. Dacă ceva nu se potrivește în tabel, faceți o notă de subsol în celulă la textul de sub tabel (tabelul nu este atât o formă de prezentare a rezultatelor, cât o schemă de analiză).

    Prezintă-ți munca profesorului.

Rezultatele unui studiu comparativ al IPS verbal global

Opțiuni

Operatori logici(care și cum sunt întrebați)

Operatori sintagmatici
(care și cum sunt întrebați)

Căutați după câmpuri(compilați o listă de câmpuri, notați prezența/absența acestora în anumite sisteme)

câmpul 1

câmpul 2

………

câmpul k

Selectarea unei baze de date de căutare
(în ce resurse poți căuta)

resursa 1

resursa 2

………

resursa k

Formatul de ieșire conține următoarele elemente(sub tabel, dați un exemplu din fiecare sistem)

elementul 1

elementul 2

………

elementul k

Accesibilitate sau caracteristici
(descrieți pentru fiecare sistem)

Lucrare de laborator nr 5

(IPS verbal global: studiu și căutare)

    Efectuați o căutare pe subiectul „Lingvistică computațională” în IRS global specificat ( setul de sisteme și numărul acestora se pot modifica la discreția profesorului). Rețeta de căutare ar trebui să arate în mod logic astfel:

(computationalVcomputingVcomputer) & llingvistică.
Precizați cererea în limba engleză de două ori, ca conjuncție și ca frază setată (expresie), folosind metodele de exprimare a operatorilor caracteristice fiecărui sistem (pentru sisteme nefamiliare, găsiți informațiile de referință adecvate). Salvați prima pagină web cu rezultatele fiecărei căutări din folderul dvs. ca "doar html". Rezultatele cantitative sunt prezentate în tabel:

Numele IPS

Documente/site-uri găsite

IRS (sistem de recuperare a informațiilor) este un sistem care oferă căutarea și selecția datelor necesare într-o bază de date specială cu descrieri ale surselor de informații (index) bazate pe limbajul de regăsire a informațiilor și regulile de căutare corespunzătoare.

Sarcina principală a oricărui sistem informațional este de a căuta informații relevante pentru nevoile de informații ale utilizatorului. Este foarte important să nu pierdeți nimic în urma căutării, adică să găsiți toate documentele legate de cerere și să nu găsiți nimic de prisos. Prin urmare, se introduce o caracteristică calitativă a procedurii de căutare - relevanța.

Relevanţă– aceasta este corespondența rezultatelor căutării cu interogarea formulată.

După scară spațială IPS poate fi împărțit în locale, globale, regionale și specializate. Motoarele de căutare locale pot fi proiectate pentru a găsi rapid pagini pe o scară unică de server.

IRS regionale descriu resursele de informații ale unei anumite regiuni, de exemplu, paginile în limba rusă de pe Internet. Motoarele de căutare globale, spre deosebire de cele locale, se străduiesc să îmbrățișeze imensitatea - să descrie cât mai complet posibil resursele întregului spațiu informațional al Internetului.

În plus, sistemele de regăsire a informațiilor se pot specializa și în căutarea diverselor surse de informații, de exemplu, documente WWW, fișiere, adrese etc.

Să aruncăm o privire mai atentă la principalele sarcini pe care dezvoltatorii IPS trebuie să le rezolve. După cum rezultă din definiție, Sistemele de regăsire a informațiilor pentru WWW efectuează o căutare în propria lor bază de date (index) cu o descriere a surselor de informații distribuite.

Prin urmare, trebuie mai întâi să descriem resursele de informații și să creăm un index. Construirea unui index începe cu identificarea unui set inițial de adrese URL pentru sursele de informații. Apoi se efectuează procedura de indexare.

Indexarea– descrierea surselor de informații și construirea unei baze de date speciale ( index) pentru o căutare eficientă.

În unele sisteme de regăsire a informațiilor, descrierea surselor de informații este realizată de personalul de regăsire a informațiilor, adică de persoane care redactează un scurt rezumat al fiecărei resurse. Apoi, de regulă, adnotările sunt sortate pe subiecte (compilare a unui catalog tematic). Desigur, descrierea compilată de o persoană va fi complet adecvată sursei. Cu toate acestea, în acest caz, procedura de descriere durează o perioadă semnificativă de timp, astfel încât indicele generat, de regulă, are un volum limitat. Dar căutarea într-un astfel de sistem poate fi efectuată la fel de ușor ca în cataloagele tematice ale bibliotecii.

În IPS de al doilea tip procedura de descriere a resurselor informaţionale este automatizată. În acest scop, este dezvoltat un program special de robot, care, folosind o anumită tehnologie, ocolește resursele, le descrie (indexează) și analizează legăturile din pagina curenta pentru a extinde zona de căutare. Cum poate un program să descrie un document? Cel mai adesea este simplu este compilată o listă de cuvinte care apar în text și în alte părți ale documentului,în acest caz, se ia în considerare frecvența de repetare și locația cuvântului, adică cuvântului i se atribuie un fel de coeficient de ponderare în funcție de semnificația sa. De exemplu, dacă un cuvânt este în titlul unei pagini Web, robotul va marca acest fapt pentru el însuși. Deoarece descrierea este automatizată, timpul necesar este redus, iar indexul poate fi foarte mare.

Prin urmare, următoarea sarcină pentru al doilea tip de sistem de regăsire a informațiilor este dezvoltarea unui robot de indexare. Pentru a căuta în sisteme de acest tip, utilizatorul va trebui să învețe cum să compună interogări, în cel mai simplu caz constând din mai multe cuvinte. Apoi, IRS va căuta în indexul său documente ale căror descrieri conțin cuvinte din interogare. Pentru a efectua o căutare mai bună, este necesar să se dezvolte un limbaj de interogare special pentru utilizator. În funcție de caracteristicile de proiectare ale modelului de index și de limbajul de interogare acceptat, se dezvoltă un mecanism de căutare și un algoritm pentru sortarea rezultatelor căutării. Deoarece indexul este mare, numărul documentelor găsite poate fi destul de mare. Prin urmare, modul în care un motor de căutare efectuează o căutare și sortează rezultatele acesteia este extrem de important.

Nu în ultimul rând important este aspectul motorului de căutare care apare utilizatorului, așa că una dintre sarcini este de a dezvolta o interfață convenabilă și frumoasă. În fine, prezentarea rezultatelor căutării este extrem de importantă, deoarece utilizatorul trebuie să învețe cât mai multe despre sursa de informații găsite pentru a lua decizia corectă cu privire la necesitatea de a o vizita.

Pentru a accesa serverul de căutare, utilizatorul folosește un program client standard pentru World Wide Web, adică un browser. La adresa paginii de start IRS, utilizatorul lucrează cu interfața motorului de căutare, care servește la comunicarea între utilizator și motorul de căutare al sistemului (sistemul de generare a interogărilor și vizualizarea rezultatelor căutării).

Sisteme de recuperare a informațiilor

Componenta principală a sistemului informațional este un motor de căutare, care servește la traducerea cererii utilizatorului într-o cerere formală a sistemului, la căutarea de link-uri către resursele informaționale și la furnizarea rezultatelor căutării utilizatorului.

După cum am menționat mai devreme, căutarea este efectuată într-o bază de date specială numită index. Arhitectura indexului este concepută în așa fel încât căutarea să aibă loc cât mai repede posibil și, în același timp, este posibilă urmărirea valorii fiecăreia dintre resursele găsite. Unele sisteme stochează interogările utilizatorului în baza de date personală deoarece este nevoie de mult timp pentru a depana fiecare interogare și este extrem de important să stocați interogările la care se răspunde satisfăcător.

Robot de indexare– un program care servește la scanarea internetului și menținerea la zi a bazei de date cu index.

Site-urile web sunt acele resurse de informații la care sistemul informațional oferă acces.

După cum știți, o pagină Web este un document complex format din multe elemente. Când descrieți un astfel de document de către un program robot, este necesar să luați în considerare în ce parte a paginii Web a fost găsit cuvântul dat. Sursele de indexare pentru documentele WWW sunt:

    Titluri (Titlu).

    Titluri.

    Rezumat (Descriere).

    Liste de cuvinte cheie (KeyWords).

    Texte integrale ale documentelor.

Apropo, motoarele de căutare care descriu absolut întregul text al unui document WWW se numesc full-text.

O adresă URL este folosită pentru a descrie un fișier dintr-o resursă FTP. Pentru descrierea unui articol dintr-un grup de știri, sursele de indexare sunt câmpurile Subiect și Cuvinte cheie.

În timpul procedurii de indexare, vocabularul este adesea normalizat (reducerea cuvântului la forma sa de bază); unele cuvinte neinformative, de exemplu, conjuncțiile sau prepozițiile, sunt ignorate. Fiecare IRS are propria sa listă de așa-numitele cuvinte stop care sunt ignorate în timpul procesului de indexare. În sistemele cu limbi foarte variabile, de exemplu rusă, se ia în considerare morfologia.

Luarea în considerare a morfologiei înseamnă capacitatea de a lucra cu diferite forme de cuvinte într-o anumită limbă.

Aici trebuie remarcat faptul că limba rusă este destul de complexă, ale cărei cuvinte se schimbă în numere, cazuri, genuri și timpuri și adesea în moduri neașteptate. De exemplu: a merge, a merge, a merge, a merge etc. Toate IPS existente, ținând cont de morfologia limbii ruse, folosesc „Dicționarul gramatical al limbii ruse”, compilat de Andrei Anatolyevich Zaliznyak. Dicționarul include 90.000 de intrări de dicționar, pentru fiecare cuvânt sunt furnizate informații despre dacă este flexat și cum este exact flexat sau conjugat.

Din cele de mai sus rezultă că principalele instrumente de căutare a informațiilor pe WWW sunt sistemele de recuperare a informațiilor.

Cu toate acestea, există instrumente de căutare pe Internet care au diferențe fundamentale din IPS discutat mai sus. În general, se pot distinge următoarele instrumente de căutare pentru WWW:

    motoare de căutare,

    metamotoare de căutare și programe de căutare accelerată.

Locul central aparține pe bună dreptate motoarelor de căutare, care la rândul lor sunt împărțite în directoare, indexuri automate (motoare de căutare) și directoare indexate. Doar motoarele de căutare posedă aproape în totalitate capacitățile și proprietățile sistemelor de regăsire a informațiilor.

Catalog– un sistem de căutare cu o listă de adnotări clasificate pe subiecte cu link-uri către resurse web. Clasificarea este de obicei făcută de oameni.

Să ne uităm la caracteristicile sistemelor de directoare.

Căutarea în catalog este foarte convenabilă și se realizează prin clarificarea secvenţială a subiectelor. Cu toate acestea, directoarele acceptă capacitatea de a căuta rapid o anumită categorie sau o anumită pagină folosind cuvinte cheie folosind un motor de căutare local.

Baza de date cu linkuri a directorului (index) are de obicei un volum limitat și este completată manual de personalul directorului. Unele directoare folosesc actualizarea automată a indexului.

Rezultatul căutării în catalog este prezentat sub forma unei liste constând dintr-o scurtă descriere (adnotare) a documentelor cu un link hipertext către sursă.

Printre cele mai populare cataloage străine pot fi menționate: Yahoo (www.yahoo.com), Magellan (www.mckinley.com),

Cataloage rusești:@Rus (www.atrus.ru); Weblist (www.weblist.ru); Constellation Internet (www.stars.ru).

Sistem de căutare– un sistem cu o bază de date generată de robot care conține informații despre resursele informaționale.

O caracteristică distinctivă a motoarelor de căutare este faptul că baza de date care conține informații despre pagini Web, articole Usenet etc. este generată de un program robot. O căutare într-un astfel de sistem se efectuează conform unei interogări compilate de utilizator, constând dintr-un set de cuvinte cheie sau o expresie cuprinsă între ghilimele. Indexul este generat și ținut la zi de roboții de indexare.

Motoare de căutare străine (sisteme):

Google - www.google.com (aproximativ 38% acoperire a interogărilor în limba rusă)

Altavista- www.altavista.com

Excite www.excite.com

HotBot - www.hotbot.com

Northern Light- www.northernlight.com

Go (Infoseek) www.go.com (infoseek.com)

Rapid www.alltheweb.com

Motoare de căutare rusești:

Yandex - www.yandex.ru (sau www.ya.ru) (48% acoperire a interogărilor în limba rusă)

Rambler - www.rambler.ru

Aport- www.aport.ru

Metamotor de căutare– un sistem care nu are propriul index, capabil să trimită cereri de utilizator simultan către mai multe servere de căutare, apoi să combine rezultatele obținute și să le prezinte utilizatorului sub forma unui document cu link-uri.

6 Principii de funcționare a sistemelor de metacăutare.Mecanisme de căutare pe internet. Limbajul de interogare.

Atunci când se operează un sistem de metacăutare, din setul de documente primite de la motoarele de căutare, este necesar să se selecteze pe cele mai relevante, adică pe cele corespunzătoare solicitării utilizatorului.

Cele mai simple sisteme de metacăutare implementează abordarea standard prezentată în Fig. 1. În astfel de sisteme nu se efectuează analiza descrierilor documentelor primite, ceea ce poate plasa documente irelevante care apar pe primul loc într-un motor de căutare peste cele relevante în altul, reducând astfel semnificativ calitatea căutării în sine.

Fig. 1 Metamotor standard de căutare

La dezvoltarea următoarei generații de motoare de metacăutare, au fost luate în considerare deficiențele inerente motoarelor de metacăutare standard. Au fost create sisteme cu posibilitatea de a selecta acele motoare de căutare în care, conform utilizatorului, este mai probabil să găsească ceea ce are nevoie (Fig. 2)

Orez. 2. Următoarea generație de metamotoare de căutare

În plus, această abordare vă permite să reduceți resursele de calcul utilizate ale serverului de metacăutare fără a-l supraîncărca cu prea multe informații inutile și să economisiți serios traficul. Trebuie remarcat aici că, în orice sistem de metacăutare, blocajul este în principal lățimea de bandă a canalului de transmisie a datelor, deoarece procesarea paginilor cu rezultate de căutare primite de la câteva zeci de servere de căutare nu este o operațiune foarte laborioasă, deoarece timpul alocat procesării informațiilor este mult mai puțin timp necesar pentru ca paginile solicitate de la serverele de căutare să ajungă.

Ca exemplu de sisteme care au o organizare similară, putem numi Profusion, Ixquick, SavvySearch, MetaPing.

Un exemplu de metamotor este Nigma (Nigma. RF)- Sistem de metacăutare inteligent rusesc.

Program de căutare accelerată este un program cu capabilități de metamotor care este instalat pe computerul dvs. local.

Diferența fundamentală dintre metasearch sisteme și programe de căutare accelerată de la IRS este lipsa propriului index. Dar sunt excelente la utilizarea rezultatelor altor motoare de căutare.

Motoare de căutare

Tehnologia de căutare generalizată constă din următoarele etape:

    Utilizatorul formulează o cerere

    Sistemul caută documente (sau imaginile de căutare ale acestora)

    Utilizatorul primește rezultatul (informații despre documente)

    Utilizatorul îmbunătățește sau reformează cererea

    Se organizează o nouă căutare...

De obicei, motoarele de căutare acceptă două moduri: modul de căutare simplă și modul de căutare avansată. Să luăm în considerare posibilitățile generalizate.

Formarea unei cereri în modul de căutare simplă. Puteți introduce pur și simplu unul sau mai multe cuvinte separate printr-un spațiu; căutarea cuvintelor cu toate terminațiile posibile este modelată de simbolul * la sfârșitul cuvântului. Multe sisteme vă permit să căutați expresii sau fraze; pentru a face acest lucru, trebuie să le încadrați între ghilimele. Includerea sau excluderea obligatorie a anumitor cuvinte poate fi necesară.

Principala problemă a căutării utilizând o interogare compusă primitiv (sub formă de listare a cuvintelor cheie) este că motorul de căutare va găsi toate paginile pe care cuvintele specificate apar în orice parte a documentului. De obicei, numărul de pagini găsite va fi prea mare.

Pentru a îmbunătăți calitatea căutării în modul de căutare simplă, este permisă utilizarea operatorilor logici și a operatorilor care vă permit să limitați zona de căutare, precum și să selectați o anumită categorie de documente din lista prezentată.

Multe motoare de căutare includ operatori speciali în limbajul lor de interogare care vă permit să căutați în anumite zone ale unui document, de exemplu, în titlul acestuia, sau să căutați un document după o parte cunoscută a adresei sale.

Modul de interogare avansat sau detaliat in diferite sisteme este implementat individual, dar cel mai adesea este o forma in care operatorii si elementele cheie mentionate sunt implementate prin simpla bifare a casutelor corespunzatoare sau selectarea parametrilor dintr-o lista.

Mai jos, ca exemplu, sunt informații din secțiune Ajutor Motor de căutare Yandex: fereastra de căutare avansată, limbaj de interogare, căutare în ceea ce a fost găsit.

Căutare V găsite Dacă V rezultat al cererii Yandex găsite o mulțime de documente, dar pe un subiect mai larg decât doriți, puteți restrânge această listă specificând interogarea dvs. O altă opțiune este să activați caseta de selectare V găsite V formularul de căutare, setați cuvinte cheie suplimentare, iar următoarea căutare va fi efectuată numai pe acele documente care au fost selectate V căutare anterioară.

Memento pentru utilizarea limbajului de interogare

Sens

„Vino la noi pentru murături de dimineață”

Cuvintele vin la rând în forma exactă

„Ambasadorul *a sosit”

Cuvânt lipsă din ghilimele

jumătate de felie și porumb

Cuvinte într-o singură propoziție

echipa && obţine

Cuvinte într-un singur document

cocoș de munte | potârniche | cineva

Căutați oricare dintre cuvinte

nu poţi<< винить

Neclasare „și”: expresia după operator nu afectează poziția documentului în rezultatele căutării

Trebuie /2 să execut

Distanța în două cuvinte în orice direcție (adică un cuvânt poate apărea între cuvintele date)

ceva ce ~~ inteleg

Eliminarea unui cuvânt voi intelege din căutare

cu inteligența mea /+2

Distanța în două cuvinte în ordine directă

ceai ~ laptem

Căutați o propoziție unde este cuvântul ceai se întâlnește fără un cuvânt pantofi bast

supă de varză /(-1 +2) slurping

Distanța de la un cuvânt în ordine inversă la două cuvinte în ordine înainte

Îmi dau seama ce!

Cuvinte în formă exactă cu majuscule specificate

se dovedește că && (+ pe | !me)

Parantezele formează grupuri în interogări complexe

Politică

Forma de dicționar a cuvântului

titlu:(în țară)

Căutați după titlurile documentelor

url:ptici.narod.ru/ptici/kuropatka.htm

Căutați după URL

cu siguranță inurl:vojne

Căutare pe baza fragmentului de adresă URL

Căutați după gazdă

Căutați după gazdă în introducerea inversă

site:http://www.lib.ru/PXESY/FILATOW

Căutați în toate subdomeniile și paginile unui anumit site

Căutați după un singur tip de fișier

Căutare limitată de limbă

Căutare limitată de domenii

Căutați cu restricții de dată

afaceri de stat && /3 prinzi firul

Distanța 3 propoziții în orice direcție

ceva ce ~~ inteleg

Eliminarea unui cuvânt voi intelege din căutare

O opțiune interesantă este să căutați documente pe web care leagă la o pagină cu o adresă URL pe care o specificați. În acest fel, puteți găsi pagini pe web care au link-uri către site-ul dvs. Web. Unele sisteme vă vor permite să vă limitați căutarea într-un anumit domeniu.

Operatorii speciali suplimentari includ:

    Operatori pentru căutarea documentelor cu un anumit fișier grafic;

    Operatorii care limitează data paginilor căutate;

    Operatori de proximitate între cuvinte;

    Operatori de contabilitate sub formă de cuvinte;

    Operatori pentru sortarea rezultatelor (după relevanță, prospețime, vechime).

Trebuie remarcat faptul că, din păcate, astăzi nu există un standard pentru numărul și sintaxa operatorilor acceptați pentru diverse motoare de căutare. Se depun eforturi pentru dezvoltarea unui standard pentru sintaxa operatorilor suportați, așa că se speră ca dezvoltatorii motoarelor de căutare să se ocupe de experiența utilizatorului. În această etapă de dezvoltare a instrumentelor de căutare, un utilizator, atunci când accesează un anumit motor de căutare, trebuie în primul rând să se familiarizeze cu regulile sale de compunere a interogărilor. De regulă, va exista un link pe pagina de pornire Ajutor, care vă va duce la informații de referință.

Diferitele motoare de căutare descriu un număr diferit de surse de informații de pe Internet. Prin urmare, nu vă puteți limita căutarea doar la unul dintre motoarele de căutare specificate.

Să luăm în considerare modalități prezentarea rezultatelor căutării în motoarele de căutare.

Cel mai adesea, numărul documentelor găsite depășește câteva zeci, iar în unele cazuri poate ajunge la sute de mii! Prin urmare, ca formă de emitere, se întocmește o listă de documente de 5-10-15 unități pe pagină, cu posibilitatea de a trece la următoarea porțiune din partea de jos a paginii. Trebuie indicate titlul și adresa URL (adresa) documentului găsit; uneori sistemul indică gradul de relevanță a documentului ca procent.

Descrierea unui document conține cel mai adesea primele câteva propoziții sau fragmente din textul documentului cu cuvinte cheie evidențiate. De regulă, este indicată data actualizării (verificarea) documentului, dimensiunea acestuia în kiloocteți; unele sisteme determină limba documentului și codificarea acestuia (pentru documentele în limba rusă).

Ce poți face cu rezultatele obținute? Dacă titlul și descrierea documentului corespund cerințelor dvs., puteți accesa imediat sursa inițială folosind linkul. Este mai convenabil să faceți acest lucru într-o fereastră nouă pentru a putea analiza în continuare rezultatele căutării. Multe motoare de căutare vă permit să căutați în documentele găsite și vă puteți rafina interogarea introducând termeni suplimentari.

Dacă inteligența sistemului este mare, vi se poate oferi serviciul de căutare a documentelor similare. Pentru a face acest lucru, selectați un document care vă place în mod deosebit și îl îndreptați către sistem ca model de urmat.

Cu toate acestea, automatizarea determinării similarității este o sarcină foarte netrivială și adesea această funcție nu funcționează conform așteptărilor. Unele motoare de căutare vă permit să resortați rezultatele. Pentru a economisi timp, puteți salva rezultatele căutării ca fișier pe unitatea dvs. locală pentru studiu offline ulterior.

De îndată ce coletul ajunge la unul dintre depozitele noastre din străinătate sau din Rusia, veți primi o notificare prin e-mail. În viitor, veți putea urmări coletul pe site-ul nostru în secțiunea „Urmărire”; pentru a face acest lucru, trebuie să introduceți numărul de urmărire.

Vă rugăm să vă asigurați că ați introdus corect adresa de corespondență în profilul dvs. IPS și că căsuța de e-mail nu este plină.

Dacă vânzătorul dumneavoastră (magazinul online) v-a informat că coletul dumneavoastră a ajuns la unul dintre birourile noastre, dar tot nu îl puteți urmări, vă rugăm să ne contactați, dacă este posibil, furnizând informații complete despre coletul dumneavoastră (numele magazinului, expeditorul și adresa de plecare, numărul de identificare, data plecării etc.).

    Livrare colete din strainatate. Cum functioneaza?

    Oferim tuturor clienților noștri (fie că sunt un client obișnuit sau un client care dorește să primească un colet o singură dată) adrese poștale în trei orașe din întreaga lume - Londra, New York și Hanovra. Oricăruia dintre ei, respondentul dumneavoastră (magazin online, prieten, rudă, coleg etc.) vă poate trimite un colet și în 7-10 zile lucrătoare de la sosirea acestuia la una dintre aceste adrese, îl veți primi la Moscova.

    Cum pot obține adrese?

    Există două opțiuni:

    • Doriți să primiți unul sau două colete pentru moment:

    Trebuie să vă duceți pașaportul la biroul IPS. Aici vă vor face o fotocopie a pașaportului, vă vor scrie numerele de contact și vă vor oferi adresa de care aveți nevoie (în Londra, New York sau Hanovra).

    • Intenționați să primiți în mod regulat (de câteva ori pe lună) scrisori, reviste sau colete din străinătate:

    Este logic să încheiați un contract permanent de servicii. Pentru a face acest lucru, trebuie să vă abonați la o cutie poștală și să faceți în mod regulat o plată a abonamentului. Taxa minimă de abonament lunară este de 755,2 ruble (inclusiv TVA 18%). (Există și alte taxe de abonament, acestea depind de setul de servicii suplimentare gratuite deja incluse în serviciul de abonament). În acest caz, primești toate cele trei adrese și le poți folosi la discreția ta.

    Pentru a obține o adresă, nu pot să vin la tine, ci să trimit o copie a pașaportului meu pe e-mail?

    Puteți, dar apoi aveți nevoie de o plată în avans.

    În cele două cazuri de mai sus (a se vedea întrebarea 2), deservim clienții în regim de ramburs - livrăm (adică, mai întâi oferim serviciul), apoi primim doar plata de la client. Prin urmare, este important pentru noi să ne asigurăm că clientul nostru este o persoană reală.

    Dacă doriți să ne trimiteți o copie a pașaportului dvs. electronic, atunci o plată în avans de la dvs. în valoare de cel puțin 4000,0 ruble este importantă pentru servicii ulterioare. Daca dupa prestarea si plata serviciului de livrare iti mai ramane o suma, la prima solicitare aceasta suma iti va fi returnata la detaliile din care ne-ai trimis-o. Sau în viitor îl puteți folosi pentru a plăti pentru serviciile din compania noastră.

    De ce este benefic să te abonezi la o cutie poștală?

    Un client care se abona la o cutie poștală devine clientul nostru obișnuit.

    Clienții obișnuiți au următoarele avantaje:

    • Tarifele pentru serviciile noastre pentru clienții noștri obișnuiți sunt cu 10-30% mai mici decât tarifele pentru clienții neobișnuiți (în funcție de tipul de serviciu).
    • Tarifele pentru livrarea coletelor din străinătate se calculează în funcție de greutatea reală a coletului și nu se bazează pe greutatea rotunjită la numărul total de kilograme.
    • Se aplică reduceri cumulate.
    • Ambalarea și reambalarea scrisorilor/coletelor pentru clienții noștri obișnuiți este gratuită.
    • Pentru clienții obișnuiți, scrisorile/coletele sunt livrate sau trimise de la adresele noastre străine la orice altă adresă internațională sau în mâinile oricărei persoane din străinătate.
    • Un client obișnuit primește informații despre toate modificările în avans.
    • Un client obișnuit poate comanda serviciul non-standard de care are nevoie, chiar dacă acest serviciu nu este indicat în lista serviciilor IPS și trebuie efectuat în afara Rusiei.
    • Depozitare gratuită pe termen lung a scrisorilor/coletelor în birourile noastre externe.
    • Ridicați-vă singur coletele de la birourile noastre de peste mări.
  • Pot folosi o cutie poștală abonată în biroul dumneavoastră pentru a primi corespondență, corespondență, facturi, abonamente de la Moscova sau Rusia?

    Cu siguranță. Taxa noastră de abonament este mai ieftină decât la Russian Post. În acest caz, în afară de taxa de abonament, nu plătiți nimic altceva.

    Trebuie să trimit un colet în străinătate. Prin ce diferă serviciile de expediere IPS de alte companii de curierat?

    • Prin intermediul nostru, clientul poate trimite in 3 moduri:
      • modul poștal - cel mai ieftin, dar și cel mai lent - 10-12 zile lucrătoare;
      • modul curier cu viteza medie de livrare – 4-5 zile lucratoare (Express Smart);
      • Mod curier cu cea mai mare viteza de livrare - 1-2 zile lucratoare (Express business).
    • Pregătim în mod independent toate documentele vamale pentru client.
    • Oferim consultanță gratuită cu privire la optimizarea procesului logistic de trimitere a oricărei mărfuri în orice țară din lume.
  • Am 4 colete mici. Puteți împacheta aceste pachete într-unul singur?

    Putem. Vom asigura consolidarea parcelelor. Pentru clienții obișnuiți (abonați la căsuța poștală) acest serviciu este gratuit.

    Cum pot plăti livrarea?

    În momentul de față, sunt disponibile metode de plată numerar și fără numerar.

    Ce despăgubire voi fi plătită dacă îmi pierd pachetul?

    Livrarea noastră este foarte fiabilă. Cu toate acestea, dacă acest lucru s-a întâmplat și coletul a fost asigurat - suma asigurată integrală.

    Cât durează livrarea unui pachet?

    Livrarea durează de obicei între 7 și 12 zile de la data sosirii coletului la depozitul nostru din țara respectivă.

    Îmi pot stoca coletul în depozitul dumneavoastră din SUA/Marea Britanie/Germania timp de 1-2 luni? Există o taxă suplimentară pentru asta?

    Dacă nu sunteți abonat la o cutie poștală, IPS vă va stoca gratuit coletul doar timp de 7 zile de la data primirii la depozit. Dacă coletul este depozitat mai mult de 7 zile, se va percepe o taxă suplimentară. IPS își rezervă dreptul, la discreția sa, de a dispune de coletele care sunt depozitate într-un depozit mai mult de 60 de zile, ai căror proprietari nu au plătit pentru depozitare.

    Care sunt beneficiile expedierii cu IPS?

    Avantajele livrării cu IPS:

    • fiabilitatea livrării;
    • costuri de livrare rezonabile și de înțeles;
    • Termenul de livrare este de 7-12 zile;
    • prezența unui birou din Moscova unde sunt întotdeauna gata să ajute;
    • capacitatea de a cumpăra bunuri care nu sunt disponibile în Rusia;
    • capacitatea de a cumpăra bunuri în magazine care nu livrează mărfuri în Rusia;
    • posibilitatea de a economisi la livrare prin utilizarea serviciului de consolidare și reambalare a expedițiilor.
  • Ce informații ar trebui să indice în câmpul „Adresa de livrare” atunci când cumpăr bunuri din magazinele online?

    Trebuie să introduceți: adresa biroului nostru extern furnizată de compania noastră, numele și prenumele dvs., numărul căsuței poștale.

    Ar trebui să vă spun ceva după ce am făcut o achiziție și am trimis coletul la adresa furnizată mie?

    După plasarea unei comenzi, trebuie să ne informați despre comanda finalizată, să furnizați datele comenzii - descrierea atașamentului, greutatea acestuia, costul. Aceste informații sunt necesare pentru a vă procesa coletele.

    Există restricții privind posibilele investiții?

    Cu IPS puteți trimite un colet cu orice atașament care nu este interzis de legislația Federației Ruse.

    Investițiile interzise includ:

    • explozivi,
    • articole inflamabile,
    • materiale radioactive,
    • gaz comprimat,
    • arme de foc,
    • orice articole care, prin natura ambalajului, ar putea cauza rănirea personalului IPS sau deteriorarea altor articole.

    Puteți găsi o listă completă a atașamentelor interzise.

    Înainte de a efectua o achiziție într-un magazin online, vă rugăm să vă asigurați că achiziția dvs. nu se încadrează în categoria mărfurilor periculoase.

    Garantează IPS autenticitatea și calitatea produsului pe care îl achiziționez?

    IPS nu este responsabilă față de client pentru autenticitatea și calitatea bunurilor achiziționate de acesta. Pentru siguranța dumneavoastră, vă rugăm să cumpărați produse numai din magazine online de încredere.

    Cum să împachetezi corect un pachet?

    Cu toate acestea, dacă este necesar, vă rugăm să vă asigurați că pachetul dumneavoastră este ambalat corespunzător sau să informați IPS că este necesar un ambalaj suplimentar pentru pachetul dumneavoastră.

    Nu suntem responsabili pentru nicio pierdere sau daune care pot apărea în timpul manipulării, transportului sau livrării din cauza ambalării necorespunzătoare de către expeditor.

    Ce documente trebuie furnizate pentru a confirma costul estimat de transport?

    Trebuie furnizată o factură întocmită de expeditor, iar sumele indicate trebuie să includă toate taxele, precum și toate celelalte taxe posibile.

    La ce magazine online pot face cumpărături?

    Ce ar trebui să fac dacă vânzătorul a trimis produsul greșit/cantitatea greșită?

    Întrucât compania IPS vă livrează numai coletul în Rusia, toate întrebările privind configurația și adecvarea mărfurilor, precum și posibilitatea de schimb sau returnare, trebuie rezolvate direct cu vânzătorul sau expeditorul.

    Doresc sa achizitionez bijuterii din metale pretioase cu pietre pretioase. Este posibil?

    Nu. Nu livrăm articole din metale prețioase și/sau pietre prețioase.

    Când voi afla costul final de livrare?

    Doar după ce coletul ajunge la depozitul nostru străin ales de dumneavoastră.

    Odată ce pachetul dvs. a fost procesat, veți fi notificat prin e-mail cu privire la termenele de livrare și costurile finale de transport. Coletului tău i se va atribui un număr personal, poți, urmând instrucțiunile din scrisoare, să plătești costul de livrare și să urmărești starea expedierii.

    Dacă doriți să vă consolidați expedierea, trebuie să efectuați plata după formarea finală a coletului.

    Un client care se abonează la o cutie poștală nu trebuie să efectueze nicio plată înainte de a-și primi corespondența/coletele la biroul IPS din Moscova.

    Dacă decid să refuz livrarea către Rusia a unui colet care a sosit în numele meu la un birou IPS străin, mi se vor reține orice sumă dacă este necesar să returnez coletul expeditorului sau să-l distrug?

    Dacă, din orice motiv, decideți să opriți livrarea coletului în Rusia, vă rugăm să discutați urgent cu expeditorul pentru ca acesta să nu trimită coletul la adresa IPS.

    Dacă coletul ajunge la adresa depozitului IPS, putem, la indicația dvs., să trimitem coletul înapoi (sau redirecționat la o altă adresă) cu o taxă administrativă de 10 USD, precum și 100% din costul returnării/livrării coletului. .

    De asemenea, putem elimina coletul cu o deducere de 10 USD taxă administrativă (pentru coletele care nu depășesc 15 kg). Dacă un pachet este stocat mai mult de 21 de zile, IPS va percepe o taxă de 0,50 USD pe zi per pachet.

    Care este greutatea minimă plătibilă a unui colet livrat?

    Pentru clienții cutiei poștale - greutatea minimă taxabilă este de 1 kg, urmată de incremente de 0,1 kg.