Tema: indexarea documentelor: definiție, procese de bază. Limbajul de regăsire a informațiilor. Sistem de indexare. Scopul procesului de indexare

Ce este indexarea site-urilor? Cum se întâmplă? Puteți găsi răspunsuri la aceste și alte întrebări în articol. în motoarele de căutare) este procesul de adăugare a informațiilor despre un site într-o bază de date de către un robot motor de căutare, care este ulterior folosit pentru a căuta informații despre proiecte web care au fost supuse unei astfel de proceduri.

Datele despre resursele web constau cel mai adesea în Cuvinte cheie, articole, link-uri, documente. Audio, imaginile și așa mai departe pot fi, de asemenea, indexate. Se știe că algoritmul de identificare a cuvintelor cheie depinde de dispozitivul de căutare.

Tipuri de informații indexate ( fișiere flash, javascript) există o anumită limitare.

Managementul incluziunii

Indexarea unui site web este un proces complex. Pentru a-l gestiona (de exemplu, interziceți includerea unei anumite pagini), trebuie să utilizați fișierul robots.txt și reglementări precum Permite, Interzice, Întârziere cu crawlere, Agent utilizator și altele.

Etichetele sunt, de asemenea, folosite pentru indexare și recuzită , ascunzând conținutul resursei de roboții Google și Yandex (Yahoo folosește eticheta ).

În motorul de căutare Goglle, site-urile noi sunt indexate de la câteva zile la o săptămână, iar în Yandex - de la o săptămână la patru.

Doriți ca site-ul dvs. să apară în rezultatele motoarelor de căutare? Apoi trebuie procesat de Rambler, Yandex, Google, Yahoo și așa mai departe. Trebuie să raportezi motoare de căutare(păianjeni, sisteme) despre existența site-ului dvs. și apoi îl vor accesa cu crawlere în întregime sau parțial.

Multe site-uri nu au fost indexate de ani de zile. Informațiile conținute pe ele nu sunt văzute de nimeni, cu excepția proprietarilor lor.

Metode de prelucrare

Indexarea site-ului se poate face în mai multe moduri:

Prima opțiune este adăugare manuală. Trebuie să introduceți datele site-ului dvs. prin intermediul formularelor speciale oferite de motoarele de căutare.
În al doilea caz, robotul motorului de căutare însuși găsește site-ul dvs. folosind link-uri și îl indexează. El vă poate găsi site-ul folosind link-uri din alte resurse care conduc la proiectul dvs. Această metodă este cea mai eficientă. Dacă un motor de căutare găsește un site în acest fel, îl consideră semnificativ.

Termenele limită

Indexarea site-ului nu este foarte rapidă. Termenele variază, de la 1-2 săptămâni. Link-urile din resurse autorizate (cu PR și țâțe excelente) accelerează semnificativ plasarea site-ului în baza de date a motorului de căutare. Astăzi Google este considerat cel mai lent, deși până în 2012 ar putea face această treabă într-o săptămână. Din păcate, totul se schimbă foarte repede. Se știe că Mail.ru lucrează cu site-uri web în acest domeniu de aproximativ șase luni.

Nu orice specialist poate indexa un site web în motoarele de căutare. Momentul de adăugare a unor noi pagini în baza de date a unui site care a fost deja procesat de motoarele de căutare este afectat de frecvența actualizării conținutului acestuia. Dacă pe o resursă apar în mod constant informații proaspete, sistemul le consideră actualizate frecvent și utile pentru oameni. În acest caz, activitatea sa este accelerată.

Puteți monitoriza progresul indexării site-urilor în secțiuni speciale pentru webmasteri sau pe motoarele de căutare.

Schimbări

Deci, ne-am dat deja seama cum este indexat site-ul. Trebuie remarcat faptul că bazele de date ale motoarelor de căutare sunt actualizate frecvent. Prin urmare, numărul de pagini din proiectul dvs. adăugate acestora se poate modifica (fie să scadă, fie să crească) din următoarele motive:

sancțiuni pentru motoarele de căutare împotriva site-ului;
prezența erorilor pe site;
modificări ale algoritmilor motoarelor de căutare;
hosting dezgustător (inaccesibilitatea serverului pe care se află proiectul) și așa mai departe.

Yandex răspunde la întrebări frecvente

Yandex este un motor de căutare folosit de mulți utilizatori. Ocupă locul cinci printre sistemele de căutare din lume în ceea ce privește numărul de solicitări de cercetare procesate. Dacă ați adăugat un site la acesta, poate dura prea mult să îl adăugați la baza de date.

Adăugarea unei adrese URL nu garantează că va fi indexată. Aceasta este doar una dintre metodele prin care sistemul informează robotul că a noua resursa. Dacă site-ul dvs. are puține sau deloc link-uri de la alte site-uri, adăugarea acestuia vă va ajuta să îl descoperiți mai repede.

Dacă indexarea nu are loc, trebuie să verificați dacă au existat erori pe server în momentul în care cererea a fost creată de robotul Yandex. Dacă serverul raportează o eroare, robotul își va încheia activitatea și va încerca să o completeze într-un acces cu crawlere complet. Angajații Yandex nu pot crește viteza de adăugare a paginilor la baza de date a motorului de căutare.

Indexarea unui site în Yandex este o sarcină destul de dificilă. Nu știi cum să adaugi o resursă la un motor de căutare? Dacă există link-uri către acesta de pe alte site-uri web, atunci nu trebuie să adăugați site-ul în mod specific - robotul îl va găsi și indexa automat. Dacă nu aveți astfel de legături, puteți utiliza formularul Adăugați o adresă URL pentru a informa motoarele de căutare că site-ul dvs. există.

Este important să rețineți că adăugarea unei adrese URL nu garantează că creația dvs. va fi indexată (sau cât de repede va fi indexată).

Mulți oameni sunt interesați de cât timp durează indexarea unui site web în Yandex. Angajații acestei companii nu oferă garanții și nu prezic termene limită. De regulă, deoarece robotul a aflat despre site, paginile sale apar în căutări în decurs de două zile, uneori după câteva săptămâni.

Procesul de procesare

Yandex este un motor de căutare care necesită acuratețe și atenție. Indexarea site-ului constă din trei părți:

Robotul de căutare accesează cu crawlere paginile de resurse.
Conținutul site-ului este înregistrat în baza de date (index) a sistemului de căutare.
După 2-4 săptămâni, după actualizarea bazei de date, puteți vedea rezultatele. Site-ul dvs. va apărea (sau nu va apărea) în rezultatele căutării.

Verificare de indexare

Cum se verifică indexarea site-ului? Există trei moduri de a face acest lucru:

Introduceți numele companiei dvs. în bara de căutare (de exemplu, „Yandex”) și verificați fiecare link de pe prima și a doua pagină. Dacă găsiți acolo adresa URL a creației dvs., înseamnă că robotul și-a finalizat sarcina.
Puteți introduce adresa URL a site-ului dvs. în bara de căutare. Veți putea vedea câte foi de Internet sunt afișate, adică indexate.
Înregistrați-vă pe paginile webmasterilor din Mail.ru, Google, Yandex. După ce treceți de verificarea site-ului, veți putea vedea rezultatele indexării și ale altor servicii ale motoarelor de căutare create pentru a îmbunătăți performanța resursei dvs.

De ce refuză Yandex?

Indexarea unui site în Google se realizează după cum urmează: robotul introduce toate paginile site-ului în baza de date, de calitate scăzută și de înaltă calitate, fără a selecta. Dar doar documentele utile sunt incluse în clasament. Și Yandex exclude imediat toate vechiturile web. Poate indexa orice pagină, dar motorul de căutare în cele din urmă elimină tot gunoiul.

Ambele sisteme au un index suplimentar. Pe ambele pagini De calitate inferioară afectează clasamentul site-ului web în ansamblu. Există o filozofie simplă la lucru aici. Resursele preferate ale unui anumit utilizator se vor clasa mai sus în rezultatele căutării. Dar același individ va avea dificultăți în a găsi un site care nu i-a plăcut data trecută.

De aceea este mai întâi necesar să protejați copiile documentelor web împotriva indexării și să verificați prezența pagini goaleși nu permiteți conținut de calitate scăzută să apară în rezultatele căutării.

Accelerarea Yandex

Cum pot accelera indexarea site-urilor în Yandex? Trebuie urmați următorii pași:

Acțiuni intermediare

Ce trebuie făcut până când pagina web este indexată de Yandex? Un motor de căutare autohton ar trebui să considere site-ul sursa principală. De aceea, chiar și înainte de a publica un articol, este imperativ să adăugați conținutul acestuia în formularul „Texte specifice”. În caz contrar, plagiatorii vor copia intrarea în resursa lor și vor ajunge primii în baza de date. În cele din urmă, ei vor fi recunoscuți drept autori.

Baza de date Google

Interdicţie

Ce este interdicția de indexare a site-urilor? Îl puteți aplica fie întregii pagini, fie unei părți separate a acesteia (un link sau o bucată de text). De fapt, există atât o interdicție globală de indexare, cât și una locală. Cum se implementează acest lucru?

Să luăm în considerare interzicerea adăugării unui site web la baza de date a motorului de căutare în Robots.txt. Folosind fișierul robots.txt, puteți exclude indexarea unei pagini sau a unei întregi categorii de resurse, astfel:

Agent utilizator: *
Nu permiteți: /kolobok.html
Nu permiteți: /foto/

Primul punct indică faptul că instrucțiunile sunt definite pentru toate subsistemele, al doilea indică faptul că indexarea fișierului kolobok.html este interzisă, iar al treilea nu permite adăugarea întregului conținut al folderului foto la baza de date. Dacă trebuie să excludeți mai multe pagini sau foldere, specificați-le pe toate în Robots.

Pentru a preveni indexarea unei foi individuale de internet, puteți utiliza metaeticheta robots. Diferă de robots.txt prin faptul că oferă instrucțiuni tuturor subsistemelor simultan. Această metaetichetă se supune principii generale format html. Ar trebui să fie plasat în antetul paginii între intrarea Ban, de exemplu, ar putea fi scris astfel: .

Ajax

Cum indexează Yandex site-urile Ajax? Astăzi Tehnologia Ajax folosit de mulți dezvoltatori de site-uri web. Desigur, are mari oportunități. Folosind-o, puteți crea pagini web interactive rapide și productive.

Cu toate acestea, sistemul „vede” foaia web diferit decât utilizatorul și browserul. De exemplu, o persoană se uită la o interfață confortabilă cu foi de internet încărcate mobil. Pentru robot de căutare conținutul aceleiași pagini poate fi gol sau prezentat ca alt conținut HTML static pentru care nu sunt folosite scripturi pentru a genera.

Pentru a crea site-uri Ajax, puteți folosi o adresă URL cu #, dar robotul motorului de căutare nu o folosește. De obicei, partea URL după # este separată. Acest lucru trebuie luat în considerare. Prin urmare, în loc de o adresă URL ca http://site.ru/#example, el face o solicitare pagina principala resursă aflată la http://site.ru. Aceasta înseamnă că este posibil ca conținutul foii de internet să nu fie inclus în baza de date. Ca urmare, nu va apărea în rezultatele căutării.

Pentru a îmbunătăți indexarea site-urilor Ajax, Yandex a acceptat modificări în robotul de căutare și regulile de procesare a adreselor URL ale unor astfel de site-uri web. Astăzi, webmasterii pot indica motorului de căutare Yandex necesitatea indexării prin crearea unei scheme adecvate în structura resurselor. Pentru a face acest lucru aveți nevoie de:

Înlocuiți simbolul # din adresa URL a paginii cu #!. Acum robotul va înțelege că poate solicita o versiune HTML a conținutului pentru această foaie de internet.
Versiunea HTML a conținutului unei astfel de pagini ar trebui plasată la o adresă URL unde #! înlocuit cu?_escaped_fragment_=.

GOST 7,66-92
(ISO 5963-85)

Grupa T62

STANDARDUL DE STAT AL UNIUNII URSS

Sistem de standarde privind informarea, biblioteconomia și publicarea

DOCUMENTE DE INDEXARE

Cerințe generale pentru indexarea coordonatelor

Sistemul de standarde privind informațiile,
biblioteconomie și editare. Indexarea documentelor.
Cerințe generale pentru indexarea coordonatelor

OKSTU 0007

Data introducerii 1993-01-01

DATE INFORMAȚII

1. DEZVOLTAT ȘI INTRODUS de către Comitetul de Stat al URSS pentru Știință și Tehnologie și Comitetul Tehnic TC 191 „Științific Informații tehnice, bibliotecă și editura"

DEZVOLTATORII

V.N. Beloozerov, Ph.D. Philol. Științe (conducător de subiect); N.D. Kravchenko, Ph.D. ped. științe; I.V.Trostnikova; N.A.Slivnitsina; G. N. Khondkarian; V.N.Kazakov, Ph.D. tehnologie. stiinte

2. APROBAT ȘI INTRAT ÎN VIGOARE prin Rezoluția Comitetului de Standardizare și Metrologie al URSS din 27 martie 1992 N 297

Acest standard a fost dezvoltat folosind metoda aplicare directă standardul ISO 5963-85 "Documentarea. Metode de analiză a documentelor, determinarea obiectului acestora și alegerea termenilor de indexare" cu cerințe suplimentare, reflectând nevoile economiei naționale

3. Data primei inspecții este 1995.

Frecvența inspecției - 5 ani

4. DEZVOLTAT PENTRU PRIMA Oara

5. DOCUMENTE REGLEMENTARE ŞI TEHNICE DE REFERINŢĂ


	Număr articol, cerere
GOST 7,0-84	Parte introductivă
GOST 7,25-80
GOST 7,26-80	Parte introductivă
GOST 7,27-80	Parte introductivă; Anexa 1
GOST 7,52-85	Parte introductivă; 5.7
GOST 7,59-90	Parte introductivă; Anexa 1

Acest standard specifică Cerințe generale pentru a coordona indexarea documentelor, inclusiv regulile pentru formarea unei imagini de căutare a unui document. Cerințele specifice pentru sistematizarea și identificarea subiectului documentelor sunt în conformitate cu GOST 7.59. Formularul pentru prezentarea imaginii de căutare a unui document în formatul comunicativ MEKOF - în conformitate cu GOST 7.52.

Standardul se aplică sistemelor de regăsire a informațiilor în care conținutul documentelor este prezentat într-o formă comprimată prin unități lexicale ale limbajului de regăsire a informațiilor. Standardul nu se aplică pentru generarea de înregistrări faptice în bazele de date faptice.

Termeni și definiții - conform GOST 7.0, 7.26, 7.27, 7.59 și Anexa 1.

Cerințele suplimentare care reflectă nevoile economiei naționale sunt prezentate în Anexa 1.

1. DISPOZIȚII GENERALE

1.1. Procesul de indexare include următorii pași, care se desfășoară în următoarea secvență:

analiza și determinarea conținutului documentului ca obiect de indexare;

selectarea conceptelor care caracterizează conținutul documentului;

selectarea termenilor de indexare pentru a desemna concepte;

formarea unei imagini de căutare a unui document din termeni de indexare.

Etapele enumerate pot fi combinate ca parte a procedurilor tehnologice, cu condiția ca fiecare etapă să fie efectuată corespunzător.

1.2. Imaginea de căutare a documentului (SID) este formată din termeni de indexare selectați folosind mijloacele gramaticale ale limbajului de regăsire a informațiilor (IRL).

1.3. În timpul procesului de indexare, nu este recomandat să descrii un document ca obiect fizic (în ceea ce privește forma, volumul, etc.). Este permisă reflectarea unor astfel de informații în POD dacă vă permite să determinați mai precis conformitatea documentului cu nevoile de informații ale utilizatorului sistemului.

2. ANALIZA DOCUMENTULUI

2.1. Când analizează un document, indexatorului ar trebui să i se ofere posibilitatea de a revizui documentul în întregime. Dacă este imposibil să vă familiarizați complet cu documentul, indexatorul trebuie să studieze părțile de text disponibile ale documentului (principalele surse de indexare):

aparatul de referință al documentului - titlu (nume), adnotare, rezumat, cuprins (cuprins), prefață, concluzie etc.;

introducere;

titlurile părților și capitolelor;

primele fraze ale capitolelor și ale paragrafelor;

ilustrații, diagrame, tabele și legende;

cuvinte și grupuri de cuvinte care sunt subliniate sau evidențiate prin mijloace de tipărire în text.

Indexarea numai după titlu este incompletă. Când indexați prin rezumate și adnotări, trebuie să vă asigurați că conținutul documentului este transmis în mod adecvat în acestea.

2.2. Atunci când se analizează documente non-text (audiovizuale și altele), care pe lângă citire necesită vizualizare, ascultare, testare a obiectului în acțiune și alte proceduri similare, este permisă indexarea acestora după componenta text existentă (nume, descriere scurta etc.), dar chiar și în acest caz indexatorului ar trebui să i se ofere posibilitatea de a se familiariza pe deplin cu documentul dacă materialul textual pare insuficient.

3. SELECȚIA CONCEPTELOR CARACTERISTICE CONȚINUTUL DOCUMENTULUI

3.1. Numărul de caracteristici și concepte reflectate în PML determină caracterul complet al acestuia și este cel mai important indicator al calității indexării.

3.1.1. PML trebuie să reflecte toate conceptele care pot fi de valoare pentru utilizatorii sistemului.

Un document poate identifica mai mult de un subiect din zona de interes a unui utilizator. Aceste subiecte ar trebui tratate separat.

3.1.2. Subiectele reflectate în timpul indexării nu ar trebui să se limiteze la cadrul restrâns al intereselor imediate ale utilizatorilor sistemului de regăsire a informațiilor. Conceptele legate de aspectele secundare ale documentului (de exemplu, aspectele sociale și economice ale cercetării științifice și tehnice) ar trebui incluse și în AML.

3.1.3. La alegerea conceptelor, criteriul principal este valoarea potențială a conceptului pentru exprimarea conținutului unui document sau pentru căutarea acestuia. În acest caz, este necesar să ne concentrăm asupra solicitărilor tipice către IPS:

selectați conceptele cel mai frecvent utilizate în rândul comunității de utilizatori IPS;

clarifica componenţa vocabularului şi a regulilor gramaticale ale FP pe baza părere cu utilizatorii.

Modificările aduse IPA nu trebuie să încalce structura generalași logica inerentă creării sale.

3.1.4. Numărul de termeni de indexare alocați unui document este determinat de cantitatea de informații conținute în document. Limitarea numărului de termeni ar trebui să se bazeze pe o selecție semnificativă a celor mai importante concepte.

3.2. Completitudinea indexării adoptate în fiecare sistem informațional este determinată de scopul său funcțional. Mărimea documentului afectează, de asemenea, în mare măsură caracterul complet al indexării. Este necesar să se țină seama de acești factori și, pe baza lor, să se facă o selecție expertă a conceptelor din document, fără a încerca să includă în AML toate conceptele menționate în acesta.

3.3. Specificul AML este determinat de măsura în care conceptele documentului sunt reflectate cu acuratețe în termenii de indexare și este, de asemenea, unul dintre parametrii calității indexării. Înlocuirea unui concept cu un termen care reflectă un concept mai larg duce la o pierdere a specificității. Termeni mai largi pot fi folosiți în cazuri speciale:

dacă un termen prea specific nu este clar pentru utilizatori, mai ales atunci când conceptul corespunzător este utilizat numai în zonele limită de activitate;

dacă conceptul nu este dezvăluit integral în document sau este auxiliar pentru prezentarea conținutului documentului.

3.4. Se recomandă ca fiecare IPS să elaboreze liste de caracteristici care sunt considerate importante pentru reflectarea în AML. Pentru toate sistemele, poate fi recomandată o listă de indicatori de rol în conformitate cu GOST 7.52. În funcție de nevoile unui anumit IP, această listă poate fi fie extinsă, fie scurtată.

4. SELECTAREA TERMENILOR DE INDEXARE

4.1. În procesul de selectare a termenilor de indexare, conceptele care caracterizează conținutul documentului sunt:

unități lexicale preferate (descriptori sau cuvinte cheie), selectate după regulile unui anumit FL;

termeni care reflectă concepte noi, verificând acuratețea și acceptabilitatea acestora în dicționare, enciclopedii, cărți de referință, tabele de clasificare, tezaure de regăsire a informațiilor, standarde terminologice și alte surse recunoscute ca fiind autorizate în domeniu.

4.2. Selecția termenilor de indexare se realizează pe baza unui tezaur de regăsire a informațiilor înregistrat (GOST 7.25) sau publicat, care este utilizat la elaborarea interogărilor către sistemul de regăsire a informațiilor.

Când se utilizează un tezaur, este posibil să se reducă numărul de termeni incluși în AML prin excludere concepte generale, care poate fi implicat în etapa de căutare a unui document sau în etapa de întocmire a unei prescripții de căutare bazată pe link-uri din articolele tezaurului.

4.3. Conceptele care nu sunt reprezentate în dicționarul de indexare, dar sunt necesare pentru formarea PML, sunt exprimate în unul din două moduri:

un nou termen specific care este inclus în AML și în dicționar;

Mai mult termen general, disponibil în IPYA; în acest caz, termenul specific este trimis serviciului de întreținere FL ca candidat pentru includerea în dicționar.

Noile concepte sunt reprezentate ca fiind cele mai apropiate unități lexicale existente în FL și se evaluează și utilitatea includerii de noi termeni în dicționar din punct de vedere al căutării.

4.4. La indexarea cu cuvinte cheie gratuite preluate din textul documentului, acestea trebuie reduse la forma canonică conform GOST 7.25. Se recomandă limitarea lungimii frazelor la două sau trei forme de cuvinte.

Schema de indexare folosind un tezaur de regăsire a informațiilor este prezentată în Anexa 2.

5. FORMAREA IMAGINII DE CĂUTARE A UNUI DOCUMENT

5.1. POD-ul constă din termeni de indexare selectați, organizați folosind mijloacele gramaticale ale FL unui anumit IRS.

5.2. Următoarele categorii de date furnizate de tehnologia de indexare a unui anumit IRS pot fi incluse în AML:

gradul de normalizare a termenilor de indexare și vocabularul folosit pentru aceasta;

caracteristicile individuale ale termenului de indexare;

conexiunea termenilor de indexare în construcţiile sintactice ale POD.

Pentru a include date faptice în PML, categoriile gramaticale specificate în secțiunea. 6.

5.3. Pe baza gradului de normalizare, se disting două tipuri de termeni de indexare a coordonatelor: descriptori și cuvinte cheie.

5.4. Termenii de indexare trebuie să fie prezentați în AML în conformitate cu regulile de ortografie ale limbajului natural utilizat în sistem.

5.4.1. Descriptorii pot fi reprezentați prin coduri condiționate care sunt specificate în dicționarul de indexare utilizat. În acest caz, IRS trebuie să ofere o căutare automată a formelor de ortografie ale descriptorilor după codurile lor.

5.4.2. Cuvintele cheie din sistemele informatice multilingve, cu AML bazate pe diverse limbi naționale, trebuie marcate cu semne care indică faptul că aparțin uneia sau alteia limbi naturale.

5.5. Caracteristicile individuale ale termenilor de indexare sunt elemente opționale ale AML și sunt utilizate pentru a clarifica conținutul documentului și pentru a organiza proceduri regăsirea informațiilor sau prelucrarea ulterioară analitică și sintetică a documentelor din sistem.

Caracteristicile individuale includ date despre categoria semantică și morfologică a termenului de indexare, rolul și ponderea informației acestuia, metoda de obținere și utilizarea prevăzută.

5.5.1. Caracteristica semantică a termenului de indexare este de a-l clasifica în următoarele categorii lexicografice:

1) un termen care exprimă un concept științific și tehnic;

2) nume propriu, identificator;

3) numele parametrului;

4) valoarea parametrului (exprimată ca text sau o valoare numită);

5) expresie numerică;

6) desemnarea unității de valoare.

5.5.2. Caracteristica morfologică a termenului de indexare este de a-l atribui categorii lexicografice:

1) cuvânt derivat;

2) cuvânt compus;

3) frază;

4) abreviere;

5) fragment de cuvânt.

Caracteristicile morfologice sunt utilizate în POD pentru a implementa analiza semantică a unităților lexicale în IRS pe baza caracteristicilor lor formale.

5.5.3. Rolul termenului de indexare este indicat în AML pentru a clarifica locul conceptului corespunzător în conținutul documentului. Pentru aceasta, indicatorii de rol special adoptați în IRS marchează termenii de indexare care reflectă următoarele aspecte ale documentului:

1) obiectul cercetării, descrierea;

2) caracteristicile, proprietățile, parametrii obiectului;

3) metode şi mijloace de cercetare, echipamente tehnologice;

4) componente, componente, detalii ale obiectului;

5) aria de aplicare a obiectului (ramură economie, tehnologie, știință);

6) scopul obiectului;

7) scopul cercetării, dezvoltării, descrierii;

8) rezultatele cercetării și dezvoltării.

5.5.4. Ponderea informațională a unui termen de indexare reflectă în AML importanța acestui concept pentru un document dat. Numărul de gradări ale ponderii informației este determinat de nevoile unui sistem informațional specific. Este necesar să distingem:

1) concepte care exprimă subiectul principal document;

2) concepte care exprimă subiecte secundare ale documentului;

3) concepte utilizate în document ca auxiliare pentru prezentarea conţinutului acestuia.

Este acceptabil să se folosească un indicator de pondere negativă pentru a marca termenii de indexare pentru a indica faptul că conceptul nu este acoperit în document.

5.5.5. Notele necesare indicarii modului de obtinere a termenului de indexare sunt folosite pentru organizarea procesului tehnologic de indexare. Ar trebui să se distingă următoarele așternuturi:

1) termenul este atribuit la latitudinea indexatorului, dar nu se află în document;

2) termenul este înscris în AML pe baza legăturilor indicate în tezaur, dar nu este prezent în document;

3) termenul a fost obținut prin indexare automată.

5.5.6. Note despre utilizarea intenționată a termenului de indexare sunt introduse în POD pentru a evidenția unitățile lexicale supuse tratament specialîn procesele de prelucrare ulterioară analitică şi sintetică a informaţiei. Ar trebui să se distingă următoarele așternuturi:

1) termenul este folosit ca titlu de subiect în indexuri:

2) când acest termen indexarea există date faptice specificate în AML;

3) termenul este folosit doar ca un calificativ clarificator al altor termeni.

5.6. Termenii de indexare din AML pot fi furnizați cu indicatori de legătură care îi combină în structuri sintactice care reflectă:

1) succesiune și aranjament reciproc indexarea termenilor din document;

2) conexiuni semantice ale conceptelor din document;

3) conexiuni paradigmatice ale descriptorilor din tezaur.

Construcțiile sintactice sunt considerate ca unități integrale ale subdiviziunii împreună cu termenii de indexare. Ele pot fi combinate cu alte constructe sintactice sau cu termeni individuali de indexare într-un construct de ordin superior.

Numărul de niveluri ale ierarhiei structurilor sintactice este determinat de nevoile sistemelor informaționale specifice. Construcțiile de ordinul al patrulea și superior nu ar trebui folosite.

Structurile sintactice pot fi caracterizate prin indicatori de pondere, rol și utilizare prevăzută, similari termenilor de indexare individuali (a se vedea clauzele 5.5.3, 5.5.4, 5.5.6).

5.7. Înregistrarea POD-ului în memoria IPS este determinată de metoda de codificare adoptată în acesta, ținând cont de cerințele acestei secțiuni și GOST 7.52.

6. INDEXAREA DOCUMENTULUI FACTOGRAFIC

6.1. Indexarea faptică a unui document (FID) constă în identificarea într-un document și includerea în AML a datelor care exprimă informații specifice (mesaje) disponibile în document.

Pe baza rezultatelor FID, matricele de informații sunt formate în sisteme informaționale faptice, în care unitatea de informație este o înregistrare faptică.

6.2. FID presupune o distincție formală în AML între două categorii de termeni de indexare care exprimă:

1) subiecte sau obiecte ale mesajului;

2) proprietățile atribuite acestor obiecte, care sunt sensul mesajului.

Termenii corespunzători de indexare trebuie legați între ei într-o structură sintactică care combină numele obiectului, caracteristicile acestuia, semnificațiile acestora, unitățile de valoare și reflectând conexiunile semantice ale conceptelor din document.

În plus, o astfel de construcție sintactică poate fi caracterizată:

1) indicator de modalitate;

2) condiția de adevăr.

6.3. Indicatorul de modalitate al unui mesaj de fapt determină diferența dintre mesajele de următoarele tipuri:

1) fapt observabil;

2) valoarea admisibilă;

3) cerințe standard;

4) indicator țintă;

7) presupunerea;

8) stare.

Dacă în Sistem informatic nu utilizați indicatori de modalitate, atunci toate mesajele faptice sunt considerate ca aparținând unei singure modalități, care trebuie să fie indicate în documentația operațională a sistemului.

6.4. Condiția pentru adevărul unui mesaj factual este un alt mesaj factual asociat cu primul într-o construcție sintactică de nivel superior.

De exemplu:

X = greutatea produsului

Z = 150 g.

V = umiditate nu mai mult de 45%,

unde X este o caracteristică a obiectului,

Z - valoare caracteristică,

Y este condiția de adevăr.

O afirmație faptică care este o condiție de adevăr trebuie să aibă un indicator al modalității condiției „dacă”, de exemplu:

(greutatea produsului = 150 g) (dacă (umiditatea nu este mai mare de 45%)).

6.5. Termenii de indexare care exprimă subiectul (obiectul) mesajului aparțin categoriilor 1 sau 2 specificate în clauza 5.5.1. Când se utilizează categoria 1, termenului de indexare i se poate atribui suplimentar un indicator al singularității sau generalității obiectului (cuantificator).

Cuantificatorul general este utilizat în mesajele în care se exprimă o declarație despre toate obiectele care intră în domeniul de aplicare al conceptului corespunzător.

Cuantificatorul de singularitate este utilizat în mesajele care exprimă informații despre obiectul care face parte din conceptul dat, care este luat în considerare în acest document.

6.6. Termenii de indexare care exprimă proprietățile obiectelor care compun sensul mesajului pot fi exprimați prin unități lexicale din categoriile 1, 2, 3 (vezi clauza 5.5.1) sau o construcție parametrică (vezi clauza 5.6).

6.7. O construcție parametrică trebuie să conțină două părți exprimate formal: numele parametrului și lista valorilor parametrilor (a se vedea clauza 6.8), care sunt combinate într-o singură construcție sintactică.

6.8. Lista de valori într-un proiect parametric trebuie să includă un set de valori ale parametrilor și o indicație a alternativității sau simultaneității (simultaneității) valorilor.

Un set de valori este specificat prin enumerarea sau specificarea a două valori limită, între care se află valorile acceptate de parametru (interval de valori). Când se specifică un interval de valori, se indică în mod formal care dintre valori este valoarea inițială și finală pentru intervalul de valori, precum și dacă valorile limită sunt incluse în intervalul specificat. Una dintre valorile limită a intervalului poate lipsi dacă valoarea parametrului este limitată doar pe o singură parte.

Indicația de simultaneitate este utilizată atunci când un obiect mesaj are toate valorile stabilite parametru. Indicația de alternativă este utilizată atunci când parametrii unui obiect mesaj trebuie selectați dintre cei specificați.

6.9. Valorile parametrilor pot fi reprezentate printr-o construcție sintactică a doi termeni de indexare - expresie numericăși denumirea unității de valoare - dacă este necesar, efectuați operații de calcul sau comparații numerice.

7. INDEXARE AUTOMATIZATĂ

7.1. Scopul automatizării indexării este de a minimiza resursele materiale și umane cheltuite pentru procedura de indexare, precum și de a obține stabilitatea și uniformitatea rezultatelor acesteia.

7.2. Indexarea automată (AI) este realizată de:

1) text document primar.

2) titlul și rezumatul sau rezumatul documentului;

AI conform textului documentului primar trebuie să includă o procedură de comprimare a AML.

7.3. Folosind tehnologia calculatoarelor efectuează următoarele etape de fond ale IA:

1) identificarea părților informative ale documentului;

2) identificarea cuvintelor textului și aducerea lor la o formă normalizată (analiza și sinteza morfologică);

3) generarea unei liste de cuvinte cheie în textul sursă;

4) selectarea descriptorilor folosind tezaur;

5) formarea AML.

7.4. Identificarea părților informative ale unui document

Tehnologia AI ar trebui să prevadă identificarea și furnizarea către indexator sau program de indexare a celor mai informative fragmente de document din lista specificată în clauza 2.1. Algoritmii de identificare a fragmentelor informative pot fi furnizați pe baza altor criterii formale, precum și în baza deciziei unui indexator.

7.5. Identificarea cuvintelor textului

7.5.1. Procesul de identificare a cuvintelor dintr-un text ar trebui să includă: identificarea formelor de cuvinte ale unui cuvânt și identificarea cuvintelor informative ale textului.

În acest caz, poate fi necesară utilizarea unor proceduri inteligente pentru a rezolva probleme precum identificarea și prelucrarea structurilor sintactice, identificarea și rezolvarea omonimiei.

7.5.2. Pentru a identifica cuvintele dintr-un text, se folosesc dicționare automate (dicționare de fundamente, paradigme, fraze etc.). Dicționarele trebuie să fie prezentate în baza de date a sistemului și prevăzute cu instrumente de vizualizare și întreținere.

7.6. Generarea unei liste de cuvinte cheie text

7.6.1. În procesul de formare a unei liste de cuvinte cheie text, se efectuează o analiză sintactică a textului ținând cont de regulile de compatibilitate a categoriilor gramaticale ale unei anumite limbi naturale.

7.6.2. Analiza sintactică a textului rezolvă următoarele probleme:

1) împărțirea textului în fragmente după criterii specificate;

2) stabilirea dependenţelor sintactice între formele de cuvinte ale textului;

3) identificarea frazelor;

4) normalizarea cuvintelor cheie identificate.

7.7. Generarea automată a AML

7.7.1. În procedura AI, este permisă formarea unui PML din cuvinte cheie sau descriptori liberi ai unui tezaur de regăsire a informațiilor utilizați în acest domeniu.

7.7.2. Când se folosesc descriptori AI ai unui tezaur de regăsire a informațiilor, în stadiul formării ML, cuvintele cheie sunt înlocuite cu descriptorii specificați în tezaur.

7.7.3. Când se formează un POD din descriptori, este posibil să se îmbogățească POD-ul prin adăugarea de termeni mai înalți la tezaurul de regăsire a informațiilor.

7.7.4. Procedura AI ar trebui să prevadă includerea mijloacelor gramaticale standard în POD (a se vedea secțiunea 5).

7.7.5. Următoarele cerințe sunt impuse sistemelor AI:

1) modularitatea construcției, adică astfel de organizare internă a lingvistice şi software sisteme în care procedurile de rezolvare a problemelor individuale de IA sunt implementate folosind blocuri sau module independente;

2) concentrarea pe software și hardware standard;

3) respectarea documentației normative și metodologice actuale privind indexarea coordonatelor.

ANEXA 1 (pentru referință). TERMENI ȘI DEFINIȚII

ANEXA 1

informație

1. Indexare automată- indexarea, a cărei tehnologie presupune utilizarea unor proceduri formale efectuate cu ajutorul tehnologiei informatice și poate include utilizarea unor proceduri inteligente atunci când se iau decizii de bază cu privire la compoziția imaginii de căutare.

2. Indexare automată- alcătuirea unei imagini de căutare folosind numai proceduri formale de prelucrare a textului unui document sau al unei cereri, realizată prin tehnologie informatică.

3. Cuvânt informativ- un cuvânt sau o expresie din textul unui document sau al unei cereri care poartă o încărcătură semantică semnificativă.

4. Indexare controlată- indexarea, care presupune înlocuirea cuvintelor informative ale textului cu descriptori specificați într-un anumit tezaur de regăsire a informațiilor sau alt dicționar de indexare.

5. Indexarea coordonatelor- indexarea, al cărei scop este de a reflecta cuprinzător conținutul unui document sau al unei interogări prin includerea în imaginea de căutare a tuturor termenilor de indexare necesari pentru aceasta.

6. Unitatea lexicală (LE) a IPL- o succesiune de caractere, un cuvânt, o frază, un fragment dintr-un cuvânt sau un simbol, care este considerat într-un FL dat ca o unitate elementară folosită pentru a reprezenta un anumit concept, obiect sau valoare de parametru în imaginile de căutare ale documentelor sau interogărilor .

7. Indexare gratuită- indexarea, a cărei tehnologie nu prevede înlocuirea cuvintelor informative ale textului în conformitate cu recomandările unui dicționar special de indexare.

8. Termen specific- un cuvânt informativ care reflectă cel mai bine conținutul documentului, a cărui utilizare face distincție acest document din alte documente legate tematic.

9. Specificitatea indexării - caracteristica de calitate a indexării, determinată de raportul dintre numărul de termeni specifici și informațiile faptice și numărul de termeni nespecifici din imaginea de căutare.

10. Completitudinea indexării- gradul de reflectare în imaginea de căutare a conținutului documentului și (sau) cererii, definit ca raportul dintre numărul de termeni specifici și informațiile faptice incluse în imaginea de căutare și numărul de astfel de termeni și informații disponibile în textul documentului sau al cererii.

11. Indexarea faptelor - indexarea, care presupune reflectarea în imaginea de căutare a unui document a unor informații specifice (mesajelor) care este sensul acestui document.

ANEXA 2 (pentru referință). SCHEMA DE INDEXARE PRIN TEZAURUL GĂSIREA INFORMAȚIILOR

ANEXA 2
informație

1. Studiază documentul și întocmește o listă de concepte esențiale pentru conținutul său, ținând cont de specificul IPS.

2. Luați în considerare primul concept

3. Găsiți în tezaur o unitate lexicală care reflectă acest concept. Dacă nu există, treceți la pasul 11.

4. Dacă unitatea lexicală găsită este un ascriptor, înlocuiți-o cu descriptorul specificat în link (sau o combinație de descriptori).

6. Verificați dacă descriptorii specificați în referințe sunt mai specifici pentru a exprima conceptul dat. Dacă da, treceți la pasul 10.

7. Notați unitățile lexicale găsite în imaginea de căutare, oferindu-le indicatorii gramaticali necesari conform regulilor FL dat.

8. Verificați dacă există concepte din document care nu sunt încă reflectate în imaginea de căutare și luați în considerare următorul concept. Treceți la pasul 3.

9. Dacă lista de concepte de document este epuizată, terminați lucrarea.

10. Înlocuiți descriptorul original cu unul mai specific, așa cum este indicat de linkul din tezaur. Treceți la pasul 7.

11. Găsiți descriptori în tezaur, a căror includere comună în imaginea de căutare reflectă acest concept. Dacă nu există, treceți la pasul 12, dacă există, treceți la pasul 5.

12. Stabiliți un termen care exprimă conceptul și îndeplinește cerințele pentru descriptori în conformitate cu GOST 7.25.

13. Trimiteți termenul găsit la serviciul de întreținere IPL ca candidat pentru includerea în tezaur. Treceți la pasul 7.

14. Sfârșitul.

O diagramă bloc de indexare folosind un tezaur de regăsire a informațiilor este prezentată în desen.

Diagrama de flux al algoritmului de indexare

Textul documentului se verifică după:
publicație oficială
M.: Editura Standarde, 1992

Una dintre cele mai importante operațiuni de prelucrare a informațiilor analitice și sintetice ca mijloc de regăsire a informațiilor este indexarea documentelor și interogările de informații.

Indexare - procesul de exprimare a conținutului unui document și (sau) cerere pe limbaj de recuperare a informațiilor (IRL) prin utilizarea termeni de indexare– indici de clasificare, titluri de subiecte (GR), cuvinte cheie, descriptori, coduri . Cu alte cuvinte, indexarea este procesul de traducere a conținutului documentelor și interogărilor din limbaj natural în FL, având ca rezultat crearea imagine de căutare document (DOI) și imagine de căutare interogare (QI). Astfel, informațiile conținute în document sunt „restrânse” și prezentate în IPL sub forma unui index, titlu de subiect sau descriptor, sau cuvânt cheie.

Limba de regăsire a informațiilor (IRL) - Acesta este un limbaj artificial special creat, conceput pentru a exprima conținutul documentelor și (sau) interogări în scopul căutării lor ulterioare. IPL este elementul principal al aparatului logico-semantic al informației. motor de căutare(IPS).

Nevoia de a crea limbaj artificial(pentru a exprima conținutul semantic al documentelor în scopul căutării acestora) se datorează faptului că limbajul natural are o serie de proprietăți care împiedică utilizarea lui pentru înregistrarea și preluarea informațiilor: aceasta este ambiguitatea și polisemia cuvintelor în limbajul natural. Valoare exacta Multe cuvinte pot fi determinate doar din contextul în care sunt folosite (instrument de percuție, doză de impact etc.). Acești factori nu permit realizarea unei corespondențe exacte între conținutul documentului și mijloacele de exprimare a acestui conținut.

Dificultățile de utilizare a limbajului natural ca limbă străină sunt agravate și mai mult de faptul că IPS poate folosi nu texte complete ca documente de intrare, ci rezumate, adnotări și descrieri bibliografice, care sunt rezultatul colapsării conținutului documentelor.

Cerințe de bază pentru IPJ:

· Neambiguitate;

· Putere semantică suficientă

· Deschidere (posibilitatea de ajustare a limbii)

Fiecare IPL are un vocabular specific care reprezintă un set de unități lexicale (LE)– desemnarea unui concept separat, minimal și indivizibil în această funcție. Vocabularul limbilor naturale este folosit ca LE în IPL - cuvinte, fraze ale titlului subiectului, coduri digitale sau alfanumerice etc.

Un punct important când indexarea este crearea unei imagini de căutare a documentelor (SID). Căutați imaginea documentului– conținutul semantic principal al documentului (și nu toate informațiile conținute în acesta), exprimat în termenii unui IP formalizat. PML se potrivește în mod unic cu acest document, iar documentele sunt căutate în gama de documente.

Indexarea unei cereri se realizează și prin traducerea conținutului acesteia în FPJ. Astfel, se numește setul de termeni de indexare care exprimă conținutul semantic al interogării imagine de interogare de căutare (POS).

Căutarea se efectuează folosind un set de termeni de indexare. Pentru a crește eficiența regăsirii informațiilor la cerere, POS-ul poate fi completat cu instrucțiuni speciale privind succesiunea operațiilor logice în procesul de regăsire a informațiilor, care se numesc ordine de căutare.

Indexarea este implementată în următoarele procese: subiectizare, sistematizare și indexare de coordonate.

sistematizare - un tip de indexare în care conținutul unui document și (sau) cerere este exprimat prin indici de clasificare, în conformitate cu regulile unei anumite clasificări IP (KS). Acest principiu de indexare este considerat a fi clasificare. Oferă capacitatea de a organiza căutarea informațiilor pe o bază ierarhică. Specialiştii care desfăşoară procesul de sistematizare în biblioteci şi centre de informare, se numesc sistematizatori.

Subiectificarea– un tip de indexare în care conținutul unui document și (sau) cerere este exprimat printr-un titlu de subiect (SR) în conformitate cu regulile unui anumit FL specific subiectului. Principiul de indexare a subiectelor se bazează pe utilizarea LE, care fac parte din titlurile de subiecte, limbaj natural(adică, titlurile de subiecte care exprimă POD și POP sunt compilate pe baza limbajului natural). Principiul de indexare a subiectelor oferă posibilitatea de a organiza căutarea informațiilor în ordine alfabetică. Procesele de subiectivizare sunt realizate în biblioteci și centre de informare de către subiectivizatori.

Indexarea coordonatelor - un tip de indexare în care conținutul semantic al unui document și (sau) interogare este exprimat multidimensional printr-o varietate de cuvinte cheie sau descriptori. Un limbaj destinat indexării coordonatelor se numește limbaj descriptor. Specialiștii care efectuează indexarea coordonatelor se numesc indexatori.

Termenii „indexare” și „indexare” sunt obișnuiți în literatura de limbă engleză și sunt utilizați pe scară largă în practica bibliotecilor internaționale și naționale.

Deci, în funcție de tipul de indexare, se disting identificarea subiectului, clasificarea și descriptorul FP. Acestea includ multe LE și relații gramaticale (paradigmatice și sintagmatice) între ele. LE este desemnarea unui concept separat, acceptat în IPL și indivizibil în această funcție. LE-urile pot reprezenta cuvinte acceptate în limbajul natural, fraze stabilite, abrevieri, simboluri, date, abrevieri general acceptate, componente semnificative din punct de vedere lexical cuvinte dificile, precum și cod echivalent sau denumiri simbolice ale unui limbaj artificial. Relațiile gramaticale vă permit să organizați LE într-un sistem.

Cerințe pentru IP:

· Transmite complet și exact conținutul documentului reflectat în acest IRS;

· Asigurarea interpretării fără ambiguitate a termenilor de indexare;

· Permite indexarea cu mai multe aspecte;

· Permite modificări (adăugiri, corecții);

· Asigurați simplitatea și comoditatea indexării, regăsirii informațiilor și întreținerii acestui IRS;

· Reflectați starea curenta sisteme terminologice din acest domeniu de cunoaștere.

Regulile de utilizare a IP sunt înregistrate în aparatul de referință și metodologic al IP-ului corespunzător.

Sintagma (greacă – construit împreună, conectat) este o unitate semantică, care, într-un anumit context, este exprimată printr-un cuvânt, grup de cuvinte sau propoziție. Cuvintele individuale (de exemplu, „metodologie”, „manual”, „indexare”) intră în relații sintagmatice în propoziții folosind mijloace gramaticale ale limbii, cum ar fi declinarea, conjugarea, prepozițiile, conjuncțiile etc.

4. TEMA: UNIFICAREA ȘI STANDARDIZAREA INDEXĂRII DOCUMENTELOR.

Termenul „indexare” a fost introdus în teoria și practica bibliotecii interne în 1991 de GOST 7.59 – 90 „Indexarea documentelor. Cerințe generale de sistematizare și subiectizare.” Standardul a fost introdus pentru a înlocui 3 GOST-uri anterioare dezvoltate în anii 80:

1. GOST 7.39 – 82 Sistematizare și subiectizare. Termeni și definiții.

2. GOST 7.44 – 84 Sistematizarea documentelor. Cerințe generale.

3. GOST 7.45 – 84 Identificarea subiectului documentelor. Cerințe generale.

Toate aceste standarde au fost dezvoltate în cadrul Sistemului de Standarde de Informare, Biblioteconomie și Publicare (SIBID) pentru a unifica procesele de indexare. Scopul final al standardizării este îmbunătățirea calității și eficienței muncii - în în acest caz,– calitatea indexării și acele elemente ale aparatului de referință și regăsire care sunt asociate cu indexarea. Orice standard se naște ca urmare a unei generalizări a multor ani de practică.

Bibliotecarii au studiat din manuale, folosite ajutoare practice. Nu au existat standarde care să reglementeze procesele tehnologice timp de multe decenii. Apariția catalogării centralizate (de exemplu, fișe de catalog tipărite), un sistem de clasificare comun tuturor sau mai multor biblioteci, i-a determinat pe bibliotecari să înțeleagă oportunitatea principiilor și metodelor comune de lucru. La un anumit stadiu de dezvoltare relatii Internationale a fost nevoie de armonizarea maximă a practicilor interne de catalogare cu cele străine.

GOST 7.59 – 90 a fost axat pe Standardul Internațional MS ISO 5963 „Documentație - metode de analiză a documentelor, determinarea subiectului acestora și alegerea termenilor de indexare” introdus de Organizația Internațională pentru Standardizare (ISO) în 1985.

Standardul internațional a avut o serie de avantaje pe care dezvoltatorii autohtoni le-au luat în considerare:

· O parte independentă a standardului au fost definițiile termenilor care se găsesc în el (în standardele interne au fost obținute printr-un GOST separat).

· SM a introdus concepte și a definit cerințe generale, acoperind atât sistematizarea, cât și subiectizarea (în standardele interne, aceste procese au fost considerate procese independente, fără legătură în GOST-uri separate).

Avantajele MS ISO erau evidente: este mai ușor să stăpânești orice proces, în special un set de procese complexe, ce sunt sistematizarea și subiectificarea, dacă evidențiem generalul, individualul și specialul. S-a decis combinarea standardelor interne și aducerea lor cât mai aproape de cele internaționale ca structură și conținut. În plus, a fost necesar să se elaboreze un standard a cărui aplicare să nu se limiteze la limitele departamentelor. Aceasta a însemnat că trebuiau rezolvate o serie de probleme terminologice, întrucât în acei ani funcționau în paralel două sisteme de termeni în țară - biblioteca și informația. S-a decis să se folosească terminologia internațională modernă în standard.

În timpul dezvoltării GOST 7.59 - 90, au fost efectuate cercetări științifice serioase privind implementarea standardelor anterioare. Astfel, GOST 7.44 - 84 prevedea menținerea obligatorie a alfabetului index al subiectelor(APU) la un catalog sistematic - nu ca un aparat auxiliar, ci ca parte integrantă a catalogului. Prin urmare, s-a prescris ca în procesul de procesare a noilor chitanțe să fie întocmit un card APU. Această cerință s-a bazat pe idei moderne că societatea de asigurări este capabilă să își îndeplinească funcțiile dacă este prevăzută cu un sistem de control adecvat. De asemenea, a fost introdusă editarea obligatorie a deciziei de clasificare și a titlurilor de subiect ale APU. În consecință, standardele naționale de timp au fost modificate.

Sondajul a arătat că sute de biblioteci au efectuat aceste procese, dar odată cu introducerea GOST, acestea au devenit obligatorii pentru toate bibliotecile.

Din ianuarie 2004, a intrat în vigoare ca standard de stat Federația Rusă GOST 7.59 – 2003 „Indexarea documentelor. Cerințe generale de sistematizare și subiectizare.”

În conformitate cu cerințele moderne GOST 7.59 – 2003 „Indexarea documentelor” constă din 6 secțiuni. Structura GOST este următoarea:

Câțiva ani mai târziu, a fost dezvoltat și pus în aplicare un alt standard, având în vedere al treilea proces de indexare - GOST 7.66 - 92 „Indexarea documentelor. Cerințe generale pentru indexarea coordonatelor”, care s-a bazat și pe regulile ISO 5963.

Au trecut mai bine de zece ani. De-a lungul anilor, practicile de clasificare din țară s-au schimbat. Multe biblioteci au sisteme automatizateși cataloage electronice. A fost necesar să se clarifice lista și denumirile sistemelor de clasificare. Terminologia celui considerat domeniul subiectului. Au fost aprobate standardele terminologice:

· GOST 7,73 – 96 SIBID. Căutarea și difuzarea informațiilor. Termeni și definiții.

· GOST 7,74 – 96 SIBID. Limbi de regăsire a informațiilor. Termeni și definiții.

· GOST 7,76 – 96 SIBID. Colectarea documentelor. Bibliografie. Catalogare. Termeni și definiții.

Din ianuarie 2004, GOST 7,59 - 2003 „SIBID. Indexarea documentelor. Cerințe generale de sistematizare și subiectizare.”

În conformitate cu cerințele moderne, standardul constă din 6 secțiuni. Structura GOST este următoarea:

1 domeniu de utilizare

3. Definiții

4. Dispoziții generale

4.1 Esența indexării

4.2 Obiect de indexare

4.3 Condiții de indexare

4.4 Principii de indexare

4.5 Tipuri de IP și termeni de indexare

5. Cerințe pentru IP

5.1 Cerințe generale

5.2 Cerințe pentru clasificarea IP

5.3 Cerințe pentru FP specifice disciplinei

6. Procese tehnologiceși reguli generale de indexare

6.1 Reguli generale indexarea

6.2 Reguli de sistematizare

6.3 reguli de subiectizare.

GOST 7.59 – 2003 stabilește cerințe generale pentru indexare: sistematizarea și subdivizarea documentelor și limbaje de regăsire a informațiilor utilizate pentru indexare. Standardul este destinat bibliotecilor, organismelor de informare științifică și tehnică, camerelor de carte, redacțiilor și editurilor.

În revista „Bibliotecă”, începând cu numărul doi din 2004, la rubrica „Biblioteconomie”, se desfășoară „Școala de Indexare” de E.R. Sukiasyan, unde se publică materiale care comentează conținutul GOST-urilor privind indexarea.

Motorul de căutare Yandex răspunde întrebărilor utilizatorilor prin găsirea documente necesareîn internet. Și dimensiunile Internet modern sunt calculate în exabytes, adică în miliarde de miliarde de octeți. Desigur, Yandex nu accesează cu crawlere întregul Internet de fiecare dată când i se pune o întrebare. Motorul de căutare își face temele, ca să spunem așa.

Căutarea pe Internet constă din două părți. Primul este că motorul de căutare accesează cu crawlere Internetul, creând o copie a acestuia pe serverele sale. Al doilea este că utilizatorul setează o solicitare și primește un răspuns de la serverele motoarelor de căutare.

Yandex caută după index de căutare- o bază de date, unde pentru toate cuvintele care se află pe site-uri cunoscute pentru căutare, este indicată locația lor - adresa paginii și locul pe ea. Un index poate fi comparat cu un index de subiect dintr-o carte sau un director de adrese. Spre deosebire de un index de subiect obișnuit, indexul conține nu numai termeni, ci toate cuvintele în general. Și, spre deosebire de un director de adrese, fiecare cuvânt destinatar are nu unul, ci mai multe „locuri de înregistrare”.

Pregătirea pentru răspunsuri

Pregătirea datelor pentru căutare motor de căutare, se numește indexare. Special sistem informatic- robot de căutare - accesează cu crawlere în mod regulat internetul, descarcă documente și le procesează. Este creat un fel de instantaneu al Internetului, care este stocat pe serverele motorului de căutare și actualizat cu fiecare accesare cu crawlere nouă.

Yandex are doi roboți de căutare - cel principal și cel rapid (se numește Orange). Robotul principal indexează Internetul în ansamblu, iar Orange este responsabilă pentru a se asigura că căutarea poate găsi cele mai recente documente apărute cu câteva minute sau chiar secunde în urmă. Fiecare robot are o listă de adrese de documente care trebuie indexate.

Când, în timp ce se accesează cu crawlere, robotul vede link-uri noi pe site-uri deja cunoscute, le adaugă la lista sa, crescând numărul de pagini indexate. Cu toate acestea, proprietarul site-ului însuși poate ajuta robotul principal Yandex să-și găsească resursa și să sugereze, de exemplu, cât de des sunt actualizate paginile sale - prin serviciul Yandex.Webmaster.

În primul rând, programul de planificare construiește o rută - ordinea în care sunt parcurse documentele. În același timp, planificatorul ține cont de caracteristicile site-urilor care sunt importante pentru motorul de căutare, cum ar fi, de exemplu, citările sau frecvența actualizărilor documentelor. După crearea unui traseu, planificatorul îl dă unei alte părți a robotului de căutare - „păianjenul”. Păianjenul se plimbă în mod regulat în jurul documentelor de-a lungul unui anumit traseu. Dacă site-ul este la locul său, adică funcționează și accesibil, păianjenul descarcă documentele planificate de-a lungul traseului. Determină tipul de document descărcat (html, pdf, swf etc.), codificarea și limba, apoi trimite datele la stocare.

Acolo, programul analizează documentul cărămidă cu cărămidă: îl șterge de marcaj HTML, lăsând text curat, selectează date despre locația fiecărui cuvânt și le adaugă la index. Documentul în sine, în forma sa originală, rămâne, de asemenea, în depozit până la următoarea accesare cu crawlere. Datorită acestui fapt, utilizatorii pot găsi și vizualiza documente în Yandex, chiar dacă site-ul este temporar indisponibil. Dacă site-ul este închis sau documentul a fost șters sau actualizat, Yandex va șterge copia de pe serverele sale sau o va înlocui cu una nouă.

Indexul de căutare, datele despre tipul documentului, codificarea, limba și copiile stocate ale documentelor alcătuiesc împreună baza de date de căutare. Este actualizat în mod constant, dar pentru ca această actualizare să devină disponibilă utilizatorilor, trebuie mutat în „ căutare de bază" Căutare de bază - servere care răspund la întrebările utilizatorilor. Nu întreaga bază de date de căutare este transferată acolo, ci doar partea sa utilă - fără spam, site-uri duplicate (oglinzi) și alte documente inutile.

Actualizați baza de cautare din stocarea robotului principal intră în căutare în „pachete” - o dată la câteva zile. Acest proces creează încărcare suplimentară pe servere, deci se desfășoară noaptea, când mult mai puțini utilizatori accesează Yandex. În primul rând, noi părți ale bazei sunt plasate lângă aceleași părți din crawlul anterior. Acestea sunt apoi verificate cu o varietate de factori pentru a se asigura că actualizarea nu degradează calitatea căutării. Dacă verificarea are succes, noua parte a bazei de date o înlocuiește pe cea veche.

Robotul Orange este proiectat pentru căutare în timp real. Planificatorul și păianjenul său sunt configurate să găsească documente noi și să selecteze dintr-un număr mare dintre ele orice este cel puțin oarecum interesant. Orange procesează imediat fiecare astfel de document și îl încarcă în căutarea de bază. Nu sunt foarte multe documente urgente in comparatie cu volumul total al Internetului, astfel incat actualizarea bazei de date in timp real se poate face chiar si in timpul incarcarii zilnice pe servere.

Sisteme de indexare

Sistemul de indexare (SI) este un set de metode și instrumente de traducere a textelor din limbajul natural în FL în conformitate cu un set dat de dicționare de unități lexicale și cu regulile de utilizare a FL.

Să luăm în considerare clasificarea sistemelor de indexare.

1. Pe baza gradului de automatizare a procesului de indexare se disting următoarele sisteme:

Indexare manuală;

Indexare automată;

Indexare automată.

2. Pe baza gradului de controlabilitate, sistemele se disting:

Fără dicționar;

Cu un vocabular dur;

Cu un dicționar gratuit.

3. Pe baza naturii algoritmului de selectare a cuvintelor text, se disting următoarele sisteme:

Cu vizualizare secvențială a textului (se selectează toate cuvintele cu sens complet);

Cu proceduri euristice de selectare a cuvintelor dintr-un text (cuvintele sunt selectate intuitiv sau conform unei proceduri date);

Cu proceduri de selectare a cuvintelor statistice (selectate
numai cuvinte informative în conformitate cu distribuția de frecvență a utilizării lor).

4. Pe baza naturii controlului lexicografic, se disting următoarele sisteme:

Fără control lexicografic;

CU control total;

Cu control intermediar.

Controlul lexicografic prevede:

Eliminarea sinonimiei, polisemiei și omonimiei pe baza dicționarelor normative de unități lexicale cu relații paradigmatice între ele;

Normalizarea cuvintelor pe baza normativului morfologic
dicționare.

5. Pe baza naturii analizei morfologice a cuvintelor, se disting sisteme:

Utilizarea dicționarelor morfologice;

Utilizarea dicționarelor lexicale de bază;

Utilizarea analizei morfologice cu trunchierea cuvintelor.

Sunt posibile sisteme de indexare fără analiză morfologică.

Procesul de indexare gratuită este următorul. Indexatorul notează cuvinte sau fraze care, în opinia sa, reflectă conținutul textului. El poate lua cuvinte care lipsesc din text, dar sunt importante, din punctul său de vedere, pentru exprimarea sensului textului. Lista de cuvinte selectată este o imagine de căutare a documentului. Acesta este un SI indexat manual.

Procesul de indexare semi-liberă este similar cu cel descris mai sus, dar cuvintele pentru AML sunt preluate numai din dicționar.

Cu hard indexing, cuvintele sunt preluate numai din text.

La început, indexarea a fost efectuată de experți special instruiți în materie, care puteau efectua o analiză aprofundată a conținutului semantic al unui document și să-l atribuie (index) anumitor clase, titluri și termeni cheie. În acest caz, costurile generale au fost ridicate, deoarece era nevoie de indexatori înalt calificați pentru personal. În plus, procesul de indexare a fost oarecum subiectiv. Prin urmare, a apărut sarcina de automatizare a indexării documentelor.

Există două abordări ale indexării automate. Primul se bazează pe utilizarea unui dicționar de cuvinte cheie și este folosit în sistemele bazate pe IPT. Indexarea în astfel de sisteme se realizează secvenţial căutare automatăîn textul documentului termeni cheie. Este construit un index care reprezintă spațiul de căutare a documentelor. Există două tipuri posibile de astfel de indice - direct și inversat.

Tipul de index direct este construit conform schemei document-termeni. Spațiul de căutare în acest caz este reprezentat ca o matrice de dimensiune nxm. Rândurile acestei matrice reprezintă imagini de căutare ale documentelor.