Indexarea documentelor (Sistematizare, subiectizare, indexare coordonate). Procesele motoarelor de căutare

Sisteme de informare. Sisteme informatice automatizate.

1. Sisteme informatice.

2. Limbajul de regăsire a informațiilor. Sistem de indexare. Scopul procesului de indexare.

3. Sisteme informatice documentare. Indicatori documentari de performanță IP.

4. Sistemul faptic. Ce este un domeniu? Modele de date.

5. Construirea unui model ER domeniul subiectului.

6. Teoria normalizării relaţiilor.

7. Identificator unic de entitate.

8. Clasificarea și structura AIS

9. Concept ciclu de viață AIS. Faze și procese, modele de ciclu de viață AIS.

10. Tehnologia de proiectare AIS.

11. Abordare structurală a proiectării AIS.

12. Utilizarea CASE - instrumente la proiectarea AIS.

13. Sisteme SCADA: etape de realizare, domenii de aplicare, funcționalitate.

Sisteme de informare.

Sistem informatic (IS) este un sistem conceput pentru a menține model informativ, cel mai adesea - orice domeniu al activității umane. Acest sistem trebuie să ofere un mijloc pentru flux procesele informaţionale :

depozitare

difuzat

transformarea informatiilor.

Sistem informatic sunt numite un set de mijloace interconectate care stochează și procesează informații, numite și sisteme informatice și informatice. Datele intră în sistemul informațional din sursa de informații. Aceste date sunt trimise spre stocare sau sunt supuse unor procesări în sistem și apoi transferate către consumator.

Feedback-ul poate fi stabilit între consumator și sistemul informațional însuși. În acest caz, se apelează sistemul informațional închis. Canal părere necesar atunci când este necesar să se țină cont de reacția consumatorului la informațiile primite.

Sistemul informatic este format din sursă de informații, Hardware IC, parte software a IS, consumator de informatii.

Există 3 clase de sisteme informaționale în funcție de gradul de automatizare a acestora:

Sisteme informatice manuale- caracterizat prin lipsa modernului mijloace tehnice prelucrarea informațiilor și efectuarea tuturor operațiunilor de către oameni. De exemplu, despre activitățile unui manager într-o companie în care nu există calculatoare, putem spune că lucrează cu un IS manual.

Sisteme informatice automatizate (AIS)- cea mai populară clasă de IP. Aceștia își asumă participarea atât a oamenilor, cât și a mijloacelor tehnice la procesul de prelucrare a informațiilor, rolul principal fiind atribuit computerului.

Sisteme informatice automate- efectuează toate operațiunile de prelucrare a informațiilor fără intervenție umană, diverși roboți. Un exemplu de sisteme informatice automate sunt câteva motoare de căutare Internet, de exemplu Google, unde informațiile despre site-uri sunt colectate automat de un robot de căutare și factorul uman nu afectează clasarea rezultatelor căutării.

Limbajul de regăsire a informațiilor. Sistem de indexare. Scopul procesului de indexare.

Limba de regăsire a informațiilor, un sistem de semne conceput pentru a descrie (prin indexarea) conținutul semantic principal al textelor (documentelor) sau al părților acestora, precum și să exprime conținutul semantic cereri de informatiiîn scopul implementării regăsirea informațiilor . Orice rezumat I.-p. eu. constă dintr-un alfabet (o listă de simboluri elementare), reguli de formare și reguli de interpretare. Regulile educației stabilesc ce combinații de simboluri elementare sunt permise la construirea cuvintelor și expresiilor, iar regulile de interpretare determină modul în care aceste cuvinte și expresii trebuie înțelese.

I.-p. eu. trebuie să aibă mijloacele lexicale și gramaticale necesare pentru a exprima conținutul semantic principal al oricărui text și sensul oricărei solicitări de informații cu privire la o anumită industrie sau subiect, să fie lipsit de ambiguitate (permite o interpretare a fiecărei intrări), convenabil pentru comparare și identificare algoritmică (complet). sau parțial) a intrărilor din conținutul semantic principal al textelor și conținutul semantic al solicitărilor de informații. La elaborarea unui specific I.-p. eu. sunt luate în considerare specificul industriei sau subiectului pentru care este creată această limbă, caracteristicile textelor care formează matricea de căutare, natura nevoilor de informații pentru a satisface pe care este creată această limbă. sistem de regăsire a informațiilor.

În majoritatea I.-p. eu. vocabularul principal (lexiconul) este specificat prin enumerarea lui și reprezintă un fragment din vocabularul unei anumite limbi naturale. Cuvintele și frazele selectate din limbajul natural, care împreună formează vocabularul principal, servesc ca alfabet al unui anumit I.-p. eu. Reguli de învățământ în astfel de I.-p. eu. îndeplinește funcția de sintaxă. În unele I.-p. eu. vocabularul de bază este precizat (în întregime sau parțial) prin metoda generației, care constă în faptul că pentru astfel de I.-p. eu. regulile educaţionale stabilesc cum a acestui alfabet construiesc cuvinte I.-p. I., iar din aceste cuvinte - expresii (expresii) și care dintre ele vor fi corect construite. I.-p. eu. difera de limbajul informaţiei iar din limbajul mașinii. La mijlocul secolului al XX-lea. o înghițitură. eu. utilizate pe scară largă bibliotecă și clasificări bibliograficeși limbaje de tip descriptor.

Sistem de indexare este o acumulare mare de informații (bază de date) adusă în ea de un vizitator robot. Aceasta informatie într-un anumit fel structurat și indexat pentru a facilita identificarea ulterioară a unei liste de site-uri folosind anumite cuvinte cheie.

Procesul de indexare include următorii pași, care se desfășoară în următoarea secvență:

analiza și determinarea conținutului documentului ca obiect de indexare;

selectarea conceptelor care caracterizează conținutul documentului;

selectarea termenilor de indexare pentru a desemna concepte;

formarea unei imagini de căutare a unui document din termeni de indexare.

Etapele enumerate pot fi combinate ca parte a procedurilor tehnologice, cu condiția ca fiecare etapă să fie efectuată corespunzător.

1. Imaginea de căutare a documentului (SID) este formată din termeni de indexare selectați folosind mijloacele gramaticale ale limbajului de regăsire a informațiilor (IRL).

2. În timpul procesului de indexare, nu se recomandă descrierea unui document ca obiect fizic (în ceea ce privește forma, volumul, etc.). Este permisă reflectarea unor informații similare în AML dacă vă permite să stabiliți mai exact conformitatea documentului nevoi de informare utilizator de sistem.

©2015-2019 site
Toate drepturile aparțin autorilor lor. Acest site nu pretinde autor, dar oferă utilizare gratuită.
Data creării paginii: 2016-04-02

Ce este indexarea site-urilor? Cum se întâmplă? Puteți găsi răspunsuri la aceste și alte întrebări în articol. în motoarele de căutare) este procesul de adăugare a informațiilor despre un site într-o bază de date de către un robot motor de căutare, care este ulterior folosit pentru a căuta informații despre proiecte web care au fost supuse unei astfel de proceduri.

Datele despre resursele web constau cel mai adesea în Cuvinte cheie, articole, link-uri, documente. Audio, imaginile și așa mai departe pot fi, de asemenea, indexate. Se știe că algoritmul de identificare a cuvintelor cheie depinde de dispozitivul de căutare.

Tipuri de informații indexate ( fișiere flash, javascript) există o anumită limitare.

Managementul incluziunii

Indexarea site-ului - proces dificil. Pentru a-l gestiona (de exemplu, interziceți includerea unei anumite pagini), trebuie să utilizați fișierul robots.txt și reglementări precum Permite, Interzice, Întârziere cu crawlere, Agent utilizator și altele.

Etichetele sunt, de asemenea, folosite pentru indexare și recuzită , ascunzând conținutul resursei de roboți Googleși Yandex (Yahoo folosește eticheta ).

În motorul de căutare Goglle, site-urile noi sunt indexate de la câteva zile la o săptămână, iar în Yandex - de la o săptămână la patru.

Doriți ca site-ul dvs. să apară în rezultatele motoarelor de căutare? Apoi trebuie procesat de Rambler, Yandex, Google, Yahoo și așa mai departe. Trebuie să informați motoarele de căutare (păianjeni, sisteme) despre existența site-ului dvs., iar apoi îl vor accesa cu crawlere în întregime sau parțial.

Multe site-uri nu au fost indexate de ani de zile. Informațiile care se află pe ele nu sunt văzute de nimeni, cu excepția proprietarilor lor.

Metode de prelucrare

Indexarea site-ului se poate face în mai multe moduri:

Prima opțiune este adăugare manuală. Trebuie să introduceți datele site-ului dvs. prin intermediul formularelor speciale oferite de motoarele de căutare.
În al doilea caz, robotul motorului de căutare însuși găsește site-ul dvs. folosind link-uri și îl indexează. El vă poate găsi site-ul folosind link-uri din alte resurse care conduc la proiectul dvs. Această metodă este cea mai eficientă. Dacă un motor de căutare găsește un site în acest fel, îl consideră semnificativ.

Termenele limită

Indexarea site-ului nu este foarte rapidă. Termenele variază, de la 1-2 săptămâni. Link-urile din resurse autorizate (cu PR și țâțe excelente) accelerează semnificativ plasarea site-ului în baza de date a motorului de căutare. Astăzi Google este considerat cel mai lent, deși până în 2012 ar putea face această treabă într-o săptămână. Din păcate, totul se schimbă foarte repede. Se știe că Mail.ru lucrează cu site-uri web în acest domeniu de aproximativ șase luni.

Nu orice specialist poate indexa un site web în motoarele de căutare. Momentul de adăugare a unor noi pagini în baza de date a unui site care a fost deja procesat de motoarele de căutare este afectat de frecvența actualizării conținutului acestuia. Dacă pe o resursă apar în mod constant informații proaspete, sistemul le consideră actualizate frecvent și utile pentru oameni. În acest caz, activitatea sa este accelerată.

Puteți monitoriza progresul indexării site-urilor în secțiuni speciale pentru webmasteri sau pe motoarele de căutare.

Schimbări

Deci, ne-am dat deja seama cum este indexat site-ul. Trebuie remarcat faptul că bazele de date ale motoarelor de căutare sunt actualizate frecvent. Prin urmare, numărul de pagini din proiectul dvs. adăugate acestora se poate modifica (fie să scadă, fie să crească) din următoarele motive:

sancțiuni pentru motoarele de căutare împotriva site-ului;
prezența erorilor pe site;
modificări ale algoritmilor motoarelor de căutare;
hosting dezgustător (inaccesibilitatea serverului pe care se află proiectul) și așa mai departe.

Yandex răspunde la întrebări frecvente

Yandex este un motor de căutare folosit de mulți utilizatori. Ocupă locul cinci printre sistemele de căutare din lume în ceea ce privește numărul de solicitări de cercetare procesate. Dacă ați adăugat un site la acesta, poate dura prea mult să îl adăugați la baza de date.

Adăugarea unei adrese URL nu garantează că va fi indexată. Aceasta este doar una dintre metodele prin care sistemul informează robotul că a noua resursa. Dacă site-ul dvs. are puține sau deloc link-uri de la alte site-uri, adăugarea acestuia vă va ajuta să îl descoperiți mai repede.

Dacă indexarea nu are loc, trebuie să verificați dacă au existat erori pe server în momentul în care cererea a fost creată de robotul Yandex. Dacă serverul raportează o eroare, robotul își va încheia activitatea și va încerca să o completeze într-un acces cu crawlere complet. Angajații Yandex nu pot crește viteza de adăugare a paginilor la baza de date a motorului de căutare.

Indexarea unui site web în Yandex este o sarcină destul de dificilă. Nu știi cum să adaugi o resursă la un motor de căutare? Dacă există link-uri către acesta de pe alte site-uri web, atunci nu trebuie să adăugați site-ul în mod specific - robotul îl va găsi și indexa automat. Dacă nu aveți astfel de legături, puteți utiliza formularul Adăugați o adresă URL pentru a informa motoarele de căutare că site-ul dvs. există.

Este important să rețineți că adăugarea unei adrese URL nu garantează că creația dvs. va fi indexată (sau cât de repede va fi indexată).

Mulți oameni sunt interesați de cât timp durează indexarea unui site web în Yandex. Angajații acestei companii nu oferă garanții și nu prezic termene limită. De regulă, deoarece robotul a aflat despre site, paginile sale apar în căutări în decurs de două zile, uneori după câteva săptămâni.

Procesul de procesare

Yandex este un motor de căutare care necesită acuratețe și atenție. Indexarea site-ului constă din trei părți:

Robotul de căutare accesează cu crawlere paginile de resurse.
Conținutul site-ului este înregistrat în baza de date (index) a sistemului de căutare.
După 2-4 săptămâni, după actualizarea bazei de date, puteți vedea rezultatele. Site-ul dvs. va apărea (sau nu va apărea) în rezultatele cautarii.

Verificare de indexare

Cum se verifică indexarea site-ului? Există trei moduri de a face acest lucru:

Introduceți numele companiei dvs. în bara de căutare (de exemplu, „Yandex”) și verificați fiecare link de pe prima și a doua pagină. Dacă găsiți acolo adresa URL a creației dvs., înseamnă că robotul și-a finalizat sarcina.
Puteți introduce adresa URL a site-ului dvs. în bara de căutare. Veți putea vedea câte foi de Internet sunt afișate, adică indexate.
Înregistrați-vă pe paginile webmasterilor din Mail.ru, Google, Yandex. După ce treceți de verificarea site-ului, veți putea vedea rezultatele indexării și ale altor servicii ale motoarelor de căutare create pentru a îmbunătăți performanța resursei dvs.

De ce refuză Yandex?

Indexarea unui site în Google se realizează după cum urmează: robotul introduce toate paginile site-ului în baza de date, de calitate scăzută și de înaltă calitate, fără a selecta. Dar doar documentele utile sunt incluse în clasament. Și Yandex exclude imediat toate vechiturile web. Poate indexa orice pagină, dar motorul de căutare în cele din urmă elimină tot gunoiul.

Ambele sisteme au un index suplimentar. Pe ambele pagini De calitate inferioară afectează clasamentul site-ului web în ansamblu. Există o filozofie simplă la lucru aici. Resursele preferate ale unui anumit utilizator se vor clasa mai sus în rezultatele căutării. Dar același individ va avea dificultăți în a găsi un site care nu i-a plăcut data trecută.

De aceea este mai întâi necesar să protejați copiile documentelor web împotriva indexării și să verificați prezența pagini goaleși nu permiteți conținut de calitate scăzută să apară în rezultatele căutării.

Accelerarea Yandex

Cum pot accelera indexarea site-urilor în Yandex? Trebuie urmați următorii pași:

Acțiuni intermediare

Ce trebuie făcut până când pagina web este indexată de Yandex? Un motor de căutare autohton ar trebui să considere site-ul sursa principală. De aceea, chiar și înainte de a publica un articol, este imperativ să adăugați conținutul acestuia în formularul „Texte specifice”. În caz contrar, plagiatorii vor copia intrarea în resursa lor și vor ajunge primii în baza de date. În cele din urmă, ei vor fi recunoscuți drept autori.

Baza de date Google

Interdicţie

Ce este interdicția de indexare a site-urilor? Îl puteți aplica fie întregii pagini, fie unei părți separate a acesteia (un link sau o bucată de text). De fapt, există atât o interdicție globală de indexare, cât și una locală. Cum este implementat acest lucru?

Să luăm în considerare interzicerea adăugării unui site web la baza de date a motorului de căutare în Robots.txt. Folosind fișierul robots.txt, puteți exclude indexarea unei pagini sau a unei întregi categorii de resurse, astfel:

Agent utilizator: *
Nu permiteți: /kolobok.html
Nu permiteți: /foto/

Primul punct indică faptul că instrucțiunile sunt definite pentru toate subsistemele, al doilea indică faptul că indexarea fișierului kolobok.html este interzisă, iar al treilea nu permite adăugarea întregului conținut al folderului foto la baza de date. Dacă trebuie să excludeți mai multe pagini sau foldere, specificați-le pe toate în Robots.

Pentru a preveni indexarea unei foi individuale de internet, puteți utiliza metaeticheta robots. Diferă de robots.txt prin faptul că oferă instrucțiuni tuturor subsistemelor simultan. Această metaetichetă se supune principii generale format html. Ar trebui să fie plasat în antetul paginii între intrarea Ban, de exemplu, ar putea fi scris astfel: .

Ajax

Cum indexează Yandex site-urile Ajax? Astăzi Tehnologia Ajax folosit de mulți dezvoltatori de site-uri web. Desigur, are mari oportunități. Folosind-o, puteți crea pagini web interactive rapide și productive.

Cu toate acestea, sistemul „vede” foaia web diferit decât utilizatorul și browserul. De exemplu, o persoană se uită la o interfață confortabilă cu foi de internet încărcate mobil. Pentru un robot de căutare, conținutul aceleiași pagini poate fi gol sau prezentat ca alt conținut HTML static, pentru generarea căruia nu sunt utilizate scripturi.

Pentru a crea site-uri Ajax, puteți folosi o adresă URL cu #, dar robotul motorului de căutare nu o folosește. De obicei, partea URL după # este separată. Acest lucru trebuie luat în considerare. Prin urmare, în loc de o adresă URL ca http://site.ru/#example, el face o solicitare pagina principala resursă aflată la http://site.ru. Aceasta înseamnă că este posibil ca conținutul foii de internet să nu fie inclus în baza de date. Ca urmare, nu va apărea în rezultatele căutării.

Pentru a îmbunătăți indexarea site-urilor Ajax, Yandex a acceptat modificări în robotul de căutare și regulile de procesare a adreselor URL ale unor astfel de site-uri web. Astăzi, webmasterii pot indica motorului de căutare Yandex necesitatea indexării prin crearea unei scheme adecvate în structura resurselor. Pentru a face acest lucru aveți nevoie de:

Înlocuiește în Adresele URL ale paginilor simbolul # la #!. Acum robotul va înțelege că poate solicita o versiune HTML a conținutului pentru această foaie de internet.
Versiunea HTML a conținutului unei astfel de pagini ar trebui plasată la o adresă URL unde #! înlocuit cu?_escaped_fragment_=.

Am eliberat carte noua„Marketingul de conținut în în rețelele sociale: Cum să intri în capul abonaților tăi și să-i faci să se îndrăgostească de marca ta.”

Indexarea site-ului este procesul de căutare, colectare, procesare și adăugare de informații despre un site la o bază de date a unui motor de căutare.

Mai multe videoclipuri pe canalul nostru - învață marketingul pe internet cu SEMANTICA

Indexarea unui site înseamnă că un robot motor de căutare vizitează resursa și paginile acesteia, examinează conținutul și îl introduce în baza de date. Ulterior, aceste informații sunt furnizate de interogări cheie. Adică, utilizatorii rețelei introduc o interogare în bara de căutare și primesc un răspuns sub forma unei liste de pagini indexate.

Dacă vorbim într-un limbaj simplu, se dovedește cam așa: întregul Internet este o bibliotecă uriașă. Orice bibliotecă care se respectă are un catalog care facilitează căutarea informatie necesara. La mijlocul anilor '90 ai secolului trecut, toată indexarea a fost redusă la o astfel de catalogare. a găsit cuvinte cheie pe site-uri web și a format o bază de date din acestea.

Astăzi, boții colectează și analizează informații pe baza mai multor parametri (erori, unicitate, utilitate, disponibilitate etc.) înainte de a le introduce în motorul de căutare.

Algoritmii roboților de căutare sunt actualizați în mod constant și devin mai complexi. Bazele de date conțin o cantitate mare informații, în ciuda acestui fapt, căutarea informațiilor necesare nu necesită mult timp. Acesta este un exemplu de indexare de înaltă calitate.

Dacă site-ul nu a fost indexat, atunci este posibil ca informațiile să nu ajungă la utilizatori.

Cum indexează site-urile Google și Yandex

Yandex și Google sunt poate cele mai multe motoare de căutare populare in Rusia. Pentru ca motoarele de căutare să indexeze site-ul dvs., trebuie să îl raportați. Puteți face acest lucru în două moduri:

Adăugați un site pentru indexare folosind link-uri pe alte resurse de pe Internet - această metodă este considerată optimă, deoarece paginile găsite astfel sunt considerate utile de către robot și sunt indexate mai rapid, de la 12 ore la două săptămâni.
Trimiteți site-ul dvs. pentru indexare completând formă specială motorul de căutare manual folosind serviciile Yandex.Webmaster, Google Webmaster Tools, Bing Webmaster Tools etc.

A doua metodă este mai lentă; site-ul este pus la coadă și indexat timp de două săptămâni sau mai mult.

În medie, site-urile și paginile noi sunt indexate în 1-2 săptămâni.

Se crede că Google indexează site-urile mai repede. Acest lucru se întâmplă deoarece motorul de căutare sistemul Google indexează toate paginile - atât utile, cât și inutile. Cu toate acestea, numai conținutul de înaltă calitate este clasat.

Yandex este mai lent, dar indexează materiale utileși exclude imediat toate paginile nedorite din căutare.

Indexarea unui site funcționează astfel:

robotul de căutare găsește portalul și examinează conținutul acestuia;
informațiile primite sunt introduse în baza de date;
în aproximativ două săptămâni, materialul care a trecut cu succes de indexare va apărea în rezultatele căutării, la cerere.

Există 3 moduri de a verifica indexarea unui site și a paginilor sale în Google și Yandex:

utilizarea instrumentelor pentru webmasteri - google.com/webmasters sau webmaster.yandex.ru;
folosind intrarea echipe speciale V bara de căutare, comanda pentru Yandex va arăta astfel: gazdă: numele site-ului + domeniu de prim nivel; iar pentru Google - site: nume site + domeniu;
folosind servicii speciale automate.

Verificarea indexării

Acest lucru se poate face folosind:

operatorii motoarelor de căutare - caută în ajutor sau;
servicii speciale, de exemplu rds bar;

Cum să accelerezi indexarea site-ului

Viteza cu care apare materialul nou în rezultatele căutării depinde de cât de repede roboții efectuează indexarea și cu cât publicul țintă va ajunge mai repede pe site.

Pentru a accelera indexarea de către motoarele de căutare, trebuie să urmați mai multe recomandări.

Adăugați un site la un motor de căutare.
Umpleți în mod regulat proiectul cu conținut unic și util.
Navigarea prin site ar trebui să fie convenabilă, accesul la pagini nu trebuie să depășească 3 clicuri din pagina principală.
Plasați resursa pe găzduire rapidă și de încredere.
Configurați corect robots.txt: eliminați restricțiile inutile, blocați paginile de servicii de la indexare.
Verificați erorile, numărul de cuvinte cheie.
Faceți legături interne (linkuri către alte pagini).
Postați linkuri către articole pe rețelele sociale și marcaje sociale.
Creați o hartă a site-ului, sau chiar două, una pentru vizitatori și una pentru roboți.

Cum să blochezi un site de la indexare

Blocați indexarea unui site - interziceți roboților de căutare accesul la site, la unele dintre paginile acestuia, la o parte din text sau imagine. Acest lucru se face de obicei pentru a se ascunde de accesul public informatii secrete, pagini tehnice, site-uri la nivel de dezvoltare, pagini duplicate etc.

Puteți face acest lucru în mai multe moduri:

Folosind robots.txt, puteți preveni indexarea unui site sau a unei pagini. În acest scop, a Document text, care stabilește regulile pentru roboții motoarelor de căutare. Aceste reguli constau din două părți: prima parte (User-agent) indică destinatarul, iar a doua (Disallow) interzice indexarea oricărui obiect.
De exemplu, interzicerea indexării întregului site pentru toți roboții de căutare arată astfel:

Agent utilizator: *

Nu permite: /

Folosind metaeticheta robots, care este considerată cea mai corectă modalitate de a bloca indexarea unei pagini. Cu ajutor etichete noindexși nofollow puteți împiedica roboții oricăror motoare de căutare să indexeze un site, o pagină sau o parte a textului.

O intrare pentru a dezactiva indexarea unui întreg document ar arăta astfel:

Puteți crea o interdicție pentru un anumit robot:

Ce afectează indexarea în timpul promovării?

Datorită indexării, site-urile sunt incluse în motorul de căutare. Cu cât conținutul este actualizat mai des, cu atât se întâmplă mai repede, deoarece roboții vin mai des pe site. Acest lucru are ca rezultat un clasament de căutare mai ridicat.

Indexarea site-ului în motoarele de căutare oferă un aflux de vizitatori și contribuie la dezvoltarea proiectului.

Pe lângă conținut, roboții evaluează traficul și comportamentul vizitatorilor. Pe baza acestor factori, ei trag concluzii despre utilitatea resursei, vizitează site-ul mai des, ceea ce îl ridică pe o poziție superioară în rezultatele căutării. În consecință, traficul crește din nou.

Indexarea este proces important pentru a promova proiecte. Pentru ca indexarea să aibă succes, roboții de căutare trebuie să fie convinși că informațiile sunt utile.

Algoritmii pe care ii folosesc motoarele de cautare se schimba constant si devin mai complexi. Scopul indexării este de a introduce informații în baza de date a motorului de căutare.

Tipuri de sisteme de indexare. Analiza morfologică și normalizarea conceptelor.

Indexarea este procesul de traducere a textelor din limba naturală în limbă străină. Indexarea se bazează pe un set de instrucțiuni care descriu în detaliu procesul de indexare și reprezintă un set de reguli, inclusiv reguli de utilizare a IP-ului.

Sistemul de indexare (SI) este un set de metode și instrumente de traducere a textelor din limba naturală în limbă străină în conformitate cu un set dat de dicționare de unități lexicale și cu regulile de utilizare a NL. Pe lângă regulile de utilizare a IPL, sistemul de indexare poate include o mare varietate de instrucțiuni, reglementări, metode etc., care reglementează anumite etape ale procesului de indexare.

Sistemele existente indexarea sunt foarte diferite unele de altele și le descriu compozitia generala iar structura este imposibilă. Cu toate acestea, prezența aspecte comune vă permite să oferiți o idee sistematică a claselor de sisteme de indexare.

Să luăm în considerare tipologia sistemelor de indexare după cele mai importante cinci motive (Fig. 5.1).

1. Dar se distinge gradul de automatizare a procesului de indexare

Indexare manuală;

Indexare automată;

Indexare automată.

2. Pe baza gradului de controlabilitate, sistemele se disting:

Fără dicționar;

Cu un vocabular dur;

Cu un dicționar gratuit.

3. Pe baza naturii algoritmului de selectare a cuvintelor text, se disting următoarele sisteme:

Cu vizualizare secvențială a textului (se selectează toate cuvintele cu sens complet);

Proceduri euristice pentru selectarea cuvintelor dintr-un text (cuvintele sunt selectate intuitiv sau conform unei proceduri date):

Cu proceduri de selectare a cuvintelor statistice (se selectează doar cuvintele informative în funcție de distribuția de frecvență a utilizării lor).

4. Pe baza naturii controlului lexicografic, se disting sistemele:

Fără control lexicografic;

CU control total;

Cu control intermediar.

Controlul lexicografic prevede:

Eliminarea sinonimiei, polisemiei și omonimiei pe baza dicționarelor normative de unități lexicale cu relații paradigmatice între ele;

Normalizarea cuvintelor pe baza dicționarelor normative morfologice.

Sistemele de control complet implementează ambele funcții de control lexografic. În sistemele de indexare cu control intermediar, aceste funcții sunt parțial implementate.

Orez. 5.1. Tipuri de sisteme de indexare

5. Pe baza naturii analizei morfologice a cuvintelor, se disting sisteme:

Utilizarea dicționarelor morfologice;

Utilizarea dicționarelor lexicale de bază;

Utilizarea analizei morfologice cu trunchierea cuvintelor.

Sunt posibile sisteme de indexare fără analiză morfologică.

Exemple de sisteme de indexare:

1) Proces de indexare gratuit este după cum urmează. Indexatorul notează cuvinte sau fraze care, în opinia sa, reflectă conținutul textului. El poate lua cuvinte care lipsesc din text, dar sunt importante, din punctul său de vedere, pentru exprimarea sensului textului. Lista de cuvinte selectată este o imagine de căutare a documentului. Sunt sisteme de indexare cu indexare manuală, fără dicționar, cu proceduri de selecție a cuvintelor euristice, fără control lexigrafic și analiză morfologică.

2) Proces indexare semi-liberă similar cu cel descris mai sus, dar cuvintele listei generate sunt corelate cu dicționarul, cuvintele care nu se potrivesc sunt aruncate în POD și nu sunt incluse.

3) La indexare tare cuvintele sunt luate numai din text. POD-ul include numai acele cuvinte care sunt în dicționar. Înainte de a include un termen în dicționar, normalizarea lui morfologică se realizează pe baza principalelor dicționare lexicale.

4) La autocodare statică cuvintele sunt selectate din text folosind proceduri statistice specificate, după care sunt codificate statistic prin trunchierea cuvintelor folosind algoritmi de statistică pozițională.

Există o serie de alte sisteme de indexare.

La început, indexarea a fost efectuată de experți în materie special instruiți, care puteau efectua o analiză aprofundată a conținutului semantic al unui document și să-l atribuie (index) anumitor clase, titluri și termeni cheie. În acest caz, costurile generale au fost ridicate, deoarece a fost nevoie de indexatori înalt calificați pentru personal. În plus, procesul de indexare a fost oarecum subiectiv. Prin urmare, a apărut sarcina de automatizare a indexării documentelor.

Există două abordări ale indexării automate. Primul se bazează pe utilizarea unui dicționar de cuvinte cheie și este folosit în sistemele bazate pe IPT. Indexarea în astfel de sisteme se realizează prin căutare automată secvenţială în textul documentului termeni cheie. Este construit un index reprezentând spațiul de căutare al documentelor. Există două tipuri posibile de astfel de indice - direct și inversat.

Tipul de index direct este construit conform schemei document-termeni. Spațiul de căutare în ACEST caz este reprezentat ca o matrice de dimensiune nxm. Rândurile acestei matrice reprezintă imagini de căutare ale documentelor.

Tipul inversat de index este construit conform schemei inverse - „documente pe termen”. Spațiul de căutare este reprezentat în consecință printr-o matrice similară, doar sub formă transpusă. În acest caz, imaginile de căutare ale documentelor sunt coloanele matricei.

A doua abordare a indexării automate este utilizată în sistemele full-text. În timpul procesului de indexare, informațiile despre toate cuvintele din textul documentului sunt introduse în index (de unde și numele „full-text”).

Analiza morfologică și normalizarea conceptelor. Principalele etape ale procesului de indexare constau în selectarea conceptelor textului care reflectă principalul său conținut semantic, precum și în analiza morfologică și controlul lexografic al conceptelor selectate și codificarea acestora.

Procedura de selectare a conceptelor informative ale unui text este similară cu procesele de selectare a conceptelor la construirea dicționarelor de unități lexicale de bază, discutate în subiectul anterior.

Să luăm în considerare mai detaliat esența procedurilor de analiză morfologică, control lexicografic și codificare a conceptelor atunci când se utilizează tipuri variate dicționare.

Procedura de analiză morfologică folosind dicționare morfologice constă în:

1) în determinarea clasei gramaticale generale a unui cuvânt și a membrilor săi în tulpini și desinențe (conform dicționarelor de tulpini și desinențe);

2) în identificarea genului substantivelor (pe baza elementelor de bază ale cuvintelor);

3) în identificarea numărului clasei flexive de cuvinte (după clasă gramaticală generalizată, gen, desinență, combinații de litere finale ale tulpinii);

4) în determinarea numărului unui set de informații gramaticale pentru un cuvânt.

Rezultatul acestei analize este un cuvânt normalizat și numărul setului său de informații gramaticale.

Cuvintele normalizate sunt codificate prin înlocuirea lor cu coduri de litere sau coduri de cuvinte. În primul caz, fiecare literă este înlocuită cu codul corespunzător (conform dicționarului de coduri de litere). În al doilea caz, cuvintele sunt identificate conform unui dicționar de unități lexicale și înlocuite cu numerele sau codurile lor de dicționar.

Decodificarea cuvintelor, efectuată la emiterea rezultatelor căutării, constă în formarea codului de litere al cuvântului (și apoi a cuvântului însuși) în funcție de numărul sau codul părții sale normalizate și numărul informațiilor gramaticale corespunzătoare.

Atunci când utilizați fraze, procedura de analiză morfologică devine semnificativ mai complicată, incluzând:

1. Identificarea cuvintelor unei fraze cu elemente ale unui dicționar de cuvinte. Înlocuirea lor cu numere conform dicționarului, însoțindu-le cu informații gramaticale.

2. Identificarea structurii gramaticale a frazei în ansamblu - analiza sintactică (pe baza informațiilor gramaticale ale cuvintelor frazei).

3. Căutați în dicționar numărul unei fraze care corespunde unei combinații date de numere de cuvinte și structura gramaticală a frazei codificate.

4. Selectând din dicționar după numărul frazei numărul corespunzător al structurii gramaticale și al structurii în sine. Compararea structurii gramaticale selectate cu structura gramaticală a sintagmei codificate obținută la a doua etapă. Dacă structurile coincid, atunci conceptele sunt identice. Fraza analizată este înlocuită cu numărul sau codul corespunzător. Două ultima etapă sunt etapele analizei semantice.

Decodificarea frazelor este:

1) selectarea din dicționar în funcție de numărul frazei setului corespunzător de numere de cuvinte și numărul structurii gramaticale;

2) extragerea de informații despre formele cuvintelor și legăturile lor, restabilirea ordinii cuvintelor într-o frază (după structura gramaticală);

3) formarea codului literei frazei și a combinației în sine.

Analiza morfologică din dicționarele unităților lexicale de bază include 2 etape: compararea unui cuvânt cu un dicționar (identificarea și determinarea numărului unui concept de potrivire) și identificarea numărului unui set de concepte se realizează folosind un cod de literă sau un concept coduri (după dicționar).

IPS utilizează pe scară largă analiza morfologică prin trunchierea cuvintelor. Sunt utilizate diferite proceduri de trunchiere:

a) utilizarea dicționarelor (baze, desinențe etc.);

b) fără a folosi dicționare (după cele mai simple reguli a priori);

c) trunchierea statistică a cuvintelor folosind aparatul statisticii poziționale.

În cazul a) procedurile de analiză morfologică, codificare și decodificare sunt aceleași ca în cazul utilizării dicționarelor morfologice. În cazul b), începutul și/sau sfârșitul cuvintelor sunt trunchiate după anumite reguli. Părțile trunchiate ale cuvintelor sunt codificate folosind coduri de litere. Nu există decodare. În cazul c) la trunchierea cuvintelor se folosesc aparatele și dicționarele de statistică pozițională. Cuvintele sunt codificate folosind coduri de litere și nu există nici decodare.

Când cuvintele sunt trunchiate, se efectuează doar normalizarea și analiza non-morfologică a acestora.

Întrebări de control

1. Care este rolul și locul sistemului de indexare ca parte a instrumentelor logico-semantice care asigură crearea și funcționarea unui sistem automat de regăsire a informațiilor?

2. Dați exemple de sisteme de indexare.

3. După ce criterii tipologice pot fi împărțite sistemele de indexare?

4. Care este esența procedurii de analiză morfologică, control lexicografic și codificare a conceptelor la utilizarea diferitelor tipuri de dicționare în procesul de indexare?

GOST 7,66-92
(ISO 5963-85)

Grupa T62

STANDARDUL DE STAT AL UNIUNII URSS

Sistem de standarde privind informarea, biblioteconomia și publicarea

DOCUMENTE DE INDEXARE

Cerințe generale pentru indexarea coordonatelor

Sistemul de standarde privind informațiile,
biblioteconomie și editare. Indexarea documentelor.
Cerințe generale pentru indexarea coordonatelor

OKSTU 0007

Data introducerii 1993-01-01

DATE INFORMAȚII

1. DEZVOLTAT ȘI INTRODUS de Comitetul de Stat pentru Știință și Tehnologie URSS și Comitetul Tehnic TC 191 „Științific Informații tehnice, bibliotecă și edituri"

DEZVOLTATORII

V.N. Beloozerov, Ph.D. Philol. Științe (conducător de subiect); N.D. Kravchenko, Ph.D. ped. științe; I.V.Trostnikova; N.A.Slivnitsina; G.N. Khondkarian; V.N.Kazakov, Ph.D. tehnologie. stiinte

2. APROBAT ȘI INTRAT ÎN VIGOARE prin Rezoluția Comitetului pentru Standardizare și Metrologie al URSS din 27 martie 1992 N 297

Acest standard a fost dezvoltat folosind metoda aplicare directă standardul ISO 5963-85 "Documentarea. Metode de analiză a documentelor, determinarea obiectului acestora și alegerea termenilor de indexare" cu cerințe suplimentare care reflectă nevoile economiei naționale

3. Data primei inspecții este 1995.

Frecvența inspecției - 5 ani

4. DEZVOLTAT PENTRU PRIMA Oara

5. DOCUMENTE REGLEMENTARE ŞI TEHNICE DE REFERINŢĂ


	Număr articol, cerere
GOST 7,0-84	Parte introductivă
GOST 7,25-80
GOST 7,26-80	Parte introductivă
GOST 7.27-80	Parte introductivă; Anexa 1
GOST 7,52-85	Parte introductivă; 5.7
GOST 7,59-90	Parte introductivă; Anexa 1

Acest standard specifică Cerințe generale pentru a coordona indexarea documentelor, inclusiv regulile pentru formarea unei imagini de căutare a unui document. Cerințele specifice pentru sistematizarea și identificarea subiectului documentelor sunt în conformitate cu GOST 7.59. Formularul de prezentare a imaginii de căutare a unui document în formatul comunicativ MEKOF - în conformitate cu GOST 7.52.

Standardul se aplică sistemelor de regăsire a informațiilor în care conținutul documentelor este prezentat într-o formă comprimată prin unități lexicale ale limbajului de regăsire a informațiilor. Standardul nu se aplică pentru generarea de înregistrări faptice în bazele de date faptice.

Termeni și definiții - conform GOST 7.0, 7.26, 7.27, 7.59 și Anexa 1.

Cerințele suplimentare care reflectă nevoile economiei naționale sunt prezentate în Anexa 1.

1. DISPOZIȚII GENERALE

1.1. Procesul de indexare include următorii pași, care se desfășoară în următoarea secvență:

analiza și determinarea conținutului documentului ca obiect de indexare;

selectarea conceptelor care caracterizează conținutul documentului;

selectarea termenilor de indexare pentru a desemna concepte;

formarea unei imagini de căutare a unui document din termeni de indexare.

Etapele enumerate pot fi combinate ca parte a procedurilor tehnologice, cu condiția ca fiecare etapă să fie efectuată corespunzător.

1.2. Imaginea de căutare a documentului (SID) este formată din termeni de indexare selectați folosind mijloacele gramaticale ale limbajului de regăsire a informațiilor (IRL).

1.3. În timpul procesului de indexare, nu este recomandat să descrii un document ca obiect fizic (în ceea ce privește forma, volumul, etc.). Este permisă reflectarea unor astfel de informații în POD dacă vă permite să determinați mai precis conformitatea documentului cu nevoile de informații ale utilizatorului sistemului.

2. ANALIZA DOCUMENTULUI

2.1. Atunci când analizează un document, indexatorului trebuie să i se ofere posibilitatea de a revizui documentul în întregime. Dacă este imposibil să vă familiarizați complet cu documentul, indexatorul trebuie să studieze părțile de text disponibile ale documentului (principalele surse de indexare):

aparatul de referință al documentului - titlu (denumire), rezumat, rezumat, cuprins (cuprins), prefață, concluzie etc.;

introducere;

titlurile părților și capitolelor;

primele fraze ale capitolelor și ale paragrafelor;

ilustrații, diagrame, tabele și legende;

cuvinte și grupuri de cuvinte care sunt subliniate sau evidențiate prin mijloace de tipărire în text.

Indexarea numai după titlu este incompletă. Când indexați prin rezumate și adnotări, trebuie să vă asigurați că conținutul documentului este transmis în mod adecvat în acestea.

2.2. Atunci când se analizează documente non-text (audiovizuale și altele), care pe lângă citire necesită vizualizare, ascultare, testare a obiectului în acțiune și alte proceduri similare, este permisă indexarea acestora după componenta text existentă (nume, descriere scurta etc.), dar chiar și în acest caz indexatorului ar trebui să i se ofere posibilitatea de a se familiariza pe deplin cu documentul dacă materialul textual pare insuficient.

3. SELECȚIA CONCEPTELOR CARACTERISTICE CONȚINUTUL DOCUMENTULUI

3.1. Numărul de caracteristici și concepte reflectate în PML determină caracterul complet al acestuia și este cel mai important indicator al calității indexării.

3.1.1. PML trebuie să reflecte toate conceptele care pot fi de valoare pentru utilizatorii sistemului.

Un document poate identifica mai mult de un subiect din zona de interes a unui utilizator. Aceste subiecte ar trebui tratate separat.

3.1.2. Subiectele reflectate în timpul indexării nu ar trebui să se limiteze la cadrul îngust al intereselor imediate ale utilizatorilor sistemului de regăsire a informațiilor. Conceptele legate de aspectele secundare ale documentului (de exemplu, aspectele sociale și economice ale cercetării științifice și tehnice) ar trebui incluse și în AML.

3.1.3. La alegerea conceptelor, criteriul principal este valoarea potențială a conceptului pentru exprimarea conținutului unui document sau pentru căutarea acestuia. În acest caz, este necesar să ne concentrăm asupra solicitărilor tipice către IPS:

selectați conceptele cel mai frecvent utilizate în rândul comunității de utilizatori IPS;

clarifică componenţa vocabularului şi reguli gramaticale IPY pe baza feedback-ului utilizatorilor.

Modificările aduse IPA nu trebuie să încalce structura generalași logica inerentă creării sale.

3.1.4. Numărul de termeni de indexare alocați unui document este determinat de cantitatea de informații conținute în document. Limitarea numărului de termeni ar trebui să se bazeze pe o selecție semnificativă a celor mai importante concepte.

3.2. Completitudinea indexării adoptate în fiecare sistem informațional este determinată de scopul său funcțional. Mărimea documentului afectează, de asemenea, în mare măsură caracterul complet al indexării. Este necesar să se țină seama de acești factori și, pe baza lor, să se facă o selecție expertă a conceptelor din document, fără a încerca să includă în AML toate conceptele menționate în acesta.

3.3. Specificul AML este determinat de măsura în care conceptele documentului sunt reflectate cu acuratețe în termenii de indexare și este, de asemenea, unul dintre parametrii calității indexării. Înlocuirea unui concept cu un termen care reflectă un concept mai larg duce la o pierdere a specificității. Termeni mai largi pot fi folosiți în cazuri speciale:

dacă un termen prea specific nu este clar pentru utilizatori, mai ales când conceptul corespunzător este aplicat doar în zonele limită de activitate;

dacă conceptul nu este dezvăluit integral în document sau este auxiliar pentru prezentarea conținutului documentului.

3.4. Se recomandă ca fiecare IPS să elaboreze liste de caracteristici care sunt considerate importante pentru reflectarea în AML. Pentru toate sistemele, poate fi recomandată o listă de indicatori de rol în conformitate cu GOST 7.52. În funcție de nevoile unui anumit IP, această listă poate fi fie extinsă, fie scurtată.

4. SELECTAREA TERMENILOR DE INDEXARE

4.1. În procesul de selectare a termenilor de indexare, conceptele care caracterizează conținutul documentului sunt:

unități lexicale preferate (descriptori sau cuvinte cheie), selectate după regulile unui anumit FL;

termeni care reflectă concepte noi, verificând acuratețea și acceptabilitatea acestora în dicționare, enciclopedii, cărți de referință, tabele de clasificare, tezaure de regăsire a informațiilor, standarde terminologice și alte surse recunoscute ca fiind autorizate în domeniu.

4.2. Selecția termenilor de indexare se realizează pe baza unui tezaur de regăsire a informațiilor înregistrat (GOST 7.25) sau publicat, care este utilizat la elaborarea interogărilor către sistemul de regăsire a informațiilor.

Când se utilizează un tezaur, este posibil să se reducă numărul de termeni incluși în AML prin excludere concepte generale, care poate fi implicat în etapa de căutare a unui document sau în etapa de întocmire a unei prescripții de căutare bazată pe link-uri din articolele tezaurului.

4.3. Conceptele care nu sunt reprezentate în dicționarul de indexare, dar sunt necesare pentru formarea PML, sunt exprimate în unul din două moduri:

un nou termen specific care este inclus în AML și în dicționar;

Mai mult termen general, disponibil în IPYA; în acest caz, termenul specific este trimis serviciului de întreținere FL ca candidat pentru includerea în dicționar.

Noile concepte sunt reprezentate ca fiind cele mai apropiate unități lexicale existente în FL și se evaluează și utilitatea includerii de noi termeni în dicționar din punct de vedere al căutării.

4.4. La indexarea cu cuvinte cheie gratuite preluate din textul documentului, acestea trebuie reduse la formă canonică conform GOST 7.25. Se recomandă limitarea lungimii frazelor la două sau trei forme de cuvinte.

Schema de indexare folosind un tezaur de regăsire a informațiilor este prezentată în Anexa 2.

5. FORMAREA IMAGINII DE CĂUTARE A UNUI DOCUMENT

5.1. POD-ul constă din termeni de indexare selectați, organizați folosind mijloacele gramaticale ale FL unui anumit IRS.

5.2. Următoarele categorii de date furnizate de tehnologia de indexare a unui anumit IRS pot fi incluse în AML:

gradul de normalizare a termenilor de indexare și vocabularul folosit pentru aceasta;

caracteristicile individuale ale termenului de indexare;

conexiunea termenilor de indexare în construcţiile sintactice ale POD.

Pentru a include date faptice în PML, categoriile gramaticale specificate în secțiunea. 6.

5.3. Pe baza gradului de normalizare, se disting două tipuri de termeni de indexare a coordonatelor: descriptori și cuvinte cheie.

5.4. Termenii de indexare trebuie să fie prezentați în AML în conformitate cu regulile de ortografie ale limbajului natural utilizat în sistem.

5.4.1. Descriptorii pot fi reprezentați prin coduri condiționate care sunt specificate în dicționarul de indexare utilizat. În acest caz, IPS trebuie să furnizeze căutare automată forme de ortografie ale descriptorilor conform codurilor acestora.

5.4.2. Cuvintele cheie din sistemele informatice multilingve, cu AML bazate pe diverse limbi naționale, trebuie marcate cu semne care indică faptul că aparțin uneia sau alteia limbi naturale.

5.5. Caracteristicile individuale ale termenilor de indexare sunt elemente opționale ale AML și sunt utilizate pentru a clarifica conținutul unui document, pentru a organiza procedurile de regăsire a informațiilor sau pentru prelucrarea ulterioară analitică și sintetică a documentelor din sistem.

Caracteristicile individuale includ date despre categoria semantică și morfologică a termenului de indexare, rolul și ponderea informației acestuia, metoda de obținere și utilizarea prevăzută.

5.5.1. Caracteristica semantică a termenului de indexare este de a-l clasifica în următoarele categorii lexicografice:

1) un termen care exprimă un concept științific și tehnic;

2) nume propriu, identificator;

3) numele parametrului;

4) valoarea parametrului (exprimată ca text sau o valoare numită);

5) expresie numerică;

6) desemnarea unității de valoare.

5.5.2. Caracteristica morfologică a termenului de indexare este de a-l atribui categorii lexicografice:

1) cuvânt derivat;

2) cuvânt compus;

3) frază;

4) abreviere;

5) fragment de cuvânt.

Caracteristicile morfologice sunt utilizate în POD pentru a implementa analiza semantică a unităților lexicale din IRS pe baza caracteristicilor lor formale.

5.5.3. Rolul termenului de indexare este indicat în AML pentru a clarifica locul conceptului corespunzător în conținutul documentului. Pentru aceasta, indicatorii de rol special adoptați în IRS marchează termenii de indexare care reflectă următoarele aspecte ale documentului:

1) obiectul cercetării, descrierea;

2) caracteristicile, proprietățile, parametrii obiectului;

3) metode și instrumente de cercetare, echipamente tehnologice;

4) componente, componente, detalii ale obiectului;

5) aria de aplicare a obiectului (ramură economie, tehnologie, știință);

6) scopul obiectului;

7) scopul cercetării, dezvoltării, descrierii;

8) rezultatele cercetării și dezvoltării.

5.5.4. Ponderea informațională a unui termen de indexare reflectă în AML importanța acestui concept pentru un document dat. Numărul de gradări ale ponderii informației este determinat de nevoile unui sistem informațional specific. Este necesar să distingem:

1) concepte care exprimă subiectul principal document;

2) concepte care exprimă subiecte secundare ale documentului;

3) concepte utilizate în document ca auxiliare pentru prezentarea conţinutului acestuia.

Este permisă utilizarea unui indicator negativ de greutate pentru a marca termenii de indexare pentru a indica acest lucru acest concept nu este discutat în document.

5.5.5. Pentru organizare se folosesc notele necesare indicarii modului de obtinere a termenului de indexare proces tehnologic indexarea. Ar trebui să se distingă următoarele așternuturi:

1) termenul este atribuit la latitudinea indexatorului, dar nu se află în document;

2) termenul este înscris în AML pe baza legăturilor indicate în tezaur, dar nu este prezent în document;

3) termenul a fost obținut prin indexare automată.

5.5.6. Notele despre utilizarea intenționată a termenului de indexare sunt introduse în POD pentru a evidenția unitățile lexicale care sunt supuse unei prelucrări speciale în procesele de prelucrare ulterioară analitică și sintetică a informațiilor. Ar trebui să se distingă următoarele așternuturi:

1) termenul este folosit ca titlu de subiect în indexuri:

2) când acest termen indexarea există date faptice specificate în AML;

3) termenul este folosit doar ca un calificativ clarificator al altor termeni.

5.6. Termenii de indexare din AML pot fi furnizați cu indicatori de legătură care îi combină în structuri sintactice care reflectă:

1) succesiune și aranjament reciproc indexarea termenilor din document;

2) conexiuni semantice ale conceptelor din document;

3) conexiuni paradigmatice ale descriptorilor din tezaur.

Construcțiile sintactice sunt considerate ca unități integrale ale subdiviziunii împreună cu termenii de indexare. Ele pot fi combinate cu alte constructe sintactice sau cu termeni individuali de indexare într-un construct de ordin superior.

Numărul de niveluri ale ierarhiei structurilor sintactice este determinat de nevoile sistemelor informaționale specifice. Construcțiile de ordinul al patrulea și superior nu ar trebui folosite.

Structurile sintactice pot fi caracterizate prin indicatori de pondere, rol și utilizare prevăzută, similari termenilor de indexare individuali (a se vedea clauzele 5.5.3, 5.5.4, 5.5.6).

5.7. Înregistrarea POD-ului în memoria IPS este determinată de metoda de codificare adoptată în acesta, ținând cont de cerințele acestei secțiuni și GOST 7.52.

6. INDEXAREA DOCUMENTULUI FACTOGRAFIC

6.1. Indexarea faptică a unui document (FID) constă în identificarea într-un document și includerea în AML a datelor care exprimă informații specifice (mesaje) disponibile în document.

Pe baza rezultatelor FID, matricele de informații sunt formate în sisteme informaționale faptice, în care unitatea de informație este o înregistrare faptică.

6.2. FID presupune o distincție formală în AML între două categorii de termeni de indexare care exprimă:

1) subiecte sau obiecte ale mesajului;

2) proprietățile atribuite acestor obiecte, care sunt sensul mesajului.

Termenii corespunzători de indexare trebuie legați între ei într-o structură sintactică care combină numele obiectului, caracteristicile acestuia, semnificațiile acestora, unitățile de valoare și reflectând conexiunile semantice ale conceptelor din document.

În plus, o astfel de construcție sintactică poate fi caracterizată:

1) indicator de modalitate;

2) condiția de adevăr.

6.3. Indicatorul de modalitate al unui mesaj de fapt determină diferența dintre mesajele de următoarele tipuri:

1) fapt observat;

2) valoarea admisibilă;

3) cerințe standard;

4) indicator țintă;

7) presupunerea;

8) stare.

Dacă în Sistem informatic nu folosiți indicatori de modalități, atunci toate mesajele faptice sunt considerate ca aparținând unei singure modalități, ceea ce trebuie indicat în documentația operațională a sistemului.

6.4. Condiția pentru adevărul unui mesaj factual este un alt mesaj factual asociat cu primul într-o construcție sintactică de nivel superior.

De exemplu:

X = greutatea produsului

Z = 150 g.

V = umiditate nu mai mult de 45%,

unde X este o caracteristică a obiectului,

Z - valoare caracteristică,

Y este condiția de adevăr.

O afirmație de fapt, care este o condiție de adevăr, trebuie să aibă un indicator de modalitate al condiției „dacă”, de exemplu:

(greutatea produsului = 150 g) (dacă (umiditatea nu este mai mare de 45%)).

6.5. Termenii de indexare care exprimă subiectul (obiectul) mesajului aparțin categoriilor 1 sau 2 specificate în clauza 5.5.1. Când se utilizează categoria 1, termenului de indexare i se poate atribui suplimentar un indicator al singularității sau generalității obiectului (cuantificator).

Cuantificatorul general este utilizat în mesajele în care se exprimă o declarație despre toate obiectele care intră în domeniul de aplicare al conceptului corespunzător.

Cuantificatorul de singularitate este utilizat în mesajele care exprimă informații despre obiectul care face parte din conceptul dat, care este luat în considerare în acest document.

6.6. Termenii de indexare care exprimă proprietățile obiectelor care compun sensul mesajului pot fi exprimați prin unități lexicale din categoriile 1, 2, 3 (vezi clauza 5.5.1) sau o construcție parametrică (vezi clauza 5.6).

6.7. O construcție parametrică trebuie să conțină două părți exprimate formal: numele parametrului și lista valorilor parametrilor (a se vedea clauza 6.8), care sunt combinate într-o singură construcție sintactică.

6.8. Lista de valori într-un proiect parametric trebuie să includă un set de valori ale parametrilor și o indicație a alternativității sau simultaneității (simultaneității) valorilor.

Un set de valori este specificat prin enumerarea sau specificarea a două valori limită, între care se află valorile acceptate de parametru (interval de valori). Când se specifică un interval de valori, se indică în mod formal care dintre valori este valoarea inițială și finală pentru intervalul de valori, precum și dacă valorile limită sunt incluse în intervalul specificat. Una dintre valorile limită a intervalului poate lipsi dacă valoarea parametrului este limitată doar pe o singură parte.

Indicația de simultaneitate este utilizată atunci când un obiect mesaj are toate valorile stabilite parametru. Indicația de alternativă este utilizată atunci când parametrii unui obiect mesaj trebuie selectați dintre cei specificați.

6.9. Valorile parametrilor pot fi reprezentate printr-o construcție sintactică a doi termeni de indexare - expresie numericăși denumirea unității de valoare - dacă este necesar, efectuați operații de calcul sau comparații numerice.

7. INDEXARE AUTOMATIZATĂ

7.1. Scopul automatizării indexării este de a minimiza resursele materiale și umane cheltuite pentru procedura de indexare, precum și de a obține stabilitatea și uniformitatea rezultatelor acesteia.

7.2. Indexarea automată (AI) este realizată de:

1) text document primar.

2) titlul și rezumatul sau rezumatul documentului;

AI conform textului documentului primar trebuie să includă o procedură de comprimare a AML.

7.3. Folosind tehnologia calculatoarelor efectuează următoarele etape de fond ale IA:

1) identificarea părților informative ale documentului;

2) identificarea cuvintelor text și aducerea lor la o formă normalizată (analiza și sinteza morfologică);

3) generarea unei liste de cuvinte cheie în textul sursă;

4) selectarea descriptorilor folosind tezaurul;

5) formarea AML.

7.4. Identificarea părților informative ale unui document

Tehnologia AI ar trebui să prevadă identificarea și furnizarea către indexator sau program de indexare a celor mai informative fragmente de document din lista specificată în clauza 2.1. Algoritmii de identificare a fragmentelor informative pot fi furnizați pe baza altor criterii formale, precum și la decizia unui indexator.

7.5. Identificarea cuvintelor textului

7.5.1. Procesul de identificare a cuvintelor dintr-un text ar trebui să includă: identificarea formelor de cuvinte ale unui cuvânt și identificarea cuvintelor informative ale textului.

În acest caz, poate fi necesară utilizarea unor proceduri inteligente pentru a rezolva probleme precum identificarea și prelucrarea structurilor sintactice, identificarea și rezolvarea omonimiei.

7.5.2. Pentru a identifica cuvintele dintr-un text, se folosesc dicționare automate (dicționare de fundamente, paradigme, fraze etc.). Dicționarele trebuie să fie prezentate în baza de date a sistemului și prevăzute cu instrumente de vizualizare și întreținere.

7.6. Generarea unei liste de cuvinte cheie text

7.6.1. În procesul de formare a unei liste de cuvinte cheie text, se efectuează o analiză sintactică a textului ținând cont de regulile de compatibilitate a categoriilor gramaticale ale unei anumite limbi naturale.

7.6.2. Analiza sintactică a textului rezolvă următoarele probleme:

1) împărțirea textului în fragmente după criterii specificate;

2) stabilirea dependenţelor sintactice între formele de cuvinte ale textului;

3) identificarea frazelor;

4) normalizarea cuvintelor cheie identificate.

7.7. Generarea automată a AML

7.7.1. În procedura AI, este permisă formarea unui PML din cuvinte cheie sau descriptori liberi ai unui tezaur de regăsire a informațiilor utilizați în acest domeniu.

7.7.2. Când se utilizează descriptori AI ai unui tezaur de regăsire a informațiilor, în etapa formării ML, cuvintele cheie sunt înlocuite cu descriptorii specificați în tezaur.

7.7.3. Când se formează un POD din descriptori, este posibil să se îmbogățească POD-ul prin adăugarea de termeni mai mari la tezaurul de regăsire a informațiilor.

7.7.4. Procedura AI ar trebui să prevadă includerea mijloacelor gramaticale standard în POD (a se vedea secțiunea 5).

7.7.5. Următoarele cerințe sunt impuse sistemelor AI:

1) modularitatea construcției, adică astfel de organizare internă a lingvistice şi software sisteme în care procedurile de rezolvare a problemelor individuale de IA sunt implementate folosind blocuri sau module independente;

2) concentrarea pe software și hardware standard;

3) respectarea documentației normative și metodologice actuale privind indexarea coordonatelor.

ANEXA 1 (pentru referință). TERMENI ȘI DEFINIȚII

ANEXA 1

informație

1. Indexare automată- indexarea, a cărei tehnologie implică utilizarea unor proceduri formale efectuate cu ajutorul tehnologiei informatice și poate include utilizarea unor proceduri inteligente atunci când se iau decizii de bază cu privire la compoziția imaginii de căutare.

2. Indexare automată- alcătuirea unei imagini de căutare folosind numai proceduri formale de prelucrare a textului unui document sau al unei cereri, realizată prin tehnologie informatică.

3. Cuvânt informativ- un cuvânt sau o expresie din textul unui document sau al unei cereri care poartă o încărcătură semantică semnificativă.

4. Indexare controlată- indexare, care presupune înlocuirea cuvintelor informative ale textului cu descriptori specificați într-un anumit tezaur de regăsire a informațiilor sau alt dicționar de indexare.

5. Indexarea coordonatelor- indexarea, al cărei scop este de a reflecta cuprinzător conținutul unui document sau al unei interogări prin includerea în imaginea de căutare a tuturor termenilor de indexare necesari pentru aceasta.

6. Unitatea lexicală (LE) a IPL- o succesiune de caractere, un cuvânt, o frază, un fragment de cuvânt sau simbol, care este considerată în acest FL ca o unitate elementară utilizată pentru a reprezenta un anumit concept, obiect sau valoare de parametru în imaginile de căutare ale documentelor sau interogărilor.

7. Indexare gratuită- indexarea, a cărei tehnologie nu prevede înlocuirea cuvintelor informative ale textului în conformitate cu recomandările unui dicționar special de indexare.

8. Termen specific- un cuvânt informativ care reflectă cel mai bine conținutul documentului, a cărui utilizare distinge acest document de alte documente legate tematic.

9. Specificitatea indexării - caracteristica de calitate a indexării, determinată de raportul dintre numărul de termeni specifici și informațiile de fapt și numărul de termeni nespecifici din imaginea de căutare.

10. Completitudinea indexării- gradul de reflectare în imaginea de căutare a conținutului documentului și (sau) cererii, definit ca raportul dintre numărul de termeni specifici și informațiile faptice incluse în imaginea de căutare și numărul de astfel de termeni și informații disponibile în textul documentului sau al cererii.

11. Indexarea faptelor - indexarea, care presupune reflectarea în imaginea de căutare a unui document a unor informații specifice (mesajelor) care este sensul acestui document.

ANEXA 2 (pentru referință). SCHEMA DE INDEXARE PRIN TEZAURUL GĂRĂRII INFORMAȚIILOR

ANEXA 2
informație

1. Studiază documentul și întocmește o listă de concepte esențiale pentru conținutul său, ținând cont de specificul IPS.

2. Luați în considerare primul concept

3. Găsiți în tezaur o unitate lexicală care reflectă acest concept. Dacă nu există, treceți la pasul 11.

4. Dacă unitatea lexicală găsită este un ascriptor, înlocuiți-o cu descriptorul specificat în link (sau o combinație de descriptori).

6. Verificați dacă descriptorii specificați în referințe sunt mai specifici pentru a exprima conceptul dat. Dacă da, atunci treceți la pasul 10.

7. Notați unitățile lexicale găsite în imaginea de căutare, oferindu-le indicatorii gramaticali necesari conform regulilor FL dat.

8. Verificați dacă există concepte din document care nu sunt încă reflectate în imaginea de căutare și luați în considerare următorul concept. Treceți la pasul 3.

9. Dacă lista conceptelor de document este epuizată, terminați lucrarea.

10. Înlocuiți descriptorul original cu unul mai specific, așa cum este indicat de linkul din tezaur. Treceți la pasul 7.

11. Găsiți descriptori în tezaur, a căror includere comună în imaginea de căutare reflectă acest concept. Dacă nu există, treceți la pasul 12, dacă există, treceți la pasul 5.

12. Stabiliți un termen care exprimă conceptul și îndeplinește cerințele pentru descriptori în conformitate cu GOST 7.25.

13. Trimiteți termenul găsit la serviciul de întreținere IPL ca candidat pentru includerea în tezaur. Treceți la pasul 7.

14. Sfârșitul.

O diagramă bloc de indexare folosind un tezaur de regăsire a informațiilor este prezentată în desen.

Diagrama de flux al algoritmului de indexare

Textul documentului se verifică după:
publicație oficială
M.: Editura Standarde, 1992