Articol din tezaur. Tezaur în limba rusă pentru procesarea automată a colecțiilor mari de texte. Relații de cuvinte în tezaur

N. V. Lukaşevici

[email protected]

B. V. Dobrov

Centrul de cercetare de calcul al Universității de Stat din Moscova. M.V.Lomonosov;

Centrul ANO pentru Cercetare Informațională

[email protected]

Cuvinte cheie: tezaur, regăsire informații, procesare automată a textului,

Marea majoritate a tehnologiilor care lucrează cu colecții mari de texte se bazează pe metode statistice și probabilistice. Acest lucru se datorează faptului că resursele lexicale care ar putea fi folosite pentru a procesa colecții de texte folosind metode lingvistice trebuie să aibă un volum de zeci de mii de intrări de dicționar și să aibă o serie de proprietăți importante care trebuie monitorizate în mod specific la dezvoltarea resursei. În raport avem în vedere principiile de bază ale dezvoltării resurselor lexicale pentru prelucrare automată colecții mari de texte folosind exemplul tezaurului în limba rusă creat în 1997 pentru prelucrare computerizată Texte RuTez, care este în prezent o rețea ierarhică de peste 42 de mii de concepte. Descriem starea curenta tezaur bazat pe o comparație a compoziției sale lexicale și a corpusului de text al Sistemului Informațional Universitar RUSIA (www.cir.ru) - 400 de mii de documente. Sunt discutate exemple de utilizare a tezaurului în diverse aplicații automate de procesare a textului.

  1. Introducere

În prezent, milioane de documente au devenit disponibile în formular electronic, au fost create mii de sisteme informatice și biblioteci electronice. În același timp, sistemele informaționale care utilizează resurse lexicale și terminologice pentru căutare sunt calculate în fracțiuni de procent. Acest lucru se datorează provocărilor serioase ale creării unor astfel de resurse lingvistice pentru prelucrarea automată a colecțiilor moderne de documente electronice.

În primul rând, aceste colecții sunt de obicei foarte mari; resursa trebuie să includă descrieri de mii de cuvinte și termeni. În al doilea rând, colecțiile sunt un set de documente de diferite structuri cu diferite structuri sintactice, ceea ce face dificilă procesarea automată a propozițiilor text. În plus, adesea Informații importante distribuite între diferite propoziții ale textului.

Toate acestea ridică acut întrebarea ce ar trebui să fie o resursă lingvistică, care, pe de o parte, ar fi utilă pentru prelucrarea și căutarea automată în colecțiile electronice, pe de altă parte, ar putea fi creată într-un timp previzibil și întreținută cu relativ puțin efort.

În acest articol ne vom uita la principiile de bază ale dezvoltării resurselor lexicale pentru procesarea automată a colecțiilor mari de texte. Aceste principii vor fi examinate folosind exemplul tezaurului limbii ruse, creat de Centrul ANO pentru Cercetare Informațională din 1997 pentru procesarea computerizată a textului RuTez. RuTez este în prezent o rețea ierarhică de peste 42 de mii de concepte, care include peste 95 de mii de cuvinte, expresii și termeni rusești. Vom descrie starea actuală a tezaurului pe baza unei comparații între compoziția sa lexicală și vocabularul corpusului de text al Sistemului Informațional Universitar RUSIA, susținut de Centrul de Cercetare Informatică al Universității de Stat din Moscova. M.V.Lomonosov si ANO TSII. UIS RUSSIA (www.cir.ru) conține 400 de mii de documente pe teme socio-politice (aproximativ 3 GB de texte, 200 de milioane de cuvinte). Articolul va discuta, de asemenea, exemple de utilizare a tezaurului în diverse aplicații automate de procesare a textului.

  1. Principii pentru dezvoltarea unei resurse lingvistice

pentru sarcini regăsirea informațiilor

Pentru a asigura o prelucrare automată eficientă a documentelor electronice (indexare automată, clasificare, comparare a documentelor), este necesar să se construiască o bază pentru compararea acestora - o listă a ceea ce a fost menționat în document. Pentru ca un astfel de index să fie mai eficient decât un index cuvânt cu cuvânt, este necesar să se depășească diversitatea lexicală a textului: sinonime, polisemie, părți de vorbire, stilistică și să o reducă la un invariant - un concept care devine baza pentru compararea diferitelor texte. Astfel, conceptele ar trebui să devină baza unei resurse lingvistice, iar expresiile lingvistice: cuvintele, termenii - devin doar intrări de text care inițializează conceptul corespunzător.

Pentru a putea compara concepte diferite, dar asemănătoare, trebuie stabilite relații între ele. În mod tradițional, resursele lingvistice pentru prelucrarea automată a textelor în limbaj natural au folosit anumite seturi de relații semantice, cum ar fi parte, sursă, motivși așa mai departe. Cu toate acestea, atunci când lucrăm cu colecții de texte mari și eterogene, trebuie să înțelegem asta cu stadiul actual al tehnologiei Procesarea cuvântului, sistemul informatic nu va putea detecta aceste relații în text cu vreo stabilitate pentru a efectua procedurile pe care le-am asociat acestor sau altor relații. Prin urmare, relațiile dintre concepte trebuie în primul rând să descrie anumite proprietăți invariante care nu depind sau depind slab de tema textului specific în care este menționat conceptul.

Funcția principală a acestei relații este de a răspunde la următoarea întrebare:

dacă se știe că textul este dedicat discutării C1, iar C2 este legat

atitudineRcu C1, putem spune că subiectul textului(*)

legat de C2?

Atunci când se creează o resursă lingvistică pentru prelucrare automată, este important să se determine care proprietăți ale conceptelor C1 și C2 ne permit să stabilim relații corecte (*) între ele.

Deci, de exemplu, indiferent despre ce texte sunt scrise mesteceni, putem spune întotdeauna că aceste versuri sunt despre copaci. Dar în ciuda popularității și a discuțiilor frecvente despre relație copac ca parte paduri, foarte puține texte despre copaci sunt texte despre păduri. Rețineți că problema nu este legată de numele relației. Asa de poiana face parte din padure, iar textele despre poieni sunt texte despre păduri.

Invarianța relațiilor în raport cu spectrul posibilelor subiecte ale textelor dintr-un domeniu este în mare măsură determinată de proprietăți mai profunde decât cele reflectate de numele relațiilor, și anume cuantificatorul și proprietățile existențiale ale acestuia. Astfel, proprietățile cuantificatoare ale relațiilor descriu dacă toate exemplele unui concept au o relație dată, dacă această relație persistă pe tot parcursul ciclu de viață exemplu. Problemă cu utilizarea relației copacpădure Se datorează tocmai faptului că nu fiecare copac anume se află în pădure, dar poiana nu poate fi în afara pădurii.

Un exemplu de descriere a proprietăților existențiale ale relațiilor - rezultă din existența conceptului C1 existența conceptului C2 (de exemplu, existența conceptului? GARAJ necesită existenţa unui concept AUTO) sau existența exemplelor C1 depinde de existența exemplelor C2 (deci specifice POTOP inseparabil de exemplu concret RÂURI). Discuția din textul conceptului dependent C2, mai ales dependent de exemplu, sugerează că textul este legat și de conceptul principal C1.

Să luăm în considerare relația dintre concepte PĂDURĂ și COPACUL in detalii. De fapt, o parte a conceptului PĂDURE este COPACUL ÎN PĂdure, în timp ce există COPACUL DE ÎNTREPRINDERE,COPACUL ÎN GRĂDINĂ etc. În orice caz, este necesar să se rupă relația de subordonare a conceptului COPAC concept PĂDURE.

Pe de alta parte, PĂDURE este o specie COLECȚII DE POMI, nu există fără copaci (precum și GRĂDINĂ). Astfel, conceptul PĂDURE trebuie să fie în raport cu conceptul COPAC. Începând cu o analiză a nevoilor specifice probleme aplicate Am ajuns la concluzia că este important să descriem proprietățile profunde ale relațiilor care anterior erau foarte puțin reflectate în resursele lingvistice, dar care sunt de o importanță capitală pentru sarcina de procesare automată a colecțiilor mari de texte și poate pentru multe alte sarcini. .

Acum modelăm descrierea proprietăților cuantificatoare și existențiale ale conceptelor cu un set de relații tradiționale de tezaur SUS-DEBAS (66% din toate relațiile), PARTEA-INTEGRU (30% din relații), ASOCIAȚIE (4%), în combinație cu un un anumit set de modificatori suplimentari (20% din relații sunt marcate ). Rețineți că relațiile PARTEA-INTEGRU și ASOCIAȚIE sunt interpretate ținând cont de regula (*). În total, sunt descrise aproximativ 160 de mii de conexiuni directe între concepte, ceea ce, ținând cont de tranzitivitatea relațiilor, oferă un număr total de conexiuni diferite de peste 1350 de mii de conexiuni, adică, în medie, fiecare concept este conectat cu alte 30. .

  1. Tezaurul RuTez: structură generală

Tezaurul RuTez este o rețea ierarhică de concepte corespunzătoare semnificațiilor cuvintelor individuale, expresiilor de text sau serii sinonime. Astfel, elementele principale ale unui tezaur sunt conceptele, expresiile lingvistice, relațiile dintre expresiile și conceptele lingvistice și relațiile dintre concepte.

În tezaurul în sistem unificat a colectat atât cunoștințe lingvistice - descrieri ale lexemelor, idiomurilor și conexiunilor lor, legate în mod tradițional de cunoștințe lexicale, semantice și cunoștințe despre termeni și relații din domeniile subiectului, legat în mod tradițional de domeniul de activitate al terminologiștilor, descris în tezaurile de regăsire a informațiilor. Tezaurul descrie domenii precum economie, legislație, finanțe, relații internaționale, pentru care sunt atât de importante Viata de zi cu zi persoană că au o reprezentare lexicală semnificativă în dicționarele explicative tradiționale. În ele, lexicale și terminologice sunt puternic interconectate și interacționează puternic între ele.

Expresiile lingvistice sunt lexeme individuale (substantive, adjective și verbe), grupuri nominale și verbale. Astfel, tezaurul nu include în prezent adverbe și cuvinte funcționale ca expresii lingvistice. Grupurile cu mai multe cuvinte pot include termeni, idiomuri, funcții lexicale ( influență e).

Pentru fiecare expresie lingvistică se descrie următoarele:

Polisemia sa este o conexiune cu unul sau mai multe concepte, ceea ce înseamnă că o anumită expresie lingvistică poate servi ca expresie textuală a acestui concept. Atribuirea unei expresii lingvistice diferitelor concepte este, de asemenea, un indiciu implicit al polisemiei acesteia;

Compoziția sa morfologică (parte de vorbire, număr, caz);

Caracteristici de scriere (de exemplu, cu litere mari) și așa mai departe.

Fiecare concept de tezaur are un nume unic, o listă de expresii lingvistice cu care acest concept poate fi exprimat în text și o listă de relații cu alte concepte.

Una dintre expresiile sale de text fără ambiguitate este de obicei aleasă ca nume unic pentru un concept. Dar numele unui concept poate fi format și dintr-o pereche de expresii text ambigue - sinonime, scrise separate prin virgule și definindu-l fără ambiguitate (de exemplu, conceptul GROS). O expresie text ambiguă a numelui unui concept poate fi, de asemenea, prevăzută cu un semn sau un fragment de interpretare scurtat, de exemplu, concept MULTIME (GRUP DE OAMENI).

  1. Exemplu de intrare în dicționar

Am ales ca exemplu intrarea din dicționar pentru concept PĂDURE, corespunzător unuia dintre sensurile cuvântului pădure. Această intrare din dicționar este interesantă deoarece include diferite tipuri de cunoștințe, clasificate în mod tradițional ca cunoștințe lexicale (semantice) și cunoștințe enciclopedice (cunoștințe despre domeniu, terminologie).

Sinonime pentru concept PĂDURE(total 13):

pădure(M), zonă de pădure, mediu forestier,

pădure, cartier forestier, peisaj forestier,

zonă de pădure, zonă împădurită, zonă împădurită,

zonă de pădure, pădure mică,

șir de păduri.

Mai jos conceptele cu sinonime:

JUNGLĂ(junglă);

PARCUL PĂDURILOR(gradina orasului, zona verde,

zona verde, parc forestier,

management forestier, parc forestier

centura, parc(M), zona parcului);

silvicultură;

PĂDURĂ FRUNS(pădure cu frunze moi, cu frunze tari

pădure);

DUMBRAVĂ(plantatie de stejari);

PĂDURĂ DE CONIFERE (pădure de conifere, pădure de conifere întunecată)

Concepte-părți cu sinonime:

WINDBREAK(windfall, windfall);

TĂIERE(zona de tăiere);

CULTURA PĂDURILOR(specii forestiere, silvicultură

cultură);

FOREST LAND (terenuri forestiere; terenuri acoperite

pădure; terenuri forestiere, teritoriul forestier;

teren împădurit, împădurit

zonă);

PLANTAȚII PĂDURILOR(plantații forestiere, plantații forestiere,

împădurire);

LIZIERA PĂDURII(margine, margine);

SUBFLARE (tufătură);

PROSEKA;

LEMN USC(lemn uscat).

Aici simbolurile (M) reflectă o notă despre ambiguitatea introducerii textului.

Concept PĂDURE are și alte relații, așa-numitele relații de dependență (în versiune modernă numită ASC 2 - asociere asimetrică): INCENDIU DE PĂDURE(incendiu de pădure, incendiu în pădure; UTILIZAREA PĂDURILOR (utilizarea pădurilor, utilizarea suprafețelor fondului forestier); silvicultură; ȘTIINȚA PĂDURILOR (știința pădurilor). După cum sa menționat deja în paragraful 2, conceptul de PĂDURE depinde de conceptul de ARBOR, care în tezaur este notat cu relația ASC 1.

Concept total PĂDURE este conectat direct cu alte 28 de concepte, ținând cont de tranzitivitatea relațiilor - cu 235 de concepte (în total peste 650 de intrări de text).

  1. Evaluarea stării actuale

Tezaurul limbii ruse RuTez

5.1. Compoziția lexicală

În prezent, rețeaua de tezaure include peste 95 de mii de expresii lingvistice, dintre care 61 de mii sunt cu un singur cuvânt.

Acest volum de muncă ne-a forțat să decidem ce cuvinte și expresii lingvistice trebuiau incluse în descrierile tezaurului. Dorința firească a fost de a vedea cum cele mai frecvente cuvinte din limba rusă erau reprezentate în tezaur. În acest scop, a fost folosită colecția de texte a Sistemului Informațional Universitar RUSIA (400 mii documente). Colecția conține documente oficiale de la diverse organisme Federația Rusă(55 de mii de documente din 1992), precum și materiale de presă din 1999 (ziare Izvestia, Nezavisimaya Gazeta, Komsomolskaya Pravda, Argumente și fapte, revista Expert și altele), materiale din reviste științifice ( „Buletinul Universității din Moscova”, „Jurnalul Sociologic "). S-a făcut o comparație între lista de leme incluse în Tezaur și lista celor mai frecvente 100.000 de leme din colecția de texte (frecvență mai mare de 25).

Marcarea polexemei a listei a arătat că dintre aceste sute de mii de leme, 35 de mii sunt descrise în RuTez, doar aproximativ 7 mii de lexeme merită incluse în tezaur, restul sunt variante lematice ale diferitelor nume proprii. Prin urmare, reaprovizionarea a încetat să mai fie o sarcină prioritară și se realizează treptat, începând cu cuvintele cele mai frecvente. Se presupune că, de îndată ce această listă este în mare parte epuizată, se va face o altă comparație cu matricea de text a sistemului informațional, vor fi selectate noi lexeme cu o frecvență mai mare de 25. În continuare, pragul de vizualizare ar trebui să fie redus. . Prezența unui număr mare de exemple de text în colecția de text vă permite să răspundeți rapid la „inovații lexicale” (de exemplu, instalare,blockbuster, monde frumos, thriller) și includeți-le în locurile corespunzătoare din sistemul ierarhic Tezaur.

Lucrul constant cu o colecție de texte actuală oferă oportunități unice de verificare a semnificației și calității descrierilor lexicale propuse în dicționare. De exemplu, un neobișnuit frecventa inalta folosirea cuvântului Mama Vezi(de peste 400 de ori). Verificarea matricei a arătat că cuvântul este într-adevăr adesea folosit ca sinonim pentru cuvânt Moscova, în timp ce dicționarele explicative marchează adesea acest cuvânt ca fiind învechit. Un alt exemplu de cuvânt folosit frecvent (de peste 300 de ori) marcat ca învechit în dicționare este cuvântul fericită.

5.2 Descrierea semnificațiilor cuvintelor

Comparația cu colecția de texte arată că multe dintre cuvintele de frecvență din matrice sunt bine reprezentate în tezaur în cel puțin unul dintre semnificațiile lor (de obicei de bază). A afla în ce măsură Tezaurul reprezintă gama de semnificații ale cuvintelor polisemantice în limba rusă este sarcina noastră principală în prezent.

După cum se știe, adesea surse diferite de dicționar oferă un set diferit de semnificații pentru cuvintele polisemice, evidențiază nuanțe de sens și același tip de polisemie poate fi descris diferit pentru cuvinte diferite chiar și în același dicționar. Prin urmare, sarcina de a descrie în mod consecvent și reprezentativ semnificațiile lexemelor este o sarcină importantă pentru creatorii oricărei resurse de vocabular.

Cu toate acestea, dacă resursa este destinată procesării automate, atunci sarcina de descriere echilibrată a valorilor devine mult mai importantă. Inflarea excesivă a valorii poate duce la incapacitatea sistemului informatic de a selecta valoarea dorită, ceea ce, la rândul său, are ca rezultat o reducere semnificativă a performanței sistemului automat de procesare a textului. Deci, unul dintre dezavantajele resursei WordNet ca resursă pentru procesarea automată a cuvintelor este numărul excesiv de semnificații descrise pentru unele cuvinte (în WordNet 1.6: 53 de sensuri pentru alerga, 47 pentru Joacași așa mai departe.). Aceste semnificații sunt greu de distins chiar și pentru oameni atunci când adnotează semantic texte. Este clar că și sistemul informatic nu poate face față alegerii valorii adecvate. Prin urmare, diferiți autori propun diferite modalități de a combina valorile pentru a îmbunătăți calitatea procesării.

În același timp, funcționează factorul opus: dacă semnificațiile diferă într-adevăr în setul lor de conexiuni de dicționar (în cazul nostru, conexiuni de tezaur) - nu pot fi lipite într-o singură unitate (un singur concept) - acest lucru va duce și la o deteriorare a calitatea prelucrării automate.

Să luăm un exemplu de cuvinte şcoalăȘi biserică, fiecare dintre acestea putând fi considerată ca o organizație și ca o clădire.

Fiecare organizație școlară are o clădire (cel mai adesea una). Toate părțile clădirii școlii (săli de clasă, tabele) sunt legate de şcoală cum la o organizație. Nu există tipuri specifice de clădiri școlare. Prin urmare descrierea scoli Ca clădiri, este nepotrivit să le separăm într-un concept separat. Cu toate acestea, descrierea unui astfel de concept colectiv ŞCOALĂ ca organizaţie şi ca clădire trebuie să aibă o relaţie special concepută cu conceptul CLĂDIREA. Când descrieți astfel de relații în tezaur, se folosește un semn pe relație - modificatorul „A” („aspect”; în timpul analizei automate, este necesară „confirmarea” de către alte concepte pentru a lua în considerare această relație).

ŞCOALĂ

SUPERIOR INSTITUȚIE EDUCAȚIONALĂ

SUS A CLĂDIRE PUBLICĂ

Semnificațiile corespunzătoare ale cuvântului biserică nu atât de aproape. Biserici Cum poate avea o organizație un numar mare de biserici-cladiri in diferite locuri, si are, de asemenea, multe alte cladiri. zidirea bisericii este strâns legată de religie și confesiune, dar poate schimba apartenența organizatii bisericesti. Biserica-organizareȘi biserica-cladire au subspecii diferite. De aceea BISERICA (ORGANIZARE) Și BISERICA (CLĂDIREA) sunt prezentate în RuTez ca concepte diferite.

Divergența semnificativă în conexiunile tezaurului se corelează într-un mod interesant cu capacitatea denotațiilor corespunzătoare semnificațiilor de a exista separat unele de altele. Astfel, o clădire-biserică nu încetează să existe și chiar să fie numită biserică chiar și atunci când folosirea ei se schimbă, spre deosebire de clădirea unei școli.

Procesul de verificare a reprezentării valorilor în tezaur este în curs de desfășurare, începând cu cele mai frecvente leme. Pentru fiecare lexemă de frecvență, se verifică modul în care semnificațiile sale sunt descrise în dicționarele explicative, ce semnificații sunt folosite în colecție și cum sunt prezentate în tezaur. Drept urmare, s-a format acum o listă de 10.000 de lexeme, a căror ambiguitate necesită încă fie analiză suplimentară, sau descriere suplimentară. Lista a fost obținută pe baza a 30 de mii dintre cele mai frecvente leme.

Trebuie remarcat faptul că în tezaur problema polisemiei este parțial înlăturată datorită faptului că legăturile tezaurului pot fi descrise între diferite sensuri ale unui cuvânt și, prin urmare, cel mai înalt concept din ierarhie poate fi selectat implicit. Cu siguranță s-a discutat în text. De exemplu, cuvântul fotografie are trei semnificații: fotografia ca domeniu de activitate, fotografia ca imagine fotografică, fotografia ca studio foto:

FOTOGRAFIE(fotografiend, afaceri foto, ..., fotografie )

PARTE IMAGINE FOTOGRAFICĂ

(fotografie, fotografie, fotografie )

PARTE STUDIO FOTOGRAFIC (fotografie ).

Astfel, dacă nu a fost posibil să ne dăm seama ce sens a fost folosit cuvântul fotografie, implicit este să presupunem că a fost făcută o fotografie (a unui proces, rezultat sau locație), ceea ce este suficient pentru multe aplicații de procesare automată a textului.

  1. Aplicarea tezaurului RuTez

pentru procesarea automată a textului

Din 1995, terminologia socio-politică RuTez (tezaurul socio-politic) a fost utilizată activ și cu succes pentru aplicatii diverse procesarea automată a textului, cum ar fi indexarea conceptuală automată, rubricarea automată folosind mai multe rubricatoare, adnotarea automată a textelor, inclusiv a celor în limba engleză. Tezaurul socio-politic (27 de mii de concepte, 62 de mii de intrări de text) este un instrument de căutare de bază în sistemul de căutare UIS RUSSIA (www.cir.ru).

Tot vocabularul tezaurului RuTez este folosit în procedurile de clasificare automată a textelor folosind rubricatori ierarhici complexe. ÎN tehnologie existenta Fiecare categorie este descrisă ca o expresie booleană a termenilor, după care formula originală este extinsă de-a lungul ierarhiei tezaurului. Expresia booleană rezultată poate include deja sute și mii de conjuncții și disjuncturi.

Să dăm, ca exemplu, un fragment dintr-o descriere folosind concepte de tezaur (și expresii lingvistice după extinderea formulei) a rubricii „Imaginea unei femei” a rubricatorului SOFIST 2, folosită de VTsIOM pentru a clasifica chestionarele de opinie publică:

(FEMEIE[N]

|| FATA[N]

|| RUDA [L] (bunica, nepoata, verisoara,

fiica, cumnata, mama, mama vitrega, nora, fiica vitrega, ...))

(TRASĂTĂ DE CARACTER[L] (economisitor, lipsit de inimă, uituc,

frivol, batjocoritor, intolerant, sociabil, ...)

|| IMAGINE[E] (reprezentare, aspect, aspect,

aspect, aspect, imagine, aspect)

|| PLĂCUT [L] (..., interesant, frumos, drăguț,

atrăgător, drăguț, atrăgător, ...)

|| NEPLĂCUT[L] (nesimpatic, nepoliticos, urât, ...)

|| APRECIA[L] (a venera, adora, adora,

venerează, adoră, ...)

|| PREFER[N]

Simbolul „E” reprezintă expansiune totală conform ierarhiei tezaurului, simbolul „L” - în funcție de relațiile dintre specii („DE JOS”), simbolul „N” - nu se extind.

Se efectuează cercetări pentru a dezvolta o tehnologie combinată pentru clasificarea automată a textului, combinând cunoștințele tezaurului și procedurile de învățare automată.

Problemele utilizării unui tezaur pentru a extinde o interogare formulată în limbaj natural sunt explorate (în prezent, numai partea socio-politică a tezaurului este folosită pentru a extinde o interogare terminologică în sistemul de regăsire a informațiilor al UIS RUSSIA) și se caută răspunsuri la întrebări din colecții mari de texte.

7. Concluzie

Lucrarea prezintă principiile de bază ale dezvoltării resurselor lingvistice pentru prelucrarea automată a colecțiilor mari de texte. Resursa lingvistică creată - Tezaurul limbii ruse RuTez - este destinată utilizării în astfel de aplicații de procesare automată a textului, cum ar fi indexarea conceptuală a documentelor, rubricarea automată în funcție de rubricatori ierarhici complexe, extinderea automată a interogărilor în limbaj natural.

Această activitate este susținută parțial de grantul Fundației Umanitare Ruse nr. 00-04-00272a.

Literatură

  1. Lukashevich N.V., Saliy A.D., Reprezentarea cunoștințelor în sistemul de procesare automată a textului //NTI, Ser.2. 1997. Nr 3. P. 1‑6.
  2. Zhuravlev S.V., Yudina T.N., Sistemul informatic RUSIA //NTI, Ser.2. 1995. Nr 3. P. 18‑20.
  3. Winston M., Chaffin R., Herman D., A Taxonomie of Part-Whole Relations // Știința cognitivă. 1987. Nr. 11. P. 417‑444.
  4. Priss U.E., The Formalization of WordNet by Methods of Relational Concept Analysis // WordNet. O bază de date lexicală electronică/Ed. de C. Fellbaum. Cambridge, Massachusetts, Londra, Anglia.: The MIT Press 1998. P. 179-196.
  5. Guarino N., Welty C., O ontologie formală a proprietăților // Proceedings of the ECAI-00 Workshop on Applications of ontologies and Problem Solving Methods. Berlin: 2000. P. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Câteva principii ontologice pentru proiectarea resurselor lexicale de nivel superior // First Int. Conf. privind resursele lingvistice și evaluarea. 1998.

  1. Lukashevich N.V., Dobrov B.V., Modificatori ai relațiilor conceptuale în tezaur pentru indexare automată // NTI, Ser.2. 2000, nr. 4, p. 21-28.
  2. Dicționar explicativ mare al limbii ruse / Ed. S.A. Kuznetsova. Sankt Petersburg: Norint, 1998.
  3. Ozhegov S.I., Shvedova N.Yu., Dicționar explicativ al limbii ruse - ediția a III-a. M.: Az, 1996.
  4. Apresyan Yu.D., Lucrări alese, volumul I. Semantică lexicală: ed. a II-a. M.: Școala „Limbi ale culturii ruse”, Ed. Firma „Literatura orientală” RAS, 1995.
  5. G. Miller, R. Beckwith, C. Fellbaum, D. Gross și K. Miller, Five papers on WordNet, CSL Report 43. Cognitive Science Laboratory, Princeton University, 1990.
  6. Chugur, J. Gonzalo și F. Verdjeo, Sense distinctions in NLP applications // Proceedings of “OntoLex-2000”: Ontologies and Lexical Knowledge Bases. Sofia: OntoTextLab. 2000.
  7. Loukachevitch N., Dobrov B., Rezumat tematic structural bazat pe tezaur în mai multe limbi Sistem informatic s // Revizuirea traducerii automate. 2000. Nr. 11. P. 10‑20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Tezaurul limbii ruse pentru prelucrarea limbajului natural

de colecții mari de texte

Natalia V. Loukacevici, Boris V. Dobrov

Cuvinte cheie: tezaur, procesare a limbajului natural, regăsire informațională

În prezentarea noastră luăm în considerare principiile principale ale dezvoltării resurselor lexicale pentru prelucrarea automată a colecțiilor mari de texte și descriem structura tezaurului de Limba rusă, care este dezvoltat din 1997 special ca instrument pentru procesarea automată a textului. Acum Tezaurul este o rețea ierarhică de 42 de mii de concepte. Descriem stadiul actual al Tezaurului dezvoltând în comparație cu 100.000 de leme cele mai frecvente ale colecției de texte a Sistemului Informațional Universitar RUSIA (www.cir.ru), inclusiv 400 de mii de documente. De asemenea, avem în vedere utilizarea Tezaurului în diferite aplicații de procesare automată a textului.

Prima etapă a creării unui tezaur a fost căutarea de informații despre structura tezaurilor, tipurile și programele de operare ale acestuia. A doua etapă a fost alegerea unui limbaj de programare și a unei scheme pentru construirea viitorului tău tezaur. A treia etapă este căutarea informațiilor pentru a le completa; pentru aceasta am folosit „Rețelele de calculatoare complexe educaționale și metodologice”.

Iată câteva exemple de tezauri (vezi Figura 1.1 și Figura 1.2):

Figura 1.1 - Sistemul de recuperare a informațiilor „Thesaurus.com”

Figura 1.2 - Dicționar de termeni de gen

După colectarea informațiilor necesare, a început crearea tezaurului. Pentru crearea tezaurului, limbajul de programare ales a fost HTML. Hiper Marcare text Limbajul - „HTML” (limbaj de marcare hipertext) a încetat de mult să fie considerat de mulți un simplu limbaj de programare. De la sine Conceptul HTML include diverse metode design de documente hipertext, design, editori de hipertext, browsere și multe altele. Un utilizator care a stăpânit acest limbaj câștigă capacitatea de a face lucruri serioase metode simpleși, cel mai important, rapid, ceea ce este considerat foarte bun în lumea modernă!

În limbajul HTML, vă puteți crea propriile produse multimedia și le puteți distribui pe orice suport, iar toate aceste produse, realizate sub formă de seturi de pagini HTML, nu necesită dezvoltarea de software specializat, deoarece totul este necesar pentru lucrul cu date. (browserele web) a devenit parte a standardului software majoritatea calculatoarelor personale.

Codul pentru viitoarea pagină Web este de obicei introdus într-un editor de text standard, dar există și alte programe și limbaje de programare, de exemplu: Adobe Dreamweaver CS3, JavaScript, Pascal, C, C++, BASIC, Prolog.

Pentru început, tezaurul va consta din trei cadre: un cadru de titlu, un cadru de link-uri și un cadru de conținut, așa cum se arată în Figura 1.3.

Figura 1.3 - Diagrama tezaurului

Pentru a crea schița tezaurului, am folosit următoarele etichete și atribute HTML:

text- Titlul Site-ului;

- două cadre pe orizontală de 120px și spațiul rămas;

- anularea capacității de a întinde limitele cadrului;

- rame verticale;

- specifică numele cadrului pentru posibilitatea de a trimite informații către acest cadru.

Pentru a completa cadrele cu informații, scriem codul în documente: „new.txt” - cadrul „Titlu”, „nav.txt” - cadrul „Links”, „main.txt” - cadrul „Conținut” .

Documentul „new.txt” conține codul responsabil pentru numele tezaurului în sine. Etichete principale: