Bài viết từ điển đồng nghĩa. Từ điển đồng nghĩa tiếng Nga để xử lý tự động các bộ sưu tập văn bản lớn. Mối quan hệ từ trong từ điển đồng nghĩa

N. V. Lukashevich

[email được bảo vệ]

B. V. Dobrov

Trung tâm nghiên cứu máy tính của Đại học quốc gia Moscow. M.V. Lomonosov;

Trung tâm Nghiên cứu Thông tin ANO

[email được bảo vệ]

Từ khóa: từ điển đồng nghĩa, truy xuất thông tin, xử lý văn bản tự động,

Phần lớn các công nghệ làm việc với các bộ sưu tập văn bản lớn đều dựa trên các phương pháp thống kê và xác suất. Điều này là do thực tế là các tài nguyên từ vựng có thể được sử dụng để xử lý các bộ sưu tập văn bản bằng phương pháp ngôn ngữ phải có khối lượng hàng chục nghìn mục từ điển và có một số thuộc tính quan trọng phải được giám sát cụ thể khi phát triển tài nguyên. Trong báo cáo này chúng tôi xem xét các nguyên tắc cơ bản của việc phát triển nguồn từ vựng cho xử lý tự động bộ sưu tập văn bản lớn sử dụng ví dụ về từ điển đồng nghĩa tiếng Nga được tạo năm 1997 cho xử lý máy tính Văn bản RuTez, hiện là một mạng lưới phân cấp gồm hơn 42 nghìn khái niệm. Chúng tôi mô tả tình trạng hiện tại từ điển đồng nghĩa dựa trên sự so sánh thành phần từ vựng của nó và kho văn bản của Hệ thống thông tin Đại học NGA (www.cir.ru) - 400 nghìn tài liệu. Các ví dụ về việc sử dụng từ điển đồng nghĩa trong các ứng dụng xử lý văn bản tự động khác nhau sẽ được thảo luận.

  1. Giới thiệu

Hiện nay, hàng triệu tài liệu đã có sẵn ở Dạng điện tử, hàng ngàn hệ thống thông tin và thư viện điện tử đã được tạo ra. Đồng thời, hệ thống thông tin sử dụng nguồn từ vựng, thuật ngữ để tìm kiếm được tính theo phân số phần trăm. Điều này là do những thách thức nghiêm trọng trong việc tạo ra các nguồn ngôn ngữ như vậy để xử lý tự động các bộ sưu tập tài liệu điện tử hiện đại.

Đầu tiên, những bộ sưu tập này thường rất lớn; nguồn tài liệu phải bao gồm những mô tả hàng nghìn từ và thuật ngữ. Thứ hai, bộ sưu tập là một tập hợp các tài liệu có cấu trúc khác nhau với các cấu trúc cú pháp khác nhau, điều này gây khó khăn cho việc xử lý tự động các câu văn bản. Ngoài ra, thường xuyên Thông tin quan trọng phân bổ giữa các câu khác nhau của văn bản.

Tất cả điều này đặt ra câu hỏi sâu sắc về nguồn tài nguyên ngôn ngữ nên là gì, một mặt, sẽ hữu ích cho việc xử lý và tìm kiếm tự động trong các bộ sưu tập điện tử, mặt khác, có thể được tạo ra trong một thời gian có thể thấy trước và được duy trì với chi phí tương đối ít. cố gắng.

Trong bài viết này, chúng ta sẽ xem xét các nguyên tắc cơ bản của việc phát triển nguồn từ vựng để xử lý tự động các bộ sưu tập văn bản lớn. Những nguyên tắc này sẽ được kiểm tra bằng cách sử dụng ví dụ về từ điển đồng nghĩa tiếng Nga do Trung tâm Nghiên cứu Thông tin ANO tạo ra từ năm 1997 để xử lý văn bản máy tính RuTez. RuTez hiện là một mạng lưới phân cấp gồm hơn 42 nghìn khái niệm, trong đó bao gồm hơn 95 nghìn từ, cách diễn đạt và thuật ngữ tiếng Nga. Chúng tôi sẽ mô tả trạng thái hiện tại của từ điển đồng nghĩa dựa trên so sánh thành phần từ vựng của nó và từ vựng trong kho văn bản của Hệ thống Thông tin Đại học NGA, được hỗ trợ bởi Trung tâm Máy tính Nghiên cứu của Đại học Bang Moscow. M.V. Lomonosov và ANO TSII. UIS RUSSIA (www.cir.ru) chứa 400 nghìn tài liệu về các chủ đề chính trị xã hội (khoảng 3 GB văn bản, 200 triệu từ). Bài viết cũng sẽ thảo luận về các ví dụ về cách sử dụng từ điển đồng nghĩa trong các ứng dụng xử lý văn bản tự động khác nhau.

  1. Nguyên tắc phát triển nguồn lực ngôn ngữ

cho nhiệm vụ truy xuất thông tin

Để đảm bảo xử lý tự động hiệu quả các tài liệu điện tử (tự động lập chỉ mục, phân loại, so sánh tài liệu), cần xây dựng cơ sở để so sánh chúng - danh sách những gì được đề cập trong tài liệu. Để một chỉ mục như vậy có hiệu quả hơn so với chỉ mục từng từ, cần phải khắc phục được tính đa dạng từ vựng của văn bản: từ đồng nghĩa, đa nghĩa, thành phần lời nói, phong cách, và quy nó thành một bất biến - một khái niệm trở thành cơ sở để so sánh các văn bản khác nhau. Vì vậy, các khái niệm phải trở thành nền tảng của nguồn tài nguyên ngôn ngữ và các biểu thức ngôn ngữ: từ, thuật ngữ - chỉ trở thành đầu vào văn bản khởi tạo khái niệm tương ứng.

Để có thể so sánh các khái niệm khác nhau nhưng giống nhau, phải thiết lập mối quan hệ giữa chúng. Theo truyền thống, các tài nguyên ngôn ngữ để xử lý tự động văn bản bằng ngôn ngữ tự nhiên sử dụng một số tập hợp quan hệ ngữ nghĩa nhất định, chẳng hạn như phần, nguồn, lý do và như thế. Tuy nhiên, khi làm việc với các bộ sưu tập văn bản lớn và không đồng nhất, chúng ta phải hiểu rằng với tình trạng công nghệ hiện nay xử lý văn bản, hệ thống máy tính sẽ không thể phát hiện các mối quan hệ này trong văn bản với bất kỳ sự ổn định nào để thực hiện các thủ tục mà chúng ta đã liên kết với các mối quan hệ này hoặc các mối quan hệ khác. Vì vậy, mối quan hệ giữa các khái niệm trước hết phải mô tả những tính chất bất biến nhất định, không phụ thuộc hoặc phụ thuộc yếu vào chủ đề của văn bản cụ thể mà khái niệm được đề cập.

Chức năng chính của mối quan hệ này là trả lời câu hỏi sau:

nếu biết rằng văn bản được dành để thảo luận về C1 và C2 có liên quan

thái độRvới C1, chúng ta có thể nói rằng chủ đề của văn bản(*)

liên quan đến C2?

Khi tạo một nguồn ngôn ngữ để xử lý tự động, điều quan trọng là phải xác định những thuộc tính nào của khái niệm C1 và C2 cho phép chúng ta thiết lập mối quan hệ (*) chính xác giữa chúng.

Vì vậy, chẳng hạn, bất kể văn bản nào được viết về cây bạch dương, chúng ta luôn có thể nói những lời bài hát này nói về điều gì cây. Nhưng bất chấp sự nổi tiếng và thường xuyên thảo luận về mối quan hệ cây như là một phần rừng, rất ít văn bản về cây cối là văn bản về rừng. Lưu ý rằng vấn đề không liên quan đến tên của mối quan hệ. Vì thế phát quang là một phần của rừng, và văn bản về phát quang là văn bản về rừng.

Tính bất biến của các mối quan hệ so với phạm vi các chủ đề có thể có của văn bản trong một lĩnh vực chủ đề phần lớn được xác định bởi các thuộc tính sâu sắc hơn so với những thuộc tính được phản ánh qua tên gọi của các mối quan hệ, cụ thể là các thuộc tính định lượng và hiện sinh của nó. Do đó, các thuộc tính lượng hóa của các mối quan hệ mô tả liệu tất cả các ví dụ về một khái niệm có một mối quan hệ nhất định hay không, liệu mối quan hệ này có tồn tại xuyên suốt hay không. vòng đời ví dụ. Vấn đề với việc sử dụng quan hệ câyrừng Chính vì không phải cây cụ thể nào cũng nằm trong rừng, nhưng việc phát quang không thể ở ngoài rừng.

Một ví dụ về mô tả các thuộc tính tồn tại của các quan hệ - liệu nó có nối tiếp từ sự tồn tại của khái niệm C1 đến sự tồn tại của khái niệm C2 (ví dụ: sự tồn tại của khái niệm GA-RAđòi hỏi sự tồn tại của một khái niệm Ô TÔ) hoặc sự tồn tại của ví dụ C1 phụ thuộc vào sự tồn tại của ví dụ C2 (cụ thể đến mức LỤT không thể tách rời khỏi Ví dụ cụ thể SÔNG). Việc thảo luận trong văn bản về khái niệm phụ thuộc C2, đặc biệt phụ thuộc vào ví dụ, gợi ý rằng văn bản cũng liên quan đến khái niệm chính C1.

Hãy xem xét mối quan hệ giữa các khái niệm RỪNG VÀ CÂY một cách chi tiết. Trên thực tế, một phần của khái niệm RỪNGCÂY TRONG RỪNG, trong khi có CÂY ĐỨNG,CÂY TRONG VƯỜN v.v... Trong mọi trường hợp, cần phải phá bỏ mối quan hệ lệ thuộc của khái niệm CÂYý tưởng RỪNG.

Mặt khác, RỪNG là một loài BỘ SƯU TẬP CÂY, không tồn tại nếu không có cây (cũng như VƯỜN). Như vậy, khái niệm RỪNG phải liên quan đến khái niệm CÂY. Bắt đầu bằng việc phân tích các nhu cầu cụ thể bài toán ứng dụng Chúng tôi đã đi đến kết luận rằng điều quan trọng là phải mô tả các thuộc tính sâu sắc của các mối quan hệ mà trước đây rất ít được phản ánh trong các nguồn ngôn ngữ, nhưng lại có tầm quan trọng đặc biệt đối với nhiệm vụ xử lý tự động các bộ sưu tập văn bản lớn và có lẽ đối với nhiều nhiệm vụ khác. .

Bây giờ chúng tôi lập mô hình mô tả các thuộc tính định lượng và tồn tại của các khái niệm bằng một tập hợp các mối quan hệ từ điển đồng nghĩa truyền thống TRÊN-DƯỚI (66% của tất cả các mối quan hệ), BỘ PHẬN- TOÀN BỘ (30% quan hệ), LIÊN HỆ (4%), kết hợp với một một số bộ sửa đổi bổ sung nhất định (20% quan hệ được đánh dấu ). Lưu ý rằng các mối quan hệ BỘ PHẬN- TOÀN BỘ và LIÊN KẾT được diễn giải có tính đến quy tắc (*). Tổng cộng, khoảng 160 nghìn kết nối trực tiếp giữa các khái niệm được mô tả, có tính đến tính chất bắc cầu của các mối quan hệ, đưa ra tổng số kết nối khác nhau là hơn 1350 nghìn kết nối, tức là trung bình mỗi khái niệm được kết nối với 30 khái niệm khác. .

  1. Từ điển RuTez: cấu trúc chung

Từ điển đồng nghĩa RuTez là một mạng lưới các khái niệm có thứ bậc tương ứng với ý nghĩa của từng từ riêng lẻ, cách diễn đạt văn bản hoặc chuỗi đồng nghĩa. Vì vậy, các yếu tố chính của một từ điển đồng nghĩa là các khái niệm, biểu thức ngôn ngữ, mối quan hệ giữa biểu thức ngôn ngữ và khái niệm, cũng như mối quan hệ giữa các khái niệm.

Trong từ điển đồng nghĩa ở hệ thống thống nhất thu thập cả kiến ​​thức ngôn ngữ - mô tả từ vựng, thành ngữ và mối liên hệ của chúng, theo truyền thống liên quan đến kiến ​​thức từ vựng, ngữ nghĩa và kiến ​​thức về các thuật ngữ và mối quan hệ trong Các môn học, theo truyền thống liên quan đến lĩnh vực hoạt động của các nhà thuật ngữ, được mô tả trong từ điển truy xuất thông tin. Từ điển đồng nghĩa mô tả các lĩnh vực chủ đề như kinh tế, pháp luật, tài chính, quan hệ quốc tế, rất quan trọng đối với Cuộc sống hàng ngày rằng chúng có cách biểu đạt từ vựng quan trọng trong các từ điển giải thích truyền thống. Trong đó, từ vựng và thuật ngữ có mối liên hệ chặt chẽ với nhau và tác động qua lại mạnh mẽ với nhau.

Biểu thức ngôn ngữ là các từ vị riêng lẻ (danh từ, tính từ và động từ), các nhóm danh nghĩa và động từ. Do đó, từ điển đồng nghĩa hiện không bao gồm trạng từ và từ chức năng làm biểu thức ngôn ngữ. Nhóm nhiều từ có thể bao gồm các thuật ngữ, thành ngữ, chức năng từ vựng ( ảnh hưởngđ).

Đối với mỗi biểu thức ngôn ngữ, những điều sau đây được mô tả:

Tính đa nghĩa của nó là sự kết nối với một hoặc nhiều khái niệm, có nghĩa là một biểu thức ngôn ngữ nhất định có thể đóng vai trò là biểu thức văn bản của khái niệm này. Việc gán một biểu thức ngôn ngữ cho các khái niệm khác nhau cũng là một dấu hiệu tiềm ẩn về tính đa nghĩa của nó;

Thành phần hình thái của nó (một phần của lời nói, số, trường hợp);

Tính năng viết (ví dụ, với chữ in hoa) và như thế.

Mỗi khái niệm từ điển đồng nghĩa có một tên duy nhất, một danh sách các biểu thức ngôn ngữ mà khái niệm này có thể được thể hiện trong văn bản và một danh sách các mối quan hệ với các khái niệm khác.

Một trong những biểu thức văn bản rõ ràng của nó thường được chọn làm tên duy nhất cho một khái niệm. Nhưng tên của một khái niệm cũng có thể được hình thành bằng một cặp cách diễn đạt văn bản mơ hồ của nó - các từ đồng nghĩa, được viết cách nhau bằng dấu phẩy và định nghĩa nó một cách rõ ràng (ví dụ: khái niệm DÀY). Một cách diễn đạt văn bản mơ hồ về tên của một khái niệm cũng có thể được cung cấp kèm theo một nhãn hiệu hoặc một đoạn diễn giải rút gọn, ví dụ: khái niệm ĐÁM ĐÔNG (NHÓM NGƯỜI).

  1. Mục từ điển ví dụ

Chúng tôi đã chọn mục từ điển cho khái niệm này làm ví dụ RỪNG, tương ứng với một trong các nghĩa của từ rừng. Mục từ điển này thú vị vì nó bao gồm nhiều loại kiến ​​thức khác nhau, theo truyền thống được phân loại là kiến ​​thức từ vựng (ngữ nghĩa) và kiến ​​thức bách khoa (kiến thức về lĩnh vực chủ đề, thuật ngữ).

Từ đồng nghĩa với khái niệm RỪNG(tổng cộng 13):

rừng(M), vùng rừng, môi trường rừng,

rừng, khu rừng, cảnh quan rừng,

diện tích rừng, rừng cây, diện tích rừng,

diện tích tài nguyên rừng, rừng ít,

mảng rừng.

Dưới đây là các khái niệm có từ đồng nghĩa:

RỪNG(rừng);

CÔNG VIÊN RỪNG(vườn thành phố, mảng xanh,

khu cây xanh, công viên rừng,

quản lý rừng, công viên rừng

vành đai, công viên(M), khu công viên);

LÂM NGHIỆP;

RỪNG RỪNG(rừng lá mềm, rừng lá cứng

rừng);

GROVE(rừng sồi);

RỪNG LỚN (rừng lá kim, rừng lá kim sẫm màu)

Khái niệm-bộ phận có từ đồng nghĩa:

WINDBREAK(trời thuận gió, trời đổ mưa);

CẮT(diện tích cắt);

VĂN HÓA RỪNG(loài rừng, lâm nghiệp

văn hoá);

ĐẤT RỪNG (đất rừng; đất có mái che

rừng; đất rừng, lãnh thổ có rừng;

đất có rừng, đất có rừng

khu vực);

TRỒNG RỪNG(trồng rừng, trồng rừng,

trồng rừng);

RỪNG RỪNG(cạnh, cạnh);

DƯỚI HOA( bụi rậm);

PROSEKA;

GỖ KHÔ(gỗ chết).

Ở đây các ký hiệu (M) thể hiện lưu ý về tính mơ hồ của việc nhập văn bản.

Ý tưởng RỪNG còn có những mối quan hệ khác, được gọi là mối quan hệ phụ thuộc (trong phiên bản hiện đạiđược gọi là ASC 2 - liên kết bất đối xứng): CHÁY RỪNG(cháy rừng, cháy rừng; SỬ DỤNG RỪNG (sử dụng rừng, sử dụng diện tích quỹ rừng); LÂM NGHIỆP; KHOA HỌC RỪNG (khoa học lâm nghiệp). Như đã lưu ý ở đoạn 2, khái niệm RỪNG phụ thuộc vào khái niệm CÂY, mà trong từ điển đồng nghĩa được biểu thị bằng mối quan hệ ASC 1.

Khái niệm tổng thể RỪNGđược kết nối trực tiếp với 28 khái niệm khác, có tính đến tính bắc cầu của các mối quan hệ - với 235 khái niệm (trong tổng số hơn 650 đầu vào văn bản).

  1. Đánh giá hiện trạng

Từ điển tiếng Nga RuTez

5.1. Thành phần từ vựng

Hiện tại, mạng từ điển đồng nghĩa bao gồm hơn 95 nghìn biểu thức ngôn ngữ, trong đó 61 nghìn là từ đơn.

Khối lượng công việc này buộc chúng tôi phải quyết định những từ và cách diễn đạt ngôn ngữ nào cần được đưa vào phần mô tả của Từ điển đồng nghĩa. Mong muốn tự nhiên là xem những từ thông dụng nhất trong tiếng Nga được thể hiện như thế nào trong từ điển đồng nghĩa. Với mục đích này, bộ sưu tập văn bản của Hệ thống thông tin Đại học NGA (400 nghìn tài liệu) đã được sử dụng. Bộ sưu tập chứa các tài liệu chính thức từ nhiều cơ quan khác nhau Liên Bang Nga(55 nghìn tài liệu kể từ năm 1992), cũng như tài liệu báo chí từ năm 1999 (báo Izvestia, Nezavisimaya Gazeta, Komsomolskaya Pravda, Arguments and Facts, tạp chí Expert và các tạp chí khác), tài liệu từ các tạp chí khoa học ("Bản tin của Đại học Moscow", "Tạp chí Xã hội học" "). Một so sánh được thực hiện giữa danh sách các bổ đề có trong Thesaurus và danh sách 100.000 bổ đề thường gặp nhất trong bộ sưu tập văn bản (tần số hơn 25).

Việc đánh dấu Polexeme trong danh sách cho thấy trong số hàng trăm nghìn từ vựng này, có 35 nghìn từ vựng được mô tả bằng RuTez, chỉ có khoảng 7 nghìn từ vựng xứng đáng được đưa vào Từ điển đồng nghĩa, còn lại là các biến thể từ vựng của nhiều tên riêng khác nhau. Vì vậy, việc bổ sung đã không còn là nhiệm vụ ưu tiên và được thực hiện dần dần, bắt đầu từ những từ thường xuyên nhất. Giả định rằng ngay khi danh sách này gần hết, một phép so sánh khác sẽ được thực hiện với mảng văn bản của hệ thống thông tin, các từ vựng mới có tần suất lớn hơn 25 sẽ được chọn. Tiếp theo, ngưỡng xem được cho là sẽ được hạ xuống. . Sự hiện diện của một số lượng lớn các ví dụ văn bản trong bộ sưu tập văn bản cho phép bạn phản hồi nhanh chóng các “đổi mới từ vựng” (ví dụ: cài đặt,bom tấn, người đẹp thế giới, giật gân) và đưa chúng vào những vị trí thích hợp trong hệ thống phân cấp Thesaurus.

Làm việc liên tục với bộ sưu tập văn bản hiện tại mang lại những cơ hội duy nhất để kiểm tra tầm quan trọng và chất lượng của các mô tả từ vựng được đề xuất trong từ điển. Ví dụ, một cách bất thường Tân sô cao sử dụng từ này Mẹ thấy(hơn 400 lần). Kiểm tra mảng cho thấy từ này thực sự thường được sử dụng như một từ đồng nghĩa với từ đó Mátxcơva, trong khi các từ điển giải thích thường đánh dấu từ này là lỗi thời. Một ví dụ khác về một từ được sử dụng thường xuyên (hơn 300 lần) bị đánh dấu là lỗi thời trong từ điển là từ hạnh phúc.

5.2 Mô tả nghĩa của từ

So sánh với bộ sưu tập văn bản cho thấy nhiều từ tần số trong mảng được thể hiện rõ ràng trong Từ điển đồng nghĩa với ít nhất một trong các nghĩa (thường là cơ bản) của chúng. Tìm hiểu xem Từ điển đồng nghĩa thể hiện phạm vi ý nghĩa của các từ đa nghĩa trong tiếng Nga ở mức độ nào là nhiệm vụ chính của chúng tôi ở thời điểm hiện tại.

Như đã biết, các nguồn từ điển khác nhau thường đưa ra một tập hợp ý nghĩa khác nhau cho các từ đa nghĩa, làm nổi bật các sắc thái ý nghĩa và cùng một loại đa nghĩa có thể được mô tả khác nhau cho các từ khác nhau ngay cả trong cùng một từ điển. Vì vậy, nhiệm vụ mô tả ý nghĩa của các từ vựng một cách nhất quán và tiêu biểu là một nhiệm vụ quan trọng đối với những người tạo ra bất kỳ nguồn từ vựng nào.

Tuy nhiên, nếu tài nguyên được dùng để xử lý tự động thì nhiệm vụ mô tả cân bằng các giá trị sẽ trở nên quan trọng hơn nhiều. Lạm phát giá trị quá mức có thể khiến hệ thống máy tính không thể chọn giá trị mong muốn, từ đó dẫn đến giảm đáng kể hiệu suất của hệ thống xử lý văn bản tự động. Vì vậy, một trong những nhược điểm của tài nguyên WordNet với tư cách là tài nguyên để xử lý văn bản tự động là có quá nhiều nghĩa được mô tả cho một số từ (trong WordNet 1.6: 53 nghĩa cho chạy, 47 cho chơi và như thế.). Những ý nghĩa này rất khó phân biệt ngay cả đối với con người khi chú thích ngữ nghĩa cho văn bản. Rõ ràng là hệ thống máy tính cũng không thể đối phó với việc lựa chọn giá trị phù hợp. Vì vậy, các tác giả khác nhau đề xuất những cách khác nhau để kết hợp các giá trị nhằm nâng cao chất lượng xử lý.

Đồng thời, yếu tố ngược lại hoạt động: nếu các ý nghĩa thực sự khác nhau trong tập hợp các kết nối từ điển của chúng (trong trường hợp của chúng tôi là các kết nối từ điển đồng nghĩa) - chúng không thể được gắn kết thành một đơn vị (một khái niệm) - điều này cũng sẽ dẫn đến sự suy giảm trong chất lượng xử lý tự động.

Hãy lấy một ví dụ về các từ trường họcnhà thờ, mỗi tổ chức có thể được coi là một tổ chức và một tòa nhà.

Mỗi tổ chức trường học có một tòa nhà (thường là một). Tất cả các phần của cơ sở trường học (lớp học, bảng đen) đều liên quan đến trường học một tổ chức như thế nào. Không có loại công trình trường học cụ thể nào. Vì vậy việc mô tả trường học Với tư cách là các tòa nhà, việc tách chúng thành một khái niệm riêng biệt là không phù hợp. Tuy nhiên, việc mô tả một khái niệm tập thể như vậy TRƯỜNG HỌC với tư cách là một tổ chức và một tòa nhà phải có mối quan hệ được thiết kế đặc biệt với khái niệm XÂY DỰNG. Khi mô tả các mối quan hệ như vậy trong Từ điển đồng nghĩa, một dấu hiệu trên mối quan hệ được sử dụng - từ bổ nghĩa “A” (“khía cạnh”; trong quá trình phân tích tự động, cần phải “xác nhận” bằng các khái niệm khác để tính đến mối quan hệ này).

TRƯỜNG HỌC

CAO HƠN CƠ SỞ GIÁO DỤC

TRÊN A TÒA NHÀ CÔNG CỘNG

Ý nghĩa tương ứng của từ nhà thờ không gần đến thế. Nhà thờ Làm thế nào một tổ chức có thể có một số lượng lớn các tòa nhà thờ ở những nơi khác nhau, và cũng có nhiều tòa nhà khác. xây dựng nhà thờ có liên quan chặt chẽ đến tôn giáo và tín ngưỡng, nhưng có thể thay đổi sự liên kết tổ chức nhà thờ. tổ chức giáo hộixây dựng nhà thờ có các phân loài khác nhau. Đó là lý do tại sao GIÁO HỘI (TỔ CHỨC) Và NHÀ THỜ (TÒA NHÀ)được trình bày trong RuTez dưới dạng các khái niệm khác nhau.

Sự khác biệt đáng kể trong các kết nối từ điển đồng nghĩa tương quan một cách thú vị với khả năng các ký hiệu tương ứng với ý nghĩa tồn tại tách biệt với nhau. Như vậy, công trình nhà thờ không ngừng tồn tại và thậm chí còn được gọi là nhà thờ ngay cả khi mục đích sử dụng của nó thay đổi, không giống như công trình trường học.

Quá trình xác minh cách biểu thị các giá trị trong Từ điển đồng nghĩa liên tục được tiến hành, bắt đầu với các bổ đề thường gặp nhất. Đối với mỗi từ vựng tần số, nó được kiểm tra xem ý nghĩa của nó được mô tả như thế nào trong từ điển giải thích, ý nghĩa nào được sử dụng trong bộ sưu tập và cách chúng được trình bày trong Từ điển đồng nghĩa. Kết quả là, một danh sách 10.000 từ vị hiện đã được hình thành, tính đa nghĩa của nó vẫn yêu cầu một trong hai phân tích bổ sung, hoặc Mô tả bổ sung. Danh sách này được lấy dựa trên 30 nghìn bổ đề thường gặp nhất.

Cần lưu ý rằng trong Thesaurus, vấn đề đa nghĩa được loại bỏ một phần do thực tế là các kết nối từ điển đồng nghĩa có thể được mô tả giữa các nghĩa khác nhau của một từ và do đó, khái niệm cao nhất trong hệ thống phân cấp có thể được chọn theo mặc định. Nó chắc chắn đã được thảo luận trong văn bản. Ví dụ, từ hình chụp có ba nghĩa: nhiếp ảnh như một lĩnh vực hoạt động, nhiếp ảnh như một hình ảnh nhiếp ảnh, nhiếp ảnh như một studio ảnh:

NHIẾP ẢNH(chụp ảnh, kinh doanh ảnh, ..., hình chụp )

PHẦN HÌNH ẢNH ẢNH

(hình chụp, ảnh chụp, hình chụp )

PHẦN PHÒNG CHỤP HÌNH (hình chụp ).

Vì vậy, nếu không thể hiểu được ý nghĩa của từ được sử dụng hình chụp, mặc định là giả định rằng một bức ảnh đã được chụp (của một quá trình, kết quả hoặc vị trí), đủ cho nhiều ứng dụng xử lý văn bản tự động.

  1. Ứng dụng của từ điển đồng nghĩa RuTez

để xử lý văn bản tự động

Từ năm 1995, thuật ngữ chính trị xã hội RuTez (từ điển chính trị xã hội) đã được sử dụng tích cực và thành công cho Các ứng dụng khác nhau xử lý văn bản tự động, chẳng hạn như lập chỉ mục khái niệm tự động, đánh dấu tự động bằng cách sử dụng một số bộ đánh giá, chú thích tự động các văn bản, bao gồm cả tiếng Anh. Từ điển đồng nghĩa chính trị xã hội (27 nghìn khái niệm, 62 nghìn mục văn bản) là một công cụ tìm kiếm cơ bản trong hệ thống tìm kiếm UIS RUSSIA (www.cir.ru).

Tất cả từ vựng của từ điển RuTez được sử dụng trong quy trình tự động phân loại văn bản bằng cách sử dụng các bảng đánh giá phân cấp phức tạp. TRONG công nghệ hiện có Mỗi danh mục được mô tả như một biểu thức Boolean của các thuật ngữ, sau đó công thức ban đầu được mở rộng dọc theo hệ thống phân cấp từ điển đồng nghĩa. Biểu thức Boolean thu được có thể đã bao gồm hàng trăm, hàng nghìn liên từ và liên từ.

Ví dụ, chúng tôi hãy đưa ra một đoạn mô tả sử dụng các khái niệm từ điển đồng nghĩa (và các cách diễn đạt ngôn ngữ sau khi mở rộng công thức) của phiếu tự đánh giá “Hình ảnh người phụ nữ” của bộ đánh giá SOFIST 2, được VTsIOM sử dụng để phân loại các câu hỏi thăm dò dư luận:

(PHỤ NỮ[N]

|| CÔ GÁI[N]

|| NGƯỜI ĐỐI VỚI [L] (bà, cháu gái, anh họ,

con gái, chị dâu, mẹ, mẹ kế, con dâu, con gái riêng, ...))

(ĐẶC ĐIỂM[L] (tiết kiệm, nhẫn tâm, hay quên,

phù phiếm, hay giễu cợt, cố chấp, hòa đồng,...)

|| IMAGE[E] (biểu diễn, vẻ bề ngoài, vẻ bề ngoài,

hình dáng, diện mạo, hình ảnh, diện mạo)

|| VUI VẺ [L] (..., thú vị, xinh đẹp, dễ thương,

hấp dẫn, dễ thương, hấp dẫn,...)

|| KHÓ KHĂN[L] (không thông cảm, thô lỗ, khó chịu, ...)

|| ĐÁNH GIÁ[L] (tôn kính, ngưỡng mộ, ngưỡng mộ,

tôn thờ, tôn thờ,...)

|| ƯU ĐÃI[N]

Ký hiệu “E” là viết tắt của mở rộng đầy đủ theo hệ thống phân cấp của từ điển đồng nghĩa, ký hiệu “L” - theo quan hệ loài (“DƯỚI ĐÂY”), ký hiệu “N” - không mở rộng.

Nghiên cứu đang được thực hiện để phát triển một công nghệ kết hợp để phân loại văn bản tự động, kết hợp kiến ​​thức từ điển đồng nghĩa và quy trình học máy.

Các vấn đề về việc sử dụng từ điển đồng nghĩa để mở rộng truy vấn được xây dựng bằng ngôn ngữ tự nhiên đang được khám phá (hiện tại, chỉ phần chính trị xã hội của từ điển đồng nghĩa được sử dụng để mở rộng truy vấn thuật ngữ trong hệ thống truy xuất thông tin của UIS RUSSIA) và tìm kiếm câu trả lời cho các câu hỏi trong bộ sưu tập văn bản lớn.

7. Kết luận

Bài báo trình bày những nguyên tắc cơ bản trong việc phát triển nguồn lực ngôn ngữ phục vụ xử lý tự động các tập văn bản lớn. Tài nguyên ngôn ngữ được tạo ra - Từ điển đồng nghĩa của tiếng Nga RuTez - được thiết kế để sử dụng trong các ứng dụng xử lý văn bản tự động như lập chỉ mục khái niệm của tài liệu, tự động đánh giá theo các bảng đánh giá phân cấp phức tạp, tự động mở rộng các truy vấn ngôn ngữ tự nhiên.

Công việc này được hỗ trợ một phần bởi Quỹ Nhân đạo Nga số 00-04-00272a.

Văn học

  1. Lukashevich N.V., Saliy A.D., Biểu diễn tri thức trong hệ thống xử lý văn bản tự động //NTI, Ser.2. 1997. Số 3. Trang 1‑6.
  2. Zhuravlev S.V., Yudina T.N., Hệ thống thông tin NGA //NTI, Ser.2. 1995. Số 3. Trang 18‑20.
  3. Winston M., Chaffin R., Herman D., Phân loại mối quan hệ một phần-toàn bộ // Khoa học nhận thức. 1987. Không. 11. P. 417‑444.
  4. Priss U.E., Việc chính thức hóa Mạng từ bằng các phương pháp phân tích khái niệm quan hệ // WordNet. Cơ sở dữ liệu từ vựng điện tử/Ed. của C. Fellbaum. Cambridge, Massachusetts, Luân Đôn, Anh.: Nhà xuất bản MIT 1998. P. 179‑196.
  5. Guarino N., Welty C., Một bản thể học chính thức về các thuộc tính // Kỷ yếu của Hội thảo ECAI-00 về các ứng dụng của bản thể học và các phương pháp giải quyết vấn đề. Berlin: 2000. P. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Một số nguyên tắc bản thể học để thiết kế tài nguyên từ vựng cấp cao // First Int. Conf. về Tài nguyên Ngôn ngữ và Đánh giá. 1998.

  1. Lukashevich N.V., Dobrov B.V., Công cụ sửa đổi quan hệ khái niệm trong từ điển đồng nghĩa để lập chỉ mục tự động // NTI, Ser.2. 2000, số 4, trang 21‑28.
  2. Từ điển giải thích lớn về tiếng Nga / Ed. SA Kuznetsova. St Petersburg: Norint, 1998.
  3. Ozhegov S.I., Shvedova N.Yu., Từ điển giải thích tiếng Nga - tái bản lần thứ 3. M.: Az, 1996.
  4. Apresyan Yu.D., Tác phẩm chọn lọc, tập I. Ngữ nghĩa từ vựng: tái bản lần thứ 2. M.: Trường “Ngôn ngữ văn hóa Nga”, Ed. Hãng "Văn học phương Đông" RAS, 1995.
  5. G. Miller, R. Beckwith, C. Fellbaum, D. Gross và K. Miller, Năm bài báo về WordNet, Báo cáo CSL 43. Phòng thí nghiệm khoa học nhận thức, Đại học Princeton, 1990.
  6. Chugur, J. Gonzalo và F. Verdjeo, Nhận thức sự khác biệt trong các ứng dụng NLP // Kỷ yếu của “OntoLex-2000”: Bản thể học và Cơ sở Kiến thức Từ vựng. Sofia: OntoTextLab. 2000.
  7. Loukachevitch N., Dobrov B., Tóm tắt chuyên đề về cấu trúc dựa trên từ điển đồng nghĩa bằng đa ngôn ngữ Hệ thống thông tin s // Đánh giá bản dịch máy. 2000. Không. 11. Trang 10‑20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Từ điển tiếng Nga về xử lý ngôn ngữ tự nhiên

các bộ sưu tập văn bản lớn

Natalia V. Loukachevitch, Boris V. Dobrov

Từ khóa: từ điển đồng nghĩa, xử lý ngôn ngữ tự nhiên, truy xuất thông tin

Trong phần trình bày của chúng tôi, chúng tôi xem xét các nguyên tắc chính của việc phát triển các nguồn từ vựng để xử lý tự động các bộ sưu tập văn bản lớn và mô tả cấu trúc của Từ điển đồng nghĩa về Ngôn ngữ Nga, được phát triển từ năm 1997 đặc biệt như một công cụ xử lý văn bản tự động. Bây giờ Thesaurus là một mạng lưới phân cấp gồm 42 nghìn khái niệm. Chúng tôi mô tả giai đoạn phát triển hiện tại của Từ điển đồng nghĩa so với 100.000 bổ đề thường gặp nhất trong bộ sưu tập văn bản của Hệ thống thông tin Đại học NGA (www.cir.ru), bao gồm 400 nghìn tài liệu. Ngoài ra, chúng tôi xem xét việc sử dụng Từ điển đồng nghĩa trong các ứng dụng xử lý văn bản tự động khác nhau.

Giai đoạn đầu tiên của việc tạo ra một từ điển đồng nghĩa là tìm kiếm thông tin về cấu trúc của từ điển đồng nghĩa, các loại và chương trình vận hành của nó. Giai đoạn thứ hai là lựa chọn ngôn ngữ lập trình và sơ đồ xây dựng từ điển đồng nghĩa trong tương lai của bạn. Giai đoạn thứ ba là tìm kiếm thông tin để điền vào; để làm được điều này, tôi đã sử dụng “Mạng máy tính phức hợp về phương pháp và giáo dục”.

Dưới đây là một số ví dụ về từ điển đồng nghĩa (xem Hình 1.1 và Hình 1.2):

Hình 1.1 - Hệ thống truy xuất thông tin “Thesaurus.com”

Hình 1.2 - Từ điển thuật ngữ giới tính

Sau khi thu thập thông tin cần thiết, việc tạo ra từ điển đồng nghĩa bắt đầu. Để tạo từ điển đồng nghĩa, ngôn ngữ lập trình được chọn là HTML. siêu Đánh dấu văn bản Ngôn ngữ - “HTML” (ngôn ngữ đánh dấu siêu văn bản), từ lâu, nhiều người đã không còn coi nó chỉ là ngôn ngữ lập trình. Vì chính nó khái niệm HTML bao gồm Các phương pháp khác nhau thiết kế tài liệu siêu văn bản, thiết kế, trình soạn thảo siêu văn bản, trình duyệt và nhiều hơn nữa. Người dùng thành thạo ngôn ngữ này sẽ có khả năng thực hiện những việc nghiêm túc phương pháp đơn giản và quan trọng nhất là nhanh chóng, điều được coi là rất tốt trong thế giới hiện đại!

Bằng ngôn ngữ HTML, bạn có thể tạo các sản phẩm đa phương tiện của riêng mình và phân phối chúng trên bất kỳ phương tiện nào và tất cả các sản phẩm này, được tạo dưới dạng tập hợp các trang HTML, không yêu cầu phát triển phần mềm chuyên dụng, vì mọi thứ cần thiết để làm việc với dữ liệu (Trình duyệt web) đã trở thành một phần của tiêu chuẩn phần mềm hầu hết các máy tính cá nhân.

Mã cho trang Web trong tương lai thường được nhập vào trình soạn thảo văn bản tiêu chuẩn, nhưng cũng có các chương trình và ngôn ngữ lập trình khác, ví dụ: Adobe Dreamweaver CS3, JavaScript, Pascal, C, C++, BASIC, Prolog.

Để bắt đầu, từ điển đồng nghĩa sẽ bao gồm ba khung: khung tiêu đề, khung liên kết và khung nội dung, như trong Hình 1.3.

Hình 1.3 - Sơ đồ từ điển đồng nghĩa

Để tạo bản phác thảo từ điển đồng nghĩa, chúng tôi đã sử dụng các thẻ và thuộc tính HTML sau:

chữ- Tiêu đề trang web;

- hai khung có kích thước ngang 120px và khoảng trống còn lại;

- hủy bỏ khả năng kéo dài ranh giới khung;

- khung dọc;

- chỉ định tên của khung để có khả năng gửi thông tin đến khung này.

Để điền thông tin vào các khung, chúng ta viết mã trong tài liệu: “new.txt” - khung “Tiêu đề”, “nav.txt” - khung “Liên kết”, “main.txt” - khung “Nội dung” .

Tài liệu “new.txt” chứa mã chịu trách nhiệm về tên của từ điển đồng nghĩa. Các thẻ chính: