Hệ thống truy xuất thông tin trên Internet. Chức năng của hệ thống truy xuất thông tin

FSBEI HPE "Viện VĂN HÓA NGHỆ THUẬT NHÀ NƯỚC BẮC CỰC"

KHOA THÔNG TIN, THƯ VIỆN VÀ QUẢN LÝ VĂN HÓA

BỘ KHOA THÔNG TIN

HỆ THỐNG TRUY CẬP THÔNG TIN

KHÓA HỌC

trong môn học “Tin học”

Hoàn thành bởi Sinichkina Anastasia Aleksandrovna, sinh viên năm thứ 2

Chuyên ngành: 071201 “Hoạt động thư viện và thông tin”

Người hướng dẫn khoa học: Leveryeva O.V., giáo viên.

Yakutsk

Giới thiệu

Chương 1. Hệ thống truy xuất thông tin

1 Khái niệm về hệ thống truy xuất thông tin

2 Lịch sử phát triển của IPS

3 cấu trúc IPS

4 loại IPS

Chương 2. Hệ thống tra cứu thông tin hiện đại

1 Lĩnh vực sử dụng hệ thống thông tin hiện đại

2 Kiến trúc hệ thống thông tin hiện đại

3 IPA phổ biến

Phần kết luận


Giới thiệu

Sự liên quan. Giai đoạn phát triển hiện nay của nền văn minh được đặc trưng bởi sự chuyển đổi của bộ phận phát triển nhất của nhân loại từ xã hội công nghiệp sang xã hội thông tin. Một trong những hiện tượng nổi bật nhất của quá trình này là sự xuất hiện và phát triển của mạng máy tính thông tin toàn cầu.

Bài toán tìm kiếm và thu thập thông tin là một trong những bài toán quan trọng nhất của hệ thống tra cứu thông tin. Tất nhiên, không thể so sánh về mặt này, chẳng hạn như thời Trung Cổ, khi việc tìm kiếm thông tin là một vấn đề vì thông tin này rất khan hiếm và cần phải nỗ lực chỉ để tìm ra ít nhất điều gì đó về một vấn đề ít nhiều quan trọng được quan tâm. Vì vậy, đầu tiên có cơ hội đến thư viện và sau khi dành thời gian ở đó để chọn cuốn sách phù hợp từ danh mục, hãy tìm thông tin cần thiết. Nhưng danh mục không giải quyết được hoàn toàn vấn đề tìm kiếm thông tin ngay cả trong cùng một thư viện, vì biểu ghi danh mục bao gồm tương đối ít thông tin: tựa đề, tác giả, nơi xuất bản. Vấn đề tìm kiếm thông tin có một nét mới trong thế kỷ 20, khi thời đại công nghệ thông tin bắt đầu phát triển. Vấn đề không phải là có ít thông tin nên khó tìm, mà là bây giờ ngược lại, ngày càng có nhiều thông tin, và từ đó, việc tìm ra câu trả lời cho câu hỏi đang quan tâm cũng có thể trở thành vấn đề. phải là một nhiệm vụ khá khó khăn. Vấn đề tìm kiếm thông tin trở nên phức tạp hơn rất nhiều khi sử dụng nguồn ảo. Công nghệ của danh mục trực tuyến được sử dụng ở đây, do đó người dùng có cơ hội tìm kiếm trong danh mục của một số thư viện cùng một lúc, điều này trên thực tế làm phức tạp thêm nhiệm vụ cho chính họ, nhưng mặt khác, lại làm tăng thêm cơ hội giải quyết nó.

Ở giai đoạn hiện nay, toàn bộ không gian thông tin nơi chúng ta đang sống ngày càng được đắm chìm trong Internet. Internet đang trở thành hình thức tồn tại thông tin chính mà không loại bỏ các hình thức truyền thống như tạp chí, đài phát thanh, truyền hình, điện thoại và tất cả các loại dịch vụ trợ giúp.

Mục đích của nghiên cứu là nghiên cứu hệ thống truy xuất thông tin tự động.

Nhiệm vụ trong khóa học này xem xét nền tảng lý thuyết của việc truy xuất thông tin tự động, phân loại và các loại hệ thống truy xuất thông tin. Tài liệu về các danh mục truy xuất thông tin hiện đang được sử dụng của các hệ thống tìm kiếm toàn văn và siêu văn bản cũng được phân tích.

Với sự ra đời của Internet, vấn đề tìm kiếm trở nên cấp bách hơn. Internet là mạng máy tính toàn cầu, là môi trường thông tin thống nhất và cho phép bạn lấy thông tin bất cứ lúc nào. Nhưng mặt khác, rất nhiều thông tin hữu ích được lưu trữ trên Internet nhưng việc tìm kiếm nó đòi hỏi rất nhiều thời gian. Vấn đề này đã dẫn đến sự xuất hiện của các công cụ tìm kiếm. Khóa học này sẽ kiểm tra các công cụ tìm kiếm trên Internet.

Chương 1. Hệ thống truy xuất thông tin

1 Khái niệm về hệ thống truy xuất thông tin

Tìm kiếm thông tin là bài toán mà nhân loại đã giải quyết từ nhiều thế kỷ nay. Khi khối lượng tài nguyên thông tin có khả năng có sẵn cho một người (ví dụ: khách truy cập thư viện) tăng lên, ngày càng có nhiều công cụ và kỹ thuật tìm kiếm phức tạp và nâng cao được phát triển để tìm ra tài liệu cần thiết.

Hệ thống tìm kiếm tự động là hệ thống bao gồm con người và một bộ công cụ tự động hóa cho các hoạt động của nó, triển khai công nghệ thông tin để thực hiện các chức năng đã được thiết lập.

Kinh nghiệm và thực tiễn tạo ra các hệ thống trong các lĩnh vực hoạt động khác nhau cho phép chúng tôi đưa ra một định nghĩa rộng hơn và phổ quát hơn, phản ánh đầy đủ hơn tất cả các khía cạnh bản chất của chúng.

Hệ thống truy xuất thông tin là hệ thống cung cấp khả năng tìm kiếm và lựa chọn dữ liệu cần thiết trong cơ sở dữ liệu đặc biệt với các mô tả về nguồn thông tin (chỉ mục) dựa trên ngôn ngữ truy xuất thông tin và các quy tắc tìm kiếm tương ứng.

Nhiệm vụ chính của bất kỳ hệ thống thông tin nào là tìm kiếm thông tin liên quan đến nhu cầu thông tin của người dùng. Điều rất quan trọng là không bị mất bất cứ thứ gì khi tìm kiếm, tức là tìm tất cả các tài liệu liên quan đến yêu cầu và không tìm thấy bất cứ thứ gì thừa. Do đó, một đặc tính định tính của quy trình tìm kiếm được đưa ra - mức độ liên quan.

Mức độ liên quan là sự tương ứng của kết quả tìm kiếm với truy vấn được xây dựng.

Tiếp theo, chúng ta sẽ chủ yếu xem xét IRS cho World Wide Web. Các chỉ số chính của IPS cho WWW là quy mô không gian và tính chuyên môn hóa. Theo quy mô không gian, IPS có thể được chia thành địa phương, toàn cầu, khu vực và chuyên biệt. Công cụ tìm kiếm cục bộ có thể được thiết kế để nhanh chóng tìm thấy các trang trên quy mô một máy chủ. IRS khu vực mô tả các nguồn thông tin của một khu vực nhất định, ví dụ: các trang tiếng Nga trên Internet. Các công cụ tìm kiếm toàn cầu, không giống như các công cụ tìm kiếm địa phương, cố gắng nắm bắt sự bao la - để mô tả đầy đủ nhất có thể tài nguyên của toàn bộ không gian thông tin trên Internet.

2 Lịch sử phát triển của IPS

Chúng ta hãy quay lại lịch sử xuất hiện của Internet, được tạo ra liên quan đến nhu cầu chia sẻ tài nguyên thông tin được phân bổ giữa các hệ thống máy tính khác nhau. Hầu hết các ứng dụng ban đầu, bao gồm FTP và email, được thiết kế chỉ để trao đổi dữ liệu giữa các máy chủ Internet.

Các ứng dụng khác, chẳng hạn như Telnet, được tạo ra để cho phép người dùng truy cập không chỉ thông tin mà còn cả tài nguyên làm việc của hệ thống từ xa. Khi Internet phát triển (tăng số lượng người dùng và máy chủ), các phương thức trao đổi dữ liệu trước đây không còn đáp ứng được nhu cầu ngày càng cao của người dùng. Cần phải phát triển những cách mới để tìm kiếm và truy cập tài nguyên mạng cho phép sử dụng thông tin bất kể định dạng và vị trí của nó.

Để đáp ứng những nhu cầu đó, hệ thống tìm kiếm Archie, giải quyết vấn đề bản địa hóa tài nguyên trên máy chủ FTP và hệ thống Gopher, giúp đơn giản hóa việc truy cập vào các tài nguyên mạng khác nhau, lần đầu tiên được tạo ra. Sau đó, hệ thống thông tin mạng World Wide Web và WAIS được phát triển, cung cấp các phương pháp thu thập thông tin hoàn toàn mới. Nguyên tắc hoạt động của các hệ thống này giúp dễ dàng điều hướng một lượng tài nguyên thông tin khổng lồ mà không cần cung cấp cơ chế hoạt động của chính Internet. Cách tiếp cận này cho phép chúng ta nói không chỉ về tài nguyên của các hệ thống máy tính được kết nối với nhau mà còn về các không gian thông tin đặc biệt của mạng.

Hệ thống Archie là một bộ công cụ phần mềm hoạt động với các cơ sở dữ liệu đặc biệt. Các cơ sở dữ liệu này chứa thông tin cập nhật liên tục về các tệp có thể được truy cập thông qua dịch vụ FTP. Sử dụng các dịch vụ của hệ thống Archie, bạn có thể tìm kiếm tệp bằng mẫu tên của nó. Trong trường hợp này, người dùng sẽ nhận được danh sách các tệp có chỉ dẫn chính xác về nơi chúng được lưu trữ trên mạng, cũng như thông tin về loại, thời gian tạo và kích thước của tệp. Hệ thống truy xuất thông tin Archie có thể được truy cập theo nhiều cách khác nhau, từ yêu cầu qua email và Telnet đến việc sử dụng ứng dụng khách Archie đồ họa.

Hệ thống Gopher được phát triển để đơn giản hóa quá trình bản địa hóa tài nguyên Internet FTP và trình bày thông tin thuận tiện hơn về nội dung của các tệp được lưu trữ trên máy chủ FTP. Hệ thống Gopher cho phép cung cấp cho người dùng thông tin về các tệp có sẵn và nội dung của chúng ở dạng thuận tiện (dưới dạng menu). Menu máy chủ Gopher có thể chứa các liên kết đến các máy chủ Gopher và FTP khác. Vì vậy, người dùng có cơ hội du lịch qua Internet mà không chú ý đến vị trí của các tài nguyên mà anh ta quan tâm và có quyền truy cập vào các tài nguyên này.

Hệ thống Veronica được sử dụng để tìm kiếm thông tin trong không gian Gopher bằng tiêu đề mục menu. Sau khi nhập từ khóa, hệ thống Veronica sẽ tìm hiểu xem nó có xuất hiện trong menu trên bất kỳ máy chủ Gopher nào hay không và dưới dạng kết quả tìm kiếm, hệ thống sẽ tạo ra danh sách các tiêu đề mục menu có chứa từ khóa. Vì hệ thống Veronica không phải là một chương trình tìm kiếm tự động nhưng được kết nối chặt chẽ với hệ thống Gopher, nên nó có nhược điểm tương tự như hệ thống Gopher: không phải lúc nào cũng có thể biết tiêu đề của một tài nguyên thông tin cụ thể là gì. Ưu điểm của hệ thống là không cần tìm hiểu thông tin tìm thấy ở đâu, chỉ cần chọn mục cần thiết từ danh sách là đủ.

3 cấu trúc IPS

Cấu trúc của hệ thống truy xuất thông tin dựa trên mục đích chức năng, phạm vi ứng dụng và các tính năng của lĩnh vực chủ đề mà nó mô tả.

Về mặt chức năng, IPS được thiết kế để tìm kiếm và truy xuất dữ liệu nhanh chóng và thuận tiện từ lượng lớn thông tin trên động cơ bước, cho cả công việc nội bộ với dữ liệu và chuẩn bị chúng cho các hệ thống CAD khác nhau. Điều này đặt ra những yêu cầu nhất định về việc xây dựng giao diện người dùng và hình thức cung cấp thông tin. Khi xây dựng cấu trúc IPS, nhu cầu truy cập vào hệ thống trợ giúp theo ngữ cảnh của người dùng tiềm năng cũng được tính đến.

Việc thực hiện các yêu cầu trên được giao cho một loạt các thành phần cấu trúc sau đây, được gọi là các khối:

kiểm tra tính toàn vẹn của cơ sở dữ liệu;

xem;

chỉnh sửa;

Mật khẩu bảo vệ;

xuất kết quả;

lưu trữ các tham số tìm kiếm;

Việc lựa chọn cấu trúc như vậy cho hệ thống truy xuất thông tin cho động cơ bước dựa trên một logic rất đơn giản - bất kỳ khối nào của hệ thống đều phải nhận dữ liệu, xử lý và cung cấp cho người dùng theo một thứ tự nhất định, cung cấp logic của quá trình.

Hãy xem xét từng khối chi tiết hơn (Hình 1):

Trình kiểm tra tính toàn vẹn của cơ sở dữ liệu sẽ kiểm tra tất cả các thành phần của cơ sở dữ liệu.

Khối xem cho phép bạn bắt đầu làm việc trong hệ thống bằng cách xem cơ sở dữ liệu và sau đó chọn chế độ vận hành khác.

Khối chỉnh sửa chỉ chỉnh sửa các trường số của cơ sở dữ liệu và cho phép bạn thay đổi các đặc điểm, nhập mới và xóa các bản ghi cũ trong bảng cơ sở dữ liệu. Tại đây bạn cũng có thể thay đổi chế độ hoạt động.

Khối bảo vệ bằng mật khẩu chặn quyền truy cập chỉnh sửa dữ liệu bằng cách nhập mật khẩu gồm sáu chữ số.

Khối tìm kiếm được thiết kế để tìm kiếm các thông số kỹ thuật (TOR) đã nhập và chuyển sang các chế độ vận hành khác.

Khối đầu ra kết quả tìm kiếm hiển thị theo một thứ tự nhất định tất cả các động cơ bước được tìm thấy và đặc điểm của chúng phù hợp với thông số tìm kiếm. Đơn vị lưu trữ tham số tìm kiếm ghi lại và lưu trữ thông tin cho đến giai đoạn tìm kiếm tiếp theo.

Khối trợ giúp hoạt động như một gợi ý trong các chế độ vận hành khác nhau của hệ thống.

Hình 1. Cấu trúc IPS.

Phạm vi ứng dụng của IPS, như đã nêu ở trên, là công việc nội bộ với thông tin và xử lý thông tin để sử dụng trong công việc CAD, bao gồm IPS là một trong các mô-đun. Điều này ngụ ý các yêu cầu rất cao về độ tin cậy của hệ thống, vì bất kỳ hệ thống CAD nào cũng là một cấu trúc khá phức tạp với các thông số độ tin cậy nhất định và mỗi cấu trúc có trong cấu trúc đó phải có độ tin cậy ít nhất không kém toàn bộ hệ thống. Ngược lại, việc cung cấp các chỉ số độ tin cậy cần thiết phần lớn được xác định bởi cấu trúc của hệ thống. Để tổ chức cơ sở dữ liệu IPS, cần phải nghiên cứu đầy đủ về lĩnh vực chủ đề. Trong IPS này, lĩnh vực chủ đề là một loại động cơ bước rộng rãi.

dữ liệu cơ sở dữ liệu truy xuất thông tin

Các hệ thống truy xuất thông tin (IRS) của Internet, với tất cả sự đa dạng bên ngoài của chúng, cũng thuộc một trong các loại này. Do đó, trước khi làm quen với các IPS này, chúng ta sẽ xem xét các bảng chữ cái trừu tượng (từ điển), hệ thống và chủ đề IPS. Để làm điều này, chúng tôi sẽ định nghĩa một số thuật ngữ từ lý thuyết truy xuất thông tin.

Phân loại hệ thống truy xuất thông tin

Hệ thống thông tin phân loại sử dụng tổ chức thông tin có thứ bậc (giống như cây), được gọi là PHÂN LOẠI. Các phần của bộ phân loại được gọi là RUBRICS. Thư viện tương tự của hệ thống thông tin phân loại là một danh mục có hệ thống. Bộ phân loại đang được phát triển và cải tiến bởi một nhóm tác giả. Sau đó nó được sử dụng bởi một nhóm chuyên gia khác gọi là HỆ THỐNG. Các nhà hệ thống hóa, biết bộ phân loại, đọc các tài liệu và gán các chỉ số phân loại cho chúng, cho biết các tài liệu này tương ứng với những phần nào của bộ phân loại.

Chủ đề IPS Web nhẫn

Theo quan điểm của người dùng, chủ đề IRS được cấu trúc theo cách đơn giản nhất. Hãy tìm tên của chủ đề mong muốn mà bạn quan tâm (chủ đề này cũng có thể là thứ gì đó vô hình, chẳng hạn như âm nhạc Ấn Độ) và danh sách các tài nguyên Internet có liên quan được liên kết với tên đó. Điều này sẽ đặc biệt thuận tiện nếu danh sách đầy đủ các mục nhỏ.

Từ điển IPS

Các vấn đề văn hóa liên quan đến việc sử dụng hệ thống thông tin phân loại đã dẫn đến việc tạo ra các hệ thống thông tin kiểu từ điển, với các công cụ tìm kiếm tên tiếng Anh tổng quát. Ý tưởng chính của từ điển IRS là tạo ra một từ điển các từ được tìm thấy trong các tài liệu trên Internet, trong đó, đối với mỗi từ, một danh sách các tài liệu mà từ này được lấy từ đó sẽ được lưu trữ.

Lý thuyết tra cứu thông tin giả định hai thuật toán chính cho hoạt động của hệ thống tra cứu thông tin từ điển: sử dụng từ khóa và sử dụng bộ mô tả. Trong trường hợp đầu tiên, để đánh giá nội dung của tài liệu, chỉ những từ xuất hiện trong đó mới được sử dụng và theo yêu cầu, IRS so sánh các từ trong truy vấn với các từ trong tài liệu, xác định mức độ liên quan của nó theo số lượng, vị trí và trọng số của các từ trong truy vấn trong tài liệu. Tất cả các IPS đang hoạt động, vì lý do lịch sử, đều sử dụng thuật toán này với nhiều sửa đổi khác nhau.

Khi làm việc với các bộ mô tả, các tài liệu được lập chỉ mục sẽ được dịch sang một số ngôn ngữ thông tin của bộ mô tả. Một ngôn ngữ thông tin mô tả, giống như bất kỳ ngôn ngữ nào khác, bao gồm một bảng chữ cái (ký hiệu), từ và phương tiện thể hiện mối quan hệ mô hình và ngữ đoạn giữa các từ. Paradigmatics liên quan đến việc xác định các mối quan hệ từ vựng-ngữ nghĩa giữa các khái niệm ẩn giấu trong ngôn ngữ tự nhiên. Trong khuôn khổ các mối quan hệ mẫu mực, chúng ta có thể xem xét, ví dụ, từ đồng nghĩa và từ đồng âm. Ngữ đoạn nghiên cứu mối quan hệ giữa các từ cho phép chúng được kết hợp thành cụm từ và câu. Cú pháp bao gồm các quy tắc xây dựng từ từ các thành phần của bảng chữ cái (mã hóa các đơn vị từ vựng), quy tắc xây dựng câu (văn bản) từ các đơn vị từ vựng (ngữ pháp).

Nghĩa là, yêu cầu của người dùng được dịch sang phần mô tả và được IRS xử lý theo biểu mẫu này. Cách tiếp cận này tốn kém hơn về mặt tài nguyên máy tính nhưng cũng có khả năng hiệu quả hơn vì nó cho phép bạn loại bỏ tiêu chí liên quan và làm việc trực tiếp với tính lưu giữ của tài liệu.

Xếp hạng kết quả tìm kiếm

Hệ thống thông tin từ điển có khả năng tạo ra danh sách tài liệu chứa hàng triệu liên kết. Thậm chí không thể chỉ xem qua các danh sách như vậy và điều đó là không cần thiết. Sẽ rất thuận tiện nếu có thể đặt ra các tiêu chí chính thức về tầm quan trọng (ít nhất là tương đối) (từ quan điểm về mức độ liên quan) của các tài liệu để các tài liệu quan trọng nhất sẽ được đặt lên đầu danh sách. Tất cả các hệ thống truy xuất thông tin hiện nay đều tập trung vào thuật toán xếp hạng các liên kết nhận được.

Tiêu chí được sử dụng thường xuyên nhất để xếp hạng trong IRS là sự hiện diện của các từ trong truy vấn trong tài liệu, số lượng của chúng, khoảng cách với phần đầu của tài liệu, khoảng cách với nhau;

Sự hiện diện của các từ trong yêu cầu trong tiêu đề và tiêu đề phụ của tài liệu (tiêu đề phải được định dạng đặc biệt);

Số lượng liên kết đến tài liệu này từ các tài liệu khác; “sự tôn trọng” của các tài liệu tham chiếu.

Chương 2. Hệ thống thông tin hiện đại

1 Lĩnh vực sử dụng hệ thống thông tin hiện đại

Hệ thống thông tin hiện đại là đặc trưng của cái gọi là ngành công nghiệp thông tin - lĩnh vực mới nhất của nền kinh tế và lĩnh vực xã hội, tham gia vào việc xử lý, hệ thống hóa, tích lũy và phổ biến thông tin. Sự phát triển nhanh chóng của IPS gắn liền với những thành công của ngành khoa học máy tính (Tin học). Đối tượng của yêu cầu gửi tới IRS có thể là dữ liệu thư mục, thông tin quản lý và thực tế, đánh giá của chuyên gia, kinh nghiệm hồi cứu, kết quả nghiên cứu mô hình, v.v. Một loạt các nhiệm vụ như vậy dẫn đến nhiều loại hệ thống thông tin khác nhau. Chúng khác nhau về mục tiêu, lượng thông tin chứa đựng, loại thông tin và cách đưa thông tin đó đến người tiêu dùng. Cùng với các hệ thống thông tin địa phương hoạt động trong một cơ quan (ví dụ như phòng khám hoặc bệnh viện), còn có các trung tâm dịch vụ thông tin quốc gia và quốc tế (ví dụ trong lĩnh vực bảo vệ môi trường). Các hệ thống tìm kiếm thông tin thư mục (ví dụ, chứa các thư mục trong tất cả các lĩnh vực y học và khoa học y sinh) đã trở nên phổ biến. Việc sản xuất hàng loạt máy tính cá nhân, sự phát triển của truyền thông, khả năng kết hợp máy tính vào mạng thông tin và khả năng truy cập từ nơi làm việc của một người đến thông tin được lưu trữ trong bộ nhớ của các máy tính khác đã mở rộng đáng kể phạm vi ứng dụng thông tin, chiều rộng và chiều sâu của việc tìm kiếm thông tin. . Một giai đoạn mới về chất lượng trong quá trình phát triển hệ thống truy xuất thông tin gắn liền với việc hình thành cơ sở dữ liệu trên phương tiện có thể đọc được bằng máy. Cơ sở dữ liệu như vậy cho phép bạn truy cập chúng từ xa, đồng thời cho nhiều truy vấn, nhận kết quả tìm kiếm nhanh chóng và ở dạng thuận tiện.

Y học và chăm sóc sức khỏe là một lĩnh vực cực kỳ cụ thể để triển khai IPS. Điều này là do cấu trúc phức tạp và nhiều dạng thông tin y tế đa dạng, bao gồm các khái niệm và danh mục khó chính thức hóa cũng như lượng dữ liệu đáng kể cần được ghi lại. Điểm đặc biệt của thông tin y tế là kết quả của các quan sát lâm sàng hoặc thực nghiệm đơn lẻ, khi chúng được tích lũy và khái quát hóa, sẽ trở thành cơ sở để thực hiện các hoạt động xã hội và y tế quan trọng. Thông tin y tế và vệ sinh là cơ sở để đưa ra quyết định quản lý - từ việc lựa chọn các lĩnh vực nghiên cứu quan trọng nhất đến thực hiện các biện pháp phòng ngừa và vệ sinh khẩn cấp. Các mảng thông tin trên cơ sở phân tích mà quản lý chăm sóc sức khỏe được thực hiện bao gồm số liệu thống kê (thống kê nhân khẩu học và dân số, thống kê nhân sự, dữ liệu về tỷ lệ mắc bệnh và tử vong, v.v.), dữ liệu tổng quát về tình trạng và thành tựu của y tế và một số của các ngành khoa học liên quan và kinh nghiệm của những năm trước. Chính bản chất phức tạp của thông tin đã dẫn đến sự phát triển của khái niệm IPS thống nhất. Nó bao gồm việc tạo từng bước các hệ thống con riêng lẻ, việc tích hợp chúng đạt được ở cả cấp độ trao đổi cơ sở dữ liệu và (hoặc) sử dụng các công cụ truyền thông.

Quá trình phát triển và tích hợp các hệ thống con vào hệ thống thông tin có thể được thực hiện theo chiều dọc và chiều ngang khi chúng được tạo ra. Các hệ thống con mang tính phụ trợ (ví dụ, kế toán và di chuyển nhân sự, lập kế hoạch và tài chính) có thể được tạo ra độc lập với các hệ thống khác. Ở cấp độ thấp hơn, các cơ sở chăm sóc sức khỏe (bệnh viện, phòng khám, viện nghiên cứu) sử dụng IPS để duy trì lịch sử y tế, theo dõi hiệu quả của các biện pháp điều trị, thu thập và xử lý dữ liệu thống kê cơ bản cũng như giải quyết các vấn đề quản lý ở cấp độ năng lực của họ ( sử dụng giường bệnh và thiết bị chẩn đoán trong phòng thí nghiệm, cung cấp thuốc, v.v.). Thực hiện chức năng vận hành, các hệ thống thông tin này đồng thời tích lũy rồi truyền tải những thông tin cần thiết lên cấp cao hơn (thành phố, khu vực). Các hệ thống con dành cho dịch vụ tra cứu và thông tin đang được tạo ra riêng biệt (trong lĩnh vực thư mục và nghiên cứu khoa học, tài liệu quy chuẩn, tiêu chuẩn). Là một phần của IPS tổng thể, các hệ thống con có thể được phát triển để hỗ trợ và phát triển các dịch vụ riêng lẻ (ví dụ: tâm thần, ung thư) hoặc các chương trình mục tiêu (ví dụ: tác dụng phụ của thuốc).

2 Kiến trúc hệ thống thông tin hiện đại cho WWW

Trước khi mô tả các vấn đề trong việc xây dựng hệ thống truy xuất thông tin Web và cách giải quyết chúng, chúng ta hãy xem xét sơ đồ điển hình của một hệ thống như vậy (Hình 2).

Hình 2. Sơ đồ điển hình của một hệ thống truy xuất thông tin.

(máy khách) trong sơ đồ này là một chương trình để xem một nguồn thông tin cụ thể. Phổ biến nhất hiện nay là các chương trình đa giao thức như Netscape Navigator. Một chương trình như vậy cung cấp khả năng xem các tài liệu WWW, Gopher, Wais, kho lưu trữ FTP, danh sách gửi thư và các nhóm tin tức Usenet. Đổi lại, tất cả các tài nguyên thông tin này đều là đối tượng tìm kiếm của hệ thống truy xuất thông tin.Giao diện (giao diện người dùng) không chỉ là một chương trình xem, trong trường hợp hệ thống truy xuất thông tin, cụm từ này còn có nghĩa là cách người dùng giao tiếp với tìm kiếm engine: hệ thống tạo truy vấn và xem kết quả tìm kiếm.engine (công cụ tìm kiếm) - dùng để dịch một truy vấn bằng ngôn ngữ truy xuất thông tin (IRL) thành yêu cầu hệ thống chính thức, tìm kiếm các liên kết đến các tài nguyên thông tin trên Web và cung cấp kết quả của tìm kiếm này tới user.database (chỉ mục cơ sở dữ liệu) - chỉ mục là mảng dữ liệu IRS chính và được sử dụng để tìm kiếm địa chỉ của một nguồn thông tin. Kiến trúc của chỉ mục được thiết kế sao cho việc tìm kiếm diễn ra nhanh nhất có thể, đồng thời có thể đánh giá giá trị của từng tài nguyên thông tin được tìm thấy trên mạng (Truy vấn của người dùng) được lưu trữ trong cơ sở dữ liệu cá nhân của anh ấy (người dùng). Việc gỡ lỗi mỗi truy vấn tốn rất nhiều thời gian, do đó, điều cực kỳ quan trọng là phải nhớ các truy vấn mà hệ thống đưa ra câu trả lời tốt robot (robot lập chỉ mục) - dùng để thu thập dữ liệu trên Internet và giữ cho cơ sở dữ liệu chỉ mục được cập nhật. Chương trình này là nguồn thông tin chính về trạng thái tài nguyên thông tin của mạng. Các trang web là toàn bộ Internet, hay chính xác hơn là các tài nguyên thông tin được xem bằng các chương trình xem.

2.3 Công cụ tìm kiếm phổ biến

Theo dữ liệu của LiveInternet về mức độ bao phủ của các truy vấn tìm kiếm bằng tiếng Nga:

Tất cả các ngôn ngữ:(37,2%))(0,8%)! (0,2%) và các công cụ tìm kiếm thuộc sở hữu của công ty này:

Nói tiếng Anh và quốc tế: (Cơ chế Teoma)

Nói tiếng Nga - hầu hết các công cụ tìm kiếm “tiếng Nga” lập chỉ mục và tìm kiếm văn bản bằng nhiều ngôn ngữ - tiếng Ukraina, tiếng Bêlarut, tiếng Anh, tiếng Tatar, v.v. Chúng khác với các hệ thống “tất cả ngôn ngữ” lập chỉ mục tất cả các tài liệu liên tiếp trong rằng họ chủ yếu lập chỉ mục các tài nguyên nằm trong các vùng miền nơi tiếng Nga chiếm ưu thế hoặc theo cách khác giới hạn robot của họ ở các trang web tiếng Nga.

Yandex (48,1%).ru ​​​​(5,9%)

Rambler (1,2%)

Nygma (0,3%)

Một số công cụ tìm kiếm sử dụng thuật toán tìm kiếm bên ngoài. Do đó, Qip.ru sử dụng công cụ tìm kiếm Yandex và Nigma kết hợp cả thuật toán của riêng mình và kết quả tổng hợp từ các công cụ tìm kiếm khác.

Phần kết luận

Các công cụ tìm kiếm mà tôi đã đánh giá còn lâu mới hoàn hảo. Người ta tin rằng một công cụ tìm kiếm lý tưởng phải đáp ứng các yêu cầu sau:

Dễ dàng sử dụng

Chỉ số được tổ chức và cập nhật rõ ràng.

Tìm kiếm cơ sở dữ liệu nhanh và phản hồi nhanh.

Độ tin cậy và độ chính xác của kết quả tìm kiếm.

Quy mô của các nguồn thông tin và số lượng của chúng không ngừng mở rộng. Rõ ràng là cơ sở dữ liệu không hoàn hảo. Tác nhân thông minh là xu hướng mới làm nền tảng cho thế hệ công cụ tìm kiếm mới có thể lọc thông tin và nhận được kết quả chính xác hơn. Internet tiếp tục phát triển với cường độ không ngừng, về cơ bản xóa bỏ những hạn chế trong việc phân phối và tiếp nhận thông tin trên thế giới. Tuy nhiên, trong đại dương thông tin này, không dễ để tìm được tài liệu cần thiết, bạn cũng nên nhớ rằng cùng với những máy chủ lâu đời, những máy chủ mới cũng xuất hiện trên mạng.

Danh sách tài liệu được sử dụng

1. Ashmanov, I. S. Quảng bá trang web trên công cụ tìm kiếm / I. S. Ashmanov. - M.: “Williams”, 2007. - 304 tr.

Baykov, V. D. Internet. Tìm kiếm thông tin. Quảng bá trang web / V. D. Baykov. - St. Petersburg: BHV-Petersburg, 2000. - 288 tr.

Gavrilov, A.V. Mạng máy tính địa phương / A.V. Gavrilov. - M.: "Mir", 1990. - 154 tr.

Gaidamakin, N. A. Hệ thống thông tin, cơ sở dữ liệu và ngân hàng dữ liệu tự động / N. A. Gaidamakin - M.: “Helios”, 2002. - 280 tr.

Kadeev, D. N. Công nghệ thông tin và truyền thông điện tử / D. N. Kadeev. - M.: “Electro”, 2005. - 250 tr.

Kolisnichenko, D. N. Công cụ tìm kiếm và quảng bá trang web trên Internet / D. N. Kolisnichenko. - M.: “Biện chứng”, 2007. - 272 tr.

Lande, D.V. Tìm kiếm kiến ​​thức trên Internet / D.V. Lande. - M.: “Biện chứng”, 2005. - 272 tr.

Manning, K. Giới thiệu về truy xuất thông tin / K. Manning. - M.: “Williams”, 2011.- 200 tr.

Chursin, N. A. Tin học phổ biến / N. A. Chursin. - M.: “Williams”, 2007. - 300 tr.


17/03/1996 Pavel Khramtsov

Người dùng Internet biết rõ tên của các dịch vụ và dịch vụ thông tin như Lycos, AltaVista, Yahoo, OpenText, InfoSeek, v.v. - nếu không có dịch vụ của các hệ thống này, ngày nay thực tế không thể tìm thấy bất cứ thứ gì hữu ích trong biển cả nguồn thông tin trên Internet. Những dịch vụ này trông như thế nào từ bên trong, chúng được cấu trúc như thế nào, tại sao kết quả tìm kiếm trong mảng thông tin terabyte được thực hiện khá nhanh chóng và cách sắp xếp thứ hạng tài liệu khi ban hành - tất cả những điều này thường vẫn ở phía sau. Tuy nhiên, nếu không lập kế hoạch phù hợp về chiến lược tìm kiếm và làm quen với các nguyên tắc cơ bản của lý thuyết IRS (Hệ thống truy xuất thông tin), có lịch sử hai mươi năm, thì khó có thể sử dụng hiệu quả ngay cả những dịch vụ nhanh chóng như AltaVista hoặc Lycos. . Kiến trúc của IS hiện đại cho WWW Tài nguyên thông tin và cách biểu diễn chúng trong IS Chỉ mục tìm kiếm Ngôn ngữ truy xuất thông tin của hệ thống Giao diện hệ thống Kết luận Tài liệu Người dùng Internet đã biết rõ về tên của các dịch vụ đó

Người dùng Internet biết rõ tên của các dịch vụ và dịch vụ thông tin như Lycos, AltaVista, Yahoo, OpenText, InfoSeek, v.v. - nếu không có dịch vụ của các hệ thống này, ngày nay thực tế không thể tìm thấy bất cứ thứ gì hữu ích trong biển cả nguồn thông tin trên Internet. Những dịch vụ này trông như thế nào từ bên trong, chúng được cấu trúc như thế nào, tại sao kết quả tìm kiếm trong mảng thông tin terabyte được thực hiện khá nhanh chóng và cách sắp xếp thứ hạng tài liệu khi ban hành - tất cả những điều này thường vẫn ở phía sau. Tuy nhiên, nếu không lập kế hoạch phù hợp về chiến lược tìm kiếm và làm quen với các nguyên tắc cơ bản của lý thuyết IRS (Hệ thống truy xuất thông tin), có lịch sử hai mươi năm, thì khó có thể sử dụng hiệu quả ngay cả những dịch vụ nhanh chóng như AltaVista hoặc Lycos. .

Hệ thống truy xuất thông tin đã có từ rất lâu. Nhiều bài viết đề cập đến lý thuyết và thực tiễn xây dựng các hệ thống như vậy, hầu hết đều có từ cuối những năm 70 - đầu những năm 80. Trong số các nguồn trong nước, nổi bật là bộ sưu tập khoa học kỹ thuật “Thông tin khoa học và kỹ thuật. Series 2” vẫn được xuất bản. Một cuốn “kinh thánh” về sự phát triển của hệ thống truy xuất thông tin và mô hình hóa các quá trình hoạt động của chúng cũng được xuất bản bằng tiếng Nga. Vì vậy, không thể nói rằng với sự ra đời của Internet và sự gia nhập nhanh chóng của nó vào hoạt động hỗ trợ thông tin, một thứ gì đó mới về cơ bản đã xuất hiện mà trước đây chưa từng tồn tại. Nói chính xác, IPS trên Internet là sự thừa nhận rằng cả mô hình Gopher phân cấp lẫn mô hình siêu văn bản của World Wide Web đều chưa giải quyết được vấn đề tìm kiếm thông tin trong khối lượng lớn tài liệu không đồng nhất. Và ngày nay không có cách nào khác để tìm kiếm dữ liệu nhanh chóng ngoài việc tìm kiếm theo từ khóa.

Khi sử dụng mô hình phân cấp của Gopher, bạn phải duyệt cây thư mục khá lâu cho đến khi tìm được thông tin mình cần. Các thư mục này phải được ai đó duy trì và việc phân chia theo chủ đề của chúng phải phù hợp với nhu cầu thông tin của người dùng. Xem xét tính chất hỗn loạn của Internet và số lượng lớn các sở thích khác nhau của người dùng Internet, rõ ràng ai đó có thể không may mắn và sẽ không có danh mục trên Internet phản ánh một lĩnh vực chủ đề cụ thể. Vì lý do này mà chương trình truy xuất thông tin Veronica (Chỉ mục lưu trữ máy tính trên toàn mạng hướng đến loài gặm nhấm rất dễ dàng) đã được phát triển cho nhiều máy chủ Gopher, được gọi là GopherSpace.

Những diễn biến tương tự cũng được quan sát thấy trên World Wide Web. Trên thực tế, vào năm 1988, trong số đặc biệt của tạp chí "Truyền thông của ACM", trong số các vấn đề khác trong việc phát triển và sử dụng hệ thống siêu văn bản, Frank Halaz đã đặt vấn đề tổ chức truy xuất thông tin trong các mạng siêu văn bản lớn là một nhiệm vụ ưu tiên. cho thế hệ tiếp theo của hệ thống loại này. Cho đến nay, nhiều ý tưởng được trình bày trong bài viết đó vẫn chưa tìm được cách thực hiện. Đương nhiên, hệ thống do Berners-Lee đề xuất và trở nên phổ biến trên Internet đã phải đối mặt với những vấn đề tương tự như các hệ thống tiền nhiệm ở địa phương. Bằng chứng thực sự về điều này đã được chứng minh tại hội nghị World Wide Web lần thứ hai vào mùa thu năm 1994, tại đó các bài báo được trình bày về sự phát triển của hệ thống truy xuất thông tin cho Web và World Wide Web Worm, được phát triển bởi Oliver McBrine thuộc Đại học Colorado, đoạt giải công cụ điều hướng tốt nhất. . Cũng cần lưu ý rằng, suy cho cùng, cuộc sống lâu dài không dành cho những chương trình kỳ diệu của những cá nhân tài năng, mà dành cho những phương tiện là kết quả của sự chuyển động có kế hoạch và nhất quán của các đội khoa học và sản xuất hướng tới mục tiêu đã đề ra. Sớm hay muộn, giai đoạn nghiên cứu kết thúc và giai đoạn vận hành hệ thống bắt đầu, và đây là một loại hoạt động hoàn toàn khác. Đây chính xác là số phận đang chờ đợi hai dự án khác được trình bày tại cùng một hội nghị: Lycos, được hỗ trợ bởi Microsoft và WebCrawler, đã trở thành tài sản của America Online.

Việc phát triển hệ thống thông tin mới cho Web vẫn chưa được hoàn thành. Hơn nữa, cả ở giai đoạn viết hệ thống thương mại và ở giai đoạn nghiên cứu. Trong hai năm qua, chỉ có lớp trên cùng của các giải pháp khả thi được loại bỏ. Tuy nhiên, nhiều vấn đề mà Internet đặt ra cho các nhà phát triển IPS vẫn chưa được giải quyết. Chính hoàn cảnh này đã dẫn đến sự xuất hiện của các dự án như AltaVista từ Digital, mục tiêu chính là phát triển phần mềm truy xuất thông tin cho Web và lựa chọn kiến ​​trúc cho máy chủ thông tin Web.

Kiến trúc hệ thống thông tin hiện đại cho WWW

Trước khi mô tả các vấn đề trong việc xây dựng hệ thống truy xuất thông tin Web và cách giải quyết chúng, chúng ta hãy xem xét sơ đồ điển hình của một hệ thống như vậy. Ví dụ, nhiều ấn phẩm khác nhau dành cho các hệ thống cụ thể cung cấp các sơ đồ khác nhau chỉ ở cách sử dụng các giải pháp phần mềm cụ thể chứ không phải ở nguyên tắc tổ chức các thành phần khác nhau của hệ thống. Do đó, hãy xem xét sơ đồ này bằng cách sử dụng một ví dụ lấy từ tác phẩm (Hình.).

Cơm. Sơ đồ điển hình của một hệ thống truy xuất thông tin.

Khách hàng trong sơ đồ này nó là một chương trình để xem một nguồn thông tin cụ thể. Phổ biến nhất hiện nay là các chương trình đa giao thức như Netscape Navigator. Một chương trình như vậy cung cấp khả năng xem các tài liệu WWW, Gopher, Wais, kho lưu trữ FTP, danh sách gửi thư và các nhóm tin tức Usenet. Đổi lại, tất cả các tài nguyên thông tin này là đối tượng tìm kiếm của hệ thống truy xuất thông tin.

Giao diện người dùng- đây không chỉ là một chương trình xem; trong trường hợp hệ thống truy xuất thông tin, cụm từ này còn có nghĩa là cách người dùng giao tiếp với công cụ tìm kiếm: hệ thống tạo truy vấn và xem kết quả tìm kiếm.

Công cụ tìm kiếm (công cụ tìm kiếm)- dùng để dịch yêu cầu bằng ngôn ngữ truy xuất thông tin (IRL) thành yêu cầu hệ thống chính thức, tìm kiếm các liên kết đến các tài nguyên thông tin trên Mạng và cung cấp kết quả tìm kiếm này cho người dùng.

Cơ sở dữ liệu chỉ mục- chỉ mục, là mảng dữ liệu IRS chính và dùng để tìm kiếm địa chỉ của nguồn thông tin. Kiến trúc của chỉ mục được thiết kế sao cho việc tìm kiếm diễn ra nhanh nhất có thể, đồng thời có thể đánh giá giá trị của từng tài nguyên thông tin được tìm thấy trên mạng.

Truy vấn (yêu cầu của người dùng)- được lưu trong cơ sở dữ liệu cá nhân của anh ấy (người dùng). Phải mất rất nhiều thời gian để gỡ lỗi mỗi truy vấn và do đó, điều cực kỳ quan trọng là phải ghi nhớ các truy vấn mà hệ thống đưa ra câu trả lời tốt.

Robot chỉ mục- dùng để quét Internet và cập nhật cơ sở dữ liệu chỉ mục. Chương trình này là nguồn thông tin chính về trạng thái tài nguyên thông tin mạng.

Trang web WWW- đây là toàn bộ Internet hay chính xác hơn là các tài nguyên thông tin, việc xem tài nguyên này được cung cấp bằng cách xem các chương trình.

Bây giờ chúng ta hãy xem xét mục đích và nguyên tắc xây dựng của từng thành phần này một cách chi tiết hơn và xác định xem hệ thống này khác với loại IPS cục bộ truyền thống như thế nào.

Các nguồn thông tin và cách trình bày chúng trong IRS

Như có thể thấy từ hình, mảng tài liệu Internet IRS là toàn bộ bộ tài liệu thuộc sáu loại chính: trang WWW, tệp Gopher, tài liệu Wais, bản ghi lưu trữ FTP, tin tức Usenet và các bài viết trong danh sách gửi thư. Tất cả điều này là thông tin khá không đồng nhất, được trình bày dưới dạng các định dạng dữ liệu khác nhau không hề nhất quán với nhau: văn bản, thông tin đồ họa và âm thanh, và nói chung là mọi thứ có sẵn trong các kho lưu trữ này. Câu hỏi được đặt ra một cách tự nhiên: một hệ thống truy xuất thông tin nên hoạt động như thế nào với tất cả những điều này?

Các hệ thống truyền thống sử dụng khái niệm hình ảnh tìm kiếm của tài liệu - AML. Thông thường, thuật ngữ này đề cập đến nội dung nào đó thay thế tài liệu và được sử dụng trong tìm kiếm thay vì tài liệu thực. Hình ảnh tìm kiếm là kết quả của việc áp dụng một số mô hình của mảng thông tin tài liệu vào mảng thực. Mô hình phổ biến nhất là mô hình vectơ, trong đó mỗi tài liệu được gán một danh sách các thuật ngữ phản ánh đầy đủ nhất ý nghĩa của nó. Nói chính xác hơn, tài liệu được gán một vectơ kích thước bằng số lượng thuật ngữ có thể được sử dụng trong tìm kiếm. Với mô hình vectơ Boolean, phần tử vectơ là 1 hoặc 0, tùy thuộc vào sự hiện diện hay vắng mặt của một thuật ngữ trong POD. Trong các mô hình phức tạp hơn, các thuật ngữ được tính trọng số - phần tử của vectơ không bằng 1 hoặc 0 mà bằng một số (trọng số) nhất định phản ánh sự tương ứng của một thuật ngữ nhất định với một tài liệu. Mô hình thứ hai đã trở thành mô hình phổ biến nhất trong hệ thống truy xuất thông tin trên Internet.

Nói chung, có các mô hình khác để mô tả tài liệu: mô hình xác suất của luồng thông tin và tìm kiếm và mô hình tìm kiếm tập mờ. Không đi sâu vào chi tiết, cần lưu ý rằng cho đến nay chỉ có mô hình tuyến tính được sử dụng trong các hệ thống Lycos, WebCrawler, AltaVista, OpenText và AliWeb. Tuy nhiên, nghiên cứu đang được tiến hành về việc sử dụng các mô hình khác, kết quả của chúng được phản ánh trong các công trình. Vì vậy, nhiệm vụ đầu tiên mà IRS phải giải quyết là gán danh sách từ khóa cho một tài liệu hoặc nguồn thông tin. Thủ tục này được gọi là lập chỉ mục. Tuy nhiên, thông thường, việc lập chỉ mục đề cập đến việc biên soạn một tệp danh sách đảo ngược, trong đó mỗi thuật ngữ lập chỉ mục được liên kết với một danh sách các tài liệu mà nó xuất hiện. Quy trình này chỉ là một trường hợp đặc biệt, hay đúng hơn là một khía cạnh kỹ thuật của việc tạo công cụ tìm kiếm IRS. Vấn đề với việc lập chỉ mục là việc gán hình ảnh tìm kiếm cho một tài liệu hoặc nguồn thông tin phụ thuộc vào việc suy nghĩ về từ vựng mà từ đó các thuật ngữ được chọn như một tập hợp các thuật ngữ cố định. Các hệ thống truyền thống được chia thành hệ thống từ vựng được kiểm soát và hệ thống từ vựng tự do. Từ vựng được kiểm soát liên quan đến việc duy trì cơ sở dữ liệu từ vựng, thêm các thuật ngữ do quản trị viên hệ thống thực hiện và tất cả các tài liệu mới chỉ có thể được lập chỉ mục bởi các thuật ngữ có trong cơ sở dữ liệu này. Từ điển miễn phí được cập nhật tự động khi có tài liệu mới xuất hiện. Tuy nhiên tại thời điểm cập nhật thì từ điển cũng đã được sửa. Cập nhật liên quan đến việc khởi động lại hoàn toàn cơ sở dữ liệu. Tại thời điểm cập nhật này, bản thân các tài liệu đã được tải lại và từ điển đã được cập nhật và sau khi được cập nhật, các tài liệu đã được lập chỉ mục lại. Quá trình cập nhật mất khá nhiều thời gian và quyền truy cập vào hệ thống đã bị đóng tại thời điểm cập nhật.

Bây giờ chúng ta hãy tưởng tượng khả năng xảy ra một quy trình như vậy trong Internet hỗn loạn, nơi tài nguyên xuất hiện và biến mất hàng ngày. Khi Veronica được tạo cho GopherSpace, người ta giả định rằng tất cả các máy chủ phải được đăng ký và do đó sự hiện diện hay vắng mặt của tài nguyên đều được ghi lại. Veronica kiểm tra tính khả dụng của tài liệu Gopher mỗi tháng một lần và cập nhật cơ sở dữ liệu AML cho tài liệu Gopher. Không có gì giống như thế này trên WWW. Để giải quyết vấn đề này, các chương trình quét mạng hoặc robot lập chỉ mục được sử dụng. Phát triển robot là một nhiệm vụ không hề tầm thường; Có nguy cơ là robot có thể rơi vào vòng lặp hoặc kết thúc trên các trang ảo. Robot quét web, tìm tài nguyên mới, gán thuật ngữ cho chúng và đặt chúng vào cơ sở dữ liệu chỉ mục. Câu hỏi chính là gán những thuật ngữ nào cho tài liệu và lấy chúng từ đâu, bởi vì một số tài nguyên hoàn toàn không phải là văn bản. Ngày nay, robot thường sử dụng các nguồn lập chỉ mục sau để bổ sung từ điển ảo của chúng: liên kết siêu văn bản, tiêu đề, tiêu đề (H1, H2), chú thích, danh sách từ khóa, văn bản đầy đủ của tài liệu cũng như thông báo từ quản trị viên về trang Web của chúng. Để lập chỉ mục telnet, gopher, ftp, thông tin phi văn bản, chủ yếu sử dụng URL; đối với danh sách thư và tin tức Usenet, các trường Chủ đề và Từ khóa được sử dụng. Tài liệu HTML cung cấp phạm vi lớn nhất để xây dựng AML. Tuy nhiên, không nên nghĩ rằng tất cả các thuật ngữ từ các thành phần tài liệu được liệt kê đều rơi vào hình ảnh tìm kiếm của chúng. Danh sách các từ bị cấm (từ dừng), không thể sử dụng để lập chỉ mục, các từ thông dụng (giới từ, liên từ, v.v.) được sử dụng rất tích cực. Do đó, ngay cả những gì trong OpenText, chẳng hạn, được gọi là lập chỉ mục toàn văn bản, thực ra là một lựa chọn các từ từ văn bản tài liệu và so sánh với một tập hợp các từ điển khác nhau, sau đó thuật ngữ này kết thúc trong AML và sau đó trong hệ thống. mục lục. Để không làm tăng từ điển và chỉ mục (chỉ số hệ thống Lycos đã là 4 TB), một khái niệm gọi là trọng số thuật ngữ đã được sử dụng. Tài liệu thường được lập chỉ mục thông qua 40 - 100 thuật ngữ “nặng” nhất.

Chỉ mục tìm kiếm

Sau khi các tài nguyên được lập chỉ mục và hệ thống đã biên soạn một mảng POD, quá trình xây dựng công cụ tìm kiếm bắt đầu. Rõ ràng là việc xem trực diện của tệp hoặc các tệp trong POD sẽ mất rất nhiều thời gian, điều này hoàn toàn không thể chấp nhận được đối với một hệ thống WWW tương tác. Để tăng tốc độ tìm kiếm, một chỉ mục được xây dựng, trong hầu hết các hệ thống là một tập hợp các tệp được kết nối với nhau nhằm mục đích tìm kiếm nhanh chóng dữ liệu theo yêu cầu. Cấu trúc và thành phần chỉ mục của các hệ thống khác nhau có thể khác nhau và phụ thuộc vào nhiều yếu tố: kích thước của mảng hình ảnh tìm kiếm, ngôn ngữ truy xuất thông tin, vị trí của các thành phần hệ thống khác nhau, v.v. Chúng ta hãy xem xét cấu trúc của chỉ mục bằng cách sử dụng ví dụ về một hệ thống có thể triển khai không chỉ Boolean nguyên thủy mà còn cả tìm kiếm theo ngữ cảnh và có trọng số, cũng như một số khả năng khác bị thiếu trong nhiều công cụ tìm kiếm trên Internet, ví dụ: ví dụ Yahoo. Chỉ mục của hệ thống đang được xem xét bao gồm bảng định danh trang (ID trang), bảng từ khóa (ID từ khóa), bảng sửa đổi trang, bảng tiêu đề, bảng liên kết siêu văn bản, danh sách đảo ngược (IL) và một danh sách chuyển tiếp (FL).

ID trang ánh xạ số nhận dạng trang tới URL của chúng, ID từ khóa - mỗi từ khóa thành một số nhận dạng duy nhất cho từ đó, bảng tiêu đề - số nhận dạng trang tới tiêu đề trang, bảng liên kết siêu văn bản - số nhận dạng trang tới liên kết siêu văn bản đến trang đó. Danh sách đảo ngược khớp từng từ khóa tài liệu với danh sách các cặp - mã định danh trang, vị trí từ trong trang. Danh sách trực tiếp là một mảng các hình ảnh trang tìm kiếm. Tất cả các tệp này đều được sử dụng theo cách này hay cách khác trong quá trình tìm kiếm, nhưng tệp chính trong số đó là tệp danh sách đảo ngược. Kết quả tìm kiếm trong tệp này là sự kết hợp và/hoặc giao điểm của danh sách các mã định danh trang. Danh sách kết quả, được chuyển đổi thành danh sách các tiêu đề có liên kết siêu văn bản, được trả về cho người dùng trong trình duyệt Web của anh ta. Để nhanh chóng tìm kiếm các mục trong danh sách đảo ngược, một số tệp khác được thêm vào phía trên nó, ví dụ: một tệp gồm các cặp chữ cái biểu thị các mục trong danh sách đảo ngược bắt đầu bằng các cặp này. Ngoài ra, một cơ chế truy cập trực tiếp vào dữ liệu được sử dụng - băm. Sự kết hợp của hai phương pháp được sử dụng để cập nhật chỉ mục. Việc đầu tiên có thể được gọi là hiệu chỉnh chỉ mục nhanh chóng bằng cách sử dụng bảng sửa đổi trang. Bản chất của giải pháp này khá đơn giản: mục nhập chỉ mục cũ đề cập đến mục nhập mới, được sử dụng trong quá trình tìm kiếm. Khi số lượng liên kết như vậy đủ để có thể cảm nhận được trong quá trình tìm kiếm, một bản cập nhật hoàn chỉnh của chỉ mục sẽ xảy ra - nó được khởi động lại. Hiệu quả tìm kiếm trong mỗi hệ thống truy xuất thông tin cụ thể chỉ được xác định bởi kiến ​​trúc chỉ mục. Theo quy định, cách tổ chức các mảng này là “bí mật của công ty” và là niềm tự hào của công ty. Để xác minh điều này, chỉ cần đọc tài liệu OpenText.

Ngôn ngữ truy xuất thông tin của hệ thống

Chỉ mục chỉ là một phần của công cụ tìm kiếm, bị ẩn đối với người dùng. Phần thứ hai của bộ máy này là ngôn ngữ truy xuất thông tin (IRL), cho phép bạn tạo yêu cầu tới hệ thống ở dạng đơn giản và trực quan. Sự lãng mạn trong việc tạo ra một ngoại ngữ như một ngôn ngữ tự nhiên đã bị bỏ lại phía sau từ lâu - chính cách tiếp cận này đã được sử dụng trong hệ thống Wais trong giai đoạn đầu triển khai. Ngay cả khi người dùng được yêu cầu nhập truy vấn bằng ngôn ngữ tự nhiên, điều này không có nghĩa là hệ thống sẽ phân tích cú pháp truy vấn của người dùng về mặt ngữ nghĩa. Văn xuôi của cuộc sống là một cụm từ thường được chia thành các từ, từ đó loại bỏ các từ bị cấm và phổ biến, đôi khi từ vựng được chuẩn hóa và sau đó tất cả các từ được kết nối bằng logic AND hoặc OR. Vì vậy, một truy vấn như:

>Phần mềm được sử dụng trên nền tảng Unix

sẽ được chuyển đổi thành:

>Unix VÀ Nền tảng VÀ Phần mềm

điều đó có nghĩa là như thế này: " Tìm tất cả các tài liệu có từ Unix, Platform và Software xuất hiện đồng thời".

Các biến thể cũng có thể. Do đó, trên hầu hết các hệ thống, cụm từ "Nền tảng Unix" sẽ được công nhận là cụm từ khóa và sẽ không được tách thành các từ riêng lẻ. Một cách tiếp cận khác là tính toán mức độ gần nhau giữa truy vấn và tài liệu. Đây chính xác là cách tiếp cận được sử dụng trong Lycos. Trong trường hợp này, theo mô hình vectơ của biểu diễn tài liệu và truy vấn, độ đo độ gần của chúng được tính toán. Ngày nay, có khoảng chục thước đo khoảng cách khác nhau được biết đến. Được sử dụng phổ biến nhất là cosin của góc giữa hình ảnh tìm kiếm của tài liệu và yêu cầu của người dùng. Thông thường, tỷ lệ phần trăm tuân thủ yêu cầu của tài liệu này được cung cấp dưới dạng thông tin tham khảo trong danh sách các tài liệu được tìm thấy.

Alta Vista có ngôn ngữ truy vấn phát triển nhất trong số các hệ thống truy xuất thông tin Internet hiện đại. Ngoài bộ AND, OR, NOT thông thường, hệ thống này còn cho phép bạn sử dụng NEAR, cho phép bạn tổ chức tìm kiếm theo ngữ cảnh. Tất cả tài liệu trong hệ thống được chia thành các trường, vì vậy yêu cầu có thể cho biết phần nào của tài liệu mà người dùng hy vọng thấy từ khóa: liên kết, tiêu đề, tóm tắt, v.v. Bạn cũng có thể đặt trường xếp hạng phát hành và tiêu chí về mức độ gần nhau của tài liệu với yêu cầu.

Giao diện hệ thống

Một yếu tố quan trọng là kiểu trình bày thông tin trong giao diện chương trình. Có hai loại trang front-end: trang truy vấn và trang kết quả tìm kiếm.

Khi soạn yêu cầu tới hệ thống, cách tiếp cận theo định hướng menu hoặc dòng lệnh sẽ được sử dụng. Đầu tiên cho phép bạn nhập danh sách các thuật ngữ, thường được phân tách bằng dấu cách và chọn loại kết nối logic giữa chúng. Kết nối logic áp dụng cho tất cả các điều khoản. Sơ đồ trong hình hiển thị các truy vấn đã lưu của người dùng - trong hầu hết các hệ thống, đây chỉ là một cụm từ trong FP, có thể được mở rộng bằng cách thêm các thuật ngữ mới và toán tử logic. Tuy nhiên, đây chỉ là một cách để sử dụng các truy vấn đã lưu, được gọi là mở rộng truy vấn hoặc sàng lọc truy vấn. Để thực hiện thao tác này, hệ thống truy xuất thông tin truyền thống không lưu trữ truy vấn như vậy mà lưu trữ kết quả tìm kiếm - danh sách các mã định danh tài liệu, được kết hợp/giao cắt với danh sách thu được khi tìm kiếm tài liệu bằng thuật ngữ mới. Thật không may, việc lưu danh sách số nhận dạng của các tài liệu được tìm thấy trong WWW không được thực hiện, nguyên nhân là do đặc thù của các giao thức tương tác giữa chương trình máy khách và máy chủ không hỗ trợ chế độ phiên.

Vì vậy, kết quả tìm kiếm trong cơ sở dữ liệu IRS là danh sách các con trỏ tới các tài liệu đáp ứng yêu cầu. Các hệ thống khác nhau trình bày danh sách này một cách khác nhau. Một số chỉ cung cấp danh sách các liên kết, trong khi một số khác, chẳng hạn như Lycos, Alta Vista và Yahoo, cũng cung cấp một mô tả ngắn, được lấy từ các tiêu đề hoặc từ chính nội dung của tài liệu. Ngoài ra, hệ thống còn báo cáo mức độ phù hợp của tài liệu được tìm thấy với yêu cầu. Ví dụ: tại Yahoo, đây là số lượng cụm từ truy vấn có trong PML, theo đó kết quả tìm kiếm được xếp hạng. Hệ thống Lycos cung cấp thước đo mức độ tuân thủ của tài liệu với truy vấn, được sử dụng để xếp hạng tài liệu.

Khi xem xét các giao diện và công cụ tìm kiếm, bạn không thể bỏ qua quy trình sửa các truy vấn theo mức độ liên quan. Mức độ liên quan là thước đo mức độ tuân thủ của một tài liệu được hệ thống tìm thấy với nhu cầu của người dùng. Có sự khác biệt giữa sự liên quan về mặt hình thức và sự liên quan thực sự. Việc đầu tiên được hệ thống tính toán và trên cơ sở đó mẫu tài liệu tìm thấy được xếp hạng. Thứ hai là đánh giá của người dùng về các tài liệu được tìm thấy. Một số hệ thống có một trường đặc biệt cho việc này, nơi người dùng có thể đánh dấu tài liệu là có liên quan. Ở lần lặp tìm kiếm tiếp theo, truy vấn được mở rộng với các thuật ngữ của tài liệu này và kết quả được xếp hạng lại. Điều này xảy ra cho đến khi quá trình ổn định xảy ra, nghĩa là bạn sẽ không đạt được điều gì tốt hơn mẫu thu được từ hệ thống này.

Ngoài các liên kết đến tài liệu, danh sách mà người dùng nhận được có thể chứa các liên kết đến các phần của tài liệu hoặc trường của chúng. Điều này xảy ra khi có các liên kết như http://host/path#mark hoặc các liên kết sử dụng sơ đồ WAIS. Cũng có thể liên kết đến các tập lệnh, nhưng robot thường bỏ lỡ các liên kết như vậy và hệ thống không lập chỉ mục cho chúng. Nếu mọi thứ ít nhiều rõ ràng với các liên kết http, thì các liên kết WAIS là những đối tượng phức tạp hơn nhiều. Thực tế là WAIS triển khai kiến ​​​​trúc của hệ thống truy xuất thông tin phân tán, trong đó một hệ thống truy xuất thông tin, chẳng hạn như Lycos, xây dựng một công cụ tìm kiếm trên công cụ tìm kiếm của hệ thống khác - WAIS. Tuy nhiên, máy chủ WAIS có cơ sở dữ liệu cục bộ của riêng chúng. Khi tải tài liệu lên WAIS, quản trị viên có thể mô tả cấu trúc của tài liệu, chia chúng thành các trường và lưu trữ tài liệu dưới dạng một tệp duy nhất. Chỉ mục WAIS sẽ đề cập đến các tài liệu riêng lẻ và các trường của chúng dưới dạng các đơn vị lưu trữ độc lập; trình duyệt tài nguyên Internet trong trường hợp này phải có khả năng hoạt động với giao thức WAIS để truy cập các tài liệu này.

Phần kết luận

Bài viết đánh giá đã xem xét các yếu tố chính của hệ thống truy xuất thông tin và các nguyên tắc xây dựng của chúng. Ngày nay, hệ thống truy xuất thông tin là cơ chế mạnh mẽ nhất để tìm kiếm tài nguyên thông tin mạng trên Internet. Thật không may, trong lĩnh vực Internet của Nga vẫn chưa có nghiên cứu tích cực nào về vấn đề này, ngoại trừ dự án LIBWEB, được tài trợ bởi Quỹ Nghiên cứu Cơ bản và hệ thống Spider của Nga, hoạt động không đủ tin cậy. VINITI chắc chắn có nhiều kinh nghiệm nhất trong việc phát triển loại hệ thống này, nhưng ở đây công việc vẫn tập trung vào việc đưa tài nguyên của mình lên Web, khác biệt cơ bản với các hệ thống truy xuất thông tin trên Internet như Lycos, OpenText, Alta Vista, Yahoo, InfoSeek , vân vân. Có vẻ như công việc như vậy có thể tập trung trong khuôn khổ các dự án như Russia Online của SovamTeleport, nhưng ở đây chúng tôi vẫn thấy các liên kết đến các công cụ tìm kiếm của người khác. Sự phát triển IPS cho Internet ở Hoa Kỳ đã bắt đầu từ hai năm trước, dựa trên thực tế trong nước và tốc độ phát triển của công nghệ Internet ở Nga, người ta có thể hy vọng rằng chúng ta vẫn còn mọi thứ ở phía trước.

Văn học

1. J. Salton. Hệ thống thông tin và thư viện động. Mir, Mátxcơva, 1979.
2. Frank G. Halasz. Thẻ ghi chú phản ánh: bảy vấn đề cho thế hệ tiếp theo của hệ thống siêu phương tiện. Giao tiếp của acm, V31, N7, 1988, p.836-852.
3. Tim Berners-Lee. World Wide Web: Đề xuất cho Dự án Siêu văn bản. 1990.
4. Alta Vista. Công ty Cổ phần Thiết bị Kỹ thuật số, 1996.
5. Não Pinkerton. Tìm kiếm điều mọi người muốn: Trải nghiệm với WebCrawler.
6. Bodi Yuwono, Savio L.Lam, Jerry H.Ying, Dik L.Lee. .
7. Martin Bartschi. Tổng quan về chủ đề truy xuất thông tin. Máy tính IEEE, N5, 1985, tr.67-84.
8. Michel L. Mauldin, John R.R. Levitt. Nghiên cứu liên quan đến tác nhân web tại Trung tâm dịch máy.
9. Ian R. Winship. Công cụ tìm kiếm World Wide Web - đánh giá. VINE (99).
10. G. Salton, C. Buckley. Phương pháp tiếp cận trọng số thuật ngữ trong truy xuất văn bản tự động. Xử lý và quản lý thông tin, 24(5), tr. 513-523, 1988.
11. Open Text Corporation công bố Hệ thống truy xuất văn bản hiệu suất cao nhất trong ngành.

Pavel Khramtsov ([email được bảo vệ]) - chuyên gia độc lập, (Moscow).



IRS (hệ thống truy xuất thông tin) là hệ thống cung cấp khả năng tìm kiếm, lựa chọn dữ liệu cần thiết trong cơ sở dữ liệu đặc biệt với mô tả nguồn thông tin (chỉ mục) dựa trên ngôn ngữ truy xuất thông tin và quy tắc tìm kiếm tương ứng.

Nhiệm vụ chính của bất kỳ hệ thống thông tin nào là tìm kiếm thông tin liên quan đến nhu cầu thông tin của người dùng. Điều rất quan trọng là không bị mất bất cứ thứ gì khi tìm kiếm, tức là tìm tất cả các tài liệu liên quan đến yêu cầu và không tìm thấy bất cứ thứ gì thừa. Do đó, một đặc tính định tính của quy trình tìm kiếm được đưa ra - mức độ liên quan.

Mức độ liên quan– đây là sự tương ứng của kết quả tìm kiếm với truy vấn được xây dựng.

Theo quy mô không gian IPS có thể được chia thành địa phương, toàn cầu, khu vực và chuyên biệt. Công cụ tìm kiếm cục bộ có thể được thiết kế để nhanh chóng tìm thấy các trang trên quy mô một máy chủ.

IRS khu vực mô tả các nguồn thông tin của một khu vực nhất định, ví dụ: các trang tiếng Nga trên Internet. Các công cụ tìm kiếm toàn cầu, không giống như các công cụ tìm kiếm địa phương, cố gắng nắm bắt sự bao la - để mô tả đầy đủ nhất có thể tài nguyên của toàn bộ không gian thông tin trên Internet.

Ngoài ra, hệ thống truy xuất thông tin cũng có thể chuyên môn hóa tìm kiếm nhiều nguồn thông tin khác nhau, ví dụ: tài liệu WWW, tệp, địa chỉ, v.v.

Chúng ta hãy xem xét kỹ hơn các nhiệm vụ chính mà các nhà phát triển IPS phải giải quyết. Như sau từ định nghĩa, Các hệ thống truy xuất thông tin cho WWW tiến hành tìm kiếm trong cơ sở dữ liệu (chỉ mục) của riêng chúng với mô tả về các nguồn thông tin phân tán.

Vì vậy, trước tiên chúng ta cần mô tả các tài nguyên thông tin và tạo chỉ mục. Việc xây dựng chỉ mục bắt đầu bằng việc xác định bộ URL ban đầu cho các nguồn thông tin. Sau đó thủ tục lập chỉ mục được thực hiện.

Lập chỉ mục– mô tả các nguồn thông tin và xây dựng cơ sở dữ liệu đặc biệt ( mục lục) để tìm kiếm hiệu quả.

Trong một số hệ thống truy xuất thông tin, việc mô tả nguồn thông tin được thực hiện bởi nhân viên truy xuất thông tin, nghĩa là bởi những người viết bản tóm tắt ngắn gọn về từng nguồn. Sau đó, theo quy định, các chú thích được sắp xếp theo chủ đề (biên soạn danh mục chuyên đề). Tất nhiên, mô tả do một người biên soạn sẽ hoàn toàn phù hợp với nguồn. Tuy nhiên, trong trường hợp này, quy trình mô tả mất một khoảng thời gian đáng kể, do đó, chỉ mục được tạo thường có khối lượng hạn chế. Nhưng việc tìm kiếm trong một hệ thống như vậy có thể được thực hiện dễ dàng như trong các danh mục thư viện chuyên đề.

Trong IPS loại thứ hai thủ tục mô tả tài nguyên thông tin được tự động hóa. Với mục đích này, một chương trình robot đặc biệt được phát triển, sử dụng một công nghệ nhất định, thu thập thông tin tài nguyên, mô tả chúng (chỉ mục) và phân tích các liên kết từ trang hiện tại để mở rộng khu vực tìm kiếm. Làm thế nào một chương trình có thể mô tả một tài liệu? Thông thường nó đơn giản một danh sách các từ xuất hiện trong văn bản và các phần khác của tài liệu được biên soạn, trong trường hợp này, tần suất lặp lại và vị trí của từ được tính đến, nghĩa là từ đó được gán một loại hệ số trọng số tùy thuộc vào tầm quan trọng của nó. Ví dụ: nếu một từ có trong tiêu đề của một trang Web, robot sẽ tự đánh dấu thông tin này. Bởi vì mô tả được tự động hóa nên thời gian yêu cầu thấp và chỉ mục có thể rất lớn.

Do đó, nhiệm vụ tiếp theo của loại hệ thống truy xuất thông tin thứ hai là phát triển robot lập chỉ mục. Để tìm kiếm trong các hệ thống kiểu này, người dùng sẽ phải học cách soạn các truy vấn, trong trường hợp đơn giản nhất bao gồm một số từ. Sau đó, IRS sẽ tìm kiếm trong chỉ mục của mình các tài liệu có mô tả chứa các từ trong truy vấn. Để tiến hành tìm kiếm tốt hơn, cần phát triển ngôn ngữ truy vấn đặc biệt cho người dùng. Tùy thuộc vào đặc điểm thiết kế của mô hình chỉ mục và ngôn ngữ truy vấn được hỗ trợ, cơ chế tìm kiếm và thuật toán sắp xếp kết quả tìm kiếm được phát triển. Vì chỉ mục lớn nên số lượng tài liệu được tìm thấy có thể khá lớn. Vì vậy, cách công cụ tìm kiếm tiến hành tìm kiếm và sắp xếp kết quả của nó là vô cùng quan trọng.

Không kém phần quan trọng là hình thức của công cụ tìm kiếm xuất hiện với người dùng, vì vậy một trong những nhiệm vụ là phát triển giao diện tiện lợi và đẹp mắt. Cuối cùng, việc trình bày kết quả tìm kiếm là cực kỳ quan trọng, vì người dùng cần tìm hiểu càng nhiều càng tốt về nguồn thông tin được tìm thấy để đưa ra quyết định đúng đắn về nhu cầu truy cập vào nó.

Để truy cập máy chủ tìm kiếm, người dùng sử dụng chương trình máy khách tiêu chuẩn cho World Wide Web, tức là trình duyệt. Tại địa chỉ trang chủ IRS, người dùng làm việc với giao diện công cụ tìm kiếm, giao tiếp giữa người dùng và công cụ tìm kiếm của hệ thống (hệ thống tạo truy vấn và xem kết quả tìm kiếm).

Hệ thống truy xuất thông tin

Thành phần chính của hệ thống thông tin là một công cụ tìm kiếm, có nhiệm vụ chuyển yêu cầu của người dùng thành yêu cầu hệ thống chính thức, tìm kiếm các liên kết đến các nguồn thông tin và cung cấp kết quả tìm kiếm cho người dùng.

Như đã đề cập trước đó, việc tìm kiếm được thực hiện trong cơ sở dữ liệu đặc biệt gọi là chỉ mục. Kiến trúc của chỉ mục được thiết kế sao cho việc tìm kiếm diễn ra nhanh nhất có thể, đồng thời có thể theo dõi giá trị của từng tài nguyên được tìm thấy. Một số hệ thống lưu trữ các truy vấn của người dùng trong cơ sở dữ liệu cá nhân của họ vì phải mất nhiều thời gian để gỡ lỗi từng truy vấn và việc lưu trữ các truy vấn được trả lời thỏa đáng là cực kỳ quan trọng.

Robot lập chỉ mục– một chương trình dùng để quét Internet và cập nhật cơ sở dữ liệu chỉ mục.

Các trang web là những nguồn thông tin mà hệ thống thông tin cung cấp quyền truy cập.

Như bạn đã biết, một trang Web là một tài liệu phức tạp bao gồm nhiều phần tử. Khi mô tả một tài liệu như vậy bằng chương trình robot, cần phải tính đến phần nào của trang Web mà từ đã cho được tìm thấy. Các nguồn lập chỉ mục cho các tài liệu WWW là:

    Tiêu đề (Tiêu đề).

    Tiêu đề.

    Tóm tắt (Mô tả).

    Danh sách từ khóa (KeyWords).

    Toàn văn giấy tờ.

Nhân tiện, các công cụ tìm kiếm mô tả hoàn toàn toàn bộ văn bản của tài liệu WWW được gọi là toàn văn.

URL được sử dụng để mô tả một tệp trong tài nguyên FTP. Đối với mô tả của một bài viết trong một nhóm tin, nguồn lập chỉ mục là các trường Chủ đề và Từ khóa.

Trong quá trình lập chỉ mục, từ vựng thường được chuẩn hóa (rút gọn từ về dạng cơ sở của nó); một số từ không cung cấp thông tin, ví dụ, liên từ hoặc giới từ, bị bỏ qua. Mỗi IRS có danh sách riêng được gọi là từ dừng bị bỏ qua trong quá trình lập chỉ mục. Trong các hệ thống có ngôn ngữ rất đa dạng, chẳng hạn như tiếng Nga, hình thái học sẽ được tính đến.

Tính đến hình thái học có nghĩa là khả năng làm việc với các dạng từ khác nhau trong một ngôn ngữ cụ thể.

Ở đây cần lưu ý rằng tiếng Nga khá phức tạp, các từ thay đổi về số lượng, cách viết, giới tính và thì và thường theo những cách không ngờ tới. Ví dụ: đi, đi, đi, đi, v.v. Tất cả IPS hiện có, có tính đến hình thái của tiếng Nga, đều sử dụng "Từ điển ngữ pháp tiếng Nga", do Andrei Anatolyevich Zaliznyak biên soạn. Từ điển bao gồm 90.000 mục từ điển, với mỗi từ, thông tin được cung cấp về việc nó có được biến cách hay không và nó được biến cách hoặc liên hợp chính xác như thế nào.

Từ những điều trên cho thấy công cụ chính để tìm kiếm thông tin trên WWW là các hệ thống truy xuất thông tin.

Tuy nhiên, có những công cụ tìm kiếm trên Internet có những khác biệt cơ bản so với các hệ thống truy xuất thông tin đã thảo luận ở trên. Nói chung, có thể phân biệt các công cụ tìm kiếm sau cho WWW:

    công cụ tìm kiếm,

    công cụ tìm kiếm siêu dữ liệu và các chương trình tìm kiếm tăng tốc.

Vị trí trung tâm thực sự thuộc về các công cụ tìm kiếm, lần lượt được chia thành các thư mục, chỉ mục tự động (công cụ tìm kiếm) và thư mục chỉ mục. Chỉ có các công cụ tìm kiếm gần như có đầy đủ các khả năng và đặc tính của hệ thống truy xuất thông tin.

Mục lục– một hệ thống tìm kiếm với danh sách các chú thích được phân loại theo chủ đề có liên kết đến các tài nguyên web. Việc phân loại thường được thực hiện bởi con người.

Hãy xem xét các tính năng của hệ thống thư mục.

Việc tìm kiếm danh mục rất thuận tiện và được thực hiện bằng cách làm rõ các chủ đề một cách tuần tự. Tuy nhiên, các thư mục hỗ trợ khả năng tìm kiếm nhanh chóng một danh mục hoặc trang cụ thể bằng cách sử dụng từ khóa bằng công cụ tìm kiếm cục bộ.

Cơ sở dữ liệu liên kết (chỉ mục) của thư mục thường có dung lượng giới hạn và được nhân viên thư mục điền thủ công. Một số thư mục sử dụng tính năng cập nhật chỉ mục tự động.

Kết quả tìm kiếm trong danh mục được trình bày dưới dạng danh sách bao gồm mô tả ngắn gọn (chú thích) về các tài liệu có liên kết siêu văn bản tới nguồn.

Trong số phổ biến nhất catalog nước ngoài có thể kể đến: Yahoo (www.yahoo.com), Magellan (www.mckinley.com),

Danh mục tiếng Nga:@Rus (www.atrus.ru); Danh sách web (www.weblist.ru); Chòm sao Internet (www.stars.ru).

Hệ thống tìm kiếm– một hệ thống có cơ sở dữ liệu do robot tạo ra chứa thông tin về các nguồn thông tin.

Một đặc điểm khác biệt của công cụ tìm kiếm là cơ sở dữ liệu chứa thông tin về các trang Web, bài viết trên Usenet, v.v. được tạo ra bởi một chương trình robot. Việc tìm kiếm trong hệ thống như vậy được thực hiện theo truy vấn do người dùng biên soạn, bao gồm một tập hợp từ khóa hoặc cụm từ được đặt trong dấu ngoặc kép. Chỉ mục được tạo và cập nhật bằng cách lập chỉ mục robot.

Công cụ tìm kiếm nước ngoài (hệ thống):

Google - www.google.com (bao phủ khoảng 38% các truy vấn bằng tiếng Nga)

Altavista- www.altavista.com

Kích thích www.excite.com

HotBot - www.hotbot.com

Ánh sáng phương Bắc- www.northernlight.com

Truy cập (Infoseek) www.go.com (infoseek.com)

Nhanh chóng www.alltheweb.com

Công cụ tìm kiếm của Nga:

Yandex - www.yandex.ru (hoặc www.ya.ru) (độ bao phủ 48% truy vấn bằng tiếng Nga)

Rambler - www.rambler.ru

Aport- www.aport.ru

Công cụ tìm kiếm siêu dữ liệu– một hệ thống không có chỉ mục riêng, có khả năng gửi đồng thời yêu cầu của người dùng đến một số máy chủ tìm kiếm, sau đó kết hợp các kết quả thu được và hiển thị chúng cho người dùng dưới dạng tài liệu có liên kết.

6 Nguyên tắc hoạt động của hệ thống siêu tìm kiếm.Cơ chế tìm kiếm trên Internet. Ngôn ngữ truy vấn.

Khi vận hành hệ thống siêu tìm kiếm, từ bộ tài liệu nhận được từ các công cụ tìm kiếm, cần phải chọn những tài liệu phù hợp nhất, tức là những tài liệu tương ứng với yêu cầu của người dùng.

Các hệ thống siêu tìm kiếm đơn giản nhất thực hiện cách tiếp cận tiêu chuẩn được trình bày trong Hình. 1. Trong các hệ thống như vậy, việc phân tích các mô tả tài liệu nhận được không được thực hiện, điều này có thể đặt các tài liệu không liên quan xuất hiện đầu tiên trong một công cụ tìm kiếm trên các tài liệu có liên quan trong một công cụ tìm kiếm khác, do đó làm giảm đáng kể chất lượng của chính tìm kiếm.

Hình 1 Công cụ tìm kiếm siêu dữ liệu tiêu chuẩn

Khi phát triển thế hệ công cụ tìm kiếm siêu dữ liệu tiếp theo, những thiếu sót vốn có của các công cụ tìm kiếm siêu dữ liệu tiêu chuẩn đã được tính đến. Các hệ thống đã được tạo ra với khả năng chọn các công cụ tìm kiếm mà theo người dùng, họ có nhiều khả năng tìm thấy những gì mình cần hơn (Hình 2)

Cơm. 2. Thế hệ công cụ tìm kiếm siêu dữ liệu tiếp theo

Ngoài ra, phương pháp này cho phép bạn giảm tài nguyên máy tính đã sử dụng của máy chủ siêu tìm kiếm mà không làm quá tải nó với quá nhiều thông tin không cần thiết và tiết kiệm lưu lượng truy cập một cách nghiêm túc. Cần lưu ý ở đây rằng trong bất kỳ hệ thống siêu tìm kiếm nào, nút cổ chai chủ yếu là băng thông của kênh truyền dữ liệu, vì việc xử lý các trang có kết quả tìm kiếm nhận được từ hàng chục máy chủ tìm kiếm không phải là một hoạt động tốn nhiều công sức, vì thời gian dành cho việc xử lý thông tin là mức độ mất ít thời gian hơn để các trang được yêu cầu từ máy chủ tìm kiếm đến nơi.

Ví dụ về các hệ thống có tổ chức tương tự, chúng ta có thể đặt tên cho Profusion, Ixquick, SavvySearch, MetaPing.

Một ví dụ về công cụ tìm kiếm meta là Nigma (Nigma. RF)- Hệ thống siêu tìm kiếm thông minh của Nga.

Chương trình tìm kiếm tăng tốc là một chương trình có khả năng của công cụ tìm kiếm siêu dữ liệu được cài đặt trên máy tính cục bộ của bạn.

Sự khác biệt cơ bản giữa siêu tìm kiếm hệ thống và chương trình tìm kiếm nhanh của IRS thiếu chỉ mục riêng. Nhưng họ rất xuất sắc trong việc sử dụng kết quả của các công cụ tìm kiếm khác.

Công cụ tìm kiếm

Công nghệ tìm kiếm tổng quát bao gồm các giai đoạn sau:

    Người dùng đưa ra yêu cầu

    Hệ thống tìm kiếm tài liệu (hoặc hình ảnh tìm kiếm)

    Người dùng nhận được kết quả (thông tin về tài liệu)

    Người dùng cải thiện hoặc cải cách yêu cầu

    Tổ chức tìm kiếm mới...

Thông thường, các công cụ tìm kiếm hỗ trợ hai chế độ: chế độ tìm kiếm đơn giản và chế độ tìm kiếm nâng cao. Hãy xem xét các khả năng tổng quát.

Hình thành một yêu cầu trong chế độ tìm kiếm đơn giản. Bạn chỉ cần nhập một hoặc nhiều từ cách nhau bằng dấu cách; việc tìm kiếm các từ có tất cả các kết thúc có thể được mô hình hóa bằng ký hiệu * ở cuối từ. Nhiều hệ thống cho phép bạn tìm kiếm các cụm từ hoặc cụm từ; để làm điều này, bạn cần đặt nó trong dấu ngoặc kép. Việc bao gồm hoặc loại trừ bắt buộc một số từ nhất định có thể được yêu cầu.

Vấn đề chính của việc tìm kiếm bằng truy vấn được soạn thảo sơ khai (dưới dạng liệt kê từ khóa) là công cụ tìm kiếm sẽ tìm thấy tất cả các trang mà các từ được chỉ định xuất hiện trong bất kỳ phần nào của tài liệu. Thông thường, số lượng trang tìm thấy sẽ quá lớn.

Để cải thiện chất lượng tìm kiếm trong chế độ tìm kiếm đơn giản, được phép sử dụng các toán tử và toán tử logic cho phép bạn giới hạn khu vực tìm kiếm, cũng như chọn một danh mục tài liệu cụ thể từ danh sách được trình bày.

Nhiều công cụ tìm kiếm bao gồm các toán tử đặc biệt trong ngôn ngữ truy vấn của chúng, cho phép bạn tìm kiếm trong các khu vực nhất định của tài liệu, chẳng hạn như trong tiêu đề của tài liệu đó hoặc tìm kiếm tài liệu theo một phần đã biết trong địa chỉ của tài liệu đó.

Chế độ truy vấn nâng cao hoặc chi tiết trong các hệ thống khác nhau, nó được triển khai riêng lẻ, nhưng thông thường nhất, đây là hình thức trong đó các toán tử và phần tử chính được đề cập được triển khai bằng cách chỉ cần chọn các hộp thích hợp hoặc chọn tham số từ danh sách.

Ví dụ dưới đây là thông tin từ phần giúp đỡ Công cụ tìm kiếm Yandex: cửa sổ tìm kiếm nâng cao, ngôn ngữ truy vấn, tìm kiếm trong những gì được tìm thấy.

Tìm kiếm V. thành lập Nếu như V. kết quả của yêu cầu Yandex thành lập rất nhiều tài liệu, nhưng về chủ đề rộng hơn bạn muốn, bạn có thể thu hẹp danh sách này bằng cách chỉ định truy vấn của mình. Một tùy chọn khác là bật hộp kiểm V. thành lập V. biểu mẫu tìm kiếm, đặt từ khóa bổ sung và lần tìm kiếm tiếp theo sẽ chỉ được thực hiện trên những tài liệu đã được chọn V. tìm kiếm trước đó.

Lời nhắc sử dụng ngôn ngữ truy vấn

Nghĩa

"Hãy đến với chúng tôi để ăn dưa chua buổi sáng"

Các từ xuất hiện trong một hàng ở dạng chính xác

"*đại sứ đã đến"

Thiếu từ trong trích dẫn

nửa lát & ngô

Các từ trong một câu

trang bị && nhận

Các từ trong một tài liệu

capercaillie | gà gô | người nào đó

Tìm kiếm bất kỳ từ nào

bạn không thể<< винить

Không xếp hạng “và”: biểu thức sau toán tử không ảnh hưởng đến vị trí của tài liệu trong kết quả tìm kiếm

Tôi phải /2 thực thi

Khoảng cách trong hai từ theo bất kỳ hướng nào (nghĩa là một từ có thể xuất hiện giữa các từ đã cho)

điều gì đó tôi ~~ hiểu

Loại bỏ một từ tôi sẽ hiểu từ tìm kiếm

với trí thông minh /+2 của tôi

Khoảng cách trong hai từ theo thứ tự trực tiếp

trà ~ laptem

Tìm kiếm một câu có từ đó trà gặp nhau không nói một lời giày khốn

súp bắp cải /(-1 +2) húp xì xụp

Khoảng cách từ một từ theo thứ tự ngược đến hai từ theo thứ tự thuận

Tôi tìm ra cái gì! cái gì

Các từ ở dạng chính xác với trường hợp cụ thể

hóa ra && (+ trên | !me)

Dấu ngoặc đơn tạo thành nhóm trong các truy vấn phức tạp

Chính sách

Dạng từ điển của từ

tiêu đề:(trong nước)

Tìm kiếm theo tiêu đề tài liệu

url:ptici.narod.ru/ptici/kuropatka.htm

Tìm kiếm theo URL

chắc chắn là inurl:vojne

Tìm kiếm dựa trên đoạn URL

Tìm kiếm theo máy chủ

Tìm kiếm theo máy chủ trong mục nhập ngược

trang web: http://www.lib.ru/PXESY/FILATOW

Tìm kiếm trên tất cả các tên miền phụ và các trang của một trang web nhất định

Tìm kiếm theo một loại tập tin

Tìm kiếm bị giới hạn bởi ngôn ngữ

Tìm kiếm giới hạn tên miền

Tìm kiếm với giới hạn ngày

tiểu bang kinh doanh && /3 bạn nắm bắt được chủ đề

Khoảng cách 3 câu theo hướng nào

điều gì đó tôi ~~ hiểu

Loại bỏ một từ tôi sẽ hiểu từ tìm kiếm

Một tùy chọn thú vị là tìm kiếm các tài liệu trên web liên kết đến một trang có URL bạn chỉ định. Bằng cách này, bạn có thể tìm thấy các trang trên web có liên kết đến trang Web của bạn. Một số hệ thống sẽ cho phép bạn giới hạn tìm kiếm của mình trong một miền được chỉ định.

Các toán tử đặc biệt bổ sung bao gồm:

    Toán tử tìm kiếm tài liệu bằng một tệp đồ họa cụ thể;

    Các nhà khai thác giới hạn ngày của các trang được tìm kiếm;

    Toán tử tiệm cận giữa các từ;

    Toán tử kế toán dạng từ;

    Toán tử để sắp xếp kết quả (theo mức độ liên quan, độ mới, độ cũ).

Cần lưu ý rằng, thật không may, ngày nay không có tiêu chuẩn nào về số lượng và cú pháp của các toán tử được hỗ trợ cho các công cụ tìm kiếm khác nhau. Những nỗ lực đang được tiến hành để phát triển một tiêu chuẩn cho cú pháp của các toán tử được hỗ trợ, vì vậy hy vọng rằng các nhà phát triển công cụ tìm kiếm sẽ quan tâm đến trải nghiệm của người dùng. Ở giai đoạn phát triển công cụ tìm kiếm này, người dùng khi truy cập vào một công cụ tìm kiếm cụ thể, trước hết phải làm quen với các quy tắc soạn truy vấn của nó. Theo quy định, sẽ có một liên kết trên trang chủ Giúp đỡ, sẽ đưa bạn đến thông tin tham khảo.

Các công cụ tìm kiếm khác nhau mô tả số lượng nguồn thông tin khác nhau trên Internet. Do đó, bạn không thể giới hạn tìm kiếm của mình chỉ ở một trong các công cụ tìm kiếm được chỉ định.

Hãy xem xét những cách trình bày kết quả tìm kiếm trong các công cụ tìm kiếm.

Thông thường, số lượng tài liệu được tìm thấy vượt quá vài chục và trong một số trường hợp có thể lên tới hàng trăm nghìn! Do đó, như một hình thức phát hành, danh sách các tài liệu 5-10-15 đơn vị trên mỗi trang được biên soạn với khả năng chuyển sang phần tiếp theo ở cuối trang. Tiêu đề và URL (địa chỉ) của tài liệu được tìm thấy phải được chỉ định; đôi khi hệ thống chỉ ra mức độ liên quan của tài liệu dưới dạng phần trăm.

Phần mô tả của một tài liệu thường chứa một vài câu đầu tiên hoặc đoạn trích từ văn bản của tài liệu với các từ khóa được đánh dấu. Theo quy định, ngày cập nhật (xác minh) của tài liệu, kích thước tính bằng kilobyte được chỉ định; một số hệ thống xác định ngôn ngữ của tài liệu và mã hóa của nó (đối với tài liệu tiếng Nga).

Bạn có thể làm gì với kết quả thu được? Nếu tiêu đề và mô tả của tài liệu đáp ứng yêu cầu của bạn, bạn có thể truy cập ngay vào nguồn ban đầu bằng liên kết. Sẽ thuận tiện hơn khi thực hiện việc này trong một cửa sổ mới để có thể phân tích sâu hơn kết quả tìm kiếm. Nhiều công cụ tìm kiếm cho phép bạn tìm kiếm các tài liệu được tìm thấy và bạn có thể tinh chỉnh truy vấn của mình bằng cách đưa ra các thuật ngữ bổ sung.

Nếu độ thông minh của hệ thống cao, bạn có thể được cung cấp dịch vụ tìm kiếm các tài liệu tương tự. Để làm điều này, bạn chọn một tài liệu mà bạn đặc biệt thích và đưa nó vào hệ thống làm mẫu để làm theo.

Tuy nhiên, việc tự động hóa việc xác định độ tương tự là một nhiệm vụ không hề đơn giản và thường thì chức năng này không hoạt động như mong đợi. Một số công cụ tìm kiếm cho phép bạn sắp xếp lại kết quả. Để tiết kiệm thời gian, bạn có thể lưu kết quả tìm kiếm dưới dạng tệp trên ổ đĩa cục bộ để nghiên cứu ngoại tuyến sau này.

Các công cụ tra cứu thông tin hiện nay có thể coi là sự kết nối của cá nhân hoặc tập thể người tiêu dùng(người dùng) thông tin. Công cụ tìm kiếm là liên hệ cụ thể người tiêu dùng với những người cung cấp thông tin, thống nhất bởi tính phổ biến của thông tin liên quan đến câu hỏi được đặt ra (Hình 2).

Cơm. 2 Sơ đồ tương tác của công cụ truy xuất thông tin với người tiêu dùng và nhà cung cấp thông tin

Trên sơ đồ các nhà cung cấp thông tin tạo ra thông tin được tích lũy (tích lũy) bởi một công cụ truy xuất thông tin. Người tiêu dùng hình thành thông tin lời yêu cầu và sau khi tìm kiếm mảng sẽ nhận được thông tin cần thiết từ công cụ tìm kiếm. Các nhà cung cấp thông tin có thể được tách biệt về mặt địa lý và phòng ban, và công cụ tìm kiếm thể hiện một cách để khắc phục sự mất đoàn kết này.

Các công cụ truy xuất thông tin giải quyết vấn đề tìm kiếm thông tin cụ thể giữa nhiều loại thông tin khác nhau. các tài liệu(tài nguyên thông tin). Trong công việc của họ với thông tin tài liệu, có thể phân biệt hai giai đoạn chính:

Giai đoạn 1 - thu thập và lưu trữ thông tin;

Giai đoạn 2 - tìm kiếm và phân phối tài nguyên thông tin đến người tiêu dùng.

Quá trình truyền thông tin trên Internet diễn ra theo một vòng luẩn quẩn bao gồm người tiêu dùng thông tin, người cung cấp thông tin và các công cụ truy xuất thông tin. Người cung cấp và người tiêu dùng thông tin có thể là cá nhân và toàn bộ tổ chức. Nguồn thông tin là các hoạt động và thực tiễn xã hội của các cá nhân và nhóm, từ đó dữ liệu tài liệu và thông điệp được hình thành.

Dịch vụ tìm kiếm (công cụ được thiết kế để tìm kiếm thông tin) của Internet được chia thành danh mục sản phẩm (thư mục), công cụ tìm kiếm hệ thống (công cụ tìm kiếm) và công cụ tìm kiếm siêu dữ liệu(công cụ tìm kiếm meta).

2. Danh mục tìm kiếm thông tin

Danh mục

Mục lục - là một hệ thống cung cấp sự phân loại thông tin. Đặc điểm nổi bật của nó là sự hiện diện của một hệ thống phân cấp (sơ đồ sắp xếp) các tài nguyên, trong đó mỗi tài nguyên (tài nguyên)
đề cập đến một hoặc nhiều phần. Danh mục (Ví dụ, Yahoo!

www.yahoo.corn) và List.ru ( http://list.ru)) không hoạt động với chỉ số, và với các mô tả về tài nguyên Internet. Chúng được lấp đầy bởi Quản trị viên web (những người tạo tài nguyên thông tin) hoặc biên tập viên đặc biệt xem tài nguyên thông tin trên Web. Để đáp lại yêu cầu của người dùng, các thư mục sẽ tìm kiếm những phần cắt này. Các thư mục không tự động phát hiện các thay đổi đối với tài nguyên thông tin Mạng. Tuy nhiên, kết quả tìm kiếm của họ có thể

dường như có ý nghĩa hơn vì nguồn thông tin thuế được chuẩn bị bởi người dân.

Chúng ta hãy nhìn vào cấu trúc sơ đồ tiêu chuẩn danh mục (Hình 3):

Cơm. 3. Bố cục catalog điển hình

Khách hàng là một chương trình để xem thông tin cụ thể

nguồn. Các chương trình duyệt Internet phổ biến nhất

tài liệu là Microsoft Internet Explorer và Netscape Navigator. TRONG

lần lượt, tất cả các tài nguyên thông tin này đều là đối tượng

tìm kiếm.

Giao diện người dùng - nhóm này Các trang web (biểu mẫu) công cụ tìm kiếm thông qua đó người dùng tương tác Với bởi ý đó.

Máy tìm kiếm- một thành phần hệ thống, mục đích chính của nó là tìm kiếm các tài liệu được hệ thống biết tương ứng với yêu cầu được xây dựng trong mảng dữ liệu nội bộ của hệ thống và tạo phản hồi (kết quả tìm kiếm) cho người dùng trong dạng một tập hợp các liên kết đến các tài liệu được tìm thấy.

Nhân viên kỹ thuật - những người có trách nhiệm bao gồm tạo danh sách các tài nguyên thông tin danh mục, mô tả và phân cấp của các tài nguyên này.

Yêu cầu của người dùng - một mảng dữ liệu hệ thống được sử dụng để lưu trữ tạm thời các yêu cầu của người dùng đã được lập công thức.

Phân cấp tài nguyên thông tin và mô tả của chúng– mảng dữ liệu danh mục nội bộ, chứa thông tin về các nguồn thông tin trên Internet (địa chỉ URL và mô tả ngắn gọn về các nguồn tài nguyên). Mảng này được tổ chức theo cách mỗi nguồn thông tin tương ứng với một chủ đề và danh sách các chủ đề được sắp xếp theo cấp dưới.

Nguồn thông tin - tài nguyên được xem bằng các chương trình xem như Microsoft Internet Explorer, Netscape Navigator, v.v., tức là. Đây là những tài liệu Internet.

Khi giải quyết một vấn đề tìm kiếm tiêu chuẩn (khi tìm kiếm thông tin có sẵn công khai), chính danh mục chứ không phải công cụ tìm kiếm là điểm khởi đầu tốt nhất để bắt đầu tìm kiếm.

Ví dụ điển hình của việc sử dụng danh mục là nhu cầu tìm trên Internet một nhóm tài nguyên thông tin về một chủ đề không đủ hẹp, chẳng hạn trang web, cung cấp thông tin liên hệ của các tổ chức ở Moscow hoặc các trang truyền thông điện tử.

IPS

Hệ thống truy xuất thông tin

Một cái khác, về cơ bản khác với danh mục, dịch vụ tìm kiếm thông tin - hệ thống truy xuất thông tin(IPS). IPS- Cái này một hệ thống cung cấp sự tích lũy và truy xuất thông tin

IPS, giải quyết vấn đề thu thập, lưu trữ, xử lý và phát hành thông tin , thực hiện các thao tác sau:

  • tìm kiếm tài liệu;
  • phân tích nội dung tài liệu;
  • xây dựng hình ảnh tìm kiếm tài liệu (trích xuất từ
    tài liệu thông tin được hệ thống sử dụng làm kiến ​​thức
    về tài liệu);
  • lưu trữ hình ảnh tìm kiếm tài liệu (thông tin về
    các tài liệu);
  • phân tích yêu cầu của người dùng (người tiêu dùng thông tin);
  • tìm kiếm liên quan tài liệu (tương ứng) theo yêu cầu;
  • phát hành liên kết đến các tài liệu cho người tiêu dùng.

Điều này giúp có thể vẽ ra một sơ đồ IPS chung. Một ví dụ sẽ là sơ đồ IPS điển hình(Hình 4).

Cơm. 4. Sơ đồ điển hình của hệ thống tra cứu thông tin

Chỉ mục cơ sở dữ liệu -Đây là tập dữ liệu IPS chính. Nó dùng để lưu trữ thông tin về tất cả các tài liệu Internet được hệ thống biết đến. Thông tin này cần thiết để công cụ tìm kiếm có thể tìm thấy tài liệu dựa trên yêu cầu của người dùng.

Robot lập chỉ mục (trình thu thập thông tin, nhện hoặc nhện) - mô-đun phần mềm công cụ tìm kiếm được sử dụng để tìm kiếm (chọn lọc) các nguồn thông tin trên Internet và của chúng lập chỉ mục(để lập chỉ mục thông tin có nghĩa là gán từ khóa cho từng tài liệu phản ánh nội dung của tài liệu và kiểm soát việc tìm kiếm, dẫn đến những tài liệu có từ giống với từ của truy vấn được thực hiện hơn), tức là. duy trì cơ sở dữ liệu chỉ mục ở trạng thái cập nhật (liên quan đến Internet). Chương trình này là nguồn thông tin chính về tình trạng nguồn thông tin. Việc xem tài liệu Internet bằng mô-đun hệ thống này được thực hiện thường xuyên. Đối với các hệ thống lớn, thời gian xem xét tài liệu thường là 1-2 tuần.

Tổng quan thuật toánhoạt động của IPS(nguyên tắc hoạt động; bộ phần mềm như sau. Robot lập chỉ mục tự động quét (di chuyển từ tài nguyên này sang tài nguyên khác, sử dụng các liên kết nằm trên đó) các tài nguyên thông tin khác nhau của Internet (tài liệu Internet). Tạo chỉ mục. Cơ sở dữ liệu,đặt thông tin về tài nguyên Mạng ở đó. Đồng thời, nó cũng định kỳ quay trở lại các nguồn thông tin và kiểm tra xem chúng có thay đổi không. Khi người dùng tạo một công cụ tìm kiếm; yêu cầu, phần mềm của nó (công cụ tìm kiếm) quét chỉ mục cơ sở dữ liệu đã tạo để tìm kiếm các tài nguyên với các từ khóa nhất định và xếp hạng (thứ tự) các tài nguyên này theo mức độ gần gũi với chủ đề tìm kiếm.

Về thuật toán hoạt động của IPS, người ta nên làm một số ý kiến. Mỗi công cụ tìm kiếm cụ thể lưu trữ (thông tin không phải về tất cả các tài liệu trên Internet mà chỉ về những tài liệu được hệ thống này biết đến (đối với các hệ thống khác nhau, tỷ lệ tài liệu được lập chỉ mục là khác nhau, nhưng theo quy định, không vượt quá 30%). không phải bản thân các tài liệu được lưu trữ trong các công cụ tìm kiếm mà chỉ có thông tin về chúng đủ để người dùng tìm thấy chúng và do đó, hệ thống tìm kiếm trong kết quả tìm kiếm có thể không tạo ra một số tài liệu tương ứng với yêu cầu. Do kết quả của việc tìm kiếm (phản hồi yêu cầu), hệ thống sẽ sắp xếp các tài liệu theo mức độ tuân thủ yêu cầu của người dùng theo quan điểm của thuật toán công cụ tìm kiếm chứ không phải theo quan điểm của tính năng này của hệ thống giúp tiết kiệm đáng kể thời gian tìm kiếm thông tin cần thiết, đặc biệt khi sự kết hợp của các từ truy vấn xuất hiện trong hàng nghìn hoặc hàng triệu tài liệu, nhưng cũng có những trường hợp khi thông tin phù hợp nhất các tài liệu được yêu cầu không phải là tài liệu đầu tiên trong danh sách được ban hành. Trong trường hợp này, phải thực hiện sự thỏa hiệp giữa số lượng tài liệu được xem xét và tổng số tài liệu được tìm thấy (thông thường, thông tin cần thiết được chứa trong vài chục tài liệu đầu tiên được tìm thấy), nhưng hành động điển hình nhất là tinh chỉnh truy vấn bằng cách sử dụng các công cụ tinh chỉnh truy vấn do hệ thống cung cấp (tức là .thường sử dụng ngôn ngữ truy vấn và/hoặc các công cụ giao diện xây dựng truy vấn nâng cao). Bạn cũng nên chuyển sang hình thành một yêu cầu chi tiết hơn nếu có nhiều thông tin nhiễu trong kết quả tìm kiếm (tức là thông tin không tương ứng với yêu cầu), theo quy luật, điều này cho thấy việc chọn không thành công điều kiện truy vấn (ví dụ: chúng có tính đa nghĩa (tức là có nhiều nghĩa)). Trong khoảng thời gian giữa công việc của robot lập chỉ mục của hệ thống, tài liệu được người dùng thay đổi, nhưng những thay đổi này thường được hệ thống tìm kiếm tính đến không phải ngay lập tức mà sau một khoảng thời gian nhất định, được xác định bởi khoảng thời gian lập chỉ mục Internet, vì vậy một số thông tin có thể không có sẵn trong hệ thống tại một thời điểm cụ thể.

Công cụ tìm kiếm nên được sử dụng khi bạn cần tìm thông tin về các vấn đề cụ thể hoặc để đảm bảo bao phủ đầy đủ các tài nguyên.

Một ví dụ về việc sử dụng hệ thống truy xuất thông tin khi tìm kiếm có thể là yêu cầu tìm trang web của một tổ chức cụ thể hoặc để trả lời câu hỏi “Lý do đưa ra kỳ thi thống nhất ở trường trung học?”

Các công cụ tìm kiếm nổi tiếng nhất bao gồm các dịch vụ như Google ( http://www.qooqle.com) và Yandex (http://www.yandex.ru).

Hệ thống siêu hình

Sự khác biệt trong chiến lược và phạm vi bao phủ nội dung của các công cụ tìm kiếm khác nhau thường dẫn đến thực tế là các công cụ tìm kiếm khác nhau đưa ra các câu trả lời khác nhau cho cùng một truy vấn. Các nhà phát triển đã tận dụng điều này hệ thống metapomsk, những người trong công việc của họ sử dụng tiềm năng của các phương tiện truy xuất thông tin khác (Hình 5.). Công cụ tìm kiếm siêu dữ liệu là tiện ích bổ sung trên các công cụ tìm kiếm và danh mục điện tử không có cơ sở dữ liệu (chỉ mục) riêng và khi tìm kiếm theo hướng dẫn tìm kiếm của người dùng, sẽ tạo truy vấn độc lập cho một số công cụ bên ngoài

Cơm. 5. Sơ đồ điển hình của hệ thống siêu tìm kiếm

tìm kiếm, sau đó phân tích kết quả thu được và đưa ra danh sách các liên kết theo thứ tự được xác định theo tỷ lệ xếp hạng phản hồi trên một số công cụ tìm kiếm cùng một lúc. Mặt khác, hệ thống như vậy sẽ thăm dò một số công cụ tìm kiếm và sau đó chọn các liên kết theo thuật toán riêng của nó.

Các công cụ tìm kiếm siêu dữ liệu cho phép bạn giảm thời gian tìm kiếm thông tin, vì khi xử lý yêu cầu của người dùng, các hệ thống này đồng thời truy cập vào một số công cụ tìm kiếm khác nhau.

Các công cụ tìm kiếm meta quan trọng nhất là MetaCrawler (http://www.metacr awler.com) và MetaBot.ru (h ttp://metabot.ru). Ưu điểm chính của chúng nằm ở khả năng gửi các truy vấn đã nhập vào các hệ thống khác và sau đó tóm tắt kết quả. Vì vậy, người dùng, nhập hướng dẫn tìm kiếm, Ví dụ trong MetaBot.ru, thực sự truy cập đồng thời vào các công cụ tìm kiếm khác. Điều này đảm bảo “tính khách quan” và “tính đầy đủ” của các kết quả thu được, tuy nhiên, do sự khác biệt trong cách các hệ thống khác nhau xử lý các thuật ngữ, kết quả có thể không phải lúc nào cũng phù hợp với truy vấn.

Công cụ tìm kiếm meta có hiệu quả nhất ở giai đoạn đầu tìm kiếm thông tin. Chúng giúp bản địa hóa các công cụ tìm kiếm chứa thông tin về thông tin mà người dùng đang tìm kiếm.

Các công cụ và phương pháp tìm kiếm bổ sung

Có nhiều cách bổ sung để tìm kiếm trên Internet tận dụng các khả năng được cung cấp bởi một số dịch vụ khác của Web, nhân viên và người dùng của nó để tạo điều kiện thuận lợi cho việc tìm kiếm thông tin. Những dịch vụ như vậy bao gồm hội nghị từ xa(diễn đàn) (một cách tương tác giữa những người dùng trên Internet, qua đó một trong những người dùng để lại tin nhắn trên tài nguyên thông tin mạng (trang web) và những người dùng khác có thể đọc bất cứ lúc nào thuận tiện cho họ), quảng cáo điện tử(dựa trên nguyên tắc hội nghị từ xa), cuộc trò chuyện(từ (chat kim - trò chuyện) (một phương thức tương tác giữa người dùng trên Internet, qua đó người dùng giao tiếp trong thời gian thực), may chủ, tìm kiếm thông tin hàng đầu thông qua e-mail(một trong những cách khả thi để truy cập các công cụ truy xuất thông tin), v.v. Những phương pháp này bổ sung vì chúng:

  • không dành cho sử dụng đại trà;
  • không phổ biến (chúng tích lũy địa chỉ với số lượng không đủ hoặc trong phạm vi hẹp);
  • không phải là tiêu chuẩn hoặc bắt buộc đối với những người
    cung cấp chúng (tức là không có gì đảm bảo nhận được phản hồi cho
    lời yêu cầu).

Đánh giá hoạt động của hệ thống thông tin và công nghệ của cá nhân doanh nhân Ivankovich Vladimir Zinovievich

báo cáo thực tập

5. Làm việc với hệ thống truy xuất thông tin (thông tin chung, quy trình vận hành, lưu và chỉnh sửa thông tin tìm thấy)

Hệ thống truy xuất thông tin là một tập hợp các quy tắc truy xuất thông tin để dịch từ ngôn ngữ tự nhiên sang truy xuất thông tin và dịch ngược, cũng như các tiêu chí tuân thủ dành cho việc truy xuất thông tin. Các thành phần của một hệ thống truy xuất thông tin cụ thể (IRS), ngoài ngôn ngữ truy xuất thông tin, quy tắc dịch thuật và tiêu chí tuân thủ, còn bao gồm các phương tiện triển khai kỹ thuật của nó, một loạt văn bản (tài liệu) trong đó việc truy xuất thông tin được thực hiện và những người trực tiếp tham gia vào việc tìm kiếm này.

Truy xuất thông tin là quá trình tìm kiếm trong một tập hợp văn bản (tài liệu) nhất định tất cả những văn bản dành cho chủ đề (chủ đề) được chỉ định trong yêu cầu hoặc chứa các sự kiện và thông tin cần thiết cho người tiêu dùng. IP được thực hiện thông qua hệ thống truy xuất thông tin và được thực hiện thủ công hoặc sử dụng các công cụ cơ giới hóa, tự động hóa. Thành phần tham gia không thể thiếu của cá nhân doanh nhân là con người. Tùy thuộc vào bản chất của thông tin có trong văn bản do hệ thống truy xuất thông tin (IRS) tạo ra, IP có thể là tài liệu, bao gồm thư mục và dữ kiện. IP phải được phân biệt với việc xử lý thông tin hợp lý, nếu không có nó thì không thể trực tiếp cung cấp cho một người câu trả lời cho những câu hỏi mà anh ta đặt ra. Trong IP, những dữ kiện hoặc thông tin như vậy được tìm kiếm - và có thể được tìm thấy - đã được nhập vào IPS. Trước khi nhập văn bản (tài liệu) vào IRS, nội dung ngữ nghĩa chính (chủ đề hoặc chủ đề) của nó được xác định, sau đó được dịch và viết bằng một trong các ngôn ngữ truy xuất thông tin. Mục này được gọi là hình ảnh tìm kiếm của văn bản. Điều tương tự cũng được thực hiện khi các dữ kiện và thông tin được ghi lại theo một cách nhất định được nhập vào IPS. Yêu cầu nhận được cũng được dịch sang ngôn ngữ truy xuất thông tin, tạo thành hướng dẫn tìm kiếm. Vì hình ảnh tìm kiếm của văn bản và hướng dẫn tìm kiếm được viết bằng cùng một ngôn ngữ, nên các biểu thức trong đó chỉ cho phép một cách giải thích nên có thể so sánh chúng một cách chính thức mà không cần đi sâu vào ý nghĩa. Để thực hiện điều này, một số quy tắc nhất định (tiêu chí tuân thủ) được đặt ra nhằm thiết lập mức độ mà sự trùng hợp chính thức của hình ảnh tìm kiếm với quy định tìm kiếm phải được xem xét để đáp ứng yêu cầu thông tin và được trả về.

Hiệu quả kỹ thuật của IP được đặc trưng bởi hai chỉ số tương đối - hệ số chính xác (tỷ lệ số lượng văn bản phản hồi yêu cầu thông tin trên tổng số văn bản trong một vấn đề nhất định) và hệ số đầy đủ (tỷ lệ số lượng số văn bản đáp ứng yêu cầu thông tin trong tổng số văn bản đó có trong một số báo nhất định). Giá trị yêu cầu của các chỉ số này phụ thuộc vào nhu cầu thông tin cụ thể. Ví dụ, khi tìm kiếm bản mô tả sáng chế nhằm mục đích tiến hành thẩm định tính mới của đơn đăng ký sáng chế, yêu cầu phải có tính đầy đủ 100% của vấn đề; trong một tìm kiếm nhắm đến một nhà nghiên cứu hoặc kỹ sư bình thường, độ chính xác của kết quả tìm kiếm được coi là khoảng 80% và tính đầy đủ là khoảng 50%.

Hình 1 - Quá trình tìm kiếm

IP có thể có hai loại - phổ biến thông tin có chọn lọc (hoặc có mục tiêu) và tìm kiếm hồi cứu. Với việc phổ biến thông tin có chọn lọc, IP được thực hiện theo yêu cầu liên tục của một số lượng người tiêu dùng (người đăng ký) nhất định, được thực hiện định kỳ (thường một lần một hoặc hai tuần) và chỉ được thực hiện trong một loạt văn bản mà người nhận nhận được. IRS trong khoảng thời gian này.

Phản hồi hiệu quả được thiết lập giữa IPS và người tiêu dùng (người đăng ký) (người đăng ký báo cáo mức độ văn bản này phù hợp với yêu cầu và liệu anh ta có cần một bản sao của toàn bộ văn bản hay không, về mức độ tuân thủ của văn bản này với nhu cầu thông tin của anh ta), cho phép bạn làm rõ nhu cầu của người đăng ký và đáp ứng kịp thời các yêu cầu, thay đổi những nhu cầu này và tối ưu hóa hiệu suất hệ thống.

Trong quá trình tìm kiếm hồi cứu, hệ thống truy xuất thông tin sẽ tìm thấy các văn bản chứa thông tin được yêu cầu trong toàn bộ mảng văn bản tích lũy cho các yêu cầu một lần.

Kiến trúc của hệ thống truy xuất thông tin WWW hiện đại.

Hãy xem xét một sơ đồ điển hình của một hệ thống như vậy. Nhiều ấn phẩm khác nhau dành cho các hệ thống cụ thể cung cấp các sơ đồ khác nhau chỉ ở cách sử dụng các giải pháp phần mềm cụ thể chứ không khác nhau ở nguyên tắc tổ chức các thành phần khác nhau của hệ thống. Vì vậy, chúng ta hãy xem sơ đồ này bằng ví dụ được trình bày:

Hình 2 - Cấu trúc IPS cho Internet

Sơ đồ này cho thấy:

client là một chương trình để xem một nguồn thông tin cụ thể. Hiện nay, phổ biến nhất là các chương trình đa giao thức như Netscape Navigator. Một chương trình như vậy cung cấp khả năng xem các tài liệu World Wide Web, Gopher, Wais, kho lưu trữ FTP, danh sách gửi thư và nhóm tin Usenet. Đổi lại, tất cả các tài nguyên thông tin này là đối tượng tìm kiếm của hệ thống truy xuất thông tin.

giao diện người dùng - giao diện người dùng không chỉ là người xem. Trong trường hợp hệ thống truy xuất thông tin, cụm từ này cũng có nghĩa là cách người dùng giao tiếp với công cụ tìm kiếm của hệ thống, tức là. với một hệ thống tạo truy vấn và xem kết quả tìm kiếm. Xem kết quả tìm kiếm và tài nguyên thông tin mạng là những việc hoàn toàn khác nhau, chúng ta sẽ thảo luận sau.

công cụ tìm kiếm - công cụ tìm kiếm được sử dụng để dịch yêu cầu của người dùng, được chuẩn bị bằng ngôn ngữ truy xuất thông tin (IRL), thành yêu cầu hệ thống chính thức, tìm kiếm các liên kết đến các tài nguyên thông tin trên Web và trả về kết quả tìm kiếm này cho người dùng.

cơ sở dữ liệu chỉ mục - chỉ mục là mảng dữ liệu chính của hệ thống truy xuất thông tin. Nó được sử dụng để tìm kiếm địa chỉ của một nguồn thông tin. Kiến trúc của chỉ mục được thiết kế sao cho việc tìm kiếm diễn ra nhanh nhất có thể, đồng thời có thể đánh giá giá trị của từng tài nguyên thông tin được tìm thấy trên mạng.

truy vấn - truy vấn của người dùng được lưu trong cơ sở dữ liệu cá nhân của anh ấy. Phải mất rất nhiều thời gian để gỡ lỗi mỗi truy vấn và do đó, việc lưu trữ các truy vấn mà hệ thống đưa ra câu trả lời tốt là cực kỳ quan trọng.

robot lập chỉ mục - robot lập chỉ mục được sử dụng để thu thập thông tin trên Internet và cập nhật cơ sở dữ liệu chỉ mục. Chương trình này là nguồn thông tin chính về trạng thái tài nguyên thông tin mạng.

Các trang web www là toàn bộ Internet. Nói chính xác hơn, đây là những nguồn thông tin được xem qua các chương trình xem.

Công cụ tìm kiếm thường bao gồm ba thành phần:

1. một tác nhân (nhện hoặc trình thu thập thông tin) điều hướng Internet và thu thập thông tin;

2. cơ sở dữ liệu chứa tất cả thông tin được thu thập bởi nhện;

3. một công cụ tìm kiếm mà mọi người sử dụng làm giao diện để tương tác với cơ sở dữ liệu.

Tự động hóa hệ thống thông tin quản lý đơn hàng tại doanh nghiệp LLC Service-TV

Quy định chung 1. Quy tắc này xác định quy trình làm việc của nhân viên Công ty với thiết bị tự động hóa được lắp đặt tại nơi làm việc của họ. Nhân viên của công ty phải làm quen với các Quy tắc chống chữ ký này...

Tự động hóa Trường Công nghệ Thông tin và Viễn thông

Vào tháng 8 năm 2000, một cuộc họp thành lập đã được tổ chức tại Dushanbe, tại đó một trường nghiên cứu về công nghệ máy tính đã được thành lập. Những người sáng lập ngôi trường này là tổ chức trẻ em "Oshyoni Baland" được đặt theo tên của Mirzo Tursun-Zade...

Cơ sở dữ liệu "Nhà triết học"

Ví dụ: hãy chỉnh sửa mục về nhà sưu tập Kirill Petrenko. Hãy để Người sưu tầm đổi số điện thoại “12-36-98” thành “11-22-33”. Để thay đổi mục nhập, hãy mở biểu mẫu "BỘ SƯU TẬP". Để thực hiện việc này, trên biểu mẫu nút Chính, bạn cần nhấp vào nút HÌNH THỨC...

Thông tin đồ họa và phương pháp xử lý nó

Việc trình bày dữ liệu trên màn hình máy tính ở dạng đồ họa lần đầu tiên được triển khai vào giữa những năm 50 cho các máy tính lớn dùng trong nghiên cứu khoa học và quân sự...

Các loại đồ họa máy tính Việc trình bày dữ liệu trên màn hình máy tính ở dạng đồ họa lần đầu tiên được triển khai vào giữa những năm 50 cho các máy tính lớn dùng trong nghiên cứu khoa học và quân sự...

Thông tin đồ họa và phương tiện xử lý nó

Các phương pháp tự động tạo heuristic tìm kiếm

Hãy xem xét một bảng so sánh các kết quả tìm kiếm bằng cách sử dụng các công cụ tìm kiếm khác nhau theo quan điểm liên quan: Danh mục Số lượng văn bản trong mẫu Google Yandex Virtual...

Mục đích và thủ tục hình thành hệ thống thông tin và pháp luật

Vòng đời của hệ thống thông tin là tập hợp các giai đoạn mà hệ thống thông tin phải trải qua trong quá trình phát triển từ thời điểm đưa ra quyết định cải tiến cho đến thời điểm hệ thống thông tin ngừng tồn tại...

Xử lý thông tin khí tượng nông nghiệp

Tổ hợp phần mềm và thông tin AMFD được thiết kế để tạo ra quỹ dữ liệu quan trắc khí tượng nông nghiệp dựa trên sổ thực địa KSH-1M, KSH-2M, bảng TSH-6M và hình thành các bảng tương ứng của niên giám khí tượng nông nghiệp...

Đánh giá hoạt động của hệ thống thông tin và công nghệ của cá nhân doanh nhân Ivankovich Vladimir Zinovievich

Phần mềm chống vi-rút là một chương trình có mục đích tìm và vô hiệu hóa vi-rút trên máy tính của người dùng. Trước hết, tôi muốn nói rằng việc cố gắng tìm và vô hiệu hóa virus theo cách thủ công là hoàn toàn vô ích. Trước hết...

Xây dựng hệ thống bảo mật thông tin cho các gói phần mềm dùng để truy cập độc quyền

Ngày càng có nhiều sự quan tâm dành cho một hướng đi mới trong giáo dục - đào tạo từ xa. Giáo dục từ xa một mặt mở ra những cơ hội mới, mặt khác đặt ra những thách thức mới...

Phát triển hệ thống mô hình hóa tối ưu hóa công cụ tìm kiếm trang web

Xây dựng thư mục theo dõi thông tin nhân viên công ty

Việc gọi người chỉnh sửa để sửa thông tin về nhân viên đã có trong cơ sở dữ liệu được thực hiện bằng nút trên biểu mẫu chính “Chỉnh sửa”, sau khi chọn hộp bên cạnh thành phần đang được chỉnh sửa...

Chỉnh sửa đối tượng đồ họa trong GIMP

Nhiệm vụ 1. Từ file ảnh Work 4.jpg, tạo một chiếc mui xe bằng sợi carbon từ mui xe ô tô. Tiến trình 1. Mở ảnh của chiếc ô tô sao cho thuận tiện khi làm việc với nó, chẳng hạn như trong Hình 30. Hình 30...

Ngôn ngữ lập trình web - PHP

Đầu tiên, hãy tạo một cơ sở dữ liệu và bảng. Đăng nhập vào phpMyAdmin (phpMyAdmin là một ứng dụng web mã nguồn mở được viết bằng PHP và là giao diện web để quản trị MySQL DBMS) (xem Phụ lục 5)...