Công cụ tìm kiếm và các tính năng của chúng. Có thể kiểm soát hành động của công cụ tìm kiếm?

Công cụ tìm kiếm

Công cụ tìm kiếm cho phép bạn tìm các tài liệu WWW liên quan đến chủ đề nhất định hoặc được trang bị các từ khóa hoặc sự kết hợp của chúng. Có hai phương pháp tìm kiếm được sử dụng trên các máy chủ tìm kiếm:

· Theo hệ thống phân cấp của các khái niệm;

· Theo từ khóa.

Máy chủ tìm kiếm được điền tự động hoặc thủ công. Máy chủ tìm kiếm thường có liên kết đến phần còn lại máy chủ tìm kiếm và gửi cho họ yêu cầu tìm kiếm theo yêu cầu của người dùng.

Có hai loại công cụ tìm kiếm.

1. Công cụ tìm kiếm "toàn văn bản" lập chỉ mục mọi từ trên trang web, ngoại trừ các từ dừng.

2. Công cụ tìm kiếm "Tóm tắt" tạo ra phần tóm tắt của mỗi trang.

Đối với quản trị viên web, công cụ toàn văn bản hữu ích hơn vì bất kỳ từ nào được tìm thấy trên trang web đều được phân tích để xác định mức độ liên quan của nó với truy vấn của người dùng. Tuy nhiên, các công cụ trừu tượng có thể lập chỉ mục các trang tốt hơn các trang toàn văn. Điều này phụ thuộc vào thuật toán trích xuất thông tin, chẳng hạn như tần suất sử dụng các từ giống nhau.

Đặc điểm chính của công cụ tìm kiếm.

1. Kích thước của công cụ tìm kiếm được xác định bởi số lượng trang được lập chỉ mục. Tuy nhiên, tại bất kỳ thời điểm nào, các liên kết được cung cấp để đáp ứng yêu cầu của người dùng có thể ở các độ tuổi khác nhau. Lý do tại sao điều này xảy ra:

· Một số công cụ tìm kiếm ngay lập tức lập chỉ mục trang theo yêu cầu của người dùng, sau đó tiếp tục lập chỉ mục các trang chưa được lập chỉ mục.

· những người khác thường lập chỉ mục các trang web phổ biến nhất.

2.Ngày lập chỉ mục. Một số công cụ tìm kiếm hiển thị ngày tài liệu được lập chỉ mục. Điều này giúp người dùng xác định thời điểm tài liệu xuất hiện trực tuyến.

3. Độ sâu lập chỉ mục cho biết có bao nhiêu trang sau trang được chỉ định mà công cụ tìm kiếm sẽ lập chỉ mục. Hầu hết các máy không có hạn chế về độ sâu lập chỉ mục. Lý do tại sao không phải tất cả các trang đều có thể được lập chỉ mục:

· Không sử dụng đúng các cấu trúc khung.

· sử dụng sơ đồ trang web mà không cần sao chép các liên kết thông thường

4.Làm việc với khung. Nếu robot tìm kiếm không biết cách làm việc với các cấu trúc khung thì nhiều cấu trúc có khung sẽ bị bỏ sót trong quá trình lập chỉ mục.

5. Tần suất liên kết. Các công cụ tìm kiếm chính có thể xác định mức độ phổ biến của một tài liệu bằng tần suất nó được liên kết đến. Một số máy, dựa trên dữ liệu đó, “kết luận” liệu có đáng lập chỉ mục tài liệu hay không.

6. Tần suất cập nhật máy chủ. Nếu máy chủ được cập nhật thường xuyên, công cụ tìm kiếm sẽ lập chỉ mục lại nó thường xuyên hơn.

7. Kiểm soát chỉ mục. Hiển thị những công cụ bạn có thể sử dụng để điều khiển công cụ tìm kiếm.

8. Chuyển hướng. Một số trang web chuyển hướng khách truy cập từ máy chủ này sang máy chủ khác và tùy chọn này cho biết điều này sẽ liên quan như thế nào đến các tài liệu được tìm thấy.

9.Ngưng lời nói. Một số công cụ tìm kiếm không đưa một số từ nhất định vào chỉ mục của chúng hoặc có thể không đưa những từ đó vào truy vấn của người dùng. Những từ này thường được coi là giới từ hoặc những từ được sử dụng thường xuyên.

10. Phạt thư rác. Khả năng chặn thư rác.

11.Xóa dữ liệu cũ. Một tham số xác định hành động của quản trị viên web khi đóng máy chủ hoặc di chuyển nó sang địa chỉ khác.

Ví dụ về công cụ tìm kiếm.

1. Altavista. Hệ thống được khai trương vào tháng 12 năm 1995. Thuộc sở hữu của DEC. Từ năm 1996, ông đã cộng tác với Yahoo. AltaVista là lựa chọn tốt nhấtđể tìm kiếm tùy chỉnh . Tuy nhiên, việc sắp xếp kết quả theo danh mụcĐiều này không được thực hiện và bạn phải xem lại thông tin được cung cấp theo cách thủ công. AltaVista không cung cấp bất kỳ phương tiện nào để truy xuất danh sách các trang web đang hoạt động, tin tức hoặc các khả năng tìm kiếm nội dung khác.

2.Tìm kiếm kích thích. Ra mắt vào cuối năm 1995. Vào tháng 9 năm 1996 - được WebCrawler mua lại. Đơn vị này có bộ lông tìm kiếm mạnh mẽthấp, khả năng cài đặt riêng lẻ tự độngthông tin được cung cấp, cũng như trình độ chuyên môn được biên soạnmô tả của nhiều nút bởi nhân viên có trình độ. kích thích khác với các nút tìm kiếm khác ở chỗcho phép bạn tìm kiếm các dịch vụ tin tức và xuất bản các bài đánh giá Trang web. Công cụ tìm kiếm sử dụng các công cụtìm kiếm từ khóa tiêu chuẩn và heuristiccác phương pháp tìm kiếm nội dung Nhờ sự kết hợp này,bạn có thể tìm thấy các trang có liên quan Web, nếu chúng không chứa khóa do người dùng chỉ định từ Nhược điểm của Excite là một giao diện hơi hỗn loạn.

3.HotBot. Ra mắt vào tháng 5 năm 1996. Thuộc sở hữu của Wired. Dựa trên công nghệ máy tìm kiếm Berkeley Inktomi. HotBot là cơ sở dữ liệu chứa các tài liệu được lập chỉ mục toàn văn bản và là một trong những công cụ tìm kiếm toàn diện nhất trên Web. Khả năng tìm kiếm Boolean và khả năng giới hạn tìm kiếm ở bất kỳ khu vực hoặc trang Web nào giúp người dùng tìm thấy thông tin cần thiết, loại bỏ những thứ không cần thiết. HotBot mang đến cho bạn cơ hội lựa chọn thông số bắt buộc tìm kiếm từ danh sách thả xuống.

4.Tìm kiếm thông tin. Ra mắt trước năm 1995, dễ dàng tiếp cận. Hiện nay có khoảng 50 triệu URL. Infoseek có giao diện được thiết kế tốt và phương tiện tìm kiếm tuyệt vời. Hầu hết các câu trả lời cho các truy vấn đều đi kèm với liên kết “chủ đề liên quan” và sau mỗi câu trả lời đều có liên kết “các trang tương tự”. Cơ sở dữ liệu công cụ tìm kiếm của các trang được lập chỉ mục theo toàn văn. Các câu trả lời được sắp xếp theo hai chỉ số: tần suất xuất hiện của từ hoặc cụm từ trên trang tsakh, cũng như vị trí của các từ hoặc cụm từ trên trang. Có một Danh mục Web, được chia thành 12 danh mục với hàng trăm danh mục con có thể tìm kiếm. Mỗi trang danh mục chứa một danh sách các nút được đề xuất.

5. Lycos. Hoạt động từ tháng 5 năm 1994. Được nhiều người biết đến và sử dụng. Nó bao gồm một thư mục với số lượng lớn các URL. và công cụ tìm kiếm Point với công nghệ phân tích thống kê nội dung trang, trái ngược với việc lập chỉ mục toàn văn. Lycos chứa tin tức, đánh giá trang web, liên kết đến các trang web phổ biến, bản đồ thành phố và các công cụ tìm địa chỉ, hình ảnh biểu thức và âm thanh và video clip. Lycos sắp xếp câu trả lời theo mức độ tương quanđáp ứng yêu cầu dựa trên một số tiêu chí, ví dụ: sốlu thuật ngữ tìm kiếm được tìm thấy trong phần tóm tắt của tài liệutâm trí, khoảng cách giữalàm từ trong cụm từ cụ thể tài liệu, vị trícác điều khoản trong tài liệu.

6. Trình thu thập dữ liệu web. Khai trương vào ngày 20 tháng 4 năm 1994 như một dự án của Đại học Washington. Trình thu thập thông tin web cung cấp cơ hội cú pháp để xác định các truy vấn, cũng như một lựa chọn lớn chú thích nút với giao diện đơn giản.


Sau mỗi phản hồi, WebCrawler sẽ hiển thị một biểu tượng nhỏ kèm theo đánh giá gần đúng về việc liệu yêu cầu có phù hợp hay không. Comee cũng hiển thị một trang có bản tóm tắt ngắn cho mỗi câu trả lời, URL đầy đủ, điểm số chính xác và cũng sử dụng câu trả lời này trong truy vấn mẫu làm từ khóa của nó.Giao diện đồ họa để cấu hình các truy vấn trong Không có Trình thu thập thông tin web. N không được phépviệc sử dụng các biểu tượng phổ quát cũng là không thểgán trọng số cho từ khóa.Không có cách nào để giới hạn trường tìm kiếmmột khu vực nhất định.

7. Yahoo. Danh bạ lâu đời nhất của Yahoo được ra mắt vào đầu năm 1994. Được biết đến rộng rãi, được sử dụng thường xuyên và được tôn trọng nhất. Vào tháng 3 năm 1996, danh mục Yahooligans dành cho trẻ em đã được ra mắt. Các thư mục khu vực và hàng đầu của Yahoo xuất hiện. Yahoo dựa trên đăng ký của người dùng. Nó có thể đóng vai trò là điểm khởi đầu cho bất kỳ tìm kiếm nào trên Web vì hệ thống phân loại của nó sẽ giúp người dùng tìm thấy một trang web có thông tin được tổ chức tốt. Nội dung web rơi vào 14 loại chung, được liệt kê trên trang chủ Yahoo!. Tùy thuộc vào chi tiết truy vấn của người dùng, có thể làm việc với các danh mục này để khám phá các danh mục con và danh sách các nút hoặc tìm kiếm các từ và thuật ngữ cụ thể trong toàn bộ cơ sở dữ liệu. Người dùng cũng có thể giới hạn tìm kiếm trong bất kỳ mục hoặc tiểu mục nào của Yahoo!. Do việc phân loại các nút được thực hiện bởi con người và không phải bằng máy tính nên chất lượng link thường rất cao. Tuy nhiên, việc tinh chỉnh việc tìm kiếm trong trường hợp thất bại là một nhiệm vụ khó khăn. Tham gia Yahoo ! bao gồm công cụ tìm kiếm AltaVista, vì vậy nếu bạn tìm kiếm trên Yahoo! nó xảy ra tự động lặp lại bằng công cụ tìm kiếm AltaVista . Kết quả sau đó được gửi đến Yahoo!. Yahoo! cung cấp khả năng gửi truy vấn tìm kiếm tới Usenet và Fourl 1 để tìm ra địa chỉ email.

Các công cụ tìm kiếm của Nga bao gồm:

1. Rambler Đây là một công cụ tìm kiếm bằng tiếng Nga. Các phần được liệt kê trên trang chủ Rambler bao gồm các tài nguyên Web tiếng Nga. Có một bộ phân loại thông tin. Một tính năng tiện lợi là cung cấp danh sách các nút được truy cập nhiều nhất cho mỗi nút. chủ đề được đề xuất.

2. Tìm kiếm tại cảng. Cảng được xếp hạng trong số các công cụ tìm kiếm được chứng nhận hàng đầu Microsoft như công cụ tìm kiếm địa phươnghệ thống cho phiên bản tiếng Nga Microsoft Internet Explorer. Một trong những lợi thế của Aport là dịch thuật các truy vấn trực tuyến và tìm kiếm kết quả bằng tiếng Anh-Nga và Nga-Anh, nhờ đó bạn có thể tìm kiếm trên các tài nguyên Internet của Nga , ngay cả khi không biết tiếng Nga. Hơn thế nữa bạn có thể tìm kiếm thông tin tion bằng cách sử dụng các biểu thức, ngay cả đối với các câu.Trong số các thuộc tính chính của hệ thống tìm kiếm Aport, bạn có thểchia như sau:

Dịch truy vấn và kết quả tìm kiếm từ tiếng Nga sang tiếng Anhtiếng Trung và ngược lại;

Kiểm tra tự động lỗi chính tả lời yêu cầu;

Hiển thị thông tin kết quả tìm kiếm cho các trang web được tìm thấy;

Khả năng tìm kiếm dưới mọi hình thức ngữ pháp;


ngôn ngữ truy vấn nâng cao dành cho chuyên gia người sử dụng tiền mặt.

Các thuộc tính tìm kiếm khác bao gồm:hỗ trợ năm trang mã chính (hoạt động khác nhausystems) cho tiếng Nga, công nghệ tìm kiếm sử dụngkhông có hạn chế nào về URL và ngày của tài liệu, thực hiện tìm kiếmtheo tiêu đề, nhận xét và chữ kývào hình ảnh, v.v., lưu các tham số tìm kiếm và xác định số lượng yêu cầu của người dùng trước đó, việc hợp nhất bản sao của tài liệu nằm trên máy chủ khác nhau.

3.Danh sách. ru ( http://www.list.ru) Trong quá trình triển khai, máy chủ này có nhiềuchung với hệ thống tiếng Anh Yahoo!. TRÊN trang chủ máy chủ chứa các liên kết đến các danh mục tìm kiếm phổ biến nhất.


Phần trung tâm là danh sách các liên kết đến các danh mục chính của danh mục. Tìm kiếm trong danh mục được triển khai theo cách mà kết quả của truy vấn có thể được tìm thấy cả các trang web và danh mục riêng lẻ. Nếu tìm kiếm thành công, URL, tiêu đề, mô tả và từ khóa sẽ được hiển thị. Chấp thuận sử dụng Ngôn ngữ truy vấn Yandex. VỚIliên kết “Cấu trúccatalog" sẽ mở danh mục kata đầy đủ trong một cửa sổ riêngnhật ký. Khả năng di chuyển từ bảng đánh giá sang bất kỳ danh mục phụ nào được chọn đã được triển khai. Phân chia chuyên đề chi tiết hơnphần hiện tại được thể hiện bằng một danh sách các liên kết. Danh mục được tổ chức như thế này sao cho tất cả các trang web có trên mức thấp vuốt vecác chuyến tham quan cũng được trình bày theo từng phần.Danh sách tài nguyên hiển thị được sắp xếp theo thứ tự abc nhưng bạn có thể lựa chọn sắp xếp theo: theo thời gian thêm menu, bằng cách chuyển đổi, bằng cách thứ tự thêm vào danh mục, theophổ biến đối với khách truy cập danh mục.

4. Yandex. Sản phẩm phần mềm Dòng Yandex đại diện cho một bộ công cụ để lập chỉ mục toàn văn bản và tìm kiếm dữ liệu văn bản, có tính đến hình thái của tiếng Nga. Yandex bao gồm các mô-đun để phân tích và tổng hợp hình thái, lập chỉ mục và tìm kiếm, cũng như một tập hợp các mô-đun phụ trợ, chẳng hạn như trình phân tích tài liệu, ngôn ngữ đánh dấu, trình chuyển đổi định dạng và trình thu thập dữ liệu.

Các thuật toán phân tích và tổng hợp hình thái dựa trên từ điển cơ sở có khả năng chuẩn hóa các từ, tức là tìm ra dạng ban đầu của chúng, đồng thời xây dựng các giả thuyết cho các từ không có trong từ điển cơ sở. Hệ thống lập chỉ mục toàn văn bản cho phép bạn tạo một chỉ mục nhỏ gọn và tìm kiếm nhanh chóng bằng các toán tử logic.

Yandex được thiết kế để hoạt động với văn bản trên mạng cục bộ và toàn cầu, đồng thời cũng có thể được kết nối dưới dạng mô-đun với các hệ thống khác.

Công cụ tìm kiếm hoạt động như thế nào? Một trong những điều tuyệt vời về Internet là có hàng trăm triệu tài nguyên web đang chờ và sẵn sàng giới thiệu cho chúng ta. Nhưng điều tồi tệ là có hàng triệu trang giống nhau mà ngay cả khi chúng ta cần chúng cũng sẽ không xuất hiện trước mắt chúng ta, bởi vì... đơn giản là chúng tôi chưa biết. Làm thế nào để tìm ra những gì và nơi bạn có thể tìm thấy trên Internet? Để làm điều này, chúng tôi thường chuyển sang các công cụ tìm kiếm.

Công cụ tìm kiếm Internet là các trang web đặc biệt trên mạng toàn cầu được thiết kế để giúp mọi người tìm thấy thông tin họ cần trên World Wide Web. Có sự khác biệt trong cách các công cụ tìm kiếm thực hiện chức năng của chúng, nhưng nhìn chung có 3 chức năng chính và giống nhau:

Tất cả đều “tìm kiếm” trên Internet (hoặc một số lĩnh vực trên Internet) - dựa trên các từ khóa nhất định;
- tất cả các công cụ tìm kiếm lập chỉ mục các từ họ tìm kiếm và những nơi họ tìm thấy chúng;
- tất cả các công cụ tìm kiếm đều cho phép người dùng tìm kiếm các từ hoặc tổ hợp từ khóa dựa trên các trang web đã được lập chỉ mục và có trong cơ sở dữ liệu của họ.

Các công cụ tìm kiếm đầu tiên đã lập chỉ mục lên tới vài trăm nghìn trang và nhận được 1.000 - 2.000 yêu cầu mỗi ngày. Ngày nay, các công cụ tìm kiếm hàng đầu đã lập chỉ mục và liên tục lập chỉ mục cho hàng trăm triệu trang và xử lý hàng chục triệu yêu cầu mỗi ngày. Dưới đây chúng tôi sẽ nói về cách các công cụ tìm kiếm hoạt động và cách chúng “kết hợp” tất cả các thông tin được tìm thấy để có thể trả lời bất kỳ câu hỏi nào mà chúng tôi quan tâm.

Chúng ta hãy nhìn vào Web

Khi mọi người nói về Công cụ tìm kiếm trên Internet máy móc, thực ra chúng có nghĩa là công cụ tìm kiếm Thế giới Web rộng . Trước khi Web trở thành phần dễ thấy nhất của Internet, các công cụ tìm kiếm đã tồn tại để giúp mọi người tìm kiếm thông tin trên Internet. Các chương trình có tên “gopher” và “Archie” có thể lập chỉ mục các tệp nằm trên các máy chủ khác nhau được kết nối với Internet và giảm đáng kể thời gian tìm kiếm các chương trình hoặc tài liệu cần thiết. Vào cuối những năm 80 của thế kỷ trước, từ đồng nghĩa với “khả năng làm việc trên Internet” là khả năng sử dụng gopher, Archie, Veronica, v.v. chương trình tìm kiếm. Ngày nay, hầu hết người dùng Internet giới hạn tìm kiếm của họ trong World Wide Web, hay WWW.

Một khởi đầu nhỏ

Trước khi tôi nói cho bạn biết nơi để tìm tài liệu cần thiết hoặc một tập tin, tập tin hoặc tài liệu này phải được tìm thấy ở một thời điểm nào đó. Để tìm thông tin về hàng trăm triệu trang WEB hiện có, công cụ tìm kiếm sử dụng một chương trình robot đặc biệt. Chương trình này còn được gọi là nhện ("nhện") và được sử dụng để xây dựng danh sách các từ được tìm thấy trên trang. Quá trình xây dựng một danh sách như vậy được gọi là thu thập dữ liệu web(Thu thập thông tin trên web). Để tiếp tục xây dựng và nắm bắt được danh sách các từ “hữu ích” (có ý nghĩa), con nhện tìm kiếm phải “xem qua” rất nhiều trang khác.

Mọi người bắt đầu như thế nào? nhện(nhện) hành trình của bạn trên web? Thông thường điểm khởi đầu là các máy chủ lớn nhất thế giới và các trang web rất phổ biến. Con nhện bắt đầu cuộc hành trình của nó từ một trang web như vậy, lập chỉ mục tất cả các từ được tìm thấy và tiếp tục di chuyển xa hơn, theo các liên kết đến các trang web khác. Do đó, robot nhện bắt đầu bao phủ những “mảnh” không gian web ngày càng lớn. Google.com bắt đầu như một công cụ tìm kiếm học thuật. Trong một bài viết mô tả cách tạo ra công cụ tìm kiếm này, Sergey Brin và Lawrence Page (người sáng lập và chủ sở hữu Google) đã đưa ra một ví dụ về tốc độ hoạt động của nhện Google. Có một số trong số chúng và việc tìm kiếm thường bắt đầu bằng việc sử dụng 3 con nhện. Mỗi con nhện hỗ trợ tới 300 con cùng một lúc kết nối mở với các trang web. Khi tải cao điểm, sử dụng 4 nhện, hệ thống Google có khả năng xử lý 100 trang/giây, tạo ra lưu lượng truy cập khoảng 600 kilobyte/giây.

Để cung cấp cho các con nhện dữ liệu mà chúng cần xử lý, Google từng có một máy chủ không làm gì khác hơn là cung cấp cho các con nhện ngày càng nhiều URL. Để không phụ thuộc vào các nhà cung cấp dịch vụ Internet về máy chủ tên miền (DNS) dịch URL thành địa chỉ IP, Google đã mua lại máy chủ DNS của riêng mình, giảm thiểu thời gian dành cho việc lập chỉ mục các trang.

Khi Robot Google ghé thăm trang HTML, phải tính đến 2 điều:

Từ (văn bản) trên mỗi trang;
- vị trí của chúng (ở phần nào của nội dung trang).

Các từ nằm trong phần dịch vụ như tiêu đề, phụ đề, thẻ meta và những thứ khác được gắn cờ là đặc biệt quan trọng đối với truy vấn tìm kiếm của người dùng. Google Spider được xây dựng để lập chỉ mục mọi từ tương tự trên một trang, ngoại trừ các thán từ như "a", "an" và "the". Các công cụ tìm kiếm khác có cách tiếp cận hơi khác trong việc lập chỉ mục.

Tất cả các phương pháp và thuật toán của công cụ tìm kiếm cuối cùng đều nhằm mục đích làm cho robot nhện hoạt động nhanh hơn và hiệu quả hơn. Ví dụ, một số robot tìm kiếm Họ theo dõi các từ trong tiêu đề, liên kết và tối đa 100 từ được sử dụng thường xuyên nhất trên một trang trong quá trình lập chỉ mục và thậm chí từng từ trong 20 dòng nội dung văn bản đầu tiên trên trang. Đây là thuật toán lập chỉ mục, đặc biệt là của Lycos.

Các công cụ tìm kiếm khác, chẳng hạn như AltaVista, đi theo hướng khác, lập chỉ mục từng từ trong một trang, bao gồm "a", "an", "the" và các từ không quan trọng khác.

Thẻ meta

Thẻ meta cho phép chủ sở hữu trang web chỉ định các từ khóa và khái niệm xác định bản chất nội dung của nó. Đây là một công cụ rất hữu ích, đặc biệt khi những từ khóa này có thể được lặp lại tới 2-3 lần trong nội dung của trang. Trong trường hợp này, thẻ meta có thể “hướng” robot tìm kiếm tới sự lựa chọn đúng đắn từ khóa để lập chỉ mục trang. Có khả năng xảy ra các thẻ meta “gian lận” với các truy vấn và khái niệm tìm kiếm phổ biến không hề liên quan đến nội dung của trang đó. Ví dụ: rô-bốt tìm kiếm có thể chống lại điều này bằng cách phân tích mối tương quan giữa thẻ meta và nội dung của trang web, “loại bỏ” những thẻ meta (từ khóa tương ứng) không tương ứng với nội dung của trang.

Tất cả điều này áp dụng cho những trường hợp khi chủ sở hữu tài nguyên web thực sự muốn được đưa vào kết quả tìm kiếm cho các từ tìm kiếm mong muốn. Nhưng thường xảy ra trường hợp chủ sở hữu không muốn bị robot lập chỉ mục chút nào. Nhưng những trường hợp như vậy không phải là chủ đề của bài viết của chúng tôi.

Xây dựng chỉ số

Khi các con nhện đã hoàn thành công việc tìm kiếm các trang web mới, các công cụ tìm kiếm phải đặt tất cả thông tin tìm thấy sao cho thuận tiện cho việc sử dụng nó trong tương lai. Có 2 thành phần chính quan trọng ở đây:

Thông tin được lưu trữ cùng với dữ liệu;
- phương pháp mà thông tin này được lập chỉ mục.

Trong trường hợp đơn giản nhất, công cụ tìm kiếm có thể chỉ cần đặt từ đó và địa chỉ URL, nó nằm ở đâu. Nhưng điều này sẽ làm cho công cụ tìm kiếm trở thành một công cụ hoàn toàn nguyên thủy, vì không có thông tin về phần nào của tài liệu từ này (thẻ meta hoặc văn bản thuần túy), liệu từ này được sử dụng một lần hay nhiều lần và liệu nó có được sử dụng hay không. chứa trong một liên kết đến một tài nguyên quan trọng và có liên quan khác. Nói cách khác, phương pháp này sẽ không xếp hạng các trang web, sẽ không cung cấp kết quả phù hợp cho người dùng, v.v.

Để cung cấp cho chúng tôi dữ liệu hữu ích, các công cụ tìm kiếm không chỉ lưu trữ thông tin từ từ và URL của nó. Công cụ tìm kiếm có thể lưu dữ liệu về số lượng (tần suất) đề cập đến một từ trên một trang, gán “trọng số” cho từ đó, sau đó sẽ giúp tạo danh sách tìm kiếm (kết quả) dựa trên xếp hạng có trọng số theo Từ này, có tính đến vị trí của nó (trong các liên kết, thẻ meta, tiêu đề trang, v.v.). Mỗi công cụ tìm kiếm thương mại đều có công thức riêng để tính “trọng lượng” của từ khóa trong quá trình lập chỉ mục. Đây là một trong những lý do tại sao các công cụ tìm kiếm tạo ra các kết quả hoàn toàn khác nhau cho cùng một truy vấn tìm kiếm.

Kế tiếp tâm điểm khi xử lý thông tin tìm thấy - mã hóa nó để giảm dung lượng ổ đĩa để lưu trữ nó. Ví dụ: bài viết gốc của Google mô tả rằng 2 byte (mỗi byte 8 bit) được sử dụng để lưu trữ dữ liệu trọng số của các từ - điều này có tính đến loại từ (chữ in hoa hoặc chữ in hoa), kích thước của các chữ cái (Phông chữ- Size) và các thông tin khác giúp xếp hạng trang web. Mỗi “mảnh” thông tin như vậy cần 2-3 bit dữ liệu trong một bộ 2 byte hoàn chỉnh. Kết quả là, một lượng lớn thông tin có thể được lưu trữ ở dạng rất nhỏ gọn. Sau khi thông tin được “nén”, đã đến lúc bắt đầu lập chỉ mục.

Mục đích của việc lập chỉ mục là một: đảm bảo tìm kiếm thông tin cần thiết nhanh nhất có thể. Có nhiều cách để xây dựng chỉ mục nhưng cách hiệu quả nhất là xây dựng bảng băm(bảng băm). Khi băm nó được sử dụng công thức cụ thể, với sự trợ giúp của mỗi từ được gán một giá trị số nhất định.

Trong bất kỳ ngôn ngữ nào, có những chữ cái có nhiều từ bắt đầu hơn các chữ cái còn lại trong bảng chữ cái. Ví dụ: các từ bắt đầu bằng "M" trong phần Từ điển tiếng Anh nhiều hơn đáng kể so với chữ "X". Điều này có nghĩa là việc tìm kiếm một từ bắt đầu bằng chữ cái phổ biến nhất sẽ mất nhiều thời gian hơn bất kỳ từ nào khác. Băm(Băm) cân bằng sự khác biệt này và giảm thời gian tìm kiếm trung bình, đồng thời tách chính chỉ mục ra khỏi dữ liệu thực. Bảng băm chứa các giá trị băm cùng với con trỏ tới dữ liệu tương ứng với giá trị đó. Lập chỉ mục hiệu quả + vị trí hiệu quả cùng nhau cung cấp tốc độ cao tìm kiếm, ngay cả khi người dùng hỏi một truy vấn tìm kiếm rất phức tạp.

Tương lai của công cụ tìm kiếm

Tìm kiếm dựa trên các toán tử Boolean ("và", "hoặc", "không") là tìm kiếm theo nghĩa đen - công cụ tìm kiếm nhận được Tìm kiếm từ chính xác như chúng đã được nhập vào. Điều này có thể gây ra sự cố, chẳng hạn như khi từ được nhập có nhiều nghĩa. Ví dụ: "Chìa khóa" có thể có nghĩa là "phương tiện để mở cửa" hoặc có thể có nghĩa là "mật khẩu" để đăng nhập vào máy chủ. Nếu bạn chỉ quan tâm đến một nghĩa của một từ thì rõ ràng bạn sẽ không cần dữ liệu về nghĩa thứ hai của nó. Tất nhiên, bạn có thể xây dựng một truy vấn theo nghĩa đen sẽ loại trừ dữ liệu đầu ra dựa trên ý nghĩa không cần thiết của một từ, nhưng sẽ thật tuyệt nếu chính công cụ tìm kiếm có thể giúp bạn.

Một lĩnh vực nghiên cứu về các thuật toán của công cụ tìm kiếm trong tương lai là truy xuất thông tin khái niệm. Đây là các thuật toán sử dụng phân tích thống kê các trang chứa từ khóa hoặc cụm từ tìm kiếm nhất định để tìm dữ liệu liên quan. Rõ ràng là một "công cụ tìm kiếm khái niệm" như vậy sẽ cần nhiều không gian lưu trữ hơn cho mỗi trang và nhiều thời gian hơn để xử lý từng yêu cầu. Hiện nay có nhiều nhà nghiên cứu đang nghiên cứu vấn đề này.

Không ít công việc chuyên sâu đang được thực hiện trong lĩnh vực phát triển các thuật toán tìm kiếm dựa trên các truy vấn. ngôn ngữ tự nhiên(Truy vấn ngôn ngữ tự nhiên).

Ý tưởng đằng sau các truy vấn tự nhiên là bạn có thể viết truy vấn của mình như thể bạn đang hỏi một đồng nghiệp ngồi đối diện. Không cần phải lo lắng về các toán tử Boolean hay gặp khó khăn khi viết một truy vấn phức tạp. Trang tìm kiếm ngôn ngữ tự nhiên phổ biến nhất hiện nay là AskJeeves.com. Nó chuyển đổi truy vấn thành từ khóa, sau đó nó sử dụng khi lập chỉ mục các trang web. Cách tiếp cận này chỉ hoạt động nếu truy vấn đơn giản. Tuy nhiên, sự tiến bộ không đứng yên; rất có thể chúng ta sẽ sớm “nói chuyện” với các công cụ tìm kiếm bằng “ngôn ngữ con người” của chính mình.

Được biết, người dùng đến một trang web từ các công cụ tìm kiếm cung cấp tới 40% lưu lượng truy cập. Vì vậy, hãy quan tâm đến việc lập chỉ mục chính xác cho trang web của bạn trong công cụ tìm kiếm rất hữu dụng. Bằng cách “lập chỉ mục chính xác”, ý tôi là sự liên quan của truy vấn và nội dung của trang web phải được tôn trọng, tức là, một cách đơn giản và ngôn ngữ có thể truy cập, nội dung của trang web phải tương ứng với yêu cầu (một số “bậc thầy” lạm dụng bộ từ khóa không phù hợp với thực tế. Ví dụ: khi chị tôi đang chuẩn bị phát hành một đĩa CD có các bản sao cục bộ của các cấp trang Web đầu tiên, từ “x#y” và những từ khác tương tự xuất hiện trên máy chủ của các công ty rất có uy tín không liên quan gì đến loại từ vựng này :-).

  • Altavista
  • Tìm nạp-tìm kiếm
  • ngôn ngữ trung gian
  • Người nói huyên thuyên
  • RusThông tinDầu
  • Chuyển phát nhanh Nga
  • Tìm kiếm cơ thể
  • HotBot
  • Yandex

Tại sao tôi liệt kê các công cụ tìm kiếm cụ thể này? Bởi vì, theo quan sát của tôi, đây là những thứ mà cư dân mạng nói tiếng Nga sử dụng. "Quan sát của tôi" là gì? Đây là bản phân tích nhật ký truy cập vào máy chủ của tôi http://citforum.ru/, chính xác hơn là một phần nhật ký nơi thông tin về HTTP_REFERER được thu thập, tức là. địa chỉ (URL) nơi khách hàng sử dụng liên kết đến bất kỳ trang nào trên máy chủ của tôi.

Đánh giá các loại máy mình liệt kê trên thực tế ra sao, máy nào dùng nhiều, máy nào ít?

Altavista đứng ở vị trí đầu tiên với khoảng cách rất lớn so với phần còn lại. Công cụ tìm kiếm này đã dẫn đầu ngay cả trước khi tìm kiếm bằng nhiều ngôn ngữ khác nhau (bao gồm cả tài liệu tiếng Nga) xuất hiện ở đó. Chà, điều đó có thể hiểu được - một máy chủ tuyệt vời, dễ truy cập, đã hoạt động được một thời gian dài (kể từ đầu năm 1996), căn cứ khổng lồ tài liệu (hơn 50 triệu địa chỉ). Cũng cần lưu ý rằng người dùng nói tiếng Nga không chỉ ở Nga mà còn ở Bulgaria, Cộng hòa Séc và Slovakia, Ba Lan, Israel, Đức, chưa kể các nước cộng hòa cũ của Liên Xô - Ukraine, Belarus. .. (Tôi đặc biệt muốn nói về các quốc gia vùng Baltic: Chính họ, khi gặp nhau trên đường phố của một số Kaunas hoặc Tallinn, không biết tiếng Nga, nhưng trước màn hình, đặc biệt nếu điều đó thực sự cần thiết, họ thực sự biết :-)) Vì vậy, đối với tất cả những người dùng này, việc sử dụng Altavista sẽ thuận tiện hơn chứ không phải ô tô nội địa của chúng tôi - gần hơn, vẫn...

Kỳ lạ thay, công cụ tìm kiếm phổ biến nhất tiếp theo lại là công cụ tìm kiếm trẻ nhất ở Nga - Yandex. Như Aleksey Amilyushchenko (công ty Comptek) đã nói với tôi, ngày nay có trung bình 72.000 yêu cầu mỗi ngày và có xu hướng +10% mỗi tuần (dữ liệu từ ngày 04/07/98). Đối với tôi, có vẻ như Yandex là công cụ tìm kiếm hứa hẹn nhất của Nga. Với hệ thống phân tích ngôn ngữ Nga "vĩ đại và hùng mạnh" của Comptek, Yandex rất có thể sẽ giành chiến thắng trong cuộc cạnh tranh với con cá voi thứ hai trong lĩnh vực này - Rambler.

Rambler là công cụ tìm kiếm nghiêm túc thứ ba dành cho người dùng nói tiếng Nga. Điều chính tôi không thích ở nó là nó bỏ qua nội dung của cấu trúc . (Tôi không nghĩ ra điều này, điều này đã được nói bởi Dmitry Kryukov từ Stack Ltd.) Có lẽ, chính vì việc từ chối tính đến các từ khóa mà một tập hợp liên kết kỳ lạ như vậy mới được hiển thị trong kết quả truy vấn. Hạn chế thứ hai của bản chất giao diện thuần túy là kết quả liên tục được đưa ra dưới dạng mã hóa KOI, bất kể người dùng đã chọn gì trước đó. Hạn chế thứ ba: nhện Rambler hoạt động bằng giao thức HTTP 0.9, dẫn đến lỗi lập chỉ mục, tức là. nếu nhiều người sống trên cùng một địa chỉ IP máy chủ ảo, Rambler chỉ nhìn thấy cái đầu tiên và coi tất cả những cái khác chỉ đơn giản là từ đồng nghĩa. Ồ, hãy hy vọng điều này sẽ sớm được khắc phục.

Vậy thì nơi cuối cùng Theo đánh giá của tôi, có Aport-Search, lập chỉ mục các máy chủ rất kỳ lạ, RusInfOil, thường xuyên đóng cửa để xây dựng lại và TELA-Search - một tiện ích đẹp và gần như vô dụng dành cho máy chủ www.dux.ru.

Bạn có thể hỏi: HotBot và công cụ tìm kiếm siêu dữ liệu Pathfinder của Medialingua có nằm trong danh sách không? Tôi không quên chúng, chỉ là HotBot, vì một lý do không rõ nào đó, đã để lại rất nhiều mục trong nhật ký của tôi, đó không thể là những chuyến bay ngẫu nhiên của những người nước ngoài không hiểu tiếng Nga (có rất ít chuyến bay như vậy từ các nước khác). máy nhập khẩu) và tôi vẫn chưa nghiên cứu “Pathfinder” một cách nghiêm túc.

Tại sao công cụ tìm kiếm cần quảng bá một trang web?

Rất đơn giản, như tôi đã nói, các công cụ tìm kiếm có thể cung cấp tới 40% lưu lượng truy cập cho một trang web. Và để điều này xảy ra, điều cần thiết là trang web của bạn phải được lập chỉ mục chính xác và để làm được điều này, bạn cần biết cách thực hiện việc này.

Và điều này được thực hiện theo cách sau: chính robot công cụ tìm kiếm sẽ truy cập trang web của bạn hoặc chính bạn chỉ ra trang web đó trong giao diện thích hợp (AddUrl), giao diện này có trong bất kỳ công cụ tìm kiếm tự trọng nào. Tùy chọn đầu tiên bị chậm trễ (robot vẫn sẽ đến đó, có thể trong một ngày, có thể trong một năm: Internet rất lớn). Cách thứ hai đòi hỏi phải dành chút thời gian (nhiều phần mềm khác nhau để đăng ký tự động Trang web của bạn không cung cấp cho chúng tôi bất kỳ thứ gì trong đám mây của công cụ tìm kiếm - máy được nhập khẩu).

Để mọi việc diễn ra trong tốt nhất của mình yêu cầu:

  • nên có ít nhất một số văn bản trên trang web. Công cụ tìm kiếm bỏ qua hình ảnh và kiểm tra chúng. Đúng, bạn có thể sao chép văn bản trong thuộc tính alt của thẻ img
  • Mỗi tài liệu trang web PHẢI chứa tiêu đề, từ khóa và mô tả ngắn có ý nghĩa. Họ chỉ viết rằng công cụ tìm kiếm là toàn văn, nhưng thực tế không phải vậy.
  • Tạo tệp robots.txt (đặc biệt nếu bạn có máy chủ riêng như www.name.ru).
  • Đăng ký thủ công trong mỗi công cụ tìm kiếm mà bạn quan tâm và kiểm soát việc lập chỉ mục trang web của bạn sau đó.

Vì vậy, bạn đã đăng ký trang đầu tiên của trang web của mình trên nhiều công cụ tìm kiếm khác nhau.

Bạn có nghĩ rằng mọi thứ đã có trong hợp đồng? Cho dù nó thế nào đi chăng nữa. Nếu một liên kết đến trang web của bạn trong phản hồi của công cụ tìm kiếm được hiển thị trên màn hình thứ hai, thì “điều đó thật tệ như thể không có liên kết nào cả” (Danny Sullivan, searchenginewatch.com)

Nói cách khác, chỉ xác định trang trong AddURL là không đủ. Cần chuẩn bị trước tài liệu để đáp ứng các yêu cầu thích hợp của công cụ tìm kiếm, để đáp lại yêu cầu của nó, liên kết đến tài liệu của bạn, nếu không phải là liên kết đầu tiên thì ít nhất phải nằm trong mười liên kết hàng đầu (hoặc sẽ tốt hơn nếu trong top 10 này có một số liên kết đến tài liệu của bạn :- ). "chuẩn bị" nghĩa là gì? Đây là một câu hỏi thuần túy mang tính kỹ thuật, không có gì siêu nhiên cả. Ngay trong phần HEAD của mỗi tài liệu trên trang web của bạn, bạn nên chỉ ra Tiêu đề, Từ khóa, Mô tả và Robots.

Tiêu đề:tiêu đề tài liệu. Một tiêu đề hay, ý nghĩa có thể khiến người dùng chọn liên kết của bạn từ nhiều người khác. Bạn thường thấy những tiêu đề như sau: “Nội dung” - cái gì, tại sao - không rõ ràng, không muốn kiểm tra. Một trường hợp khác: trên tất cả các trang của trang web, tiêu đề là “Chào mừng đến với công ty…” - việc kiểm tra tất cả các tài liệu có tiêu đề theo cách này cũng không hấp dẫn lắm. Hãy tưởng tượng rằng bạn đã chọn chế độ tìm kiếm theo tiêu đề mà không có mô tả cho từng tài liệu.

Từ khóa:từ khóa. Chính nội dung của vùng chứa này ảnh hưởng đến mức độ liên quan của tài liệu với truy vấn tìm kiếm.

Cho dù họ có nói rằng công cụ tìm kiếm là toàn văn bản đến mức nào thì điều này không hoàn toàn đúng, nhưng nội dung của vùng chứa này chắc chắn sẽ có trong chỉ mục của công cụ tìm kiếm. Thật không may, những người tạo ra một trong những công cụ tìm kiếm nội địa lớn nhất, Rambler, không muốn làm việc trên vùng chứa này. Nhưng vô ích.

  • trường nội dung không được chứa kết thúc dòng, dấu ngoặc kép hoặc các ký tự đặc biệt khác;
  • Không nên lặp lại cùng một từ khóa nhiều lần; điều này có thể bị coi là spam và trang có nguy cơ bị xóa khỏi chỉ mục của công cụ tìm kiếm.
  • bạn không nên tạo các từ khóa giống nhau cho các trang khác nhau Trang web của bạn. Tất nhiên, điều này đơn giản hơn, nhưng bản thân nội dung của các tài liệu lại khác. Nếu bạn thực sự muốn tự động hóa quá trình này, bạn có thể viết một chương trình ghi tất cả các khối tài liệu đã chọn vào trường này, ví dụ: giữa các thẻ H, I và B.
  • nếu dòng trong nội dung quá dài, không được phép tạo thêm nhiều cấu trúc tương tự.
  • Nói chung, tổng khối lượng từ khóa trong một tài liệu có thể lên tới 50% khối lượng của tài liệu đó.

Sự miêu tả: Mô tả ngắn tài liệu. Một nơi chứa khá hữu ích, nội dung của nó được sử dụng như một mô tả ngắn gọn về các tài liệu có liên quan để đáp ứng các công cụ tìm kiếm hiện đại. Nếu vùng chứa này không tồn tại thì một số dòng nhất định từ đầu tài liệu sẽ được trả về. Theo đó, không có gì lạ khi JavaScript nằm ở đầu tài liệu và thay vì mô tả thông thường, chữ abracadabra được đưa ra dưới dạng một đoạn chữ viết.

  • Trường nội dung không được chứa kết thúc dòng, dấu ngoặc kép hoặc các ký tự đặc biệt khác.
  • Điều mong muốn là có một bản tóm tắt có ý nghĩa về tài liệu từ một vài câu của con người, để người dùng công cụ tìm kiếm ngoài tiêu đề có thể hiểu được ý nghĩa của tài liệu.
  • Thật không may, các công cụ tìm kiếm trong nước vẫn chưa biết cách làm việc với vùng chứa này, mặc dù họ hứa rằng họ sẽ sớm tìm hiểu.

Có thể kiểm soát hành động của công cụ tìm kiếm?

Điều đó là có thể, và thậm chí là cần thiết! Hành động đầu tiên cần thực hiện cho việc này là viết một tệp robots.txt và đặt nó vào thư mục gốc của máy chủ của bạn. Tệp này giải thích phổ biến cho robot công cụ tìm kiếm những gì nên được lập chỉ mục và những gì không nên lập chỉ mục. Ví dụ: tại sao phải lập chỉ mục các tệp dịch vụ, chẳng hạn như báo cáo thống kê? Hoặc kết quả của kịch bản? Hơn nữa, nhiều máy “thông minh” sẽ không lập chỉ mục các máy chủ nếu không tìm thấy robots.txt. Nhân tiện, trong tệp này, bạn có thể chỉ định các mặt nạ lập chỉ mục khác nhau cho các công cụ tìm kiếm khác nhau.

Bạn có thể đọc thêm về điều này trong bản dịch "Tiêu chuẩn loại trừ robot" của tôi. Hành động thứ hai: cung cấp cho các trang của trang web thẻ Robots META. Đây là công cụ kiểm soát lập chỉ mục linh hoạt hơn robots.txt. Đặc biệt, trong thẻ này, bạn có thể hướng dẫn robot công cụ tìm kiếm không đi theo các liên kết đến các máy chủ khác, chẳng hạn như trong các tài liệu có danh sách liên kết. Định dạng của mớ hỗn độn này như sau:

robot_terms là danh sách các từ khóa sau được phân tách bằng dấu phẩy (ký tự viết hoa hoặc viết thường không quan trọng): ALL, NONE, INDEX, NOINDEX, FOLLOW, NOFOLLOW. KHÔNG CÓ yêu cầu tất cả robot bỏ qua trang này khi lập chỉ mục (tương đương với việc sử dụng đồng thời từ khóa NOINDEX, NOFOLLOW). TẤT CẢ cho phép trang này và tất cả các liên kết từ nó được lập chỉ mục (tương đương với việc sử dụng đồng thời các từ khóa INDEX, FOLLOW). MỤC LỤC cho phép trang này được lập chỉ mục NOINDEX không cho phép lập chỉ mục trang này THEO cho phép tất cả các liên kết từ trang này được lập chỉ mục KHÔNG THEO không cho phép lập chỉ mục các liên kết từ trang này

Nếu thẻ meta này bị bỏ qua hoặc robot_terms không được chỉ định thì theo mặc định, robot tìm kiếm sẽ hoạt động như thể robot_terms=INDEX, FOLLOW (tức là TẤT CẢ) đã được chỉ định. Nếu từ khóa TẤT CẢ được phát hiện trong NỘI DUNG, thì rô-bốt sẽ hành động tương ứng, bỏ qua các từ khóa khác có thể được chỉ định. Nếu NỘI DUNG chứa các từ khóa có ý nghĩa trái ngược nhau, ví dụ: THEO DÕI, KHÔNG THEO DÕI, thì rô-bốt sẽ hành động theo quyết định riêng của nó (trong trường hợp này là THEO).

Nếu robot_terms chỉ chứa NOINDEX thì các liên kết từ trang này sẽ không được lập chỉ mục. Nếu robot_terms chỉ chứa NOFOLLOW thì trang sẽ được lập chỉ mục và các liên kết sẽ bị bỏ qua.

Theo dõi trạng thái hiện tại của tài liệu của bạn trong chỉ mục của công cụ tìm kiếm.

Được rồi, bạn đã đọc mọi thứ ở trên và làm như vậy. Cái gì tiếp theo? Và sau đó sẽ có một cuộc kiểm tra dài, tẻ nhạt và quan trọng nhất là thường xuyên để xem mọi thứ diễn ra như thế nào. Thật đáng buồn, bạn sẽ phải chú ý đến điều này, nếu chỉ vì tài liệu đôi khi biến mất khỏi công cụ tìm kiếm. Tại sao? Tôi ước gì tôi biết... Vì vậy, trong các công cụ tìm kiếm tốt, bạn có thể xem những tài liệu nào và có bao nhiêu trong số đó thời điểm hiện tại có trong chỉ mục. Đây là cách nó được thực hiện:

Alta Vista
Trong công cụ tìm kiếm này, việc kiểm tra trạng thái URL khá đơn giản - chỉ cần nhập dòng truy vấn:

url: citforum.ru
url:citforum.ru/win/
url:citforum.ru/win/internet/index.shtml

Trong trường hợp đầu tiên, tất cả các trang máy chủ được lập chỉ mục sẽ được trả về. Trong trang thứ hai - chỉ có các trang mã hóa Windows. Trong phần thứ ba - có tệp index.shtml từ thư mục được chỉ định trong chỉ mục AltaVista không?

kích thích
Kiểm tra trạng thái của URL trong công cụ tìm kiếm Excite cũng dễ dàng như trong AltaVista. Chỉ cần gõ URL. Ví dụ:

HotBot
Trạng thái URL được kiểm tra trong công cụ tìm kiếm HotBot theo một cách hơi khác. Điều này được thực hiện như thế này:

  • Nhập URL vào trường yêu cầu
  • Thay đổi tùy chọn "tất cả các từ" thành "liên kết đến URL này"

Tìm kiếm thông tin
Trong công cụ tìm kiếm Infoseek, có một cách để kiểm tra trạng thái của URL: giao diện riêng biệt với một loạt các cài đặt:

Trình thu thập thông tin web
WebCrawler cung cấp khả năng kiểm tra trạng thái của URL trên một trang:

Người nói huyên thuyên
Trong công cụ tìm kiếm này, trạng thái URL có thể được kiểm tra theo hai cách.

  • Trong phần "Tìm kiếm nâng cao" bằng cách chỉ định tên máy chủ làm mặt nạ ở một trong các tùy chọn 100 từ hàng đầu trên Rambler

Giới thiệu………………………………..2

1 Công cụ tìm kiếm: thành phần, chức năng, nguyên lý hoạt động

1.1 Thành phần của công cụ tìm kiếm……………………….…………3

1.2 Đặc điểm của công cụ tìm kiếm……..4

1.3 Nguyên lý của công cụ tìm kiếm………………………..4

2 Tổng quan về hoạt động của công cụ tìm kiếm

2.1 Nước ngoài công cụ tìm kiếm: thành phần và nguyên lý hoạt động…………12

2.2 Công cụ tìm kiếm tiếng Nga: thành phần và nguyên tắc hoạt động….…..14

Kết luận……………………………………………………..……16

Danh sách tài liệu tham khảo………………………..………….17

Giới thiệu

Mặc dù vậy, các công cụ tìm kiếm từ lâu đã trở thành một phần không thể thiếu của Internet Nga. bằng nhiều cách khác nhau, cung cấp độc lập tất cả các giai đoạn xử lý thông tin từ khi nhận thông tin từ các nút nguồn chính đến cung cấp cho người dùng khả năng tìm kiếm, chúng thường được gọi là công cụ tìm kiếm tự động hệ thống .

Các công cụ tìm kiếm hiện nay là những cơ chế khổng lồ và phức tạp, không chỉ đại diện cho một công cụ tìm kiếm thông tin mà còn là những lĩnh vực hấp dẫn đối với doanh nghiệp. Các hệ thống này có thể khác nhau về nguyên tắc lựa chọn thông tin, hiện diện ở mức độ này hay mức độ khác trong thuật toán chỉ mục tự động. chương trình quét và các quy tắc ứng xử dành cho nhân viên danh mục chịu trách nhiệm đăng ký. Thông thường, hai chỉ số chính được so sánh:

Quy mô không gian mà IPS hoạt động là

Và chuyên môn của cô ấy.

Hầu hết người dùng công cụ tìm kiếm chưa bao giờ nghĩ (hoặc nghĩ về nó nhưng không tìm thấy câu trả lời) về nguyên tắc hoạt động của công cụ tìm kiếm, về sơ đồ xử lý yêu cầu của người dùng, về những gì các hệ thống này bao gồm và cách chúng hoạt động.. Các công cụ tìm kiếm có thể được so sánh với một bộ phận trợ giúp, có các đại lý đi khắp doanh nghiệp, thu thập thông tin vào cơ sở dữ liệu. Khi bạn liên hệ với dịch vụ, thông tin sẽ được lấy từ cơ sở dữ liệu này. Dữ liệu trong cơ sở dữ liệu trở nên lỗi thời nên các đại lý phải cập nhật dữ liệu đó định kỳ. Một số doanh nghiệp tự gửi thông tin về mình, đại lý không cần phải đến gặp. Nói cách khác, help desk có hai chức năng: tạo và cập nhật liên tục dữ liệu trong cơ sở dữ liệu và tìm kiếm thông tin trong cơ sở dữ liệu theo yêu cầu của khách hàng.

1 Công cụ tìm kiếm: thành phần, chức năng, nguyên lý hoạt động

1.1 Thành phần của công cụ tìm kiếm

Hệ thống tìm kiếm là một tổ hợp phần mềm và phần cứng được thiết kế để tìm kiếm trên Internet và đáp ứng yêu cầu của người dùng, được chỉ định dưới dạng cụm từ văn bản (truy vấn tìm kiếm), bằng cách tạo danh sách các liên kết đến các nguồn thông tin, theo thứ tự mức độ liên quan ( theo yêu cầu). Các công cụ tìm kiếm quốc tế lớn nhất: Google, Yahoo, MSN. Trên Internet Nga có Yandex, Rambler, Aport.

Tương tự, một công cụ tìm kiếm bao gồm hai phần: cái gọi là robot (hoặc nhện), thu thập dữ liệu các máy chủ Web và tạo cơ sở dữ liệu cho công cụ tìm kiếm.

Cơ sở của robot chủ yếu được hình thành bởi chính nó (robot tự tìm thấy các liên kết đến các tài nguyên mới) và ở mức độ thấp hơn nhiều bởi các chủ sở hữu tài nguyên đăng ký trang web của họ trong công cụ tìm kiếm. Ngoài robot (tác nhân mạng, nhện, sâu) hình thành cơ sở dữ liệu, còn có một chương trình xác định xếp hạng của các liên kết được tìm thấy.

Nguyên tắc hoạt động của công cụ tìm kiếm là nó truy vấn danh mục (cơ sở dữ liệu) nội bộ của nó để tìm các từ khóa mà người dùng chỉ định trong trường truy vấn và tạo ra danh sách các liên kết được xếp hạng theo mức độ liên quan.

Cần lưu ý rằng, khi xử lý một yêu cầu cụ thể của người dùng, công cụ tìm kiếm hoạt động chính xác dựa trên các tài nguyên nội bộ (và không bắt đầu hành trình trên Web, như những người dùng thiếu kinh nghiệm thường tin) và các tài nguyên nội bộ đương nhiên bị hạn chế. Mặc dù cơ sở dữ liệu của công cụ tìm kiếm được cập nhật liên tục nhưng công cụ tìm kiếm không thể lập chỉ mục tất cả các tài liệu Web: số lượng của chúng quá lớn. Do đó, luôn có khả năng tài nguyên bạn đang tìm kiếm không được một công cụ tìm kiếm cụ thể nào biết đến.

1.2 Tính năng của công cụ tìm kiếm

Trong tiến trình quá trình tìm kiếmđược thể hiện bằng bốn giai đoạn: xây dựng công thức (xảy ra trước khi bắt đầu tìm kiếm); hành động (bắt đầu tìm kiếm); tổng quan về kết quả (kết quả mà người dùng nhìn thấy sau khi tìm kiếm); và sàng lọc (sau khi xem xét kết quả và trước khi quay lại tìm kiếm với công thức khác có cùng nhu cầu). Một sơ đồ tìm kiếm thông tin phi tuyến thuận tiện hơn bao gồm các bước sau:

Khắc phục nhu cầu thông tin bằng ngôn ngữ tự nhiên;

Lựa chọn các dịch vụ tìm kiếm mạng cần thiết và chính thức hóa việc ghi lại nhu cầu thông tin bằng các ngôn ngữ truy xuất thông tin cụ thể (IRL);

Thực hiện các truy vấn đã tạo;

Xử lý trước và lựa chọn danh sách nhận được các liên kết đến tài liệu;

Liên hệ các địa chỉ đã chọn để lấy các tài liệu cần thiết;

Xem trước nội dung của các tài liệu được tìm thấy;

Lưu các tài liệu liên quan để nghiên cứu sau này;

Trích xuất liên kết từ các tài liệu liên quan để mở rộng truy vấn;

Nghiên cứu toàn bộ mảng tài liệu đã lưu;

Nếu như nhu cầu thông tin chưa hoàn toàn hài lòng thì quay lại giai đoạn đầu.

1.3 Cách thức hoạt động của công cụ tìm kiếm

Mục tiêu của bất kỳ công cụ tìm kiếm nào là cung cấp cho mọi người thông tin họ đang tìm kiếm. Dạy mọi người đưa ra những yêu cầu “đúng”, tức là. các truy vấn tuân thủ nguyên tắc hoạt động của công cụ tìm kiếm là không thể. Do đó, các nhà phát triển tạo ra các thuật toán và nguyên tắc hoạt động cho các công cụ tìm kiếm cho phép người dùng tìm thấy chính xác thông tin họ đang tìm kiếm. Điều này có nghĩa là công cụ tìm kiếm phải “suy nghĩ” giống như cách người dùng nghĩ khi tìm kiếm thông tin.

Hầu hết các công cụ tìm kiếm đều hoạt động theo nguyên tắc lập chỉ mục trước. Cơ sở dữ liệu của hầu hết các công cụ tìm kiếm đều hoạt động theo nguyên tắc giống nhau.

Có một nguyên tắc xây dựng khác. Tìm kiếm trực tiếp. Nó nằm ở những gì bạn đang tìm kiếm từ khóa lật từng trang sách. Tất nhiên, phương pháp này kém hiệu quả hơn nhiều.

Trong phiên bản có chỉ mục đảo ngược, các công cụ tìm kiếm phải đối mặt với vấn đề về kích thước tệp. Theo quy định, chúng lớn đáng kể. Vấn đề này thường được giải quyết theo hai cách. Đầu tiên là mọi thứ không cần thiết sẽ bị xóa khỏi tệp và chỉ còn lại những gì thực sự cần thiết cho việc tìm kiếm. Phương pháp thứ hai là đối với mỗi vị trí, không phải địa chỉ tuyệt đối được ghi nhớ mà là địa chỉ tương đối, tức là. giải quyết sự khác biệt giữa vị trí hiện tại và trước đó.

Do đó, hai quy trình chính được thực hiện bởi công cụ tìm kiếm là lập chỉ mục các trang, trang và tìm kiếm. Nhìn chung, quá trình lập chỉ mục không gây khó khăn cho công cụ tìm kiếm. Sự cố đang xử lý một triệu yêu cầu mỗi ngày. Điều này là do khối lượng lớn thông tin được xử lý bởi các hệ thống máy tính lớn. Yếu tố chính quyết định số lượng máy chủ tham gia tìm kiếm là tải tìm kiếm. Điều này giải thích một số điều kỳ lạ nảy sinh khi tìm kiếm thông tin.

Công cụ tìm kiếm bao gồm năm thành phần phần mềm riêng biệt:

nhện: một chương trình giống như trình duyệt tải xuống các trang web.

trình thu thập thông tin: một con nhện “du lịch” tự động đi theo tất cả các liên kết được tìm thấy trên một trang.

người lập chỉ mục: một chương trình "mù" phân tích các trang web được tải xuống bởi các con nhện.

kho dữ liệu: lưu trữ các trang được tải xuống và xử lý.

công cụ tìm kiếm kết quả (hệ thống phân phối kết quả): lấy kết quả tìm kiếm từ cơ sở dữ liệu.

Nhện: Spider là một chương trình tải xuống các trang web. Nó hoạt động giống như trình duyệt của bạn khi bạn kết nối với một trang web và tải một trang. Con nhện không có thành phần trực quan. Bạn có thể quan sát hành động tương tự (tải xuống) khi bạn xem một trang nhất định và khi bạn chọn “xem mã HTML” trong trình duyệt của mình.

Trình thu thập thông tin: Giống như một con nhện tải các trang xuống, nó có thể tách trang và tìm tất cả các liên kết. Công việc của nó là xác định nơi con nhện sẽ đi tiếp theo, dựa trên các liên kết hoặc dựa trên danh sách địa chỉ được xác định trước.

Người lập chỉ mục: Người lập chỉ mục phân tích trang thành các phần khác nhau và phân tích chúng. Các phần tử như tiêu đề trang, tiêu đề, liên kết, văn bản, thành phần cấu trúc, phần tử ĐẬM, phần tử ITALIC và các phần kiểu khác của trang được tách biệt và phân tích.

Cơ sở dữ liệu: Cơ sở dữ liệu là kho lưu trữ tất cả dữ liệu mà công cụ tìm kiếm tải xuống và phân tích. Điều này thường đòi hỏi nguồn lực rất lớn.

Tìm kiếm Động cơ Kết quả: Hệ thống kết quả chịu trách nhiệm xếp hạng các trang. Nó quyết định trang nào đáp ứng yêu cầu của người dùng và chúng nên được sắp xếp theo thứ tự nào. Điều này xảy ra theo thuật toán xếp hạng của công cụ tìm kiếm. Thông tin này có giá trị và thú vị nhất đối với chúng tôi - chính với thành phần này của công cụ tìm kiếm mà trình tối ưu hóa tương tác, cố gắng cải thiện vị trí của trang web trong kết quả tìm kiếm, vì vậy trong tương lai chúng tôi sẽ xem xét chi tiết tất cả các yếu tố ảnh hưởng đến xếp hạng kết quả.

Chỉ mục tìm kiếm hoạt động theo ba giai đoạn, trong đó hai giai đoạn đầu tiên là chuẩn bị và vô hình đối với người dùng. Đầu tiên, chỉ mục tìm kiếm thu thập thông tin từ Thế giới Rộng Web . Với mục đích này, các chương trình đặc biệt được sử dụng, trình duyệt tương tự. Họ có thể sao chép một trang Web nhất định vào máy chủ chỉ mục tìm kiếm, quét nó, tìm tất cả các siêu liên kết có các tài nguyên được tìm thấy ở đó, tìm lại các siêu liên kết mà chúng chứa, v.v. Các chương trình tương tự gọi điện sâu, nhện, sâu bướm, nhện, nhện và những cái tên tương tự khác. Mỗi chỉ mục tìm kiếm sử dụng chỉ mục riêng của nó cho mục đích này. chương trình độc đáo, mà anh ấy thường tự phát triển. Nhiều công cụ tìm kiếm hiện đại ra đời từ các dự án thử nghiệm liên quan đến việc phát triển và triển khai các chương trình tự động giám sát Mạng. Về mặt lý thuyết, với nhập cảnh thành công nhện có thể tìm kiếm toàn bộ không gian Web trong một lần lặn, nhưng việc này tốn rất nhiều thời gian và anh ta vẫn cần định kỳ quay lại các tài nguyên đã truy cập trước đó để theo dõi những thay đổi xảy ra ở đó và xác định các liên kết “chết”, tức là những liên kết đó đã mất đi sự liên quan của chúng.

Sau khi sao chép các tài nguyên Web đã tìm kiếm vào máy chủ của công cụ tìm kiếm, giai đoạn thứ hai của công việc bắt đầu - lập chỉ mục. Các trang được lập chỉ mục bởi một chương trình đặc biệt gọi là robot. Mỗi công cụ tìm kiếm có rất nhiều robot như vậy. Tất cả điều này phục vụ mục đích tải xuống song song các tài liệu từ những nơi khác nhau trên mạng. Tải từng tài liệu một cũng chẳng ích gì, như vậy là kém hiệu quả. Hãy tưởng tượng một cái cây không ngừng phát triển. Trên thân của những cánh hoa xuất hiện lặp đi lặp lại (trang web). Tất nhiên, các trang web mới nổi sẽ được lập chỉ mục nhanh hơn nhiều nếu robot được gửi dọc theo từng nhánh của cây, thay vì thực hiện tuần tự.

Về mặt kỹ thuật, mô-đun tải xuống là mô-đun đa phương tiện (Altavista Merkator) hoặc được sử dụng I/O không đồng bộ(GoogleBot). Ngoài ra, các nhà phát triển liên tục phải giải quyết vấn đề máy chủ DNS đa luồng.

Trong sơ đồ đa luồng, các luồng tải xuống được gọi là sâu và người quản lý chúng được gọi là sâu.

Không có nhiều máy chủ có thể xử lý tải hàng trăm sâu, vì vậy người quản lý phải cẩn thận để không làm máy chủ bị quá tải.

Robot sử dụng để tải trang giao thức HTTP. Nó hoạt động như sau. Robot gửi yêu cầu “get/path/document” và các yêu cầu khác đến máy chủ dòng hữu ích có quan hệ với Yêu cầu HTTP. Để phản hồi, robot sẽ nhận được một luồng văn bản chứa thông tin dịch vụ và chính tài liệu đó.

Mục đích của việc tải xuống là giảm lưu lượng mạng đồng thời tối đa hóa tính đầy đủ.

Tuyệt đối tất cả các robot tìm kiếm đều tuân theo tệp robots.txt, nơi quản trị viên web có thể giới hạn việc lập chỉ mục các trang của robot. Robot cũng có các bộ lọc riêng.

Ví dụ: một số robot cảnh giác với việc lập chỉ mục các trang động. Mặc dù bây giờ bậc thầy web họ đi vòng quanh những nơi này mà không gặp vấn đề gì. Và ngày càng có ít robot như vậy còn sót lại.

Mỗi bot cũng có một danh sách các tài nguyên được phân loại là thư rác. Theo đó, các tài nguyên này được bot truy cập ít hơn đáng kể hoặc hoàn toàn bị bỏ qua trong một thời gian nhất định, trong khi các công cụ tìm kiếm không lọc thông tin.

Tải xuống các mô hình hỗ trợ có các mô-đun khác hoạt động chức năng phụ. Chúng giúp giảm lưu lượng truy cập, tăng độ sâu tìm kiếm, xử lý các tài nguyên được cập nhật thường xuyên, lưu trữ URL và liên kết để không tải lại tài nguyên.

Có các mô-đun theo dõi trùng lặp. Chúng giúp lọc ra các trang có thông tin trùng lặp. Những thứ kia. nếu rô-bốt tìm thấy bản sao của một trang đã tồn tại hoặc có thông tin được thay đổi một chút thì đơn giản là nó sẽ không theo dõi các liên kết trang nữa. Có một mô-đun riêng để xác định mã hóa và ngôn ngữ của tài liệu.

Sau khi trang được tải xuống, nó sẽ được xử lý bởi trình phân tích cú pháp html. Nó chỉ để lại những thông tin thực sự quan trọng cho việc tìm kiếm từ tài liệu: văn bản, phông chữ, liên kết, v.v. Mặc dù bây giờ robot lập chỉ mục hầu hết mọi thứ. Và công nghệ javascript và flash. Tuy nhiên, chúng ta không nên quên một số hạn chế của robot.

Trong quá trình lập chỉ mục, các cơ sở dữ liệu đặc biệt được tạo ra với sự trợ giúp mà bạn có thể thiết lập vị trí và thời điểm tìm thấy một từ cụ thể trên Internet. Hãy coi cơ sở dữ liệu được lập chỉ mục như một loại từ điển. Điều cần thiết là công cụ tìm kiếm có thể đáp ứng yêu cầu của người dùng rất nhanh chóng. Các hệ thống hiện đại có thể cung cấp câu trả lời trong chưa đầy một giây, nhưng nếu các chỉ mục không được chuẩn bị trước thì việc xử lý một yêu cầu sẽ tiếp tục trong nhiều giờ.

Ở giai đoạn thứ ba, yêu cầu của khách hàng được xử lý và kết quả tìm kiếm được cung cấp cho anh ta dưới dạng danh sách các siêu liên kết. Giả sử một khách hàng muốn tìm xem ở đâu trên Internet có các trang Web đề cập đến thợ cơ khí, bác sĩ nhãn khoa và nhà toán học nổi tiếng người Hà Lan Christiaan Huygens. Anh nhập từ Huygens vào ô từ khóa rồi nhấn nút. Tìm kiếm. Sử dụng cơ sở dữ liệu chỉ mục của nó, công cụ tìm kiếm sẽ tìm kiếm các tài nguyên Web phù hợp trong tích tắc và tạo ra một trang kết quả tìm kiếm trên đó các đề xuất được trình bày dưới dạng siêu liên kết. Sau đó, khách hàng có thể sử dụng các liên kết này để điều hướng đến các tài nguyên quan tâm.

Tất cả điều này có vẻ đơn giản, nhưng trên thực tế lại có vấn đề. Vấn đề chính Internet hiện đại liên quan đến rất nhiều trang Web. Chỉ cần nhập một từ đơn giản như bóng đá vào trường tìm kiếm là đủ và công cụ tìm kiếm của Nga sẽ trả về hàng nghìn liên kết, nhóm chúng thành 10-20 phần trên trang hiển thị.

Vài nghìn không phải là nhiều, vì một công cụ tìm kiếm nước ngoài trong tình huống tương tự sẽ trả về hàng trăm nghìn liên kết. Hãy cố gắng tìm thứ bạn cần trong số đó! Tuy nhiên, đối với người tiêu dùng bình thường, việc họ nhận được một nghìn hay một triệu kết quả tìm kiếm hoàn toàn không có gì khác biệt. Theo quy định, khách hàng không xem quá 50 liên kết ngay từ đầu và điều gì xảy ra tiếp theo không ai quan tâm. Tuy nhiên, khách hàng lại rất, rất quan tâm đến chất lượng. việc đầu tiên liên kết. Khách hàng không thích khi có các liên kết trong top 10 không còn phù hợp nữa; họ cảm thấy khó chịu khi liên tiếp có các liên kết đến các tệp lân cận trên cùng một máy chủ. Tùy chọn tồi tệ nhất là khi có một số liên kết liên tiếp dẫn đến cùng một tài nguyên nhưng nằm trên các máy chủ khác nhau.

Khách hàng có quyền mong đợi rằng các liên kết hữu ích nhất sẽ được liệt kê đầu tiên. Đây là nơi phát sinh vấn đề. Một người có thể dễ dàng phân biệt tài nguyên hữu ích từ vô ích, nhưng làm thế nào để giải thích điều này với chương trình?! Đó là lý do tại sao các công cụ tìm kiếm tốt nhất lại làm việc kỳ diệu trí tuệ nhân tạo trong nỗ lực sắp xếp các liên kết được tìm thấy theo chất lượng tài nguyên của họ. Và họ phải làm điều này một cách nhanh chóng - khách hàng không muốn chờ đợi.

Nói đúng ra, tất cả các công cụ tìm kiếm đều lấy thông tin nguồn từ cùng một không gian Web, do đó cơ sở dữ liệu nguồn của chúng có thể tương đối giống nhau. Và chỉ ở giai đoạn thứ ba, khi cung cấp kết quả tìm kiếm, mỗi công cụ tìm kiếm mới bắt đầu hiển thị các tính năng riêng lẻ tốt nhất (hoặc tệ nhất). Thao tác sắp xếp kết quả thu được gọi là xếp hạng. Hệ thống chỉ định xếp hạng cho từng trang Web được tìm thấy, điều này sẽ phản ánh chất lượng của tài liệu. Nhưng chất lượng là một khái niệm chủ quan và chương trình cần những tiêu chí khách quan có thể thể hiện bằng những con số phù hợp để so sánh.

Thứ hạng cao đạt được bởi các trang Web có từ khóa được sử dụng trong truy vấn được bao gồm trong tiêu đề. Mức độ xếp hạng sẽ tăng lên nếu từ đó xuất hiện nhiều lần trên một trang Web nhưng không quá thường xuyên. Việc gia nhập có ảnh hưởng có lợi đến xếp hạng từ đúng lần đầu tiên, 5-6 đoạn văn bản - chúng được coi là quan trọng nhất để lập chỉ mục. Vì lý do này, các Quản trị viên web có kinh nghiệm tránh đặt các bảng ở đầu trang của họ. Đối với một công cụ tìm kiếm, mỗi ô trong bảng trông giống như một đoạn văn và do đó, phần nội dung có ý nghĩa dường như bị đẩy lùi về phía sau (mặc dù điều này không được chú ý trên màn hình) và không còn đóng vai trò quyết định đối với công cụ tìm kiếm.

Thật tuyệt nếu các từ khóa được sử dụng trong truy vấn được đưa vào văn bản thay thế đi kèm với hình minh họa. Đối với công cụ tìm kiếm, đây là dấu hiệu chắc chắn rằng trang này khớp chính xác với yêu cầu. Một dấu hiệu khác về chất lượng của một trang Web là nó có các liên kết từ một số trang Web khác. Càng có nhiều thì càng tốt. Điều này có nghĩa là trang Web này phổ biến và có mức độ đánh giá cao chỉ số trích dẫn Các công cụ tìm kiếm tiên tiến nhất giám sát mức độ trích dẫn của các trang Web mà chúng đăng ký và tính đến nó khi xếp hạng.

Những người tạo ra các trang Web luôn quan tâm đến việc có nhiều người xem hơn nên họ đặc biệt chuẩn bị các trang để các công cụ tìm kiếm xếp hạng cao. Công việc tốt, thành thạo của một quản trị viên Web có thể tăng đáng kể lưu lượng truy cập vào một trang Web, nhưng cũng có những “bậc thầy” cố gắng đánh lừa các công cụ tìm kiếm và gán cho các trang Web của họ tầm quan trọng mà họ thực sự không có. Họ lặp đi lặp lại một số từ hoặc nhóm từ nhất định trên một trang Web và để không gây chú ý cho người đọc, họ hoặc viết bằng phông chữ cực nhỏ hoặc sử dụng màu văn bản phù hợp với màu nền. Đối với những “thủ thuật” như vậy, công cụ tìm kiếm có thể trừng phạt một trang Web bằng cách gán cho nó một đánh giá tiêu cực.

2 Tổng quan về hoạt động của công cụ tìm kiếm

2.1 Công cụ tìm kiếm nước ngoài: thành phần và nguyên tắc hoạt động

Trong số được công nhận nhất là AltaVista, tiềm năng phần cứng và phần mềm mạnh mẽ nhất, cho phép bạn tìm kiếm bất kỳ từ nào trong văn bản của trang Web hoặc một bài báo trong một nhóm tin (dữ liệu từ năm 1998). AltaVista chứa thông tin về 30 triệu trang Web và bài viết từ 14 nghìn nhóm tin.

Hệ thống này sử dụng một cơ chế khá phức tạp để soạn một truy vấn, bao gồm sự kết hợp của các từ, cụm từ và dấu chấm câu riêng lẻ: dấu ngoặc kép, dấu chấm phẩy, dấu hai chấm, dấu ngoặc đơn, dấu cộng và dấu trừ hoặc các toán tử Boolean thông thường AND, OR, NOT và NEAR ( sau trong khuôn khổ tìm kiếm phức tạp - Tìm kiếm nâng cao). Sự kết hợp của chúng giúp tạo ra đơn thuốc tìm kiếm một cách chính xác nhất.

Như vậy, dấu cộng đứng trước một từ có nghĩa là thuật ngữ này phải có trong tài liệu; ngược lại, dấu trừ sẽ loại bỏ tất cả những tài liệu có chứa khái niệm này. Hệ thống cho phép tìm kiếm theo cả cụm từ (trong trường hợp này là toàn bộ cụm từ được đặt trong dấu ngoặc kép), cũng như tìm kiếm với phần đuôi rút gọn, có dấu “*” đặt ở cuối từ. Ví dụ: để có được thông tin về tất cả các tài liệu tiếng Nga liên quan đến thủ thư, chỉ cần nhập “thư viện*”.

Người dùng cũng được cung cấp tùy chọn giới hạn truy vấn theo ngày tài liệu được tạo/cập nhật lần cuối.

Tìm kiếm tất cả các từ của văn bản được khai báo trong HotBot, ngày nay là công cụ tìm kiếm mạnh mẽ nhất dành riêng cho World Wide Web (chứa thông tin về 54 triệu tài liệu). Tìm kiếm chuyên sâu - Tìm kiếm chuyên gia trong HotBot mang lại kết quả đáng kinh ngạc nhiều cơ hộiđể biết chi tiết yêu cầu.

Điều này đạt được thông qua việc sử dụng menu nhiều bước Các tùy chọn khác nhau lập thứ tự tìm kiếm.

Bạn có thể tìm kiếm sự kết hợp của một số thuật ngữ khác nhau trong tài liệu, tìm kiếm một cụm từ hoặc tìm kiếm một người hoặc địa chỉ email cụ thể. Để nêu chi tiết yêu cầu, có thể sử dụng các điều kiện NÊN - “có thể chứa”, PHẢI - “phải nhất thiết phải chứa”, KHÔNG PHẢI – “không nên chứa” liên quan đến bất kỳ khái niệm nào.

Một công cụ tìm kiếm thú vị là kích thích, cũng cung cấp khả năng tìm kiếm toàn văn của hơn 50 triệu trang Web.

Điều đặc biệt khi làm việc với nó là các yêu cầu đối với hệ thống này được thực hiện bằng ngôn ngữ tự nhiên (tất nhiên là bằng tiếng Anh) như thể chúng ta đang hỏi một người.

Một hệ thống đặc biệt, được thiết kế trên cơ sở Trích xuất khái niệm thông minh, phân tích yêu cầu và cung cấp các liên kết đến các tài liệu có liên quan, theo quan điểm máy tính của nó.

Tuy nhiên, thực tế cho thấy Excite chỉ xử lý chính xác các truy vấn có một âm tiết. Để có được thông tin về các chủ đề phức tạp, tốt hơn là sử dụng các công cụ tìm kiếm khác.

Một trong hệ thống hiện đại, cung cấp khả năng tìm kiếm trên tất cả các từ của văn bản là văn bản mở .

Tuy nhiên, người dùng có thể tùy ý giới hạn phạm vi tìm kiếm chỉ ở những phần chính và quan trọng nhất của trang Web: tiêu đề, tiêu đề đầu tiên, tóm tắt, địa chỉ email (URL).

Điều này rất thuận tiện nếu bạn chỉ muốn tìm những tác phẩm chính về một chủ đề rộng. Như trong các trường hợp trước, các truy vấn khó nhất được thực hiện bằng cách sử dụng tìm kiếm phức tạp - Power Search.

Giao diện của nó giúp việc tạo thứ tự tìm kiếm bằng menu nhiều bước khá dễ dàng.

Menu này cung cấp các dòng để nhập các thuật ngữ cho biết trường nào sẽ chứa dữ liệu được tìm kiếm kết hợp với các toán tử quen thuộc VÀ (và), HOẶC (hoặc), NHƯNG KHÔNG (nhưng không), NEAR (bên cạnh) và FOLLOWED BY (nên phía sau) .

2.2 Công cụ tìm kiếm tiếng Nga: thành phần và nguyên tắc hoạt động

Trong những năm gần đây, việc thực hành xếp hạng thương mại cũng đã phát triển. Về mặt kỹ thuật, họ được trang bị nhiều nhất phương tiện hiện đại, tương ứng với mức 2000, và kích thước tổng thể Runet (khu vực Internet của Nga) ngày nay gần giống với khu vực phương Tây vào năm 1994-1995. Vì vậy, ngày nay ở Nga vấn đề đặc biệt không có thông tin nào liên quan đến việc tìm kiếm và chúng không được mong đợi trong tương lai gần. Nhưng ở khu vực phương Tây, vấn đề tìm kiếm rất lớn và các công cụ tìm kiếm khác nhau đang cố gắng khắc phục chúng theo những cách khác nhau. Chúng tôi sẽ cho bạn biết điều này xảy ra như thế nào.

Trong số các chỉ mục tìm kiếm ở Nga ngày nay, có ba “trụ cột” (cũng có những hệ thống nhỏ hơn, nhưng chúng tôi sẽ không tập trung vào chúng). Đó là Rambler (www.rambler.ru), Yandex (www.yandex.ru) và Aport2000 (www.aport.ru).

Trong lịch sử, công cụ tìm kiếm phổ biến nhất là Rambler. Cô ấy bắt đầu làm việc sớm hơn những người khác và trong một khoảng thời gian dài dẫn đầu về quy mô chỉ mục tìm kiếm và chất lượng dịch vụ tìm kiếm. Than ôi, ngày nay những thành tựu này đã là quá khứ. Mặc dù thực tế là kích thước của chỉ mục tìm kiếm Rambler xấp xỉ 12 triệu trang Web nhưng nó đã không được cập nhật chính xác trong một thời gian dài và tạo ra các kết quả lỗi thời. Ngày nay Rambler là một cổng thông tin phổ biến, hệ thống phân loại và xếp hạng tốt nhất ở Nga (chúng tôi sẽ cho bạn biết nó là gì bên dưới) cùng với một nền tảng quảng cáo. Theo truyền thống, hệ thống này giữ vị trí đầu tiên ở Nga về số lượng người tham dự và có Thu nhập tốt từ quảng cáo. Nhưng quỹ, như chúng tôi sẽ trình bày bên dưới, không được đầu tư vào việc phát triển các công cụ tìm kiếm. Chỉ mục lớn nhất nằm ở trung tâm của hệ thống Yandex - khoảng 27 triệu trang Web, nhưng vấn đề không chỉ là quy mô. Đây không chỉ là một con trỏ tới các tài nguyên mà còn là một con trỏ tới các tài nguyên mới nhất. Xét về mức độ liên quan, Yandex ngày nay là người dẫn đầu không thể tranh cãi. Hệ thống Aport chiến thắng ở giai đoạn thứ ba: tại thời điểm trình bày thông tin cho khách hàng. Cô ấy không nỗ lực để tạo ra chính mình con trỏ lớn bằng phương tiện tự động, nhưng thay vào đó lại sử dụng rộng rãi thông tin được xử lý thủ công từ danh mục @Rus. Do đó, hệ thống không đưa ra nhiều kết quả như các đối thủ cạnh tranh gần nhất nhưng những kết quả này thường chính xác và được trình bày rõ ràng.

Kết luận được viết ở cuối và hàm ý sự hữu hạn. Nhưng sự phát triển của thông tin là vô tận, và do đó không có giới hạn nào cho việc cải tiến công cụ tìm kiếm. Nhiệm vụ quan trọng nhất của các nhà phát triển là cải thiện chất lượng tìm kiếm, hướng tới hiệu quả cao hơn và tính dễ sử dụng của hệ thống. Với mục đích này, các thuật toán tìm kiếm liên tục thay đổi, tạo ra dịch vụ bổ sung, thiết kế đang được hoàn thiện.

Tuy nhiên, để tồn tại trong thế giới Internet năng động, trong quá trình phát triển, cần phải xây dựng một mức độ ổn định lớn, không ngừng nhìn về tương lai và thử tải tương lai cho tìm kiếm ngày nay. Cách tiếp cận này cho phép chúng tôi không chỉ giải quyết cuộc đấu tranh liên tục và khả năng thích ứng của công cụ tìm kiếm với lượng thông tin ngày càng tăng mà còn triển khai một cái gì đó mới, thực sự quan trọng và cần thiết để cải thiện hiệu quả tìm kiếm trên Internet.

Thư mục:

1. E. Kolmanovskaya, CompTek International, Yandex: Hệ thống tìm kiếm Internet/Intranet của Nga.

2. Abrosimov A.G., Abramov N.V., Motovilov N.V., Kinh tế doanh nghiệp Hệ thông thông tin, học thuật làng bản SGEA, 2005.

3. Hệ thống truy xuất thông tin. – http://www.comptek.ru/yandex/yand_about.html.

4. Troyan G.M. Tìm kiếm trong phần nói tiếng Nga của Internet: công cụ tìm kiếm Hệ thống Yandex// Đài phát thanh nghiệp dư. Máy tính của bạn. – Số 1-3 năm 2000.

5. Hướng dẫn hiện đại để làm việc trên Internet. nhất chương trình phổ biến: Thực hành. trợ cấp – Ed. Komyagina V.B. – M.: Nhà xuất bản “Chiến thắng”, 1999. – 368 tr.

Giới thiệu………………………………..2

1 Công cụ tìm kiếm: thành phần, chức năng, nguyên lý hoạt động

1.1 Thành phần của công cụ tìm kiếm……………………….…………3

1.2 Đặc điểm của công cụ tìm kiếm……..4

1.3 Nguyên lý của công cụ tìm kiếm………………………..4

2 Tổng quan về hoạt động của công cụ tìm kiếm

2.1 Công cụ tìm kiếm nước ngoài: thành phần và nguyên lý hoạt động…………12

2.2 Công cụ tìm kiếm tiếng Nga: thành phần và nguyên tắc hoạt động….…..14

Kết luận……………………………………………………..……16

Danh sách tài liệu tham khảo………………………..………….17

Giới thiệu

Các công cụ tìm kiếm từ lâu đã trở thành một phần không thể thiếu của Internet Nga do chúng, mặc dù bằng nhiều cách khác nhau, cung cấp độc lập tất cả các giai đoạn xử lý thông tin từ khi nhận thông tin từ các nút nguồn chính đến việc cung cấp cho người dùng khả năng tìm kiếm. thường được gọi công cụ tìm kiếm tự động hệ thống .

Các công cụ tìm kiếm hiện nay là những cơ chế khổng lồ và phức tạp, không chỉ đại diện cho một công cụ tìm kiếm thông tin mà còn là những lĩnh vực hấp dẫn đối với doanh nghiệp. Các hệ thống này có thể khác nhau về nguyên tắc lựa chọn thông tin, hiện diện ở mức độ này hay mức độ khác trong thuật toán chỉ mục tự động. chương trình quét và các quy tắc ứng xử dành cho nhân viên danh mục chịu trách nhiệm đăng ký. Thông thường, hai chỉ số chính được so sánh:

Quy mô không gian mà IPS hoạt động là

Và chuyên môn của cô ấy.

Hầu hết người dùng công cụ tìm kiếm chưa bao giờ nghĩ (hoặc nghĩ về nó nhưng không tìm thấy câu trả lời) về nguyên tắc hoạt động của công cụ tìm kiếm, về sơ đồ xử lý yêu cầu của người dùng, về những gì các hệ thống này bao gồm và cách chúng hoạt động.. Các công cụ tìm kiếm có thể được so sánh với một bộ phận trợ giúp, có các đại lý đi khắp doanh nghiệp, thu thập thông tin vào cơ sở dữ liệu. Khi bạn liên hệ với dịch vụ, thông tin sẽ được lấy từ cơ sở dữ liệu này. Dữ liệu trong cơ sở dữ liệu trở nên lỗi thời nên các đại lý phải cập nhật dữ liệu đó định kỳ. Một số doanh nghiệp tự gửi thông tin về mình, đại lý không cần phải đến gặp. Nói cách khác, help desk có hai chức năng: tạo và cập nhật liên tục dữ liệu trong cơ sở dữ liệu và tìm kiếm thông tin trong cơ sở dữ liệu theo yêu cầu của khách hàng.

1 Công cụ tìm kiếm: thành phần, chức năng, nguyên lý hoạt động

1.1 Thành phần của công cụ tìm kiếm

Hệ thống tìm kiếm là một tổ hợp phần mềm và phần cứng được thiết kế để tìm kiếm trên Internet và đáp ứng yêu cầu của người dùng, được chỉ định dưới dạng cụm từ văn bản (truy vấn tìm kiếm), bằng cách tạo danh sách các liên kết đến các nguồn thông tin, theo thứ tự mức độ liên quan ( theo yêu cầu). Các công cụ tìm kiếm quốc tế lớn nhất: Google, Yahoo, MSN. Trên Internet Nga có Yandex, Rambler, Aport.

Tương tự, một công cụ tìm kiếm bao gồm hai phần: cái gọi là robot (hoặc nhện), thu thập dữ liệu các máy chủ Web và tạo cơ sở dữ liệu cho công cụ tìm kiếm.

Cơ sở của robot chủ yếu được hình thành bởi chính nó (robot tự tìm thấy các liên kết đến các tài nguyên mới) và ở mức độ thấp hơn nhiều bởi các chủ sở hữu tài nguyên đăng ký trang web của họ trong công cụ tìm kiếm. Ngoài robot (tác nhân mạng, nhện, sâu) hình thành cơ sở dữ liệu, còn có một chương trình xác định xếp hạng của các liên kết được tìm thấy.

Nguyên tắc hoạt động của công cụ tìm kiếm là nó truy vấn danh mục (cơ sở dữ liệu) nội bộ của nó để tìm các từ khóa mà người dùng chỉ định trong trường truy vấn và tạo ra danh sách các liên kết được xếp hạng theo mức độ liên quan.

Cần lưu ý rằng, khi xử lý một yêu cầu cụ thể của người dùng, công cụ tìm kiếm hoạt động chính xác dựa trên các tài nguyên nội bộ (và không bắt đầu hành trình trên Web, như những người dùng thiếu kinh nghiệm thường tin) và các tài nguyên nội bộ đương nhiên bị hạn chế. Mặc dù cơ sở dữ liệu của công cụ tìm kiếm được cập nhật liên tục nhưng công cụ tìm kiếm không thể lập chỉ mục tất cả các tài liệu Web: số lượng của chúng quá lớn. Do đó, luôn có khả năng tài nguyên bạn đang tìm kiếm không được một công cụ tìm kiếm cụ thể nào biết đến.

1.2 Tính năng của công cụ tìm kiếm

Trong tác phẩm, quá trình tìm kiếm được trình bày theo bốn giai đoạn: xây dựng công thức (xảy ra trước khi bắt đầu tìm kiếm); hành động (bắt đầu tìm kiếm); tổng quan về kết quả (kết quả mà người dùng nhìn thấy sau khi tìm kiếm); và sàng lọc (sau khi xem xét kết quả và trước khi quay lại tìm kiếm với công thức khác có cùng nhu cầu). Một sơ đồ tìm kiếm thông tin phi tuyến thuận tiện hơn bao gồm các bước sau:

Khắc phục nhu cầu thông tin bằng ngôn ngữ tự nhiên;

Lựa chọn các dịch vụ tìm kiếm mạng cần thiết và chính thức hóa việc ghi lại nhu cầu thông tin bằng các ngôn ngữ truy xuất thông tin cụ thể (IRL);

Thực hiện các truy vấn đã tạo;

Xử lý trước và lựa chọn danh sách nhận được các liên kết đến tài liệu;

Liên hệ các địa chỉ đã chọn để lấy các tài liệu cần thiết;

Xem trước nội dung của các tài liệu được tìm thấy;

Lưu các tài liệu liên quan để nghiên cứu sau này;

Trích xuất liên kết từ các tài liệu liên quan để mở rộng truy vấn;

Nghiên cứu toàn bộ mảng tài liệu đã lưu;

Nếu nhu cầu thông tin chưa được đáp ứng đầy đủ thì quay lại giai đoạn đầu tiên.

1.3 Cách thức hoạt động của công cụ tìm kiếm

Mục tiêu của bất kỳ công cụ tìm kiếm nào là cung cấp cho mọi người thông tin họ đang tìm kiếm. Dạy mọi người đưa ra những yêu cầu “đúng”, tức là. các truy vấn tuân thủ nguyên tắc hoạt động của công cụ tìm kiếm là không thể. Do đó, các nhà phát triển tạo ra các thuật toán và nguyên tắc hoạt động cho các công cụ tìm kiếm cho phép người dùng tìm thấy chính xác thông tin họ đang tìm kiếm. Điều này có nghĩa là công cụ tìm kiếm phải “suy nghĩ” giống như cách người dùng nghĩ khi tìm kiếm thông tin.

Hầu hết các công cụ tìm kiếm đều hoạt động theo nguyên tắc lập chỉ mục trước. Cơ sở dữ liệu của hầu hết các công cụ tìm kiếm đều hoạt động theo nguyên tắc giống nhau.

Có một nguyên tắc xây dựng khác. Tìm kiếm trực tiếp. Nó bao gồm việc lật từng trang sách để tìm kiếm từ khóa. Tất nhiên, phương pháp này kém hiệu quả hơn nhiều.

Trong phiên bản có chỉ mục đảo ngược, các công cụ tìm kiếm phải đối mặt với vấn đề về kích thước tệp. Theo quy định, chúng lớn đáng kể. Vấn đề này thường được giải quyết theo hai cách. Đầu tiên là mọi thứ không cần thiết sẽ bị xóa khỏi tệp và chỉ còn lại những gì thực sự cần thiết cho việc tìm kiếm. Phương pháp thứ hai là đối với mỗi vị trí, không phải địa chỉ tuyệt đối được ghi nhớ mà là địa chỉ tương đối, tức là. giải quyết sự khác biệt giữa vị trí hiện tại và trước đó.

Do đó, hai quy trình chính được thực hiện bởi công cụ tìm kiếm là lập chỉ mục các trang, trang và tìm kiếm. Nhìn chung, quá trình lập chỉ mục không gây khó khăn cho công cụ tìm kiếm. Sự cố đang xử lý một triệu yêu cầu mỗi ngày. Điều này là do khối lượng lớn thông tin được xử lý bởi các hệ thống máy tính lớn. Yếu tố chính quyết định số lượng máy chủ tham gia tìm kiếm là tải tìm kiếm. Điều này giải thích một số điều kỳ lạ nảy sinh khi tìm kiếm thông tin.

Công cụ tìm kiếm bao gồm năm thành phần phần mềm riêng biệt:

nhện: một chương trình giống như trình duyệt tải xuống các trang web.

trình thu thập thông tin: một con nhện “du lịch” tự động đi theo tất cả các liên kết được tìm thấy trên một trang.

người lập chỉ mục: một chương trình "mù" phân tích các trang web được tải xuống bởi các con nhện.

kho dữ liệu: lưu trữ các trang được tải xuống và xử lý.

công cụ tìm kiếm kết quả (hệ thống phân phối kết quả): lấy kết quả tìm kiếm từ cơ sở dữ liệu.

Nhện: Spider là một chương trình tải xuống các trang web. Nó hoạt động giống như trình duyệt của bạn khi bạn kết nối với một trang web và tải một trang. Con nhện không có thành phần trực quan. Bạn có thể quan sát hành động tương tự (tải xuống) khi bạn xem một trang nhất định và khi bạn chọn “xem mã HTML” trong trình duyệt của mình.

Trình thu thập thông tin: Giống như một con nhện tải các trang xuống, nó có thể tách trang và tìm tất cả các liên kết. Công việc của nó là xác định nơi con nhện sẽ đi tiếp theo, dựa trên các liên kết hoặc dựa trên danh sách địa chỉ được xác định trước.

Người lập chỉ mục: Người lập chỉ mục phân tích trang thành các phần khác nhau và phân tích chúng. Các phần tử như tiêu đề trang, tiêu đề, liên kết, văn bản, thành phần cấu trúc, phần tử ĐẬM, phần tử ITALIC và các phần kiểu khác của trang được tách biệt và phân tích.

Cơ sở dữ liệu: Cơ sở dữ liệu là kho lưu trữ tất cả dữ liệu mà công cụ tìm kiếm tải xuống và phân tích. Điều này thường đòi hỏi nguồn lực rất lớn.

Tìm kiếm Động cơ Kết quả: Hệ thống kết quả chịu trách nhiệm xếp hạng các trang. Nó quyết định trang nào đáp ứng yêu cầu của người dùng và chúng nên được sắp xếp theo thứ tự nào. Điều này xảy ra theo thuật toán xếp hạng của công cụ tìm kiếm. Thông tin này có giá trị và thú vị nhất đối với chúng tôi - chính với thành phần này của công cụ tìm kiếm mà trình tối ưu hóa tương tác, cố gắng cải thiện vị trí của trang web trong kết quả tìm kiếm, vì vậy trong tương lai chúng tôi sẽ xem xét chi tiết tất cả các yếu tố ảnh hưởng đến xếp hạng kết quả.

Chỉ mục tìm kiếm hoạt động theo ba giai đoạn, trong đó hai giai đoạn đầu tiên là chuẩn bị và vô hình đối với người dùng. Đầu tiên, chỉ mục tìm kiếm thu thập thông tin từ Thế giới Rộng Web . Để làm điều này, hãy sử dụng các chương trình đặc biệt, tương tự như trình duyệt. Họ có thể sao chép một trang Web nhất định vào máy chủ chỉ mục tìm kiếm, xem nó, tìm tất cả các siêu liên kết có các tài nguyên đó được tìm thấy ở đó, tìm lại các siêu liên kết mà chúng chứa, v.v. Các chương trình như vậy được gọi là sâu, nhện, sâu bướm, nhện, nhện và những cái tên tương tự khác. Mỗi chỉ mục tìm kiếm sử dụng chương trình riêng của nó cho mục đích này và chương trình này thường tự phát triển. Nhiều công cụ tìm kiếm hiện đại ra đời từ các dự án thử nghiệm liên quan đến việc phát triển và triển khai các chương trình tự động giám sát Mạng. Về mặt lý thuyết, với một mục nhập thành công nhện có thể tìm kiếm toàn bộ không gian Web trong một lần lặn, nhưng việc này tốn rất nhiều thời gian và anh ta vẫn cần định kỳ quay lại các tài nguyên đã truy cập trước đó để theo dõi những thay đổi xảy ra ở đó và xác định các liên kết “chết”, tức là những liên kết đó đã mất đi sự liên quan của chúng.