Công cụ tìm kiếm là gì hoặc công cụ tìm kiếm hoạt động như thế nào? Công cụ tìm kiếm trên Internet

Công cụ tìm kiếm

Công cụ tìm kiếm cho phép bạn tìm các tài liệu WWW liên quan đến các chủ đề nhất định hoặc được trang bị từ khóa hoặc sự kết hợp của chúng. Có hai phương pháp tìm kiếm được sử dụng trên các máy chủ tìm kiếm:

· Theo hệ thống phân cấp của các khái niệm;

· Theo từ khóa.

Máy chủ tìm kiếm được điền tự động hoặc thủ công. Máy chủ tìm kiếm thường có liên kết đến các máy chủ tìm kiếm khác và gửi cho chúng yêu cầu tìm kiếm theo yêu cầu của người dùng.

Có hai loại công cụ tìm kiếm.

1. Công cụ tìm kiếm "toàn văn bản" lập chỉ mục mọi từ trên trang web, ngoại trừ các từ dừng.

2. Công cụ tìm kiếm "Tóm tắt" tạo ra phần tóm tắt của mỗi trang.

Đối với quản trị viên web, công cụ toàn văn bản hữu ích hơn vì bất kỳ từ nào được tìm thấy trên trang web đều được phân tích để xác định mức độ liên quan của nó với truy vấn của người dùng. Tuy nhiên, các công cụ trừu tượng có thể lập chỉ mục các trang tốt hơn các trang toàn văn. Điều này phụ thuộc vào thuật toán trích xuất thông tin, chẳng hạn như tần suất sử dụng các từ giống nhau.

Đặc điểm chính của công cụ tìm kiếm.

1. Kích thước của công cụ tìm kiếm được xác định bởi số lượng trang được lập chỉ mục. Tuy nhiên, tại bất kỳ thời điểm nào, các liên kết được cung cấp để đáp ứng yêu cầu của người dùng có thể ở các độ tuổi khác nhau. Lý do tại sao điều này xảy ra:

· Một số công cụ tìm kiếm ngay lập tức lập chỉ mục trang theo yêu cầu của người dùng, sau đó tiếp tục lập chỉ mục các trang chưa được lập chỉ mục.

· những người khác thường lập chỉ mục các trang web phổ biến nhất.

2. Ngày lập chỉ mục. Một số công cụ tìm kiếm hiển thị ngày tài liệu được lập chỉ mục. Điều này giúp người dùng xác định thời điểm tài liệu xuất hiện trực tuyến.

3. Độ sâu lập chỉ mục cho biết có bao nhiêu trang sau trang được chỉ định mà công cụ tìm kiếm sẽ lập chỉ mục. Hầu hết các máy không có hạn chế về độ sâu lập chỉ mục. Lý do tại sao không phải tất cả các trang đều có thể được lập chỉ mục:

· sử dụng sai cấu trúc khung.

· sử dụng sơ đồ trang web mà không cần sao chép các liên kết thông thường

4.Làm việc với khung. Nếu robot tìm kiếm không biết cách làm việc với các cấu trúc khung thì nhiều cấu trúc có khung sẽ bị bỏ sót trong quá trình lập chỉ mục.

5. Tần suất liên kết. Các công cụ tìm kiếm chính có thể xác định mức độ phổ biến của một tài liệu bằng tần suất nó được liên kết đến. Một số máy, dựa trên dữ liệu đó, “kết luận” liệu có đáng lập chỉ mục tài liệu hay không.

6. Tần suất cập nhật máy chủ. Nếu máy chủ được cập nhật thường xuyên, công cụ tìm kiếm sẽ lập chỉ mục lại nó thường xuyên hơn.

7. Kiểm soát chỉ mục. Hiển thị những công cụ bạn có thể sử dụng để điều khiển công cụ tìm kiếm.

8. Chuyển hướng. Một số trang web chuyển hướng khách truy cập từ máy chủ này sang máy chủ khác và tùy chọn này cho biết điều này sẽ liên quan như thế nào đến các tài liệu được tìm thấy.

9.Ngưng lời nói. Một số công cụ tìm kiếm không đưa một số từ nhất định vào chỉ mục của chúng hoặc có thể không đưa những từ đó vào truy vấn của người dùng. Những từ này thường được coi là giới từ hoặc những từ được sử dụng thường xuyên.

10. Phạt thư rác. Khả năng chặn thư rác.

11.Xóa dữ liệu cũ. Một tham số xác định hành động của quản trị viên web khi đóng máy chủ hoặc di chuyển nó sang địa chỉ khác.

Ví dụ về công cụ tìm kiếm.

1. Altavista. Hệ thống được khai trương vào tháng 12 năm 1995. Thuộc sở hữu của DEC. Từ năm 1996, ông đã cộng tác với Yahoo. AltaVista là lựa chọn tốt nhất cho tìm kiếm tùy chỉnh . Tuy nhiên, việc sắp xếp kết quả theo danh mụcĐiều này không được thực hiện và bạn phải xem lại thông tin được cung cấp theo cách thủ công. AltaVista không cung cấp bất kỳ phương tiện nào để truy xuất danh sách các trang web đang hoạt động, tin tức hoặc các khả năng tìm kiếm nội dung khác.

2.Tìm kiếm kích thích. Ra mắt vào cuối năm 1995. Vào tháng 9 năm 1996 - được WebCrawler mua lại. Đơn vị này có bộ lông tìm kiếm mạnh mẽthấp, khả năng cài đặt riêng lẻ tự độngthông tin được cung cấp, cũng như trình độ chuyên môn được biên soạnmô tả của nhiều nút bởi nhân viên có trình độ. kích thích khác với các nút tìm kiếm khác ở chỗcho phép bạn tìm kiếm các dịch vụ tin tức và xuất bản các bài đánh giá Trang web. Công cụ tìm kiếm sử dụng các công cụtìm kiếm từ khóa tiêu chuẩn và heuristiccác phương pháp tìm kiếm nội dung Nhờ sự kết hợp này,bạn có thể tìm thấy các trang có liên quan Web nếu chúng không chứa khóa do người dùng chỉ định từ Nhược điểm của Excite là một giao diện hơi hỗn loạn.

3.HotBot. Ra mắt vào tháng 5 năm 1996. Thuộc sở hữu của Wired. Dựa trên công nghệ máy tìm kiếm Berkeley Inktomi. HotBot là cơ sở dữ liệu chứa các tài liệu được lập chỉ mục toàn văn bản và là một trong những công cụ tìm kiếm toàn diện nhất trên Web. Khả năng tìm kiếm Boolean và khả năng giới hạn tìm kiếm trong bất kỳ khu vực hoặc trang Web nào giúp người dùng tìm thấy thông tin họ cần trong khi lọc ra thông tin họ không cần. HotBot cung cấp khả năng chọn tham số tìm kiếm mong muốn từ danh sách thả xuống.

4.Tìm kiếm thông tin. Ra mắt trước năm 1995, dễ dàng tiếp cận. Hiện nay có khoảng 50 triệu URL. Infoseek có giao diện được thiết kế tốt và phương tiện tìm kiếm tuyệt vời. Hầu hết các câu trả lời cho các truy vấn đều đi kèm với liên kết “chủ đề liên quan” và sau mỗi câu trả lời đều có liên kết “các trang tương tự”. Cơ sở dữ liệu công cụ tìm kiếm của các trang được lập chỉ mục theo toàn văn. Các câu trả lời được sắp xếp theo hai chỉ số: tần suất xuất hiện của từ hoặc cụm từ trên trang tsakh, cũng như vị trí của các từ hoặc cụm từ trên trang. Có một Danh mục Web, được chia thành 12 danh mục với hàng trăm danh mục con có thể tìm kiếm. Mỗi trang danh mục chứa một danh sách các nút được đề xuất.

5. Lycos. Hoạt động từ tháng 5 năm 1994. Được nhiều người biết đến và sử dụng. Nó bao gồm một thư mục với số lượng lớn các URL. và công cụ tìm kiếm Point với công nghệ phân tích thống kê nội dung trang, trái ngược với việc lập chỉ mục toàn văn. Lycos chứa tin tức, đánh giá trang web, liên kết đến các trang web phổ biến, bản đồ thành phố và các công cụ tìm địa chỉ, hình ảnh biểu thức và âm thanh và video clip. Lycos sắp xếp câu trả lời theo mức độ tương quanđáp ứng yêu cầu dựa trên một số tiêu chí, ví dụ: sốlu thuật ngữ tìm kiếm được tìm thấy trong phần tóm tắt của tài liệutâm trí, khoảng cách giữabằng các từ trong một cụm từ cụ thể của tài liệu, vị trícác điều khoản trong tài liệu.

6. Trình thu thập dữ liệu web. Khai trương vào ngày 20 tháng 4 năm 1994 như một dự án của Đại học Washington. Trình thu thập thông tin web cung cấp cơ hội cú pháp để xác định các truy vấn, cũng như một lựa chọn lớn chú thích nút với giao diện đơn giản.

Sau mỗi phản hồi, WebCrawler sẽ hiển thị một biểu tượng nhỏ kèm theo đánh giá gần đúng về việc liệu yêu cầu có phù hợp hay không. Comee cũng hiển thị một trang có bản tóm tắt ngắn cho mỗi câu trả lời, URL đầy đủ, điểm số chính xác và cũng sử dụng câu trả lời này trong truy vấn mẫu làm từ khóa của nó.Giao diện đồ họa để cấu hình các truy vấn trong Không có Trình thu thập thông tin web. N không được phépviệc sử dụng các biểu tượng phổ quát cũng là không thểgán trọng số cho từ khóa.Không có cách nào để giới hạn trường tìm kiếmmột khu vực nhất định.

7. Yahoo. Danh bạ lâu đời nhất của Yahoo được ra mắt vào đầu năm 1994. Được biết đến rộng rãi, được sử dụng thường xuyên và được tôn trọng nhất. Vào tháng 3 năm 1996, danh mục Yahooligans dành cho trẻ em đã được ra mắt. Các thư mục khu vực và hàng đầu của Yahoo xuất hiện. Yahoo dựa trên đăng ký của người dùng. Nó có thể đóng vai trò là điểm khởi đầu cho bất kỳ tìm kiếm nào trên Web vì hệ thống phân loại của nó sẽ giúp người dùng tìm thấy một trang web có thông tin được tổ chức tốt. Nội dung web được chia thành 14 loại chung, được liệt kê trên trang chủ Yahoo!. Tùy thuộc vào chi tiết truy vấn của người dùng, có thể làm việc với các danh mục này để khám phá các danh mục con và danh sách các nút hoặc tìm kiếm các từ và thuật ngữ cụ thể trong toàn bộ cơ sở dữ liệu. Người dùng cũng có thể giới hạn tìm kiếm trong bất kỳ mục hoặc tiểu mục nào của Yahoo!. Do việc phân loại các nút được thực hiện bởi con người và không phải bằng máy tính nên chất lượng link thường rất cao. Tuy nhiên, việc tinh chỉnh việc tìm kiếm trong trường hợp thất bại là một nhiệm vụ khó khăn. Tham gia Yahoo ! bao gồm công cụ tìm kiếm AltaVista, vì vậy nếu bạn tìm kiếm trên Yahoo! nó xảy ra tự động lặp lại bằng công cụ tìm kiếm AltaVista . Kết quả sau đó được gửi đến Yahoo!. Yahoo! cung cấp khả năng gửi truy vấn tìm kiếm tới Usenet và Fourl 1 để tìm ra địa chỉ email.

Các công cụ tìm kiếm của Nga bao gồm:

1. Rambler: Đây là một công cụ tìm kiếm bằng tiếng Nga. Các phần được liệt kê trên trang chủ Rambler bao gồm các tài nguyên Web tiếng Nga. Có một bộ phân loại thông tin. Một tính năng tiện lợi là cung cấp danh sách các nút được truy cập nhiều nhất cho mỗi nút. chủ đề được đề xuất.

2. Tìm kiếm tại cảng. Cảng được xếp hạng trong số các công cụ tìm kiếm được chứng nhận hàng đầu Microsoft như công cụ tìm kiếm địa phươnghệ thống cho phiên bản tiếng Nga Microsoft Internet Explorer. Một trong những lợi thế của Aport là dịch thuật các truy vấn trực tuyến và tìm kiếm kết quả bằng tiếng Anh-Nga và Nga-Anh, nhờ đó bạn có thể tìm kiếm trên các tài nguyên Internet tiếng Nga , ngay cả khi không biết tiếng Nga. Hơn thế nữa bạn có thể tìm kiếm thông tin tion bằng cách sử dụng các biểu thức, ngay cả đối với các câu.Trong số các thuộc tính chính của hệ thống tìm kiếm Aport, bạn có thểchia như sau:

Dịch truy vấn và kết quả tìm kiếm từ tiếng Nga sang tiếng Anhtiếng Trung và ngược lại;

Tự động kiểm tra lỗi chính tả trong yêu cầu của bạn;

Hiển thị thông tin kết quả tìm kiếm cho các trang web được tìm thấy;

Khả năng tìm kiếm dưới mọi hình thức ngữ pháp;

ngôn ngữ truy vấn nâng cao dành cho chuyên gia người sử dụng tiền mặt.

Các thuộc tính tìm kiếm khác bao gồm:hỗ trợ năm trang mã chính (hoạt động khác nhausystems) cho tiếng Nga, công nghệ tìm kiếm sử dụngkhông có hạn chế nào về URL và ngày của tài liệu, thực hiện tìm kiếmtheo tiêu đề, bình luận và chữ kývào hình ảnh, v.v., lưu các tham số tìm kiếm và xác định số lượng yêu cầu của người dùng trước đó, việc hợp nhất bản sao của tài liệu nằm trên các máy chủ khác nhau.

3.Danh sách. ru ( http://www.list.ru) Trong quá trình triển khai, máy chủ này có nhiềuchung với hệ thống tiếng Anh Yahoo!. Trên trang chính của máy chủ có các liên kết đến các danh mục tìm kiếm phổ biến nhất.

Phần trung tâm là danh sách các liên kết đến các danh mục chính của danh mục. Tìm kiếm trong danh mục được triển khai theo cách mà kết quả của truy vấn có thể được tìm thấy cả các trang web và danh mục riêng lẻ. Nếu tìm kiếm thành công, URL, tiêu đề, mô tả và từ khóa sẽ được hiển thị. Chấp thuận sử dụng Ngôn ngữ truy vấn Yandex. VỚIliên kết “Cấu trúccatalog" sẽ mở danh mục kata đầy đủ trong một cửa sổ riêngnhật ký. Khả năng di chuyển từ bảng đánh giá sang bất kỳ danh mục phụ nào được chọn đã được triển khai. Phân chia chuyên đề chi tiết hơnphần hiện tại được thể hiện bằng một danh sách các liên kết. Danh mục được tổ chức như thế này sao cho tất cả các vị trí chứa ở cấp độ thấp hơn của cấu trúccác chuyến tham quan cũng được trình bày theo từng phần.Danh sách tài nguyên hiển thị được sắp xếp theo thứ tự abc nhưng bạn có thể lựa chọn sắp xếp: theo thời gian thêm menu, bằng cách chuyển đổi, bằng cách thứ tự thêm vào danh mục, theophổ biến đối với khách truy cập danh mục.

4. Yandex. Các sản phẩm phần mềm dòng Yandex đại diện cho một bộ công cụ để lập chỉ mục toàn văn bản và tìm kiếm dữ liệu văn bản, có tính đến hình thái của tiếng Nga. Yandex bao gồm các mô-đun để phân tích và tổng hợp hình thái, lập chỉ mục và tìm kiếm, cũng như một tập hợp các mô-đun phụ trợ, chẳng hạn như trình phân tích tài liệu, ngôn ngữ đánh dấu, trình chuyển đổi định dạng và trình thu thập dữ liệu.

Các thuật toán phân tích và tổng hợp hình thái dựa trên từ điển cơ sở có khả năng chuẩn hóa các từ, tức là tìm ra dạng ban đầu của chúng, đồng thời xây dựng các giả thuyết cho các từ không có trong từ điển cơ sở. Hệ thống lập chỉ mục toàn văn bản cho phép bạn tạo một chỉ mục nhỏ gọn và tìm kiếm nhanh chóng bằng các toán tử logic.

Yandex được thiết kế để hoạt động với văn bản trên mạng cục bộ và toàn cầu, đồng thời cũng có thể được kết nối dưới dạng mô-đun với các hệ thống khác.

Giới thiệu………………………………..2

1 Công cụ tìm kiếm: thành phần, chức năng, nguyên lý hoạt động

1.1 Thành phần của công cụ tìm kiếm……………………….…………3

1.2 Đặc điểm của công cụ tìm kiếm……..4

1.3 Nguyên lý của công cụ tìm kiếm………………………..4

2 Tổng quan về hoạt động của công cụ tìm kiếm

2.1 Công cụ tìm kiếm nước ngoài: thành phần và nguyên lý hoạt động…………12

2.2 Công cụ tìm kiếm tiếng Nga: thành phần và nguyên tắc hoạt động….…..14

Kết luận……………………………………………………..……16

Danh sách tài liệu tham khảo………………………..………….17

Giới thiệu

Các công cụ tìm kiếm từ lâu đã trở thành một phần không thể thiếu của Internet Nga. Do thực tế là chúng, mặc dù bằng nhiều cách khác nhau, cung cấp độc lập tất cả các giai đoạn xử lý thông tin từ khi nhận thông tin từ các nút nguồn chính đến việc cung cấp cho người dùng khả năng tìm kiếm, chúng thường được gọi công cụ tìm kiếm tự động hệ thống .

Các công cụ tìm kiếm hiện nay là những cơ chế khổng lồ và phức tạp, không chỉ là một công cụ tìm kiếm thông tin mà còn là những lĩnh vực hấp dẫn đối với doanh nghiệp. Các hệ thống này có thể khác nhau về nguyên tắc lựa chọn thông tin, hiện diện ở mức độ này hay mức độ khác trong thuật toán chỉ mục tự động. chương trình quét và các quy tắc ứng xử dành cho nhân viên danh mục chịu trách nhiệm đăng ký. Thông thường, hai chỉ số chính được so sánh:

Quy mô không gian mà IPS hoạt động là

Và chuyên môn của cô ấy.

Hầu hết người dùng công cụ tìm kiếm chưa bao giờ nghĩ (hoặc nghĩ về nó nhưng không tìm thấy câu trả lời) về nguyên lý hoạt động của công cụ tìm kiếm, về sơ đồ xử lý yêu cầu của người dùng, về những gì các hệ thống này bao gồm và cách chúng hoạt động.. Công cụ tìm kiếm có thể được so sánh với một bộ phận trợ giúp, có các đại lý đi khắp doanh nghiệp, thu thập thông tin vào cơ sở dữ liệu. Khi bạn liên hệ với dịch vụ, thông tin sẽ được lấy từ cơ sở dữ liệu này. Dữ liệu trong cơ sở dữ liệu trở nên lỗi thời nên các đại lý phải cập nhật dữ liệu đó định kỳ. Một số doanh nghiệp tự gửi thông tin về mình, đại lý không cần phải đến gặp. Nói cách khác, help desk có hai chức năng: tạo và cập nhật liên tục dữ liệu trong cơ sở dữ liệu và tìm kiếm thông tin trong cơ sở dữ liệu theo yêu cầu của khách hàng.

1 Công cụ tìm kiếm: thành phần, chức năng, nguyên lý hoạt động

1.1 Thành phần của công cụ tìm kiếm

Hệ thống tìm kiếm là một tổ hợp phần mềm và phần cứng được thiết kế để tìm kiếm trên Internet và đáp ứng yêu cầu của người dùng, được chỉ định dưới dạng cụm từ văn bản (truy vấn tìm kiếm), bằng cách tạo danh sách các liên kết đến các nguồn thông tin, theo thứ tự mức độ liên quan ( theo yêu cầu). Các công cụ tìm kiếm quốc tế lớn nhất: Google, Yahoo, MSN. Trên Internet Nga có Yandex, Rambler, Aport.

Tương tự, một công cụ tìm kiếm bao gồm hai phần: cái gọi là robot (hoặc nhện), thu thập dữ liệu các máy chủ Web và tạo cơ sở dữ liệu cho công cụ tìm kiếm.

Cơ sở của robot chủ yếu được hình thành bởi chính nó (robot tự tìm thấy các liên kết đến các tài nguyên mới) và ở mức độ thấp hơn nhiều bởi các chủ sở hữu tài nguyên đăng ký trang web của họ trong công cụ tìm kiếm. Ngoài robot (tác nhân mạng, nhện, sâu) hình thành cơ sở dữ liệu, còn có một chương trình xác định xếp hạng của các liên kết được tìm thấy.

Nguyên tắc hoạt động của công cụ tìm kiếm là nó truy vấn danh mục (cơ sở dữ liệu) nội bộ của nó để tìm các từ khóa mà người dùng chỉ định trong trường truy vấn và tạo ra danh sách các liên kết được xếp hạng theo mức độ liên quan.

Cần lưu ý rằng, khi xử lý một yêu cầu cụ thể của người dùng, công cụ tìm kiếm hoạt động chính xác dựa trên các tài nguyên nội bộ (và không bắt đầu hành trình trên Web, như những người dùng thiếu kinh nghiệm thường tin) và các tài nguyên nội bộ đương nhiên bị hạn chế. Mặc dù cơ sở dữ liệu của công cụ tìm kiếm được cập nhật liên tục nhưng công cụ tìm kiếm không thể lập chỉ mục tất cả các tài liệu Web: số lượng của chúng quá lớn. Do đó, luôn có khả năng tài nguyên bạn đang tìm kiếm không được một công cụ tìm kiếm cụ thể nào biết đến.

1.2 Tính năng của công cụ tìm kiếm

Trong tác phẩm, quá trình tìm kiếm được trình bày theo bốn giai đoạn: xây dựng công thức (xảy ra trước khi bắt đầu tìm kiếm); hành động (bắt đầu tìm kiếm); tổng quan về kết quả (kết quả mà người dùng nhìn thấy sau khi tìm kiếm); và sàng lọc (sau khi xem xét kết quả và trước khi quay lại tìm kiếm với công thức khác có cùng nhu cầu). Một sơ đồ tìm kiếm thông tin phi tuyến thuận tiện hơn bao gồm các bước sau:

Khắc phục nhu cầu thông tin bằng ngôn ngữ tự nhiên;

Lựa chọn các dịch vụ tìm kiếm mạng cần thiết và chính thức hóa việc ghi lại nhu cầu thông tin bằng các ngôn ngữ truy xuất thông tin cụ thể (IRL);

Thực hiện các truy vấn đã tạo;

Xử lý trước và lựa chọn danh sách nhận được các liên kết đến tài liệu;

Liên hệ các địa chỉ đã chọn để lấy các tài liệu cần thiết;

Xem trước nội dung của các tài liệu được tìm thấy;

Lưu các tài liệu liên quan để nghiên cứu sau này;

Trích xuất liên kết từ các tài liệu liên quan để mở rộng truy vấn;

Nghiên cứu toàn bộ mảng tài liệu đã lưu;

Nếu nhu cầu thông tin chưa được đáp ứng đầy đủ thì quay lại giai đoạn đầu tiên.

1.3 Cách thức hoạt động của công cụ tìm kiếm

Mục tiêu của bất kỳ công cụ tìm kiếm nào là cung cấp cho mọi người thông tin họ đang tìm kiếm. Dạy mọi người đưa ra những yêu cầu “đúng”, tức là. các truy vấn tuân thủ nguyên tắc hoạt động của công cụ tìm kiếm là không thể. Do đó, các nhà phát triển tạo ra các thuật toán và nguyên tắc hoạt động cho các công cụ tìm kiếm cho phép người dùng tìm thấy chính xác thông tin họ đang tìm kiếm. Điều này có nghĩa là công cụ tìm kiếm phải “suy nghĩ” giống như cách người dùng nghĩ khi tìm kiếm thông tin.

Hầu hết các công cụ tìm kiếm đều hoạt động theo nguyên tắc lập chỉ mục trước. Cơ sở dữ liệu của hầu hết các công cụ tìm kiếm đều hoạt động theo cùng một nguyên tắc.

Có một nguyên tắc xây dựng khác. Tìm kiếm trực tiếp. Nó bao gồm việc lật từng trang sách để tìm kiếm từ khóa. Tất nhiên, phương pháp này kém hiệu quả hơn nhiều.

Trong phiên bản có chỉ mục đảo ngược, các công cụ tìm kiếm phải đối mặt với vấn đề về kích thước tệp. Theo quy định, chúng lớn đáng kể. Vấn đề này thường được giải quyết theo hai cách. Đầu tiên là mọi thứ không cần thiết sẽ bị xóa khỏi tệp và chỉ còn lại những gì thực sự cần thiết cho việc tìm kiếm. Phương pháp thứ hai là đối với mỗi vị trí, không phải địa chỉ tuyệt đối được ghi nhớ mà là địa chỉ tương đối, tức là. giải quyết sự khác biệt giữa vị trí hiện tại và trước đó.

Do đó, hai quy trình chính được thực hiện bởi công cụ tìm kiếm là lập chỉ mục các trang, trang và tìm kiếm. Nhìn chung, quá trình lập chỉ mục không gây khó khăn cho công cụ tìm kiếm. Sự cố đang xử lý một triệu yêu cầu mỗi ngày. Điều này là do khối lượng lớn thông tin được xử lý bởi các hệ thống máy tính lớn. Yếu tố chính quyết định số lượng máy chủ tham gia tìm kiếm là tải tìm kiếm. Điều này giải thích một số điều kỳ lạ nảy sinh khi tìm kiếm thông tin.

Công cụ tìm kiếm bao gồm năm thành phần phần mềm riêng biệt:

nhện: một chương trình giống như trình duyệt tải xuống các trang web.

trình thu thập thông tin: một con nhện “du lịch” tự động đi theo tất cả các liên kết được tìm thấy trên một trang.

người lập chỉ mục: một chương trình "mù" phân tích các trang web được tải xuống bởi các con nhện.

kho dữ liệu: lưu trữ các trang được tải xuống và xử lý.

công cụ tìm kiếm kết quả (hệ thống phân phối kết quả): lấy kết quả tìm kiếm từ cơ sở dữ liệu.

Nhện: Spider là một chương trình tải xuống các trang web. Nó hoạt động giống như trình duyệt của bạn khi bạn kết nối với một trang web và tải một trang. Con nhện không có thành phần trực quan. Bạn có thể quan sát hành động tương tự (tải xuống) khi bạn xem một trang nhất định và khi bạn chọn “xem mã HTML” trong trình duyệt của mình.

Trình thu thập thông tin: Giống như một con nhện tải các trang xuống, nó có thể tách trang và tìm tất cả các liên kết. Nhiệm vụ của nó là xác định nơi con nhện sẽ đi tiếp theo, dựa trên các liên kết hoặc dựa trên danh sách địa chỉ được xác định trước.

Người lập chỉ mục: Người lập chỉ mục phân tích trang thành các phần khác nhau và phân tích chúng. Các phần tử như tiêu đề trang, tiêu đề, liên kết, văn bản, thành phần cấu trúc, phần tử ĐẬM, phần tử ITALIC và các phần kiểu khác của trang được tách biệt và phân tích.

Cơ sở dữ liệu: Cơ sở dữ liệu là kho lưu trữ tất cả dữ liệu mà công cụ tìm kiếm tải xuống và phân tích. Điều này thường đòi hỏi nguồn lực rất lớn.

Tìm kiếm Động cơ Kết quả: Hệ thống kết quả chịu trách nhiệm xếp hạng các trang. Nó quyết định trang nào đáp ứng yêu cầu của người dùng và chúng nên được sắp xếp theo thứ tự nào. Điều này xảy ra theo thuật toán xếp hạng của công cụ tìm kiếm. Thông tin này có giá trị và thú vị nhất đối với chúng tôi - chính với thành phần này của công cụ tìm kiếm mà trình tối ưu hóa tương tác, cố gắng cải thiện vị trí của trang web trong kết quả tìm kiếm, vì vậy trong tương lai chúng tôi sẽ xem xét chi tiết tất cả các yếu tố ảnh hưởng đến xếp hạng kết quả.

Chỉ mục tìm kiếm hoạt động theo ba giai đoạn, trong đó hai giai đoạn đầu tiên là chuẩn bị và vô hình đối với người dùng. Đầu tiên, chỉ mục tìm kiếm thu thập thông tin từ Thế giới Rộng Web . Để làm điều này, hãy sử dụng các chương trình đặc biệt, tương tự như trình duyệt. Họ có thể sao chép một trang Web nhất định vào máy chủ chỉ mục tìm kiếm, xem nó, tìm tất cả các siêu liên kết có các tài nguyên đó được tìm thấy ở đó, tìm lại các siêu liên kết mà chúng chứa, v.v. Các chương trình như vậy được gọi là sâu, nhện, sâu bướm, nhện, nhện và những cái tên tương tự khác. Mỗi chỉ mục tìm kiếm sử dụng chương trình riêng của nó cho mục đích này và chương trình này thường tự phát triển. Nhiều công cụ tìm kiếm hiện đại ra đời từ các dự án thử nghiệm liên quan đến việc phát triển và triển khai các chương trình tự động giám sát Mạng. Về mặt lý thuyết, với một mục nhập thành công nhện có thể tìm kiếm toàn bộ không gian Web trong một lần lặn, nhưng việc này tốn rất nhiều thời gian và anh ta vẫn cần định kỳ quay lại các tài nguyên đã truy cập trước đó để theo dõi những thay đổi xảy ra ở đó và xác định các liên kết “chết”, tức là những liên kết đó đã mất đi sự liên quan của chúng.

Sau khi sao chép các tài nguyên Web đã tìm kiếm vào máy chủ của công cụ tìm kiếm, giai đoạn thứ hai của công việc bắt đầu - lập chỉ mục. Các trang được lập chỉ mục bởi một chương trình đặc biệt gọi là robot. Mỗi công cụ tìm kiếm có rất nhiều robot như vậy. Tất cả điều này phục vụ mục đích tải xuống song song các tài liệu từ những nơi khác nhau trên mạng. Tải từng tài liệu một cũng chẳng ích gì, như vậy là kém hiệu quả. Hãy tưởng tượng một cái cây không ngừng phát triển. Trên thân của những cánh hoa xuất hiện lặp đi lặp lại (trang web). Tất nhiên, các trang web mới nổi sẽ được lập chỉ mục nhanh hơn nhiều nếu robot được gửi dọc theo từng nhánh của cây, thay vì thực hiện tuần tự.

Về mặt kỹ thuật, mô-đun tải xuống là đa phương tiện (Altavista Merkator) hoặc sử dụng I/O không đồng bộ (GoogleBot). Ngoài ra, các nhà phát triển liên tục phải giải quyết vấn đề máy chủ DNS đa luồng.

Trong sơ đồ đa luồng, các luồng tải xuống được gọi là sâu và người quản lý chúng được gọi là sâu.

Không có nhiều máy chủ có thể xử lý tải hàng trăm sâu, vì vậy người quản lý phải cẩn thận để không làm máy chủ bị quá tải.

Robot sử dụng giao thức HTTP để tải xuống các trang. Nó hoạt động như sau. Robot gửi yêu cầu “get/path/document” và các chuỗi hữu ích khác liên quan đến yêu cầu HTTP tới máy chủ. Để phản hồi, robot sẽ nhận được một luồng văn bản chứa thông tin dịch vụ và chính tài liệu đó.

Mục đích của việc tải xuống là giảm lưu lượng mạng đồng thời tối đa hóa tính đầy đủ.

Tuyệt đối tất cả các robot tìm kiếm đều tuân theo tệp robots.txt, nơi quản trị viên web có thể giới hạn việc lập chỉ mục các trang của robot. Robot cũng có các bộ lọc riêng.

Ví dụ: một số robot cảnh giác với việc lập chỉ mục các trang động. Mặc dù bây giờ các chủ web bỏ qua những nơi này mà không gặp vấn đề gì. Và ngày càng có ít robot như vậy còn sót lại.

Mỗi bot cũng có một danh sách các tài nguyên được phân loại là thư rác. Theo đó, các tài nguyên này được bot truy cập ít hơn đáng kể hoặc hoàn toàn bị bỏ qua trong một thời gian nhất định, trong khi các công cụ tìm kiếm không lọc thông tin.

Các mô hình tải xuống được hỗ trợ có các mô-đun khác thực hiện các chức năng phụ trợ. Chúng giúp giảm lưu lượng truy cập, tăng độ sâu tìm kiếm, xử lý các tài nguyên được cập nhật thường xuyên, lưu trữ URL và liên kết để không tải lại tài nguyên.

Có các mô-đun theo dõi trùng lặp. Chúng giúp lọc ra các trang có thông tin trùng lặp. Những thứ kia. nếu rô-bốt tìm thấy bản sao của một trang đã tồn tại hoặc có thông tin được thay đổi một chút thì đơn giản là nó sẽ không theo dõi các liên kết trang nữa. Có một mô-đun riêng để xác định mã hóa và ngôn ngữ của tài liệu.

Sau khi trang được tải xuống, nó sẽ được xử lý bởi trình phân tích cú pháp html. Nó chỉ để lại những thông tin thực sự quan trọng cho việc tìm kiếm từ tài liệu: văn bản, phông chữ, liên kết, v.v. Mặc dù bây giờ robot lập chỉ mục hầu hết mọi thứ. Và công nghệ javascript và flash. Tuy nhiên, chúng ta không nên quên một số hạn chế của robot.

Trong quá trình lập chỉ mục, các cơ sở dữ liệu đặc biệt được tạo ra với sự trợ giúp mà bạn có thể thiết lập vị trí và thời điểm tìm thấy một từ cụ thể trên Internet. Hãy coi cơ sở dữ liệu được lập chỉ mục như một loại từ điển. Điều cần thiết là công cụ tìm kiếm có thể đáp ứng yêu cầu của người dùng rất nhanh chóng. Các hệ thống hiện đại có thể cung cấp câu trả lời trong chưa đầy một giây, nhưng nếu các chỉ mục không được chuẩn bị trước thì việc xử lý một yêu cầu sẽ tiếp tục trong nhiều giờ.

Ở giai đoạn thứ ba, yêu cầu của khách hàng được xử lý và kết quả tìm kiếm được cung cấp cho anh ta dưới dạng danh sách các siêu liên kết. Giả sử một khách hàng muốn tìm xem ở đâu trên Internet có các trang Web đề cập đến thợ cơ khí, bác sĩ nhãn khoa và nhà toán học nổi tiếng người Hà Lan Christiaan Huygens. Anh nhập từ Huygens vào ô từ khóa rồi nhấn nút. Tìm kiếm. Sử dụng cơ sở dữ liệu chỉ mục của nó, công cụ tìm kiếm sẽ tìm kiếm các tài nguyên Web phù hợp trong tích tắc và tạo ra một trang kết quả tìm kiếm trên đó các đề xuất được trình bày dưới dạng siêu liên kết. Sau đó, khách hàng có thể sử dụng các liên kết này để điều hướng đến các tài nguyên quan tâm.

Tất cả điều này có vẻ đơn giản, nhưng trên thực tế lại có vấn đề. Vấn đề chính của Internet hiện đại là sự phong phú của các trang Web. Chỉ cần nhập một từ đơn giản như bóng đá vào trường tìm kiếm là đủ và công cụ tìm kiếm của Nga sẽ trả về hàng nghìn liên kết, nhóm chúng thành 10-20 phần trên trang hiển thị.

Vài nghìn không phải là nhiều, vì một công cụ tìm kiếm nước ngoài trong tình huống tương tự sẽ trả về hàng trăm nghìn liên kết. Hãy cố gắng tìm thứ bạn cần trong số đó! Tuy nhiên, đối với người tiêu dùng bình thường, việc họ nhận được một nghìn hay một triệu kết quả tìm kiếm hoàn toàn không có gì khác biệt. Theo quy định, khách hàng xem không quá 50 liên kết ngay từ đầu và điều gì xảy ra tiếp theo không ai quan tâm. Tuy nhiên, khách hàng lại rất, rất quan tâm đến chất lượng. việc đầu tiên liên kết. Khách hàng không thích khi có các liên kết trong top 10 không còn phù hợp nữa, họ khó chịu khi liên tiếp có các liên kết đến các tệp lân cận trên cùng một máy chủ. Tùy chọn tồi tệ nhất là khi có một số liên kết liên tiếp dẫn đến cùng một tài nguyên nhưng nằm trên các máy chủ khác nhau.

Khách hàng có quyền mong đợi rằng các liên kết hữu ích nhất sẽ được liệt kê đầu tiên. Đây là nơi phát sinh vấn đề. Một người có thể dễ dàng phân biệt một tài nguyên hữu ích với một tài nguyên vô dụng, nhưng làm thế nào người ta có thể giải thích điều này với một chương trình?! Do đó, các công cụ tìm kiếm tốt nhất thực hiện những điều kỳ diệu của trí tuệ nhân tạo trong nỗ lực sắp xếp các liên kết được tìm thấy theo chất lượng tài nguyên của chúng. Và họ phải làm điều này một cách nhanh chóng - khách hàng không muốn chờ đợi.

Nói đúng ra, tất cả các công cụ tìm kiếm đều lấy thông tin nguồn từ cùng một không gian Web, do đó cơ sở dữ liệu nguồn của chúng có thể tương đối giống nhau. Và chỉ ở giai đoạn thứ ba, khi đưa ra kết quả tìm kiếm, mỗi công cụ tìm kiếm mới bắt đầu thể hiện những đặc điểm riêng tốt nhất (hoặc tệ nhất) của mình. Thao tác sắp xếp kết quả thu được gọi là xếp hạng. Hệ thống chỉ định xếp hạng cho từng trang Web được tìm thấy, điều này sẽ phản ánh chất lượng của tài liệu. Nhưng chất lượng là một khái niệm chủ quan và chương trình cần những tiêu chí khách quan có thể thể hiện bằng những con số phù hợp để so sánh.

Thứ hạng cao đạt được bởi các trang Web có từ khóa được sử dụng trong truy vấn được bao gồm trong tiêu đề. Mức độ xếp hạng sẽ tăng lên nếu từ đó xuất hiện nhiều lần trên một trang Web nhưng không quá thường xuyên. Sự xuất hiện của từ mong muốn lần đầu tiên trong 5-6 đoạn văn bản có tác dụng có lợi cho việc xếp hạng - chúng được coi là quan trọng nhất trong quá trình lập chỉ mục. Vì lý do này, các Quản trị viên web có kinh nghiệm tránh đặt các bảng ở đầu trang của họ. Đối với một công cụ tìm kiếm, mỗi ô trong bảng trông giống như một đoạn văn và do đó, phần nội dung có ý nghĩa dường như bị đẩy lùi về phía sau (mặc dù điều này không được chú ý trên màn hình) và không còn đóng vai trò quyết định đối với công cụ tìm kiếm.

Thật tuyệt nếu các từ khóa được sử dụng trong truy vấn được đưa vào văn bản thay thế đi kèm với hình minh họa. Đối với công cụ tìm kiếm, đây là dấu hiệu chắc chắn rằng trang này khớp chính xác với yêu cầu. Một dấu hiệu khác về chất lượng của một trang Web là nó có các liên kết từ một số trang Web khác. Càng có nhiều thì càng tốt. Điều này có nghĩa là trang Web này phổ biến và có mức độ đánh giá cao chỉ số trích dẫn Các công cụ tìm kiếm tiên tiến nhất giám sát mức độ trích dẫn của các trang Web mà chúng đăng ký và tính đến nó khi xếp hạng.

Những người tạo ra các trang Web luôn quan tâm đến việc có nhiều người xem hơn nên họ đặc biệt chuẩn bị các trang để các công cụ tìm kiếm xếp hạng cao. Công việc tốt, thành thạo của một quản trị viên Web có thể tăng đáng kể lưu lượng truy cập vào một trang Web, nhưng cũng có những “bậc thầy” cố gắng đánh lừa các công cụ tìm kiếm và gán cho các trang Web của họ tầm quan trọng mà họ thực sự không có. Họ lặp đi lặp lại một số từ hoặc nhóm từ nhất định trên một trang Web và để không gây chú ý cho người đọc, họ hoặc viết bằng phông chữ cực nhỏ hoặc sử dụng màu văn bản phù hợp với màu nền. Đối với những “thủ thuật” như vậy, công cụ tìm kiếm có thể trừng phạt một trang Web bằng cách gán cho nó một đánh giá tiêu cực.

2 Tổng quan về hoạt động của công cụ tìm kiếm

2.1 Công cụ tìm kiếm nước ngoài: thành phần và nguyên tắc hoạt động

Trong số được công nhận nhất là AltaVista, tiềm năng phần cứng và phần mềm mạnh mẽ nhất, cho phép bạn tìm kiếm bất kỳ từ nào trong văn bản của trang Web hoặc một bài báo trong một nhóm tin (dữ liệu từ năm 1998). AltaVista chứa thông tin về 30 triệu trang Web và bài viết từ 14 nghìn nhóm tin.

Hệ thống này sử dụng một cơ chế khá phức tạp để soạn một truy vấn, bao gồm sự kết hợp của các từ, cụm từ và dấu chấm câu riêng lẻ: dấu ngoặc kép, dấu chấm phẩy, dấu hai chấm, dấu ngoặc đơn, dấu cộng và dấu trừ hoặc các toán tử Boolean thông thường AND, OR, NOT và NEAR ( sau trong khuôn khổ tìm kiếm phức tạp - Tìm kiếm nâng cao). Sự kết hợp của chúng giúp tạo ra đơn thuốc tìm kiếm một cách chính xác nhất.

Như vậy, dấu cộng đứng trước một từ có nghĩa là thuật ngữ này phải có trong tài liệu; ngược lại, dấu trừ sẽ loại bỏ tất cả các tài liệu có chứa khái niệm này. Hệ thống cho phép tìm kiếm theo cả cụm từ (trong trường hợp này là toàn bộ cụm từ được đặt trong dấu ngoặc kép), cũng như tìm kiếm với phần đuôi rút gọn, có dấu “*” đặt ở cuối từ. Ví dụ: để có được thông tin về tất cả các tài liệu tiếng Nga liên quan đến thủ thư, chỉ cần nhập “thư viện*”.

Người dùng cũng được cung cấp tùy chọn giới hạn truy vấn theo ngày tài liệu được tạo/cập nhật lần cuối.

Tìm kiếm tất cả các từ của văn bản được khai báo trong HotBot, ngày nay là công cụ tìm kiếm mạnh mẽ nhất dành riêng cho World Wide Web (chứa thông tin về 54 triệu tài liệu). Tìm kiếm chuyên sâu - Tìm kiếm chuyên gia trong HotBot mang lại khả năng chi tiết hóa yêu cầu rất rộng rãi.

Điều này đạt được thông qua việc sử dụng menu nhiều giai đoạn cung cấp nhiều tùy chọn khác nhau để tạo đơn thuốc tìm kiếm.

Bạn có thể tìm kiếm sự kết hợp của một số thuật ngữ khác nhau trong tài liệu, tìm kiếm một cụm từ hoặc tìm kiếm một người hoặc địa chỉ email cụ thể. Để nêu chi tiết yêu cầu, có thể sử dụng các điều kiện NÊN - “có thể chứa”, PHẢI - “ nhất thiết phải chứa”, KHÔNG PHẢI – “không nên chứa” liên quan đến bất kỳ khái niệm nào.

Một công cụ tìm kiếm thú vị là kích thích, cũng cung cấp khả năng tìm kiếm toàn văn của hơn 50 triệu trang Web.

Điều đặc biệt khi làm việc với nó là các yêu cầu đối với hệ thống này được thực hiện bằng ngôn ngữ tự nhiên (tất nhiên bằng tiếng Anh) như thể chúng ta đang hỏi một người.

Một hệ thống đặc biệt, được thiết kế trên cơ sở Trích xuất khái niệm thông minh, phân tích yêu cầu và cung cấp các liên kết đến các tài liệu có liên quan, theo quan điểm máy tính của nó.

Tuy nhiên, thực tế cho thấy Excite chỉ xử lý chính xác các truy vấn có một âm tiết. Để có được thông tin về các chủ đề phức tạp, tốt hơn là sử dụng các công cụ tìm kiếm khác.

Một trong những hệ thống hiện đại cung cấp khả năng tìm kiếm tất cả các từ trong văn bản là văn bản mở .

Tuy nhiên, người dùng có thể tùy ý giới hạn phạm vi tìm kiếm chỉ ở những phần chính và quan trọng nhất của trang Web: tiêu đề, tiêu đề đầu tiên, tóm tắt, địa chỉ email (URL).

Điều này rất thuận tiện nếu bạn chỉ muốn tìm những tác phẩm chính về một chủ đề rộng. Như trong các trường hợp trước, các truy vấn khó nhất được thực hiện bằng cách sử dụng tìm kiếm phức tạp - Power Search.

Giao diện của nó giúp việc tạo thứ tự tìm kiếm bằng menu nhiều bước khá dễ dàng.

Menu này cung cấp các dòng để nhập các thuật ngữ cho biết trường nào sẽ chứa dữ liệu được tìm kiếm kết hợp với các toán tử quen thuộc VÀ (và), HOẶC (hoặc), NHƯNG KHÔNG (nhưng không), NEAR (bên cạnh) và FOLLOWED BY (nên phía sau) .

2.2 Công cụ tìm kiếm tiếng Nga: thành phần và nguyên tắc hoạt động

Trong những năm gần đây, việc thực hành xếp hạng thương mại cũng đã phát triển. Về mặt kỹ thuật, họ được trang bị những công cụ hiện đại nhất tương ứng với trình độ của năm 2000 và tổng quy mô của Runet (khu vực Internet của Nga) ngày nay gần bằng khu vực phương Tây vào năm 1994-1995. Vì vậy, ngày nay ở Nga không có vấn đề gì đặc biệt trong việc tìm kiếm thông tin và chúng không được mong đợi trong tương lai gần. Nhưng ở khu vực phương Tây, các vấn đề tìm kiếm rất lớn và các công cụ tìm kiếm khác nhau đang cố gắng khắc phục chúng theo những cách khác nhau. Chúng tôi sẽ cho bạn biết điều này xảy ra như thế nào.

Trong số các chỉ mục tìm kiếm ở Nga ngày nay, có ba “trụ cột” (cũng có những hệ thống nhỏ hơn, nhưng chúng tôi sẽ không tập trung vào chúng). Đó là Rambler (www.rambler.ru), Yandex (www.yandex.ru) và Aport2000 (www.aport.ru).

Trong lịch sử, công cụ tìm kiếm phổ biến nhất là Rambler. Nó bắt đầu hoạt động sớm hơn những công cụ khác và trong một thời gian dài đã dẫn đầu về quy mô chỉ mục tìm kiếm và chất lượng dịch vụ tìm kiếm. Than ôi, ngày nay những thành tựu này đã là quá khứ. Mặc dù thực tế là kích thước của chỉ mục tìm kiếm Rambler xấp xỉ 12 triệu trang Web nhưng nó đã không được cập nhật chính xác trong một thời gian dài và tạo ra các kết quả lỗi thời. Ngày nay Rambler là một cổng thông tin phổ biến, hệ thống phân loại và xếp hạng tốt nhất ở Nga (chúng tôi sẽ cho bạn biết nó là gì bên dưới) cùng với một nền tảng quảng cáo. Theo truyền thống, hệ thống này giữ vị trí đầu tiên ở Nga về lưu lượng truy cập và có thu nhập tốt từ quảng cáo. Nhưng quỹ, như chúng tôi sẽ trình bày bên dưới, không được đầu tư vào việc phát triển các công cụ tìm kiếm... Chỉ mục lớn nhất nằm ở trung tâm của hệ thống Yandex - khoảng 27 triệu trang Web, nhưng vấn đề không chỉ là quy mô. Đây không chỉ là một con trỏ tới các tài nguyên mà còn là một con trỏ tới các tài nguyên mới nhất. Xét về mức độ liên quan, Yandex ngày nay là người dẫn đầu không thể tranh cãi. Hệ thống Aport chiến thắng ở giai đoạn thứ ba: tại thời điểm trình bày thông tin cho khách hàng. Nó không cố gắng tạo chỉ mục lớn nhất bằng các phương tiện tự động mà thay vào đó sử dụng rộng rãi thông tin được xử lý thủ công từ danh mục @Rus. Do đó, hệ thống không đưa ra nhiều kết quả như các đối thủ cạnh tranh gần nhất nhưng những kết quả này thường chính xác và được trình bày rõ ràng.

Kết luận được viết ở cuối và hàm ý sự hữu hạn. Nhưng sự phát triển của thông tin là vô tận, và do đó không có giới hạn nào cho việc cải tiến công cụ tìm kiếm. Nhiệm vụ quan trọng nhất của các nhà phát triển là cải thiện chất lượng tìm kiếm, hướng tới hiệu quả cao hơn và tính dễ sử dụng của hệ thống. Vì mục đích này, các thuật toán tìm kiếm liên tục thay đổi, các dịch vụ bổ sung được tạo ra và thiết kế đang được cải tiến.

Tuy nhiên, để tồn tại trong thế giới Internet năng động, trong quá trình phát triển, cần phải xây dựng một mức độ ổn định lớn, không ngừng nhìn về tương lai và thử tải tương lai cho tìm kiếm ngày nay. Cách tiếp cận này cho phép chúng tôi không chỉ giải quyết cuộc đấu tranh liên tục và khả năng thích ứng của công cụ tìm kiếm với lượng thông tin ngày càng tăng mà còn triển khai một cái gì đó mới, thực sự quan trọng và cần thiết để cải thiện hiệu quả tìm kiếm trên Internet.

Thư mục:

1. E. Kolmanovskaya, CompTek International, Yandex: Hệ thống tìm kiếm Internet/Intranet của Nga.

2. Abrosimov A.G., Abramov N.V., Motovilov N.V., Hệ thống thông tin kinh tế doanh nghiệp, uch. làng bản SGEA, 2005.

3. Hệ thống truy xuất thông tin. – http://www.comptek.ru/yandex/yand_about.html.

4. Troyan G.M. Tìm kiếm trong phần nói tiếng Nga của Internet: Công cụ tìm kiếm Yandex // Đài phát thanh nghiệp dư. Máy tính của bạn. – Số 1-3 năm 2000.

5. Hướng dẫn hiện đại để làm việc trên Internet. Các chương trình phổ biến nhất: Thực tế. trợ cấp – Ed. Komyagina V.B. – M.: Nhà xuất bản “Chiến thắng”, 1999. – 368 tr.

Cái này là cái gì

DuckDuckGo là một công cụ tìm kiếm mã nguồn mở khá nổi tiếng. Máy chủ được đặt tại Hoa Kỳ. Ngoài robot của riêng mình, công cụ tìm kiếm còn sử dụng kết quả từ các nguồn khác: Yahoo, Bing, Wikipedia.

Tốt hơn

DuckDuckGo tự định vị mình là một công cụ tìm kiếm cung cấp sự riêng tư và bảo mật tối đa. Hệ thống không thu thập bất kỳ dữ liệu nào về người dùng, không lưu trữ nhật ký (không có lịch sử tìm kiếm) và việc sử dụng cookie càng hạn chế càng tốt.

DuckDuckGo không thu thập hoặc chia sẻ thông tin cá nhân từ người dùng. Đây là chính sách bảo mật của chúng tôi.
Gabriel Weinberg, người sáng lập DuckDuckGo

Tại sao bạn cần cái này

Tất cả các công cụ tìm kiếm lớn đều cố gắng cá nhân hóa dựa trên dữ liệu về người ngồi trước màn hình. Hiện tượng này được gọi là “bong bóng bộ lọc”: người dùng chỉ nhìn thấy những kết quả phù hợp với sở thích của mình hoặc hệ thống cho là như vậy.

DuckDuckGo tạo ra một bức tranh khách quan không phụ thuộc vào hành vi trước đây của bạn trên Internet và loại bỏ quảng cáo theo chủ đề khỏi Google và Yandex dựa trên các truy vấn của bạn. Với DuckDuckGo, thật dễ dàng tìm kiếm thông tin bằng tiếng nước ngoài: Google và Yandex theo mặc định ưu tiên các trang web tiếng Nga, ngay cả khi truy vấn được nhập bằng ngôn ngữ khác.

Cái này là cái gì

not Evil là một hệ thống tìm kiếm mạng Tor ẩn danh. Để sử dụng nó, bạn cần phải truy cập mạng này, chẳng hạn như bằng cách khởi chạy một mạng chuyên biệt có cùng tên.

not Evil không phải là công cụ tìm kiếm duy nhất thuộc loại này. Có LOOK (tìm kiếm mặc định trong trình duyệt Tor, có thể truy cập từ Internet thông thường) hoặc TORCH (một trong những công cụ tìm kiếm lâu đời nhất trên mạng Tor) và các công cụ khác. Chúng tôi quyết định không chọn Ác ma vì gợi ý rõ ràng từ Google (chỉ cần nhìn vào trang bắt đầu).

Tốt hơn

Nó tìm kiếm ở những nơi Google, Yandex và các công cụ tìm kiếm khác thường đóng cửa.

Tại sao bạn cần cái này

Mạng Tor chứa nhiều tài nguyên không thể tìm thấy trên Internet tuân thủ luật pháp. Và số lượng của họ sẽ tăng lên khi sự kiểm soát của chính phủ đối với nội dung Internet được thắt chặt. Tor là một loại mạng trên Internet với các mạng xã hội, trình theo dõi torrent, phương tiện truyền thông, nền tảng giao dịch, blog, thư viện, v.v.

3. YaCy

Cái này là cái gì

YaCy là một công cụ tìm kiếm phi tập trung hoạt động trên nguyên tắc mạng P2P. Mỗi máy tính được cài đặt mô-đun phần mềm chính sẽ quét Internet một cách độc lập, nghĩa là nó tương tự như một robot tìm kiếm. Các kết quả thu được sẽ được thu thập vào cơ sở dữ liệu chung được tất cả những người tham gia YaCy sử dụng.

Tốt hơn

Thật khó để nói liệu điều này tốt hơn hay tệ hơn, vì YaCy là một cách tiếp cận hoàn toàn khác để tổ chức tìm kiếm. Việc không có một máy chủ và công ty chủ sở hữu duy nhất khiến kết quả hoàn toàn độc lập với sở thích của bất kỳ ai. Quyền tự chủ của mỗi nút giúp loại bỏ sự kiểm duyệt. YaCy có khả năng tìm kiếm trên deep web và các mạng công cộng không được lập chỉ mục.

Tại sao bạn cần cái này

Nếu bạn là người ủng hộ phần mềm nguồn mở và Internet miễn phí, không chịu sự ảnh hưởng của các cơ quan chính phủ và tập đoàn lớn thì YaCy là sự lựa chọn dành cho bạn. Nó cũng có thể được sử dụng để tổ chức tìm kiếm trong mạng công ty hoặc mạng tự trị khác. Và mặc dù YaCy không hữu ích lắm trong cuộc sống hàng ngày nhưng nó là một sự thay thế xứng đáng cho Google về mặt quá trình tìm kiếm.

4. Pipl

Cái này là cái gì

Pipl là một hệ thống được thiết kế để tìm kiếm thông tin về một người cụ thể.

Tốt hơn

Các tác giả của Pipl khẳng định rằng các thuật toán chuyên biệt của họ tìm kiếm hiệu quả hơn các công cụ tìm kiếm “thông thường”. Đặc biệt, các nguồn thông tin ưu tiên bao gồm hồ sơ mạng xã hội, bình luận, danh sách thành viên và các cơ sở dữ liệu khác nhau công bố thông tin về mọi người, chẳng hạn như các quyết định của tòa án. Sự dẫn đầu của Pipl trong lĩnh vực này được khẳng định bằng các đánh giá từ Lifehacker.com, TechCrunch và các ấn phẩm khác.

Tại sao bạn cần cái này

Nếu bạn cần tìm thông tin về một người sống ở Mỹ thì Pipl sẽ hiệu quả hơn Google rất nhiều. Cơ sở dữ liệu của các tòa án Nga dường như không thể truy cập được đối với công cụ tìm kiếm. Vì vậy, anh ta không đối phó tốt với công dân Nga.

Cái này là cái gì

FindSounds là một công cụ tìm kiếm chuyên dụng khác. Tìm kiếm nhiều âm thanh khác nhau (ngôi nhà, thiên nhiên, ô tô, con người, v.v.) trong các nguồn mở. Dịch vụ này không hỗ trợ truy vấn bằng tiếng Nga, nhưng có một danh sách ấn tượng các thẻ tiếng Nga mà bạn có thể tìm kiếm.

Tốt hơn

Đầu ra chỉ chứa âm thanh và không có gì bổ sung. Trong cài đặt tìm kiếm, bạn có thể đặt định dạng và chất lượng âm thanh mong muốn. Tất cả âm thanh được tìm thấy đều có sẵn để tải xuống. Có một tìm kiếm âm thanh theo mẫu.

Tại sao bạn cần cái này

Nếu bạn cần nhanh chóng tìm thấy âm thanh của tiếng súng hỏa mai, tiếng thổi của chim gõ kiến đang bú hoặc tiếng kêu của Homer Simpson, thì dịch vụ này là dành cho bạn. Và chúng tôi chỉ chọn điều này từ các truy vấn tiếng Nga có sẵn. Trong tiếng Anh, phạm vi thậm chí còn rộng hơn.

Nhưng nghiêm túc mà nói, một dịch vụ chuyên biệt cần có một lượng khán giả chuyên biệt. Nhưng nếu nó cũng có ích cho bạn thì sao?

Cái này là cái gì

Wolfram|Alpha là một công cụ tìm kiếm tính toán. Thay vì liên kết đến các bài viết có chứa từ khóa, nó cung cấp câu trả lời có sẵn cho yêu cầu của người dùng. Ví dụ: nếu bạn nhập “so sánh dân số của New York và San Francisco” vào biểu mẫu tìm kiếm bằng tiếng Anh, Wolfram|Alpha sẽ ngay lập tức hiển thị các bảng và đồ thị có so sánh.

Tốt hơn

Dịch vụ này tốt hơn các dịch vụ khác trong việc tìm kiếm dữ kiện và tính toán dữ liệu. Wolfram|Alpha thu thập và sắp xếp kiến thức có sẵn trên Web từ nhiều lĩnh vực khác nhau, bao gồm khoa học, văn hóa và giải trí. Nếu cơ sở dữ liệu này chứa câu trả lời có sẵn cho truy vấn tìm kiếm, hệ thống sẽ hiển thị câu trả lời đó; nếu không, nó sẽ tính toán và hiển thị kết quả. Trong trường hợp này, người dùng chỉ nhìn thấy những thông tin cần thiết và không có gì thừa.

Tại sao bạn cần cái này

Ví dụ: nếu bạn là sinh viên, nhà phân tích, nhà báo hoặc nhà nghiên cứu, bạn có thể sử dụng Wolfram|Alpha để tìm và tính toán dữ liệu liên quan đến công việc của mình. Dịch vụ này không hiểu tất cả các yêu cầu nhưng nó không ngừng phát triển và trở nên thông minh hơn.

Cái này là cái gì

Công cụ tìm kiếm siêu dữ liệu Dogpile hiển thị danh sách kết quả tổng hợp từ kết quả tìm kiếm từ Google, Yahoo và các hệ thống phổ biến khác.

Tốt hơn

Đầu tiên, Dogpile hiển thị ít quảng cáo hơn. Thứ hai, dịch vụ sử dụng thuật toán đặc biệt để tìm và hiển thị kết quả tốt nhất từ các công cụ tìm kiếm khác nhau. Theo các nhà phát triển Dogpile, hệ thống của họ tạo ra kết quả tìm kiếm đầy đủ nhất trên toàn bộ Internet.

Tại sao bạn cần cái này

Nếu bạn không thể tìm thấy thông tin trên Google hoặc một công cụ tìm kiếm tiêu chuẩn khác, hãy tìm thông tin đó trên nhiều công cụ tìm kiếm cùng lúc bằng Dogpile.

Cái này là cái gì

BoardReader là một hệ thống tìm kiếm văn bản trong các diễn đàn, dịch vụ hỏi đáp và các cộng đồng khác.

Tốt hơn

Dịch vụ này cho phép bạn thu hẹp trường tìm kiếm của mình sang các nền tảng xã hội. Nhờ các bộ lọc đặc biệt, bạn có thể nhanh chóng tìm thấy các bài đăng và nhận xét của người dùng phù hợp với tiêu chí của mình: ngôn ngữ, ngày xuất bản và tên trang web.

Tại sao bạn cần cái này

BoardReader có thể hữu ích cho những người làm PR và các chuyên gia truyền thông khác, những người quan tâm đến ý kiến của khán giả đại chúng về một số vấn đề nhất định.

Cuối cùng

Tuổi thọ của các công cụ tìm kiếm thay thế thường rất ngắn ngủi. Lifehacker đã hỏi cựu tổng giám đốc chi nhánh Yandex của Ukraine, Sergei Petrenko, về triển vọng lâu dài của những dự án như vậy.

Serge Petrenko

Cựu Tổng Giám đốc Yandex.Ukraine.

Đối với số phận của các công cụ tìm kiếm thay thế, thật đơn giản: trở thành những dự án rất thích hợp với lượng khán giả nhỏ, do đó không có triển vọng thương mại rõ ràng hoặc ngược lại, hoàn toàn rõ ràng về sự vắng mặt của chúng.

Nếu bạn xem các ví dụ trong bài viết, bạn có thể thấy rằng các công cụ tìm kiếm như vậy chuyên về một phân khúc hẹp nhưng phổ biến, có lẽ chưa phát triển đủ để được chú ý trên radar của Google hoặc Yandex, hoặc họ đang thử nghiệm một giả thuyết ban đầu trong xếp hạng, chưa được áp dụng trong tìm kiếm thông thường.

Ví dụ: nếu một tìm kiếm trên Tor đột nhiên có nhu cầu, nghĩa là ít nhất một phần trăm khán giả của Google cần kết quả từ đó, thì tất nhiên, các công cụ tìm kiếm thông thường sẽ bắt đầu giải quyết vấn đề làm thế nào để tìm chúng và hiển thị chúng cho người dùng. Nếu hành vi của khán giả cho thấy rằng đối với một tỷ lệ đáng kể người dùng trong một số lượng truy vấn đáng kể, kết quả được đưa ra mà không tính đến các yếu tố tùy thuộc vào người dùng có vẻ phù hợp hơn, thì Yandex hoặc Google sẽ bắt đầu tạo ra những kết quả như vậy.

“Trở nên tốt hơn” trong bối cảnh của bài viết này không có nghĩa là “trở nên giỏi hơn về mọi thứ”. Đúng, về nhiều mặt, các anh hùng của chúng ta khác xa Google và Yandex (thậm chí còn xa Bing). Nhưng mỗi dịch vụ này đều mang lại cho người dùng những thứ mà những gã khổng lồ trong ngành tìm kiếm không thể cung cấp. Chắc hẳn bạn cũng biết những dự án tương tự. Chia sẻ với chúng tôi - cùng thảo luận.

Bộ sưu tập liên kết theo chủ đề là danh sách được biên soạn bởi một nhóm chuyên gia hoặc thậm chí là các nhà sưu tập cá nhân. Thông thường, một chủ đề có tính chuyên môn cao có thể được một chuyên gia đề cập tốt hơn so với một nhóm nhân viên từ một danh mục lớn. Có rất nhiều bộ sưu tập theo chủ đề trên Internet nên việc cung cấp địa chỉ cụ thể là vô nghĩa.

Lựa chọn tên miền

Danh mục là một hệ thống tìm kiếm thuận tiện, nhưng để truy cập vào máy chủ của Microsoft hoặc IBM, việc truy cập vào danh mục là điều vô nghĩa. Không khó để đoán ra tên của trang web tương ứng: www.microsoft.com, www.ibm.com hay www.microsoft.ru, www.ibm.ru là trang web của văn phòng đại diện tại Nga của các công ty này.

Tương tự, nếu người dùng cần một trang web dành riêng cho thời tiết trên thế giới, việc tìm kiếm trang web đó trên máy chủ www.weather.com là điều hợp lý. Trong hầu hết các trường hợp, việc tìm kiếm một trang web có từ khóa trong tiêu đề sẽ hiệu quả hơn việc tìm kiếm một tài liệu sử dụng từ đó trong văn bản. Nếu một công ty thương mại (hoặc dự án) phương Tây có tên một âm tiết và triển khai máy chủ của mình trên Internet, thì tên của nó rất có thể phù hợp với định dạng www.name.com và đối với Runet (phần Internet của Nga) - www.name.ru, trong đó tên - tên của công ty hoặc dự án. Lựa chọn địa chỉ có thể cạnh tranh thành công với các phương pháp tìm kiếm khác vì với hệ thống tìm kiếm như vậy, bạn có thể thiết lập kết nối đến máy chủ chưa được đăng ký với bất kỳ công cụ tìm kiếm nào. Tuy nhiên, nếu không tìm thấy tên mình đang tìm, bạn sẽ phải chuyển sang công cụ tìm kiếm.

Công cụ tìm kiếm

Hãy cho tôi biết bạn đang tìm kiếm gì trên Internet và tôi sẽ cho bạn biết bạn là ai

Nếu máy tính là một hệ thống cực kỳ thông minh có thể dễ dàng giải thích những gì bạn đang tìm kiếm thì nó sẽ tạo ra hai hoặc ba tài liệu - chính xác là những tài liệu bạn cần. Nhưng thật không may, điều này không phải như vậy và để đáp lại yêu cầu, người dùng thường nhận được một danh sách dài các tài liệu, nhiều tài liệu trong số đó không liên quan gì đến những gì anh ta yêu cầu. Những tài liệu như vậy được gọi là không liên quan (từ tiếng Anh có liên quan - phù hợp, có liên quan). Vì vậy, tài liệu liên quan là tài liệu chứa thông tin đang được tìm kiếm. Rõ ràng, tỷ lệ tài liệu liên quan nhận được phụ thuộc vào khả năng đưa ra truy vấn một cách chính xác. Tỷ lệ các tài liệu liên quan trong danh sách tất cả các tài liệu được tìm thấy bởi công cụ tìm kiếm được gọi là độ chính xác của tìm kiếm. Các tài liệu không liên quan được gọi là tiếng ồn. Nếu tất cả tài liệu tìm thấy đều có liên quan (không có tài liệu nhiễu) thì độ chính xác tìm kiếm là 100%. Nếu tất cả các tài liệu liên quan được tìm thấy thì mức độ hoàn thiện của tìm kiếm là 100%.

Do đó, chất lượng tìm kiếm được xác định bởi hai tham số phụ thuộc lẫn nhau: độ chính xác và tính đầy đủ của tìm kiếm. Việc tăng tính đầy đủ của tìm kiếm sẽ làm giảm độ chính xác và ngược lại.

Công cụ tìm kiếm hoạt động như thế nào?

Công cụ tìm kiếm có thể được so sánh với một bộ phận trợ giúp, trong đó các đại lý đi khắp các doanh nghiệp để thu thập thông tin vào cơ sở dữ liệu (Hình 4.21). Khi bạn liên hệ với dịch vụ, thông tin sẽ được lấy từ cơ sở dữ liệu này. Dữ liệu trong cơ sở dữ liệu trở nên lỗi thời nên các đại lý phải cập nhật dữ liệu đó định kỳ. Một số doanh nghiệp tự gửi thông tin về mình, đại lý không cần phải đến gặp. Nói cách khác, help desk có hai chức năng: tạo và cập nhật liên tục dữ liệu trong cơ sở dữ liệu và tìm kiếm thông tin trong cơ sở dữ liệu theo yêu cầu của khách hàng.

Cơm. 4.21.

Tương tự như vậy, máy tìm kiếm bao gồm hai phần: cái gọi là robot (hoặc nhện), vượt qua các máy chủ Web và hình thành cơ sở dữ liệu của công cụ tìm kiếm.

Cần lưu ý rằng, khi xử lý một yêu cầu cụ thể của người dùng, công cụ tìm kiếm hoạt động chính xác dựa trên các tài nguyên nội bộ (và không bắt đầu hành trình trên Web, như những người dùng thiếu kinh nghiệm thường tin) và các tài nguyên nội bộ đương nhiên bị hạn chế. Mặc dù cơ sở dữ liệu của công cụ tìm kiếm được cập nhật liên tục, máy tìm kiếm không thể lập chỉ mục tất cả các tài liệu Web: số lượng của chúng quá lớn. Do đó, luôn có khả năng tài nguyên bạn đang tìm kiếm không được một công cụ tìm kiếm cụ thể nào biết đến.

Ý tưởng này được minh họa rõ ràng trong Hình. 4.22. Hình elip 1 giới hạn tập hợp tất cả các tài liệu Web tồn tại tại một thời điểm nào đó, hình elip 2 giới hạn tất cả các tài liệu được lập chỉ mục bởi một công cụ tìm kiếm nhất định và hình elip 3 giới hạn các tài liệu được tìm kiếm. Do đó, bằng cách sử dụng công cụ tìm kiếm này, bạn chỉ có thể tìm thấy một phần tài liệu cần thiết được nó lập chỉ mục.

Cơm. 4.22.

Vấn đề về tính đầy đủ của tìm kiếm không chỉ nằm ở nguồn tài nguyên nội bộ hạn chế của công cụ tìm kiếm mà còn ở chỗ tốc độ của robot bị hạn chế và số lượng tài liệu Web mới không ngừng tăng lên. Việc tăng tài nguyên bên trong của công cụ tìm kiếm không thể giải quyết hoàn toàn vấn đề vì tốc độ thu thập tài nguyên của robot là hữu hạn.

Đồng thời, giả sử rằng máy tìm kiếm chứa bản sao của tài nguyên Internet gốc, nó sẽ không chính xác. Thông tin đầy đủ (tài liệu nguồn) không phải lúc nào cũng được lưu trữ, thường xuyên hơn, chỉ một phần của nó được lưu trữ - cái gọi là danh sách được lập chỉ mục hoặc chỉ mục, nhỏ gọn hơn nhiều so với văn bản của tài liệu và cho phép bạn phản hồi nhanh chóng các truy vấn tìm kiếm .

Để xây dựng một chỉ mục, dữ liệu nguồn được chuyển đổi sao cho khối lượng cơ sở dữ liệu ở mức tối thiểu và việc tìm kiếm được thực hiện rất nhanh chóng và cung cấp thông tin hữu ích tối đa. Giải thích danh sách được lập chỉ mục là gì, chúng ta có thể so sánh với danh sách trên giấy của nó - cái gọi là sự phù hợp, tức là. một từ điển liệt kê các từ được sử dụng bởi một nhà văn cụ thể theo thứ tự bảng chữ cái, cũng như liên kết đến chúng và tần suất sử dụng chúng trong các tác phẩm của ông.

Rõ ràng, một từ điển phù hợp nhỏ gọn hơn nhiều so với văn bản gốc của tác phẩm và việc tìm đúng từ trong đó dễ dàng hơn nhiều so với việc lật giở một cuốn sách với hy vọng tìm được từ phù hợp.

Xây dựng chỉ số

Sơ đồ xây dựng chỉ số được thể hiện trong hình. 4.23. Các tác nhân mạng, hay robot nhện, “thu thập dữ liệu” trên Web, phân tích nội dung của các trang Web và thu thập thông tin về những gì được tìm thấy và trên trang nào.

Cơm. 4.23.

Khi bạn tìm thấy một trang HTML khác, hầu hết các công cụ tìm kiếm đều ghi lại các từ, hình ảnh, liên kết và các thành phần khác (trong các công cụ tìm kiếm khác nhau theo những cách khác nhau) có trên đó. Hơn nữa, khi theo dõi các từ trên một trang, không chỉ sự hiện diện của chúng được ghi lại mà còn cả vị trí của chúng, tức là. vị trí của những từ này: trong tiêu đề, phụ đề, thẻ meta 1 Thẻ meta là thẻ dịch vụ cho phép nhà phát triển đặt thông tin dịch vụ trên các trang Web, bao gồm cả để định hướng công cụ tìm kiếm.(thẻ meta) hoặc ở những nơi khác. Trong trường hợp này, những từ quan trọng thường được ghi lại, còn các liên từ và thán từ như “a”, “but” và “or” sẽ bị bỏ qua. Thẻ meta cho phép chủ sở hữu trang xác định các từ khóa và chủ đề mà trang được lập chỉ mục. Điều này có thể có liên quan khi từ khóa có nhiều ý nghĩa. Thẻ meta có thể hướng dẫn công cụ tìm kiếm khi chọn từ nhiều nghĩa của một từ cho đến nghĩa duy nhất đúng. Tuy nhiên, thẻ meta chỉ hoạt động đáng tin cậy khi chúng được điền bởi chủ sở hữu trang web trung thực. Những chủ sở hữu trang web vô đạo đức đã đưa những từ phổ biến nhất trên Web vào thẻ meta của họ, những từ này không liên quan gì đến chủ đề của trang web. Kết quả là, khách truy cập sẽ truy cập vào các trang web không được yêu cầu, do đó thứ hạng của họ sẽ tăng lên. Đây là lý do tại sao nhiều công cụ tìm kiếm hiện đại bỏ qua các thẻ meta hoặc coi chúng là phần bổ sung cho văn bản trang. Mỗi robot duy trì danh sách tài nguyên riêng bị trừng phạt vì quảng cáo sai sự thật.

Rõ ràng, nếu bạn tìm kiếm các trang web sử dụng từ khóa "dog", thì công cụ tìm kiếm không chỉ phải tìm tất cả các trang có đề cập đến từ "dog" mà cả những trang có từ này liên quan đến chủ đề của trang web. Để xác định mức độ liên quan của một từ cụ thể đến hồ sơ của một trang Web nhất định, cần đánh giá tần suất nó xuất hiện trên trang, liệu có liên kết đến các trang khác cho từ này hay không. Tóm lại, bạn cần xếp hạng các từ tìm thấy trên trang theo thứ tự tầm quan trọng. Các từ được gán trọng số tùy thuộc vào số lần và vị trí chúng xuất hiện (trong tiêu đề trang, ở đầu hoặc cuối trang, trong liên kết, trong thẻ meta, v.v.). Mỗi công cụ tìm kiếm có thuật toán tính trọng số riêng - đây là một trong những lý do khiến công cụ tìm kiếm trả về các danh sách tài nguyên khác nhau cho cùng một từ khóa. Vì các trang được cập nhật liên tục nên quá trình lập chỉ mục phải diễn ra liên tục. Spiderbot đi theo các liên kết và tạo một tệp chứa chỉ mục, tệp này có thể khá lớn. Để giảm kích thước của nó, họ sử dụng cách giảm thiểu lượng thông tin và nén tệp. Với nhiều robot, công cụ tìm kiếm có thể xử lý hàng trăm trang mỗi giây. Ngày nay, các công cụ tìm kiếm mạnh mẽ lưu trữ hàng trăm triệu trang và nhận được hàng chục triệu truy vấn mỗi ngày.

Khi xây dựng chỉ mục, vấn đề giảm số lượng trùng lặp cũng được giải quyết - một nhiệm vụ không hề nhỏ, vì để so sánh chính xác, trước tiên bạn phải xác định mã hóa tài liệu. Một nhiệm vụ thậm chí còn khó khăn hơn là tách các tài liệu rất giống nhau (được gọi là “gần trùng lặp”), chẳng hạn như những tài liệu trong đó chỉ có tiêu đề khác nhau và văn bản bị trùng lặp. Có rất nhiều tài liệu tương tự trên Internet - ví dụ: ai đó đã sao chép một bản tóm tắt và xuất bản nó trên trang web có chữ ký của anh ấy. Các công cụ tìm kiếm hiện đại cho phép chúng ta giải quyết những vấn đề như vậy.

Một nghiên cứu sinh tiến sĩ có thể tìm thấy trên Internet các bài báo khoa học để viết bài phê bình luận văn của một ứng viên y khoa, các bài báo bằng tiếng nước ngoài để chuẩn bị cho kỳ thi ứng viên tối thiểu, mô tả các phương pháp nghiên cứu hiện đại và nhiều hơn thế nữa...

Bài viết này sẽ thảo luận về cách tìm kiếm thông tin trên Internet bằng công cụ tìm kiếm.

Đối với những người chưa rành về các khái niệm như trang web, máy chủ, tôi sẽ cung cấp thông tin cơ bản về Internet.

Internet là một tập hợp các trang web được lưu trữ trên các máy chủ được kết nối bằng các kênh liên lạc (đường dây điện thoại, cáp quang và vệ tinh).

Trang web là tập hợp các tài liệu ở định dạng html (các trang của trang web) được kết nối với nhau bằng các siêu liên kết.

Một trang web lớn (ví dụ: "Medlink" - một danh mục chuyên đề y tế http://www.medlinks.ru - bao gồm 30.000 trang và dung lượng ổ đĩa mà nó chiếm trên máy chủ là khoảng 400 MB).
Một trang web nhỏ bao gồm vài chục - hàng trăm trang và chiếm 1 - 10 MB (ví dụ: trang “Bác sĩ sau đại học” của tôi ngày 25 tháng 7 năm 2004 bao gồm 280 trang .htm và chiếm 6 MB trên máy chủ).

Máy chủ là một máy tính được kết nối với Internet và hoạt động suốt ngày đêm. Máy chủ có thể lưu trữ đồng thời từ vài trăm đến vài nghìn trang web.

Người dùng Internet có thể xem và sao chép các trang web được lưu trữ trên máy chủ.

Để đảm bảo quyền truy cập vào các trang web không bị gián đoạn, việc cung cấp điện cho máy chủ được thực hiện thông qua nguồn điện liên tục và phòng nơi máy chủ hoạt động (trung tâm dữ liệu) được trang bị hệ thống chữa cháy tự động và nhiệm vụ kỹ thuật 24/7. nhân sự được tổ chức.

Trải qua hơn 10 năm tồn tại, Runet (Internet tiếng Nga) đã trở thành một cấu trúc có trật tự và việc tìm kiếm thông tin trên Internet trở nên dễ đoán hơn.

Công cụ chính để tìm kiếm thông tin trên Internet là các công cụ tìm kiếm.

Công cụ tìm kiếm bao gồm một chương trình nhện thu thập dữ liệu các trang web trên Internet và cơ sở dữ liệu (chỉ mục) chứa thông tin về các trang web đã truy cập.

Theo yêu cầu của quản trị trang web, robot nhện vào trang web và xem các trang của trang web, nhập thông tin về các trang của trang web vào chỉ mục của công cụ tìm kiếm. Công cụ tìm kiếm có thể tự tìm thấy một trang web, ngay cả khi quản trị viên web của nó chưa đăng ký. Nếu một liên kết đến một trang web xuất hiện ở đâu đó trong đường dẫn của công cụ tìm kiếm (ví dụ: trên một trang web khác), nó sẽ lập chỉ mục trang web đó ngay lập tức.

Con nhện không sao chép các trang của trang vào chỉ mục của công cụ tìm kiếm mà lưu trữ thông tin về cấu trúc của từng trang trên trang - ví dụ: những từ nào xuất hiện trong tài liệu và theo thứ tự nào, địa chỉ siêu liên kết của trang trang, kích thước tài liệu tính bằng kilobyte, ngày tạo ra nó, và nhiều hơn nữa. Vì vậy, chỉ mục của công cụ tìm kiếm nhỏ hơn nhiều lần so với khối lượng thông tin được lập chỉ mục.

Công cụ tìm kiếm tìm kiếm trên Internet là gì và như thế nào?

Công cụ tìm kiếm được con người phát minh ra để giúp họ tìm kiếm thông tin. Thông tin trong sự hiểu biết và thể hiện trực quan của con người chúng ta là gì? Đây không phải là mùi hay âm thanh, không phải cảm giác hay hình ảnh. Đây chỉ là những từ ngữ, văn bản. Khi chúng tôi tìm kiếm thứ gì đó trên Internet, chúng tôi yêu cầu các từ - một truy vấn tìm kiếm và để đáp lại, chúng tôi hy vọng nhận được một văn bản chứa chính xác những từ này. Bởi vì chúng ta biết rằng công cụ tìm kiếm sẽ tìm kiếm trong mảng thông tin chính xác những từ mà chúng ta yêu cầu. Bởi vì đó là cách cô ấy được thiết kế để tìm kiếm từ ngữ.

Công cụ tìm kiếm không tìm kiếm các từ trên Internet mà tìm kiếm trong chỉ mục của nó. Chỉ mục của công cụ tìm kiếm chỉ chứa thông tin về một số lượng nhỏ các trang Internet. Có những công cụ tìm kiếm chỉ lập chỉ mục các trang web bằng tiếng Anh và có những công cụ tìm kiếm chỉ bao gồm các trang web tiếng Nga trong chỉ mục của chúng.

(chỉ mục chứa các trang web bằng tiếng Anh, tiếng Đức và các ngôn ngữ châu Âu khác)

Công cụ tìm kiếm Runet(chỉ mục chứa các trang web bằng tiếng Nga)

Tính năng của một số công cụ tìm kiếm Runet

Công cụ tìm kiếm Google không tính đến hình thái của tiếng Nga. Ví dụ: Google coi các từ “luận án” và “luận văn” là khác nhau.

Cần phải xem không chỉ trang đầu tiên của kết quả truy vấn tìm kiếm mà còn cả phần còn lại.

Bởi vì thường các trang web chứa thông tin mà người dùng thực sự cần đều nằm ở trang 4 đến 10 của kết quả truy vấn tìm kiếm.

Tại sao chuyện này đang xảy ra? Thứ nhất, nhiều người tạo trang web không tối ưu hóa các trang trên trang web của họ cho các công cụ tìm kiếm, chẳng hạn như họ không đưa thẻ meta vào các trang trên trang web của mình.

Thẻ meta là thành phần dịch vụ của tài liệu web không hiển thị trên màn hình nhưng rất quan trọng khi công cụ tìm kiếm tìm thấy trang web của bạn. Thẻ meta giúp công cụ tìm kiếm dễ dàng tìm thấy hơn, do đó họ không cần phải đi sâu vào tài liệu và phân tích toàn bộ văn bản của trang web để tạo ra một bức tranh nhất định về nó. Thẻ meta quan trọng nhất là meta NAME="keywords" - từ khóa của trang web. Nếu một từ trong văn bản chính của tài liệu không bị coi là “thư rác tìm kiếm” và nằm trong số 50 từ đầu tiên trong “từ khóa”, thì tầm quan trọng của từ này trong truy vấn sẽ tăng lên, nghĩa là tài liệu nhận được mức độ liên quan cao hơn.

Thứ hai, có sự cạnh tranh khốc liệt giữa các quản trị viên trang web để giành vị trí đầu tiên do truy vấn tìm kiếm.

Theo thống kê, 80% lượng truy cập vào một website đến từ các công cụ tìm kiếm. Sớm hay muộn, các quản trị viên web cũng nhận ra điều này và bắt đầu điều chỉnh trang web của họ cho phù hợp với quy luật của các công cụ tìm kiếm.

Thật không may, một số người tạo trang web sử dụng phương pháp không trung thực để quảng cáo trang web của họ thông qua các công cụ tìm kiếm - cái gọi là "spam tìm kiếm" để tạo ra sự tương ứng dường như giữa nội dung của thẻ meta và phần còn lại của văn bản trang web - họ đặt các từ ẩn trên các trang của trang web, gõ màu nền để chúng không gây trở ngại cho khách truy cập trang web. Tuy nhiên, những người tạo ra công cụ tìm kiếm giám sát những thủ thuật như vậy và trang web của “kẻ gửi thư rác tìm kiếm” rơi từ độ cao đạt được xuống đáy.

Phép ẩn dụ và so sánh tượng hình ít được sử dụng trên Internet. Chúng bóp méo sự thật và khiến người dùng Internet tránh xa những thông tin chính xác và rõ ràng. Càng ít tính nghệ thuật và phong cách của tác giả trang web càng chính xác thì trang web đó càng chiếm được vị trí cao hơn trong kết quả truy vấn tìm kiếm.

Đổi lại, nếu bạn muốn một công cụ tìm kiếm tìm các bài viết cho bạn trên Internet, hãy suy nghĩ như một cái máy, hãy trở thành một cái máy. Ít nhất là trong một thời gian. Trong quá trình tìm kiếm.