Các vấn đề về truy xuất thông tin: lịch sử và công nghệ. Tìm kiếm thông tin trong mạng máy tính: phương pháp tiếp cận mới. Cú pháp truy vấn Yandex

Việc tìm kiếm thông tin bạn cần trên Internet thường khá khó khăn. Internet đang phát triển một cách hỗn loạn, nó không có cấu trúc được xác định rõ ràng. Không ai có thể đảm bảo rằng một miền sẽ chỉ chứa thông tin về một chủ đề nhất định và miền khác - thông tin về một chủ đề khác nhưng cũng được xác định rõ ràng. Ví dụ: trên domains.com, bạn không chỉ có thể tìm thấy thông tin thương mại mà còn có thể tìm thấy nhiều tài liệu khác nhau về các sản phẩm phần mềm hoặc thậm chí là những câu chuyện cười.

Ví dụ: nếu cấu trúc miền tương tự như cấu trúc thư mục, thì trong miền ru.comp.os.linux (như trong hệ thống tin tức) sẽ có tất cả thông tin về hệ điều hành. hệ thống Linux bằng tiếng Nga và một số loại tổ chức điều hành đã đảm bảo rằng thông tin về Linux không được đăng trên các miền khác, khi đó việc tìm kiếm sẽ đơn giản hơn nhiều. Rốt cuộc, chúng ta sẽ biết nơi để tìm. Bạn mở trình duyệt, nhập ru.comp.os.linux và bạn sẽ nhận được... hàng triệu liên kết khác nhau đến các bài viết, tài liệu HOWTO và các thông tin khác liên quan đến Linux bằng cách này hay cách khác.

Hiệu quả tìm kiếm

    Hiệu quả tìm kiếm phụ thuộc vào nhiều yếu tố:
  • Từ chính thông tin - có thể có nhiều thông tin về một chủ đề nhưng lại có ít thông tin về chủ đề khác. Đôi khi bạn có thể tìm thấy rất nhiều thông tin về một chủ đề nhất định, nhưng hệ số hành động hữu ích của tìm kiếm này sẽ gần 0,0% và bạn chỉ có thể tìm thấy 3-4 liên kết và đây sẽ chính là thứ bạn cần. Điều này cũng bao gồm khả năng quản trị viên web trình bày thông tin một cách chính xác để chính các công cụ tìm kiếm có thể tìm thấy nó, giả sử ở một nơi rất xa có thông tin bạn cần nhưng công cụ tìm kiếm không biết gì về nó. Có lẽ thông tin vừa được công bố hoặc đơn giản là người quản trị trang web công bố thông tin đó thậm chí còn không biết đến sự tồn tại của các công cụ tìm kiếm. Bạn đang tìm kiếm thông tin bằng công cụ tìm kiếm. Nếu cô ấy không “biết” thông tin bạn cần thì bạn sẽ không biết gì về cô ấy.
  • Từ công cụ tìm kiếm - có rất nhiều công cụ tìm kiếm và chúng đều khác nhau. Ngay cả khi chúng thuộc cùng một loại (chúng ta sẽ nói về các loại công cụ tìm kiếm sau), mỗi loại chắc chắn sẽ có thuật toán riêng. Nếu bạn không tìm thấy thông tin bằng một công cụ tìm kiếm, hãy thử tìm kiếm thông tin đó bằng một công cụ tìm kiếm khác. Đừng mắc kẹt trên một công cụ tìm kiếm, cho dù bạn có thích nó đến đâu.
  • Rất nhiều điều phụ thuộc vào khả năng sử dụng công cụ tìm kiếm - cách bạn biết cách sử dụng công cụ tìm kiếm. Nếu bạn không biết cách sử dụng công cụ tìm kiếm thì việc tìm kiếm của bạn khó có thể hiệu quả.

Cách tìm kiếm thông tin chính xác

Vì hầu hết bạn không chọn trang web mình cần từ danh mục công cụ tìm kiếm mà nhập một từ khóa cụ thể (hoặc một số từ khóa), bạn cần phải càng cụ thể càng tốt về chính từ khóa này. Bạn càng xác định chính xác chủ đề tìm kiếm của mình thì kết quả sẽ càng chính xác. Công cụ tìm kiếm không thể đoán được suy nghĩ của bạn; bạn cần nói rõ ràng với nó những gì bạn đang tìm kiếm.

Mỗi công cụ tìm kiếm đều có cú pháp riêng mà bạn cần biết. Chương này sẽ mô tả cú pháp của các công cụ tìm kiếm Google, Yandex và Rambler. Nếu bạn muốn sử dụng một công cụ tìm kiếm khác, bạn có thể tìm hiểu cú pháp của nó trên trang web của nó (thường nó được mô tả chi tiết).

Công cụ tìm kiếm trên Internet

Bây giờ hãy nói về bản thân chúng ta công cụ tìm kiếmỒ.

Trong lãnh thổ CIS cũ Các công cụ tìm kiếm phổ biến nhất sau đây, theo SpyLog (Openstat):

  • 1. Yandex (www.yandex.ru);
  • 2. Google (www.google.com);
  • 3. [email protected] (go.mail.ru);
  • 3. Rambler (www.rambler.ru);
  • 5. Yahoo! (www.yahoo.com);
  • 6. AltaVista (www.altavista.com);
  • 7. Bing (www.bing.com).

Các công cụ tìm kiếm được liệt kê theo thứ tự mức độ phổ biến giảm dần. Như bạn có thể thấy, công cụ tìm kiếm phổ biến nhất của chúng tôi là Yandex.

Các loại công cụ tìm kiếm

    Có hai loại công cụ tìm kiếm chính:
  • chỉ mục - Google, AltaVista, Rambler, HotBot, Yandex, v.v.;
  • phân loại (danh mục) - Rambler, Yahoo! và vân vân.

Đừng ngạc nhiên khi công cụ tìm kiếm Hệ thống Ramblerđược chỉ định hai lần - đó là cả chỉ mục và phân loại cùng một lúc. Chúng ta sẽ quay lại vấn đề này sau, nhưng bây giờ hãy nói về sự khác biệt giữa hai hệ thống này.

Công cụ tìm kiếm chỉ mục hoạt động như thế nào? Công cụ tìm kiếm khởi chạy một chương trình đặc biệt để xem nội dung của máy chủ web, lập chỉ mục thông tin: nó nhập thông tin đó vào cơ sở dữ liệu của nó từ khóa của một trang web cụ thể, một số thông tin từ trang web.

Tóm tắt lịch sử của Google

Hãy bắt đầu với cái tên. Google là một phiên bản được sửa đổi một chút của từ googol (không phải vô cớ mà nó thường được gọi là “Google”). Từ này lần lượt được đặt ra bởi Milton Sirota, cháu trai của nhà toán học nổi tiếng Edward Kasner, và sau đó được phổ biến rộng rãi trong cuốn sách Toán học và Trí tưởng tượng của Kasner và Newman. Từ "googol" hiển thị một số có một và 100 số không. Cái tên "Google" phản ánh nỗ lực sắp xếp lượng thông tin khổng lồ trên Web.

Vì vậy, hãy bắt đầu lại từ đầu. Nhà phát triển tương lai Google Serge Brin (Sergey Brin) và Larry Page (Larry Page) gặp nhau vào năm 1999 tại Đại học Stanford. Lúc đó Larry 24 tuổi, còn Sergei 23. Lúc đó Larry đang là sinh viên tại Đại học Michigan và đến Stanford được vài ngày. Sergei ở trong một nhóm sinh viên có nhiệm vụ giới thiệu khách hàng với trường đại học. Ngay từ lần gặp đầu tiên, Sergei và Larry, nói một cách nhẹ nhàng, đã không ưa nhau - họ đã tranh cãi về mọi thứ có thể tranh cãi. Mặc dù cuối cùng hóa ra điều tích cực, bởi vì những ý kiến ​​​​khác nhau của họ đã dẫn đến việc tạo ra một thuật toán để giải quyết một trong những vấn đề máy tính cấp bách nhất: tìm kiếm thông tin phù hợp giữa một lượng dữ liệu khổng lồ. Vào tháng 1 năm 1996, Larry và Sergei bắt đầu làm việc trên công cụ tìm kiếm BackRub, công cụ này có nhiệm vụ phân tích “các liên kết ngược” trỏ đến một trang web nhất định. Công việc trên máy chủ này được thực hiện trong tình trạng thiếu kinh phí liên tục - xét cho cùng, vào thời điểm đó, Sergey và Larry đều là sinh viên tốt nghiệp tại trường đại học - bản thân bạn cũng hiểu rằng sinh viên tốt nghiệp không có nhiều tiền. Nhân tiện, đây là lần đầu tiên Larry tham gia vào một dự án nghiêm túc như vậy, và trước đó anh ấy đã từng tham gia vào đủ loại dự án “phù phiếm”, thậm chí đôi khi mang tính giai thoại, chẳng hạn như anh ấy đã chế tạo một chiếc máy in đang hoạt động từ Lego.

Thuật toán tìm kiếm của Google

Giao diện của Google nổi bật ở sự đơn giản: một trường nhập liệu và hai nút. Như họ nói, mọi thứ khéo léo đều đơn giản.

Cú pháp đặc biệt (mở rộng) của Google

Ngoài tính logic Nhà điều hành Google cung cấp cho bạn các công cụ sửa đổi tìm kiếm được liệt kê trong bảng. Công cụ sửa đổi tìm kiếm được gọi là cú pháp đặc biệt của Google. Hãy xem xét bảng này một cách nghiêm túc: một khi bạn cố gắng tìm kiếm thứ gì đó bằng cách sử dụng từ bổ nghĩa, bạn sẽ không thể đặt chúng xuống.

Công cụ sửa đổi nội dung của Google

Công cụ sửa đổi inurl được sử dụng để tìm kiếm URL được chỉ định. Và không giống như công cụ sửa đổi trang web, cho phép bạn tìm kiếm thông tin chỉ trên một trang web hoặc tên miền, công cụ sửa đổi inurl cho phép bạn tìm kiếm thông tin trong các thư mục con của trang web, ví dụ:

inurl: siteskype-zvonim-besplatno

Công cụ sửa đổi inurl cho phép bạn sử dụng ký tự * để chỉ tên miền, ví dụ:
inurl: "*.redhat.com"

Hiệu quả nhất là sử dụng inurl kết hợp với một trang web. Truy vấn sau đây sẽ tìm kiếm thông tin trong miền gidmir.ru, trên tất cả các miền phụ của nó ngoại trừ www:
trang web: gidmir.ru inurl: "*.gidmir" -inurl: "www.gidmir.ru"

Ngôn ngữ tìm kiếm của Google

Google cho phép cú pháp hỗn hợp, tức là một cú pháp trong đó một số công cụ sửa đổi tìm kiếm đặc biệt được sử dụng trong truy vấn. Điều này cho phép bạn đạt được kết quả tốt nhất.

Đây là một ví dụ rất đơn giản về cú pháp hỗn hợp:
trang web: ru inurl: đĩa

TRONG trong trường hợp này việc tìm kiếm sẽ được thực hiện trên các trang web trong miền và URL phải chứa đĩa từ.

Đây là một ví dụ khác:
trang web: ru -inurl: org.ua

Việc tìm kiếm sẽ được thực hiện trên các trang web thuộc miền ru, nhưng kết quả tìm kiếm sẽ không chứa các trang nằm trên org.ua.

Truy vấn tìm kiếm của Google

Đối với hầu hết xếp hạng và hồ sơ Người dùng Google giới hạn 10 phím là không đáng kể. Nhưng những người yêu thích các truy vấn dài có thể nhận thấy rằng Google chỉ tính đến 10 từ khóa đầu tiên và tất cả những từ khóa còn lại đều bị bỏ qua.

Tại sao bạn cần tìm kiếm các cụm từ dài? Trong hầu hết các trường hợp, đây là những trích đoạn từ tác phẩm. Giả sử rằng chúng ta đang tìm kiếm tác phẩm "The Master and Margarita". Cần lưu ý rằng cụm từ khóa phải giống như “Master Margarita”, vì các từ và, hoặc, và, của, hoặc, tôi, a, the và một số từ khác bị công cụ tìm kiếm bỏ qua. Nếu bạn muốn buộc một trong những từ này vào tìm kiếm, hãy đặt dấu "+" trước từ đó, chẳng hạn như +the.

Việc xây dựng truy vấn chính xác cho phép bạn vượt qua giới hạn 10 từ. Những khuyến nghị sau đây sẽ giúp bạn không chỉ giảm độ dài của truy vấn mà còn tăng hiệu quả tìm kiếm nói chung.

Tìm kiếm nâng cao của Google

Chúng tôi nhập địa chỉ vào dòng nhập của trình duyệt - www.google.ru/advanced_search và truy cập tìm kiếm nâng cao của Google.

Sử dụng tìm kiếm nâng cao, bạn có thể tìm kiếm thông tin gần như linh hoạt như sử dụng công cụ sửa đổi tìm kiếm. Tại sao "gần như"? Giao diện tìm kiếm nâng cao không cung cấp quyền truy cập vào tất cả các công cụ sửa đổi tìm kiếm.

Đặt thuộc tính tìm kiếm của Google trong cookie trình duyệt

Tôi không muốn làm phiền bạn chi tiết kỹ thuật, vì vậy tôi sẽ nói ngắn gọn về Cookies là gì và không, không phải chúng được ăn với cái gì mà là bạn cần làm việc với chúng như thế nào.

Hãy tưởng tượng rằng chúng ta được giao nhiệm vụ sau: chúng ta cần viết một báo cáo lượt truy cập riêng lẻ cho từng khách hàng trên trang web của công ty chúng ta. Nghĩa là, để người dùng không nhìn thấy tổng số lượt truy cập nhưng biết chính xác họ đã truy cập trang web của chúng tôi bao nhiêu lần. Đối với mỗi địa chỉ IP, chúng ta cần lưu giữ các bản ghi trong một bảng, rất có thể sẽ lớn và từ đó dẫn đến việc chúng ta đang sử dụng thời gian CPU một cách phi lý và không gian đĩa. Về phần chúng tôi, sẽ đúng hơn nhiều nếu sử dụng không gian này để mang lại lợi ích lớn hơn.

Kết quả tìm kiếm của Google

Kết quả tìm kiếm của Google- đây không chỉ là một tập hợp các liên kết phù hợp với các điều kiện tìm kiếm được chỉ định. Đây là một cái gì đó đáng được xem xét riêng biệt hơn. Nhập từ "rusopen" và nhấp vào nút Tìm kiếm trên Google.

Ở trên cùng, chúng ta thấy tổng số kết quả (883.000.000) và tổng thời gian tìm kiếm diễn ra, cụ thể là 0,34 giây.

    Trong hầu hết các trường hợp, kết quả được trình bày dưới dạng:
  • tiêu đề trang;
  • mô tả trang;
  • URL trang;
  • kích thước trang;
  • ngày lập chỉ mục trang cuối cùng;

Tìm kiếm hình ảnh của Google

Google Hình ảnh cho phép bạn tìm hình ảnh khác nhau trên mạng. Mặc dù bản thân hình ảnh không thể được lập chỉ mục nhưng các trang chứa hình ảnh sẽ được lập chỉ mục. Nhập mô tả của hình ảnh và bạn sẽ nhận được rất nhiều liên kết, cũng như chính các hình ảnh đó, được trình bày trong thư viện.

    Để biết thêm tìm kiếm hiệu quả hình ảnh bạn cần sử dụng các công cụ sửa đổi tìm kiếm sau:
  • intitle: - tìm kiếm trong tiêu đề trang;
  • filetype: - cho phép bạn chỉ định loại hình ảnh, bạn có thể chỉ định các loại sau: JPEG và GIF, không phải BMP, PNG, các loại hình ảnh khác không được lập chỉ mục;
  • inurl: - tìm kiếm theo URL được chỉ định, ví dụ inurl: www.gidmir.ru ;
  • trang web: tìm kiếm trên miền được chỉ định hoặc một trang web, ví dụ: site: com.

ứng dụng Google

Google là một công cụ tìm kiếm mạnh mẽ với hơn 3 tỷ trang. Ngoài các trang web thông thường, Google lập chỉ mục các tệp ở định dạng Word, Excel, PowerPoint, PDF và RTF. Google cũng có thể được sử dụng để tìm kiếm hình ảnh và số điện thoại: dịch vụ của Google Hình ảnh và Danh bạ. Trong bài viết này chúng ta sẽ nói về các dịch vụ đặc biệt của Google.

Email của Google

Hãy thử sử dụng email Google. Cần lưu ý rằng đây không phải là một webmail thông thường.

    Một số tính năng của Gmail bao gồm:
  • kích thước hộp thư lớn - hơn 7 GB;
  • thay vì xóa các bức thư, bạn có thể lưu trữ chúng - khi đó bạn sẽ có đủ dung lượng trong một thời gian dài và bạn có thể khôi phục những bức thư mà bạn đã nhận hoặc gửi vài năm trước;
  • khả năng tìm kiếm theo hộp thư với hiệu quả của Google;
  • sắp xếp thuận tiện các thư và thư trả lời: tất cả các thư và thư trả lời tạo thành một chuỗi dễ theo dõi;
  • bảo vệ chống thư rác tốt;
  • địa chỉ dễ nhớ [email protected];
  • giao diện thuận tiện.

Công cụ tìm kiếm Rambler

Lịch sử của Rambler

Mọi chuyện bắt đầu từ năm 1991 tại thành phố Pushchino, vùng Moscow. Năm xa xôi đó, một nhóm những người có cùng chí hướng đã tụ tập lại, trong số đó có Dmitry Kryukov, Sergei Lyskov, Viktor Voronkov, Vladimir Samoilov, Yury Ershov. Mối quan tâm chung của nhóm này là Internet. Có lẽ, vào năm 1991, không ai trong số các nhà phát triển Rambler trong tương lai thậm chí còn tưởng tượng rằng họ sẽ trở thành người tạo ra một trong những công cụ tìm kiếm lớn nhất và nổi tiếng nhất trên Runet. Rốt cuộc, trước đó, họ đều đã bảo dưỡng các thiết bị kỹ thuật vô tuyến tại Viện Hóa sinh và Sinh lý Vi sinh vật của Viện Hàn lâm Khoa học Nga. Năm 1992, công ty Stack được thành lập, do Sergei Lyskov đứng đầu. Hồ sơ công ty - mạng cục bộ và Internet. Về cơ bản, Stack là nhà cung cấp dịch vụ Internet. Công ty đã tạo ra một mạng lưới nội bộ, sau đó kết nối Pushchino với Moscow và thông qua mạng này với Internet. Nhân tiện, đây là kênh IP đầu tiên vượt ra ngoài Moscow. Và đây là vào năm 1992! Ngày nay, việc đặt kênh khá khó khăn - luôn có rất nhiều sắc thái, nhưng khi đó các dây cáp phải được đặt độc lập, thủ công, dưới lòng đất và tất cả những việc này được thực hiện vào mùa đông.

Cách tìm kiếm Rambler hoạt động

Internet không ngừng phát triển: số lượng trang web và quy mô của chúng ngày càng tăng lên. Hãy tưởng tượng: các trang web lớn được cập nhật hàng ngày, ngay cả khi khối lượng cập nhật là 1024 byte (1 KB), thì nếu chúng ta giả sử rằng có 10.000 trang web như vậy thì mỗi ngày công cụ tìm kiếm phải xử lý (lập chỉ mục) 10.000 KB (khoảng nói, 10 MB ) thông tin. Con số 10.000 được lấy ra “từ hư không” - chỉ để làm ví dụ. Nó có thể cao hơn hoặc thấp hơn - xét cho cùng, ngay cả những trang web lớn cũng không được cập nhật hàng ngày. Kích thước của bản cập nhật cũng được tạo ra. Hãy tưởng tượng một trang thông tin và phân tích mà trên đó các bài báo mới được xuất bản hầu như hàng ngày hoặc các tài liệu từ các trang khác được tái bản. Trong trường hợp này, kích thước của các bản cập nhật sẽ xa 1 KB, nhưng ít nhất là 10. Thêm vào tất cả tin tức này và thông tin khác, hóa ra với số lượng trang web được cập nhật là 10.000, công cụ tìm kiếm phải lập chỉ mục 120 MB của chữ. Và với tất cả những điều này, công cụ tìm kiếm không chỉ phải hiển thị chính xác kết quả tìm kiếm mà còn phải thực hiện việc đó càng nhanh càng tốt để người dùng có thể làm việc với nó một cách thuận tiện. Ai muốn đợi 10 phút để có kết quả tìm kiếm? Tất nhiên, tôi đang phóng đại điều này, nhưng cá nhân tôi sẽ không đợi quá 30 giây để có kết quả tìm kiếm (kể từ thời điểm bạn nhấp vào nút Tìm cho đến khi mười kết quả đầu tiên xuất hiện). Hóa ra là các nhà phát triển công cụ tìm kiếm phải liên tục duy trì ở mức thích hợp không chỉ phần cứng, phần cứng phải có khả năng xử lý khối lượng thông tin ngày càng tăng mà cả “toán học” cũng không thể đạt được chỉ bằng phần cứng. Cần liên tục cải tiến các thuật toán tìm kiếm để khi khối lượng tăng lên cơ sở tìm kiếm, thời gian tìm kiếm không tăng (có nghĩa là thời gian tăng đáng kể - đối với người dùng, việc tìm kiếm mất 2,5 giây hay 2,0555 giây không có gì khác biệt, vì anh ta không thể ước tính thời gian này).

Truy vấn Rambler, cú pháp Rambler

Yêu cầu tới Rambler có thể bao gồm một hoặc nhiều từ và yêu cầu có thể chứa dấu chấm câu. Các nhà phát triển Rambler đã thiết kế công cụ tìm kiếm của họ để tiện lợi tối đa người dùng. Rambler có thể được sử dụng ngay cả bởi người dùng thiếu kinh nghiệm, người không hề quen thuộc với ngôn ngữ truy vấn. Tất cả những gì anh ta phải làm là nhập một truy vấn bao gồm một số từ (ví dụ: một số cụm từ) và không có dấu chấm câu - chính Rambler đã tìm thấy tài liệu cần thiết, và đã làm điều đó một cách hiệu quả nhất có thể. Tất nhiên, nếu bạn sử dụng ngôn ngữ truy vấn một cách chính xác, hiệu quả sẽ tăng lên đáng kể, nhưng ngay cả khi bạn hoàn toàn không biết về ngôn ngữ truy vấn, hiệu quả tìm kiếm vẫn rất cao. cấp độ cao. Như đã lưu ý, việc biết ngôn ngữ truy vấn có lợi cho bạn; bạn sẽ có thể tìm thấy thông tin mình cần nhanh hơn nhiều.

Công cụ tìm kiếm Yandex (Yandex)

Tài liệu tham khảo lịch sử

Trở lại năm 1990, công ty Arcadia, do Arkady Borkovsky và Arkady Volozh đứng đầu, đã bắt đầu phát triển một công cụ tìm kiếm phần mềm. Sáu năm sau, trang web Yandex xuất hiện. Nhưng điều gì đã xảy ra trong sáu năm này?

Trong hai năm, hai hệ thống truy xuất thông tin đã được tạo ra - “Phân loại quốc tế về phát minh” và “Phân loại hàng hóa và dịch vụ”. Cả hai hệ thống đều chạy trên DOS và cho phép tìm kiếm một từ trong từ điển nhất định bằng cách sử dụng các toán tử Boolean.

Năm 1993, Arcadia trở thành một bộ phận của CompTek. Trong giai đoạn 1993-1994, công nghệ tìm kiếm đã được cải tiến đáng kể, chẳng hạn, một từ điển cung cấp tìm kiếm có tính đến hình thái của tiếng Nga chỉ chiếm 300 KB, có nghĩa là nó vừa vặn trong RAM và hoạt động với nó diễn ra rất nhanh. Dựa vào cái này công nghệ mới vào năm 1994, “Tham khảo máy tính Kinh thánh” đã được tạo ra - một hệ thống truy xuất thông tin hoạt động với các bản dịch của Cựu Ước và Tân Ước.

Tìm kiếm ngôn ngữ Yandex

Công cụ tìm kiếm sẽ diễn giải từ bạn đã nhập như thế nào?

    Bây giờ chúng ta sẽ nói về điều này:
  • Quy tắc 1. Hóa ra hệ thống diễn giải nó theo quy tắc của tiếng Nga. Ví dụ: Nếu bạn nhập từ “car”, bạn cũng sẽ nhận được kết quả có chứa các từ “cars”, “car”, v.v. Điều này cũng tương tự với động từ - bằng cách yêu cầu “go”, bạn sẽ nhận được các tài liệu có chứa các từ “go”, “goes”, “walked”, “went”, v.v. Như bạn có thể thấy, công cụ tìm kiếm thông minh hơn bạn nghĩ - nó không chỉ là phương tiện tìm một từ cụ thể trong cơ sở dữ liệu.
  • Quy tắc 2. Đặc biệt chú ýđược trao cho các từ được viết bằng chữ in hoa. Nếu một từ được viết hoa và không phải là từ đầu tiên trong câu thì chỉ những từ được viết hoa mới được tìm thấy. Nếu không, các từ được viết bằng cả chữ in hoa và chữ nhỏ sẽ được tìm thấy. Ví dụ: đối với yêu cầu "Dachshund A." Sẽ tìm thấy các tài liệu chứa cả “thuế” (phí) và “thuế” (họ), vì từ “thuế”, mặc dù được viết bằng chữ in hoa, lại đứng đầu câu. Nhưng truy vấn “A. Dachshund” sẽ tìm thấy các tài liệu chỉ chứa từ “Dachshund” được viết hoa.

Cú pháp Yandex

Theo mặc định, Yandex sử dụng toán tử logic AND, nghĩa là nếu bạn nhập truy vấn “Samsung TV”, kết quả sẽ trả về các tài liệu trong đó các từ “TV” và “Samsung” sẽ xuất hiện trong cùng một câu. Nếu bạn muốn chỉ định rõ ràng toán tử AND, hãy sử dụng ký hiệu &. Nói cách khác, truy vấn "TV Samsung" giống với truy vấn "TV & Samsung". Bạn cũng có thể sử dụng truy vấn "TV + Samsung".

Nếu bạn muốn có hiệu ứng ngược lại, tức là. Nếu bạn muốn lấy riêng các tài liệu có chứa từ “TV” và từ “Samsung” thì bạn cần sử dụng toán tử OR (|), ví dụ: “TV | Samsung”.

Cú pháp truy vấn Yandex

Yandex đánh số tất cả các từ trong văn bản tài liệu theo thứ tự. Khoảng cách giữa các từ liền kề là 1 (không phải 0!) Và khoảng cách giữa các từ là thứ tự ngược lại bằng -1. Điều tương tự cũng áp dụng cho các ưu đãi.

Để biểu thị khoảng cách giữa các từ, hãy đặt dấu /, ngay sau đó là một số, nghĩa là đây là khoảng cách giữa các từ. Ví dụ: truy vấn “nhà phát triển / 2 chương trình” sẽ tìm thấy các tài liệu chứa các từ “nhà phát triển” và “chương trình” và khoảng cách giữa các từ không quá hai từ và tất cả các từ này phải nằm trong một câu. Trong trường hợp này, các tài liệu có chứa "nhà phát triển" sẽ được tìm thấy chương trình ứng dụng"," nhà phát triển chương trình hệ thống" vân vân.

Nếu biết chính xác khoảng cách và thứ tự từ thì chúng ta có thể sử dụng cú pháp /+n. Ví dụ: truy vấn "red /+1 cap" sẽ trả về kết quả trong đó từ "cap" ngay sau từ "red". Truy vấn “cô bé quàng khăn đỏ” ​​sẽ dẫn đến kết quả tương tự.

Toán tử tìm kiếm Yandex

Dấu ngoặc đơn được sử dụng để thể hiện toàn bộ biểu thức trong truy vấn. Ví dụ: truy vấn "(lịch sử | công nghệ | chương trình)/+1 Linux" sẽ tìm thấy các tài liệu có chứa một trong các cụm từ " lịch sử Linux", "Công nghệ Linux", " chương trình Linux".

Khu vực

Zone là nơi tìm kiếm thông tin bạn cần. Bạn có thể chỉ định vùng mà bạn muốn tìm kiếm - tiêu đề (Vùng tiêu đề), liên kết (neo) hoặc địa chỉ (Địa chỉ). Bạn cũng có thể sử dụng vùng tất cả để tìm kiếm toàn bộ tài liệu.

Cú pháp: yêu cầu $zone_name.

Ví dụ: yêu cầu $title "Microsoft" найдет все документы, в заголовках которых встречается !} cụm từ chính xác"Microsoft".

Tùy chọn tìm kiếm Yandex bổ sung

Máy tìm kiếm Xe Google giúp giới hạn vị trí tìm kiếm trong một danh sách máy chủ cụ thể hoặc ngược lại, loại trừ một số máy chủ khỏi danh sách tìm kiếm. Các khả năng tương tự cũng có sẵn trong công cụ tìm kiếm Yandex. Bạn cũng có thể tìm kiếm các tài liệu có chứa liên kết đến URL cụ thể hoặc hình ảnh. Khi chỉ định mặt nạ tệp (ví dụ: ảnh), bạn có thể sử dụng ký hiệu *, nghĩa là tất cả các ký tự, ví dụ: “audi-*”.

Cú pháp là: #element_name=”value”.


TRONG trường hợp chung- việc tìm kiếm cụm từ truy vấn được thực hiện trên các trang Internet và sử dụng các tiêu chí và thuật toán nhất định, kết quả tìm kiếm được xếp hạng và hiển thị cho người dùng. Các tiêu chí được sử dụng phổ biến nhất để xếp hạng trong công cụ tìm kiếm là:
– sự hiện diện của các từ trong truy vấn trong tài liệu, số lượng của chúng, khoảng cách với phần đầu của tài liệu, khoảng cách với nhau;
– sự hiện diện của các từ trong yêu cầu trong tiêu đề và tiêu đề phụ của tài liệu;
- số lượng liên kết đến tài liệu này từ các tài liệu khác;
– “sự tôn trọng” của các tài liệu giới thiệu.
Như có thể thấy từ các tiêu chí xếp hạng, tiêu chí thực sự về mức độ liên quan của tài liệu - sự hiện diện của các từ trong truy vấn (cụm từ tìm kiếm) - không có tác động mạnh đến thứ hạng của nó trong kết quả tìm kiếm. Tình trạng này dẫn đến giảm chất lượng tìm kiếm, vì các tài liệu có khả năng hữu ích hơn chắc chắn bị các đối thủ cạnh tranh “tối ưu hóa” của chúng đẩy xuống cuối danh sách. Và quả thực, nhiều người đã gặp phải điều gì là có thật tài nguyên hữu ích trong công cụ tìm kiếm, chúng nằm ở trang thứ ba thứ hai của truy vấn tìm kiếm. Đây là lúc thể hiện sự kém hiệu quả của các thuật toán để xếp hạng các tài liệu được tìm thấy. Điều này phần lớn là do thực tế là các truy vấn tìm kiếm trung bình chỉ bao gồm ba đến năm từ, tức là không có đủ thông tin ban đầu để xếp hạng kết quả tìm kiếm một cách hiệu quả.

Và đây là những vấn đề khi tìm kiếm....

Đây là lúc các thuật toán xếp hạng tài liệu được tìm thấy không hiệu quả 100%. Tất nhiên, tình huống này cũng phát sinh do truy vấn tìm kiếm của người dùng trung bình chỉ bao gồm ba đến năm từ. Nghĩa là, thông tin ban đầu như vậy đối với các công cụ tìm kiếm là quá khan hiếm để xếp hạng kết quả một cách hiệu quả.
Vấn đề thứ hai là "sắp xếp" như thế nào một số lượng lớn xử lý thông tin (= “tiêu hóa”, “cân nhắc”, “làm nổi bật nội dung chính”, “loại bỏ những thứ không cần thiết và vô ích”) cho một người dùng cụ thể, có tính đến nhu cầu của anh ta, ý nghĩa và chủ đề của yêu cầu, tìm kiếm trước đó của anh ta lịch sử, vị trí địa lý, ý kiến ​​của mình về kết quả tìm kiếm, v.v. Tất nhiên, các công cụ tìm kiếm đang tích cực phát triển theo hướng này, nhưng rõ ràng là công cụ tìm kiếm này còn lâu mới hoàn hảo. Bởi vì ngày nay chỉ có một người mới có thể đánh giá tính hữu ích về mặt ngữ nghĩa, chất lượng, tính đặc hiệu của thông tin tìm thấy, v.v.

Các lựa chọn thay thế cho công cụ tìm kiếm

Do đó, như một giải pháp thay thế, các dịch vụ đang xuất hiện bằng cách nào đó cấu trúc Internet để tìm kiếm dễ dàng hơn. người dùng yêu cầu thông tin. Và hiện tại đã có rồi Dấu trang xã hội, danh mục sản phẩm, trình theo dõi torrent, diễn đàn, công cụ tìm kiếm chuyên dụng, dịch vụ chia sẻ tập tin, v.v. Tất cả các dịch vụ này, ở mức độ này hay mức độ khác, đều cấu trúc Internet và “giảm khoảng cách” giữa người dùng và thông tin anh ta cần (có thể là phim, nhạc, sách, câu trả lời cho câu hỏi, v.v.). Và quan trọng nhất, Internet được “cấu trúc” chủ yếu bởi chính người dùng.
Không, ở đây không có gợi ý nào cho thấy công cụ tìm kiếm là vô dụng hoặc không hiệu quả. Tôi tin rằng các công cụ tìm kiếm là công cụ lý tưởng để tìm kiếm những thông tin hời hợt và phổ biến nhất. Và để tìm kiếm thông tin sâu hơn, bao gồm sách hữu ích, bài báo, tạp chí, âm nhạc, v.v. (nghĩa là có khả năng tải xuống tất cả những thứ này), các tài nguyên “cấu trúc Internet” nêu trên phù hợp hơn.

Làm thế nào để tránh bị lạc trên Internet?


Tóm tắt:
1. Để tìm kiếm thông tin hời hợt, hãy sử dụng các công cụ tìm kiếm chẳng hạn http://google.com, http://yandex.ru , http://nigma.ru , http://nibbo.com
2. Để tìm kiếm các trang web liên quan đến chủ đề, hãy sử dụng các thư mục Internet, ví dụ:

Tôi không nghĩ có người sẽ ném cà chua vào tôi sau khi đọc tiêu đề của bài báo. Đồng ý rằng bây giờ chúng ta không thể sống một ngày mà không có thông tin. Để có được thông tin, trước tiên bạn phải tìm thấy nó. Có quy tắc nào không? tìm kiếm thông tin trên Internet? - bạn hỏi.

Tôi khuyên bạn nên nhớ mình là một người mới sử dụng Internet hoặc nhìn lại những người bạn của mình, những người mà mỗi chúng ta đều có rất nhiều. Những người sử dụng Internet với số lượng rất hạn chế. Và điều này thường chỉ xảy ra vì một người không biết cách soạn thảo các truy vấn tìm kiếm một cách chính xác để tìm được thông tin mình cần. Kết quả là bạn ngồi trên cùng một địa điểm và tài nguyên mà không hiểu rằng có một thế giới rộng lớn và chưa được biết đến dưới chân bạn, tức là dưới bàn tay của bạn.

Bạn tìm kiếm thông tin trên Internet như thế nào?

Đầu tiên, hãy quyết định xem ai sẽ tìm thấy thông tin chúng tôi cần cho chúng tôi? Công nhân chính là các công cụ tìm kiếm và thư mục. Như đã lưu ý chính xác trong thư mục Yandex, khả năng tìm kiếm là một nghệ thuật. Bất chấp sự đơn giản của Internet, không phải ai cũng có thể tìm kiếm hiệu quả.

Nhiều công cụ tìm kiếm khác nhau, chẳng hạn như Google, Yandex, Ramble, Mail, Yahoo, tìm thông tin cho người dùng Nga. Quy tắc chung Họ không có quyền khám xét nên chúng tôi hoàn toàn có quyền tự do hành động. Tôi thích sử dụng Google hơn vì nó có thuật toán xếp hạng tìm kiếm tốt nhất trên thế giới. Để so sánh kết quả, tôi luôn chuyển sang Yandex. Nếu sử dụng hai công cụ tìm kiếm này, bạn sẽ thấy kết quả tìm kiếm trong cả hai trường hợp cho cùng một truy vấn sẽ khác nhau.

Công cụ tìm kiếm tìm kiếm thông tin cho chúng tôi, có tính đến các tiêu chí sau:

  • Từ khóa nằm trong tiêu đề
  • Sự hiện diện của từ khóa trong địa chỉ tên miền hoặc tiêu đề trang
  • Từ khóa in đậm
  • Mật độ từ khóa
  • Các liên kết trên trang và tên của từ khóa trong văn bản liên kết

Tức là công cụ tìm kiếm cần phải làm Bạn đã làm rất tốtđể cho chúng tôi kết quả. Vì vậy, điều đầu tiên chúng ta phải học cách hình thành các truy vấn tìm kiếm một cách chính xác trước khi nhập chúng vào thanh tìm kiếm.

Quy tắc tìm kiếm thông tin trên Internet

1. Đặt ra một số câu hỏi liên quan đến câu hỏi của bạn. Hãy nhớ rằng nếu bạn cần tìm một bài luận về một con voi, thì bằng chữ con voi bạn sẽ tìm thấy những con voi và mọi thứ có thể có hoặc không liên quan đến từ voi. Đây có thể là những cuốn sách có từ con voi trong tiêu đề, chúng có thể là các trang web, bài báo, truyện cười, truyện cổ tích, nói chung là mọi thứ không liên quan gì đến yêu cầu thực sự của bạn. Vì vậy, chúng tôi viết ngắn gọn và rõ ràng: bài luận về loài voi. Để phóng to, bấm vào hình ảnh.

Yandex đã cho chúng tôi 2 triệu câu trả lời, Google ước tính rằng 335.000 trang sẽ hữu ích cho chúng tôi. Như bạn có thể thấy, chúng ta sẽ phải làm việc chăm chỉ để tìm được thứ chúng ta thực sự cần.

2. Thu hẹp khu vực tìm kiếm.Để làm điều này, hãy đặt truy vấn của chúng ta trong dấu ngoặc kép và nó sẽ trông như thế này: “tóm tắt về loài voi”. Hãy xem điều gì sẽ xảy ra:


Ôi phép lạ! Bây giờ bạn sẽ phải tìm kiếm ít hơn nhiều! Bây giờ chúng tôi chắc chắn rằng những trang mà công cụ tìm kiếm trả về cho chúng tôi sẽ chứa thông tin liên quan đến phần tóm tắt về loài voi.

3. Đừng quên rằng bạn cần viết chính xác truy vấn tìm kiếm của mình. Chất lượng của thông tin được cung cấp cho chúng tôi cũng phụ thuộc vào điều này.

4. Chúng tôi chỉ viết truy vấn tìm kiếm bằng chữ nhỏ. Nếu chúng ta sử dụng trong một yêu cầu chữ in hoa, thì chúng ta sẽ không thể nhìn thấy câu trả lời trong đó từ này được viết bằng một chữ cái nhỏ. Sử dụng chữ in hoa chỉ bằng tên riêng.

5. Chúng tôi tích cực sử dụng tìm kiếm hình ảnh. Thông thường, hình ảnh có chú thích khi tải, có thể chứa từ khóa của bạn.

6. Sử dụng dấu + và -, chúng ta có thể cho biết những từ nào chúng ta muốn hoặc không muốn thấy. Ví dụ: khi tìm kiếm “trà xanh”, bạn có thể đánh dấu từ được đóng gói bằng dấu (-). Trong trường hợp này, bạn có thể tin tưởng rằng bạn sẽ không thấy thông tin về túi trà xanh.

7. Ký tên | sẽ có thể làm rõ với các công cụ tìm kiếm rằng bạn muốn tìm “hoặc-hoặc”. Nếu bạn hỏi “làm thế nào để viết một bản tóm tắt|định dạng một bản tóm tắt,” thì câu trả lời sẽ bao gồm cả cách viết một bản tóm tắt và cách định dạng nó.

8. Quen thuộc! chúng tôi chỉ ra những gì chúng tôi muốn biết thông tin chính xác cho một từ cụ thể. Ví dụ: khi tìm kiếm truy vấn!con voi, chúng ta sẽ thấy kết quả khớp chính xác cho từ này mà không có dạng từ. Nghĩa là, tìm kiếm sẽ không hiển thị các dạng khác nhau của từ "voi" - voi, voi, voi, về voi, v.v.

9. Hãy nhớ rằng sau một thời gian, việc tìm kiếm có thể cung cấp cho bạn những thông tin hoàn toàn khác. Do đó, thông tin tìm thấy, nếu nó thực sự quan trọng đối với bạn, tốt nhất nên lưu vào mục yêu thích hoặc dấu trang trình duyệt của bạn. Sử dụng các thư mục để lưu trữ thông tin trong trình duyệt của bạn; bạn có thể tạo chúng trực tiếp từ bảng điều khiển bằng cách nhấp chuột phải và chọn “thêm thư mục”. Tôi thích lưu bằng thẻ trong Evernote hơn, bạn có thể đọc về trợ lý yêu thích của tôi trong bài viết

10. Sử dụng các chức năng tìm kiếm nâng cao của công cụ tìm kiếm, nếu bạn cần làm rõ về ngày tháng, địa lý, ngôn ngữ, định dạng tệp.

11. Đừng bỏ qua việc tìm kiếm ở trang thứ 2 và các trang tiếp theo. Thường xảy ra trường hợp thông tin mới, mới chưa lọt vào TOP 10 nên bạn sẽ phải tìm kiếm. Đôi khi tôi tìm thấy câu trả lời của mình ở trang thứ năm hoặc thậm chí thứ mười.

12. Nếu bạn liên tục cần thông tin về một vấn đề cụ thể lĩnh vực hoạt động, sử dụng mạng xã hội, cộng đồng, nhóm, diễn đàn, thư mục để thu thập thông tin. Bản tin Đăng ký có thể cung cấp cho bạn một số lượng lớn các nhóm chuyên ngành, theo chủ đề sẽ liên tục gửi cho bạn thông tin mới. Bạn cũng có thể lưu những gì bạn cần vào dấu trang hoặc Evernote.

Nếu bạn thấy bài viết này hữu ích và thú vị, hãy chia sẻ nó với bạn bè bằng cách nhấp vào nút trên bất kỳ mạng xã hội nào.

TÌM KIẾM THÔNG TIN CHUYÊN NGHIỆP TRÊN INTERNET

Tìm kiếm trên Internet là một yếu tố quan trọng khi làm việc trên Internet. Số lượng tài nguyên web chính xác trên Internet hiện đại khó có thể được ai biết chắc chắn. Trong mọi trường hợp, số lượng là hàng tỷ. Để có thể sử dụng thông tin cần thiết tại một thời điểm nhất định, bất kể mục đích công việc hay giải trí, trước tiên bạn cần tìm thấy thông tin đó trong đại dương tài nguyên được bổ sung liên tục này.

Để tìm kiếm trên Internet thành công, phải đáp ứng hai điều kiện: các truy vấn phải được xây dựng tốt và chúng phải được hỏi ở những nơi thích hợp. Nói cách khác, một mặt, người dùng được yêu cầu có khả năng dịch sở thích tìm kiếm của mình sang ngôn ngữ của truy vấn tìm kiếm và mặt khác, phải có kiến ​​thức tốt về các công cụ tìm kiếm, công cụ có sẵn tìm kiếm, ưu điểm và nhược điểm của chúng, điều này sẽ cho phép bạn chọn công cụ tìm kiếm phù hợp nhất trong từng trường hợp cụ thể.

Hiện tại, không có nguồn tài nguyên nào đáp ứng được tất cả các yêu cầu tìm kiếm trên Internet. Vì vậy, nếu bạn thực hiện một cách tiếp cận nghiêm túc trong việc tìm kiếm, bạn chắc chắn phải sử dụng nhạc cụ khác nhau, sử dụng từng trường hợp thích hợp nhất.

Nền tảng Công cụ tìm kiếm trên Internetcó thể chia thành các nhóm chính sau:

Công cụ tìm kiếm;

Thư mục web;

Tài nguyên trợ giúp;

Các chương trình địa phương để tìm kiếm trên Internet.

Các công cụ tìm kiếm phổ biến nhất làcông cụ tìm kiếm– cái gọi là công cụ tìm kiếm Internet (Search Engines). Ba công ty dẫn đầu trên quy mô toàn cầu khá ổn định - Google, Yahoo! và Bing. Ở nhiều quốc gia, các công cụ tìm kiếm địa phương của họ, được tối ưu hóa để làm việc với nội dung địa phương, được thêm vào danh sách này. Với sự giúp đỡ của họ, về mặt lý thuyết bạn có thể tìm thấy bất kỳ từ cụ thể nào trên các trang của hàng triệu trang web. Theo quan điểm của người dùng, nhược điểm chính của công cụ tìm kiếm là sự hiện diện không thể tránh khỏitiếng ồn thông tintrong kết quả. Đây là tên thông thường cho các kết quả được đưa vào danh sách tìm kiếm vì lý do này hay lý do khác và không tương ứng với yêu cầu.

Mặc dù có nhiều khác biệt, tất cả các công cụ tìm kiếm trên Internet đều hoạt động theo các nguyên tắc tương tự và, từ quan điểm kỹ thuật, bao gồm các hệ thống con tương tự. Phần cấu trúc đầu tiên của công cụ tìm kiếm là các chương trình đặc biệt được sử dụng để tìm kiếm tự động và lập chỉ mục tiếp theo của các trang web. Những chương trình như vậy thường được gọi là nhện hoặc bot. Họ xem mã của các trang web, tìm các liên kết nằm trên đó và từ đó khám phá các trang web mới. Có một cách khác để đưa một trang web vào chỉ mục. Nhiều công cụ tìm kiếm cung cấp cho chủ sở hữu tài nguyên cơ hội thêm một trang web vào cơ sở dữ liệu của họ một cách độc lập. Tuy nhiên, các trang web sau đó được tải xuống, phân tích và lập chỉ mục. Họ làm nổi bật các yếu tố cấu trúc, tìm từ khóa và xác định mối liên hệ của chúng với các trang web và trang web khác. Các hoạt động khác cũng được thực hiện, kết quả của nó là sự hình thành cơ sở dữ liệu chỉ mục của công cụ tìm kiếm. Cơ sở dữ liệu này là thành phần chính thứ hai của bất kỳ công cụ tìm kiếm nào. Hiện tại, không có cơ sở dữ liệu chỉ mục hoàn chỉnh nào có thể chứa thông tin về tất cả nội dung Internet. Vì các công cụ tìm kiếm khác nhau sử dụng các chương trình khác nhau tìm kiếm các trang web và xây dựng chỉ mục của chúng bằng các thuật toán khác nhau, cơ sở dữ liệu chỉ mục của công cụ tìm kiếm có thể thay đổi đáng kể. Một số trang web được một số công cụ tìm kiếm lập chỉ mục, nhưng luôn có một tỷ lệ tài nguyên nhất định được đưa vào cơ sở dữ liệu của chỉ một công cụ tìm kiếm. Sự hiện diện của một phần chỉ mục ban đầu và không trùng lặp như vậy trong mỗi công cụ tìm kiếm cho phép chúng tôi rút ra một kết luận thực tế quan trọng: nếu bạn chỉ sử dụng một công cụ tìm kiếm, thậm chí là công cụ tìm kiếm lớn nhất, bạn chắc chắn sẽ mất một tỷ lệ liên kết hữu ích nhất định .

Phần tiếp theo của công cụ tìm kiếm Internet là các chương trình tìm kiếm và sắp xếp thực tế. Các chương trình này giải quyết hai nhiệm vụ chính: đầu tiên, chúng tìm các trang và tệp trong cơ sở dữ liệu khớp với yêu cầu đến, sau đó sắp xếp mảng dữ liệu kết quả theo các tiêu chí khác nhau. Thành công trong việc đạt được mục tiêu tìm kiếm phần lớn phụ thuộc vào hiệu quả công việc của họ.

Thành phần cuối cùng của công cụ tìm kiếm Internet là giao diện người dùng. Ngoài những yêu cầu thông thường về tính thẩm mỹ và sự tiện lợi đối với bất kỳ trang web nào, còn có một yêu cầu nữa về giao diện công cụ tìm kiếm: yêu cầu quan trọng: Họ phải cung cấp nhiều công cụ khác nhau để xây dựng và tinh chỉnh các truy vấn cũng như sắp xếp và lọc kết quả. Ưu điểm của công cụ tìm kiếm là khả năng bao phủ các nguồn tuyệt vời, cập nhật nội dung cơ sở dữ liệu tương đối nhanh và lựa chọn tốt các chức năng bổ sung.

Công cụ chính để làm việc với các công cụ tìm kiếm là truy vấn.

Cũng được sử dụng để tìm kiếm trên Internet ứng dụng đặc biệt, được cài đặt trên máy tính cục bộ. Đây có thể là những chương trình đơn giản hoặc phức tạp hơn để tìm kiếm và phân tích dữ liệu. Các plugin tìm kiếm phổ biến nhất cho trình duyệt là các bảng trình duyệt được thiết kế để hoạt động với bất kỳ trình duyệt cụ thể nào. dịch vụ tìm kiếm và các gói siêu tìm kiếm có khả năng phân tích kết quả.

Thư mục web – đây là những tài nguyên trong đó các trang web được chia thành các danh mục theo chủ đề. Nếu người dùng chỉ làm việc với các công cụ tìm kiếm thông qua các truy vấn, thì trong danh mục có thể xem toàn bộ các phần theo chủ đề. Thứ hai sự khác biệt cơ bản danh mục từ các công cụ tìm kiếm tự động - điều này là do những người, theo quy định, trực tiếp tham gia vào việc điền danh mục, xem tài nguyên và phân loại trang web thành danh mục này hay danh mục khác. Thư mục web thường được chia thành phổ quát và theo chủ đề. Những cuốn phổ quát cố gắng bao quát càng nhiều chủ đề càng tốt. Bạn có thể tìm thấy bất cứ thứ gì ở đó: từ các trang web về thơ ca đến tài nguyên máy tính. Nói cách khác, phạm vi tìm kiếm của họ là tối đa. Các thư mục chuyên đề chuyên về một chủ đề cụ thể, cung cấp, bằng cách giảm phạm vi bao phủ của tài nguyên, độ sâu tối đa tìm kiếm.

Ưu điểm của catalogue là tương đối chất lượng cao tài nguyên, vì mỗi trang trong đó đều được một người xem và lựa chọn. Nhóm các trang web theo chủ đề cho phép bạn sắp xếp các trang web có chủ đề tương tự một cách thuận tiện. Chế độ hoạt động này rất tốt cho việc khám phá các trang web mới đối với bạn về chủ đề bạn quan tâm - nó chính xác hơn so với việc sử dụng công cụ tìm kiếm. Nên sử dụng các thư mục web cho lần đầu tiên làm quen với bất kỳ lĩnh vực chủ đề, cũng như tìm kiếm các truy vấn mơ hồ - bạn sẽ có cơ hội “đi lang thang” qua các phần của danh mục và xác định chính xác hơn những gì bạn cần.

Những nhược điểm của thư mục web đã được biết đến. Trước hết, đây là quá trình bổ sung cơ sở dữ liệu chậm, vì việc đưa một trang web vào danh mục cần có sự tham gia của con người. Xét về mặt hiệu quả, một thư mục web không phải là đối thủ của các công cụ tìm kiếm. Ngoài ra, các thư mục web kém hơn đáng kể so với các công cụ tìm kiếm về kích thước cơ sở dữ liệu.

Khi nói về tìm kiếm trên Internet, chúng ta không thể bỏ qua một số thuật ngữ có liên quan mật thiết đến lĩnh vực này và thường được dùng để mô tả, đánh giá các công cụ tìm kiếm. Ví dụ: chiều rộng và chiều sâu Tìm kiếm Internet. Tìm kiếm rộng là tìm kiếm thu thập được càng nhiều thông tin càng tốt số lượng lớn nguồn thông tin. Trong trường hợp này, ít nhất việc đề cập đến một hoặc một trang web khác phù hợp với yêu cầu được coi là đủ. Độ sâu tìm kiếm đề cập đến chi tiết lập chỉ mục và tìm kiếm tiếp theo của từng tài nguyên cụ thể. Ví dụ: nhiều công cụ tìm kiếm tiếp cận việc lập chỉ mục các trang web khác nhau theo cách khác nhau. Các trang web lớn và phổ biến được lập chỉ mục ở mức tối đa, robot cố gắng không bỏ lỡ một trang nào của tài nguyên đó. Đồng thời, trên các trang khác, chỉ có trang tiêu đề và một vài trang nội dung mới có thể được lập chỉ mục. Những trường hợp này đương nhiên ảnh hưởng đến các tìm kiếm tiếp theo. Tìm kiếm sâu hoạt động theo nguyên tắc “đưa vào kết quả tốt hơn” thông tin không cần thiết thay vì bỏ lỡ bất kỳ dữ liệu nào liên quan đến chủ đề tìm kiếm.”

Rất thường xuyên bạn có thể bắt gặp những khái niệm như toàn cầu và địa phương Tìm kiếm Internet. Các tìm kiếm trên Internet địa phương tính đến vị trí địa lý của người dùng và ưu tiên các kết quả có liên quan đến một quốc gia hoặc địa phương cụ thể. Trong quá trình tìm kiếm toàn cầu, thông tin này không được tính đến và việc tìm kiếm được thực hiện trong tất cả các tài nguyên có sẵn.

Khi thực hiện yêu cầu trên các công cụ tìm kiếm trên Internet, những điều sau sẽ được áp dụng: nhiều chế độ khác nhau tìm kiếm. Các chế độ tìm kiếm điển hình được tìm thấy trên hầu hết các máy Internet bao gồm:đơn giản và nâng cao tìm kiếm. Một tìm kiếm đơn giản cho phép bạn chỉ định một tính năng tìm kiếm trong một yêu cầu. Tìm kiếm nâng cao cho phép tạo truy vấn từ một số điều kiện, liên kết chúng với các toán tử logic.

Để tinh chỉnh các truy vấn tìm kiếm, nhiều bộ lọc . Bộ lọc được gọi là cái này hay cái khác AIDS soạn thảo các truy vấn không liên quan đến nội dung của các thuật ngữ truy vấn nhưng giới hạn kết quả tìm kiếm ở một số tính năng hình thức. Vì vậy, ví dụ: khi sử dụng bộ lọc loại tệp khi tìm kiếm, người dùng không cung cấp cho hệ thống thông tin liên quan đến chủ đề yêu cầu của mình mà chỉ giới hạn kết quả thu được ở một loại tệp nhất định được chỉ định trong điều kiện yêu cầu của mình.

Đối với hầu hết người dùng, các công cụ tìm kiếm phổ quát là công cụ tìm kiếm chính và thường là duy nhất trên Internet. Họ cung cấp thông tin đầy đủ về các nguồn cũng như một bộ công cụ đủ để giải quyết các vấn đề tìm kiếm cơ bản.

Thị trường cho các công cụ tìm kiếm phổ quát khá lớn. Chúng tôi đã cố gắng phân tích các công cụ tìm kiếm nổi tiếng nhất và trình bày kết quả trong Bảng 1.

Khi chọn một công cụ tìm kiếm phổ quát, chất lượng của các tài nguyên được tìm thấy với sự trợ giúp của nó đóng một vai trò quan trọng. Xác định sở thích của bạn nhiệm vụ cụ thể Công cụ tìm kiếm có thể được sử dụng bằng cách sử dụng “phương pháp đánh dấu”. Bản chất của nó là trước tiên một truy vấn tìm kiếm theo chủ đề nhất định được biên soạn, sau đó một nhóm người - các chuyên gia trong lĩnh vực này - được khảo sát để xác định tài nguyên Internet tốt nhất, theo ý kiến ​​​​của họ, về chủ đề đã chọn. Dựa trên số liệu khảo sát, hình thành danh sách các điểm đánh dấu, đảm bảo liên quan đến yêu cầu và chứa thông tin chất lượng. Yêu cầu sau đó được gửi đến các công cụ tìm kiếm được thử nghiệm. Logic của đánh giá rất đơn giản: các trang web đánh dấu càng nằm ở vị trí cao hơn trong kết quả tìm kiếm thì một tài nguyên cụ thể càng phù hợp để tìm kiếm thông tin về một chủ đề kiểm tra.


1. Giới thiệu

Mỗi năm khối lượng Internet tăng lên đáng kể, do đó khả năng tìm thấy thông tin cần thiết tăng mạnh. Internet kết nối hàng triệu máy tính, nhiều mạng khác nhau và số lượng người dùng tăng 15-80% mỗi năm. Chưa hết, ngày càng nhiều, khi truy cập Internet, vấn đề chính không phải là thiếu thông tin bạn đang tìm kiếm mà là khả năng tìm thấy nó. Theo quy định, một người bình thường, do hoàn cảnh khác nhau, không thể hoặc không muốn dành hơn 15-20 phút để tìm kiếm câu trả lời mình cần. Vì vậy, điều đặc biệt quan trọng là phải học một cách chính xác và thành thạo một điều tưởng chừng như đơn giản - tìm ở đâu và như thế nào để có được câu trả lời MONG MUỐN.

Để tìm được thông tin bạn cần, bạn cần tìm địa chỉ của nó. Với mục đích này, có các máy chủ tìm kiếm chuyên dụng (robot chỉ mục (công cụ tìm kiếm), thư mục Internet theo chủ đề, hệ thống tìm kiếm meta, dịch vụ tìm kiếm người, v.v.). Lớp thạc sĩ này tiết lộ các công nghệ cơ bản để tìm kiếm thông tin trên Internet, cung cấp các tính năng chung của công cụ tìm kiếm và kiểm tra cấu trúc truy vấn tìm kiếm cho các công cụ tìm kiếm tiếng Nga và tiếng Anh phổ biến nhất.

2. Công nghệ tìm kiếm

Công nghệ web World Wide Web (WWW) được coi là một công nghệ đặc biệt trong việc soạn thảo và đăng tải các tài liệu lên Internet. WWW bao gồm các trang web, thư viện điện tử, danh mục và thậm chí cả bảo tàng ảo! Với lượng thông tin dồi dào như vậy, câu hỏi được đặt ra: “Làm thế nào để định hướng trong một không gian thông tin khổng lồ và quy mô lớn như vậy?”
Các công cụ tìm kiếm ra đời để giải quyết vấn đề này.

2.1 Công cụ tìm kiếm

Công cụ tìm kiếm là phần mềm đặc biệt với mục đích chính là cung cấp những thông tin tối ưu và tốt nhất tìm kiếm chất lượng thông tin cho người sử dụng Internet. Các công cụ tìm kiếm được lưu trữ trên các máy chủ web đặc biệt, mỗi máy chủ thực hiện một chức năng cụ thể:

  1. Phân tích các trang web và ghi lại kết quả phân tích ở cấp độ này hoặc cấp độ khác của cơ sở dữ liệu máy chủ tìm kiếm.
  2. Tìm kiếm thông tin theo yêu cầu của người dùng.
  3. Cung cấp giao diện thuận tiện cho người dùng tìm kiếm thông tin và xem kết quả tìm kiếm.

Các kỹ thuật làm việc được sử dụng khi làm việc với công cụ tìm kiếm này hoặc công cụ tìm kiếm khác gần như giống nhau. Trước khi thảo luận về chúng, chúng ta hãy xem xét các khái niệm sau:

  1. Giao diện công cụ tìm kiếm được trình bày dưới dạng trang có chứa các siêu liên kết, dòng truy vấn (dòng tìm kiếm) và các công cụ kích hoạt truy vấn.
  2. Chỉ mục của công cụ tìm kiếm là một cơ sở thông tin chứa kết quả phân tích các trang web, được biên soạn theo các quy tắc nhất định.
  3. Truy vấn là từ khóa hoặc cụm từ mà người dùng nhập vào thanh tìm kiếm. Để tạo các yêu cầu khác nhau, các ký tự đặc biệt được sử dụng ("", ~), ký hiệu toán học (*, +, ?).

Đề án tìm kiếm thông tin trên Internet rất đơn giản. Người dùng quay số cụm từ khoá và kích hoạt tìm kiếm, từ đó nhận được lựa chọn tài liệu dựa trên yêu cầu được xây dựng (được chỉ định). Danh sách tài liệu này được xếp hạng theo những tiêu chí nhất định sao cho đứng đầu danh sách là những tài liệu phù hợp nhất với yêu cầu của người dùng. Mỗi công cụ tìm kiếm sử dụng các tiêu chí khác nhau để xếp hạng tài liệu, cả khi phân tích kết quả tìm kiếm và khi tạo chỉ mục (điền cơ sở dữ liệu chỉ mục của các trang web).

Do đó, nếu bạn chỉ định một truy vấn có cùng thiết kế trong thanh tìm kiếm cho mỗi công cụ tìm kiếm, bạn có thể nhận được các kết quả tìm kiếm khác nhau. Điều quan trọng đối với người dùng là tài liệu nào sẽ xuất hiện trong hai đến ba chục tài liệu đầu tiên trong kết quả tìm kiếm và mức độ phù hợp của những tài liệu này với mong đợi của người dùng.

Hầu hết các công cụ tìm kiếm đều cung cấp hai phương pháp tìm kiếm – tìm kiếm đơn giản(tìm kiếm đơn giản) và tìm kiếm nâng cao(tìm kiếm nâng cao) bằng cách sử dụng hình thức đặc biệt yêu cầu và không có nó. Hãy xem xét cả hai loại tìm kiếm bằng ví dụ về công cụ tìm kiếm bằng tiếng Anh.

Ví dụ: AltaVista rất thuận tiện để sử dụng cho yêu cầu tùy tiện, “Đôi điều về bằng cấp trực tuyến về công nghệ thông tin,” trong khi công cụ tìm kiếm của Yahoo cho phép bạn lấy tin tức thế giới, thông tin tỷ giá hối đoái hoặc dự báo thời tiết.

Nắm vững các tiêu chí sàng lọc truy vấn và kỹ thuật tìm kiếm nâng cao cho phép bạn tăng hiệu quả tìm kiếm và nhanh chóng tìm thấy thông tin cần thiết. Trước hết, bạn có thể tăng hiệu quả tìm kiếm của mình bằng cách sử dụng các toán tử logic (phép toán) Hoặc, Và, Gần, Không, toán học và ký tự đặc biệt. Bằng cách sử dụng các toán tử và/hoặc ký hiệu, người dùng liên kết các từ khóa theo trình tự cần thiết để có được kết quả tìm kiếm phù hợp nhất cho truy vấn. Các mẫu yêu cầu được thể hiện trong Bảng 1.

Bảng 1

Một yêu cầu đơn giản sẽ đưa ra một số lượng liên kết nhất định tới các tài liệu, bởi vì... danh sách bao gồm các tài liệu chứa một trong các từ được nhập trong yêu cầu hoặc một cụm từ đơn giản (xem Bảng 1). Toán tử và cho phép bạn chỉ định rằng tất cả các từ khóa phải được đưa vào nội dung tài liệu. Tuy nhiên, số lượng tài liệu có thể vẫn còn lớn và việc xem xét chúng sẽ mất khá nhiều thời gian. Do đó, trong một số trường hợp, sẽ thuận tiện hơn nhiều khi sử dụng toán tử ngữ cảnh gần, điều này cho biết rằng các từ phải được đặt ở khoảng cách vừa đủ trong tài liệu. Sử dụng gần làm giảm đáng kể số lượng tài liệu được tìm thấy. Sự hiện diện của ký tự "*" trong chuỗi truy vấn có nghĩa là từ đó sẽ được tìm kiếm theo mặt nạ của nó. Ví dụ: chúng ta sẽ nhận được danh sách các tài liệu chứa các từ bắt đầu bằng “gov” nếu chúng ta viết “gov*” trong chuỗi truy vấn. Đây có thể là những từ chính phủ, thống đốc, v.v.

Công cụ tìm kiếm không kém phần phổ biến Rambler lưu giữ số liệu thống kê về lưu lượng truy cập liên kết từ cơ sở dữ liệu của riêng nó, những cơ sở tương tự được hỗ trợ toán tử logic AND, OR, NOT, metacharacter * (tương tự như ký tự mở rộng phạm vi truy vấn * trong AltaVista), ký hiệu hệ số + và -, để tăng hoặc giảm tầm quan trọng của các từ được nhập vào truy vấn.

Hãy xem xét các công nghệ phổ biến nhất để tìm kiếm thông tin trên Internet.

2.2 Công cụ tìm kiếm

Công cụ tìm kiếm trên web là các máy chủ có căn cứ khổng lồ Dữ liệu URL tự động truy cập các trang WWW tại tất cả các địa chỉ này, kiểm tra nội dung của các trang này, tạo và nhập từ khóa từ các trang vào cơ sở dữ liệu của chúng (lập chỉ mục các trang).

Hơn nữa, robot công cụ tìm kiếm sẽ theo dõi các liên kết được tìm thấy trên các trang và lập chỉ mục lại chúng. Vì hầu như bất kỳ trang WWW nào cũng có nhiều liên kết đến các trang khác nên khi làm việc như vậy, công cụ tìm kiếm trong kết quả cuối cùng về mặt lý thuyết có thể bỏ qua tất cả các trang web trên Internet.

Loại công cụ tìm kiếm này nổi tiếng và phổ biến nhất đối với tất cả người dùng Internet. Mọi người đều đã nghe tên của các công cụ tìm kiếm web (công cụ tìm kiếm) nổi tiếng - Yandex, Rambler, Aport.

Để sử dụng loại công cụ tìm kiếm này, bạn cần vào đó và gõ từ khóa bạn quan tâm vào thanh tìm kiếm. Tiếp theo, bạn sẽ nhận được kết quả từ các liên kết được lưu trữ trong cơ sở dữ liệu của công cụ tìm kiếm gần nhất với yêu cầu của bạn. Để làm cho việc tìm kiếm của bạn hiệu quả hơn, hãy chú ý trước các điểm sau:

  • quyết định chủ đề của yêu cầu. Chính xác thì cuối cùng bạn muốn tìm gì?
  • chú ý đến ngôn ngữ, ngữ pháp, cách sử dụng các ký hiệu không theo nghĩa đen, hình thái... Điều quan trọng là phải xây dựng và nhập chính xác các từ khóa. Mỗi công cụ tìm kiếm có hình thức xây dựng truy vấn riêng - nguyên tắc giống nhau nhưng các ký hiệu hoặc toán tử được sử dụng có thể khác nhau. Các biểu mẫu yêu cầu bắt buộc cũng khác nhau tùy thuộc vào độ phức tạp của phần mềm công cụ tìm kiếm và dịch vụ mà chúng cung cấp. Bằng cách này hay cách khác, mỗi công cụ tìm kiếm đều có phần “Trợ giúp”, trong đó tất cả các quy tắc cú pháp cũng như các đề xuất và mẹo tìm kiếm đều được giải thích rõ ràng (ảnh chụp màn hình các trang của công cụ tìm kiếm).
  • sử dụng khả năng của các công cụ tìm kiếm khác nhau. Nếu bạn không tìm thấy nó trên Yandex, hãy thử trên Google. Sử dụng các dịch vụ tìm kiếm nâng cao.
  • Để loại trừ các tài liệu có chứa các thuật ngữ nhất định, hãy sử dụng dấu "-" trước mỗi từ đó. Ví dụ: nếu bạn cần thông tin về các tác phẩm của Shakespeare, ngoại trừ "Hamlet", thì hãy nhập truy vấn theo dạng: "Shakespeare-Hamlet". Và để đảm bảo rằng một số liên kết nhất định được đưa vào kết quả tìm kiếm, hãy sử dụng biểu tượng “+”. Vì vậy, để tìm link bán xe cụ thể bạn cần truy vấn “sale + car”. Để tăng hiệu quả và độ chính xác cho việc tìm kiếm của bạn, hãy sử dụng kết hợp các ký hiệu này.
  • Mỗi liên kết trong danh sách kết quả tìm kiếm chứa một số dòng từ tài liệu tìm thấy, trong đó các từ khóa của bạn xuất hiện. Trước khi nhấp vào liên kết, hãy đánh giá mức độ liên quan của đoạn trích với chủ đề của yêu cầu. Sau khi theo liên kết đến một trang web cụ thể, hãy xem kỹ trang chính. Theo quy định, trang đầu tiên là đủ để hiểu bạn có đến đúng địa chỉ hay không. Nếu có, hãy tiến hành tìm kiếm thêm thông tin cần thiết trên trang đã chọn (trong các phần của trang); nếu không, hãy quay lại kết quả tìm kiếm và thử liên kết tiếp theo.
  • Hãy nhớ rằng các công cụ tìm kiếm không tạo ra thông tin của riêng chúng (ngoại trừ những lời giải thích về chúng). Công cụ tìm kiếm chỉ là trung gian giữa chủ sở hữu thông tin (trang web) và bạn. Cơ sở dữ liệu được cập nhật liên tục, các địa chỉ mới được thêm vào, nhưng độ trễ so với thông tin thực sự tồn tại trên thế giới vẫn còn. Đơn giản vì công cụ tìm kiếm không hoạt động với tốc độ ánh sáng.

Đến nhiều nhất máy móc nổi tiếng tìm kiếm trên web bao gồm Google, Yahoo, Alta Vista, Excite, Hot Bot, Lycos. Trong số những người nói tiếng Nga có thể kể đến Yandex, Rambler, Aport.

Công cụ tìm kiếm là lớn nhất và có giá trị nhất, nhưng chúng không phải là nguồn thông tin duy nhất trên Internet, vì ngoài chúng, còn có những cách khác để tìm kiếm trên Internet.

2.3 Thư mục

Danh mục các tài nguyên Internet là một danh mục có thứ bậc được mở rộng và cập nhật liên tục, chứa nhiều danh mục và các máy chủ web riêng lẻ kèm theo mô tả ngắn gọn về nội dung của chúng. những cái cụ thể. Một trong những lợi thế của thư mục chuyên đề là người tạo thư mục đưa ra giải thích cho các liên kết và phản ánh đầy đủ nội dung của nó, nghĩa là nó cho bạn cơ hội xác định chính xác hơn mức độ nội dung máy chủ tương ứng với mục đích của bạn. tìm kiếm.

Một ví dụ về danh mục tiếng Nga theo chủ đề là tài nguyên http://www.ulitka.ru/.

TRÊN trang chủ Trang web này chứa một bảng đánh giá theo chủ đề,

với sự trợ giúp của nó, người dùng sẽ thấy mình đang ở trong một phần có liên kết đến các sản phẩm mà họ quan tâm.

Ngoài ra, một số thư mục chuyên đề cho phép bạn tìm kiếm theo từ khóa. Người dùng nhập từ khóa mong muốn vào thanh tìm kiếm

và nhận được danh sách các liên kết có mô tả về các trang web phù hợp nhất với yêu cầu của anh ấy. Điều đáng lưu ý là tìm kiếm này không xảy ra trong nội dung của máy chủ WWW mà trong mô tả ngắn gọn, được lưu trữ trong thư mục.

Trong ví dụ của chúng tôi, danh mục cũng có khả năng sắp xếp các trang web theo số lượt truy cập, theo thứ tự bảng chữ cái và theo ngày nhập.

Các ví dụ khác về thư mục tiếng Nga:
[email protected]
Danh sách web
Vsego.ru
Trong số các danh mục tiếng Anh, chúng tôi có thể nêu bật:
http://www.DMOS.org
http://www.yahoo.com/
http://www.looksmart.com

2.4 Bộ sưu tập liên kết

Bộ sưu tập liên kết là các liên kết được sắp xếp theo chủ đề. Chúng khá khác nhau về nội dung nên để tìm được lựa chọn phù hợp nhất với sở thích của mình, bạn cần phải tự mình xem qua để đưa ra ý kiến ​​​​của riêng mình.

Ví dụ: hãy chọn các liên kết "Kho báu Internet" của Công ty Cổ phần "Relcom"

Người dùng nhấp vào bất kỳ phần nào mà anh ta quan tâm

  • NỘI DUNG

    Người lái xe ô tô

    • Thiên văn học và chiêm tinh học
    • Nhà của bạn
    • Thú cưng của bạn
    • Trẻ em là bông hoa của cuộc sống
    • Thời gian rảnh rỗi
    • Các thành phố trên Internet
    • Sức khỏe và y học
    • Cơ quan tin tức và dịch vụ
    • Bảo tàng Lịch sử Địa phương, v.v.
    • Điện tử ô tô.
    • Bảo tàng ô tô cổ.
    • trường đại học Bảo vệ pháp lý Chủ xe.
    • Sportdrive.

    Ưu điểm của loại công cụ tìm kiếm này là trọng tâm của chúng; thông thường việc lựa chọn bao gồm các tài nguyên Internet hiếm được chọn bởi quản trị viên web cụ thể hoặc chủ sở hữu trang Internet.

    2.5 Cơ sở dữ liệu địa chỉ

    Cơ sở dữ liệu địa chỉ là các máy chủ tìm kiếm đặc biệt thường sử dụng phân loại theo loại hoạt động, theo sản phẩm và dịch vụ được cung cấp cũng như theo địa lý. Đôi khi chúng được bổ sung tính năng tìm kiếm theo thứ tự bảng chữ cái. Bản ghi cơ sở dữ liệu lưu trữ thông tin về các trang web cung cấp thông tin email, tổ chức và địa chỉ gửi thư có tính phí.

    Cơ sở dữ liệu địa chỉ bằng tiếng Anh lớn nhất là: http://www.lookup.com/ -

    Khi ở trong các thư mục con này, người dùng sẽ tìm thấy các liên kết đến các trang web cung cấp thông tin mà họ quan tâm.

    Chúng tôi không biết cơ sở dữ liệu địa chỉ chính thức và có thể truy cập rộng rãi ở Liên bang Nga.

    2.6 Tìm kiếm kho lưu trữ Gopher

    Gopher là một hệ thống máy chủ được kết nối với nhau (không gian Gopher) được phân phối qua Internet.

    Không gian Gopher chứa một thư viện văn học phong phú nhưng không có sẵn tài liệu để xem trong chế độ từ xa: Người dùng chỉ có thể xem mục lục được sắp xếp theo thứ bậc và chọn tệp theo tên. Sử dụng một chương trình đặc biệt (Veronica), việc tìm kiếm như vậy có thể được thực hiện tự động, sử dụng các truy vấn dựa trên từ khóa.

    Cho đến năm 1995, Gopher là công nghệ Internet năng động nhất: tốc độ tăng trưởng số lượng máy chủ tương ứng vượt xa tốc độ tăng trưởng số lượng máy chủ của tất cả các loại Internet khác. Các máy chủ Gopher không nhận được sự phát triển tích cực trong mạng EUnet/Relcom và ngày nay hầu như không ai nhớ đến chúng.

    2.7 Hệ thống tìm kiếm FTP

    Công cụ tìm tệp FTP là một loại công cụ tìm kiếm Internet đặc biệt cho phép bạn tìm các tệp có sẵn trên các máy chủ FTP “ẩn danh”. Giao thức FTP được thiết kế để truyền tệp qua mạng và theo nghĩa này, về mặt chức năng, nó giống như Gopher.

    Tiêu chí tìm kiếm chính là tên tệp, được chỉ định theo nhiều cách khác nhau (khớp chính xác, chuỗi con, biểu thức chính quy, v.v.). Loại này tất nhiên, tìm kiếm không thể cạnh tranh về khả năng với công cụ tìm kiếm, vì nội dung của các tệp không được tính đến theo bất kỳ cách nào trong quá trình tìm kiếm và như bạn biết, các tệp có thể được đặt tên tùy ý. Tuy nhiên, nếu bạn cần tìm một số chương trình nổi tiếng hoặc mô tả về tiêu chuẩn, thì khả năng cao là tệp chứa nó sẽ có tên tương ứng và bạn có thể tìm thấy nó bằng cách sử dụng một trong các máy chủ Tìm kiếm FTP:

    FileSearch tìm kiếm các tệp trên máy chủ FTP dựa trên tên của các tệp và thư mục. Nếu bạn đang tìm kiếm bất kỳ chương trình nào hoặc thứ gì khác, thì rất có thể bạn sẽ tìm thấy mô tả của chúng trên máy chủ WWW và từ máy chủ FTP, bạn có thể tải chúng xuống cho chính mình.

    2.8 Hệ thống tìm kiếm trong hội nghị Usenet News

    USENET NEWS là hệ thống hội nghị truyền hình dành cho cộng đồng Internet. Ở phương Tây, dịch vụ này thường được gọi là tin tức. Một dạng tương tự gần giống của hội nghị từ xa là cái gọi là “tiếng vang” trong mạng FIDO.

    Từ quan điểm của một người đăng ký nhóm tin, USENET là một bảng thông báo với các phần nơi bạn có thể tìm thấy các bài viết về mọi thứ, từ chính trị đến làm vườn. Bảng thông báo này có thể truy cập được qua máy tính, tương tự như email. Không cần rời khỏi máy tính, bạn có thể đọc hoặc đăng các bài viết trong một hội nghị cụ thể, tìm lời khuyên hữu ích hoặc tham gia vào các cuộc thảo luận. Đương nhiên, các bài viết chiếm dung lượng trên máy tính nên chúng không được lưu trữ mãi mãi mà bị hủy định kỳ để nhường chỗ cho những bài viết mới. Trên toàn thế giới dịch vụ tốt nhấtđể tìm kiếm thông tin trong các hội nghị Usenet là máy chủ Google Nhóm (Google Inc.).

    Google Groups là một dịch vụ nhóm thảo luận và cộng đồng trực tuyến miễn phí cung cấp kho lưu trữ tin nhắn Usenet lớn nhất trên Internet (hơn một tỷ tin nhắn). Để biết thêm thông tin về điều khoản sử dụng của dịch vụ, hãy truy cập http://groups.google.com/intl/ vi /googlegroups/tour/index.html

    Trong số những máy chủ nói tiếng Nga, máy chủ USENET World System và hội nghị từ xa Relcom nổi bật. Cũng giống như các dịch vụ tìm kiếm khác, người dùng nhập chuỗi truy vấn và máy chủ tạo danh sách hội nghị chứa từ khóa. Tiếp theo, bạn cần đăng ký các hội nghị đã chọn trong chương trình tin tức. Ngoài ra còn có một máy chủ FidoNet Online tương tự của Nga: Hội nghị Fido trên WWW.

    2.9 Công cụ tìm kiếm Meta

    Để nhanh chóng tìm kiếm cơ sở dữ liệu của một số công cụ tìm kiếm cùng một lúc, tốt hơn là nên chuyển sang hệ thống tìm kiếm meta.

    Công cụ tìm kiếm meta là công cụ tìm kiếm gửi yêu cầu của bạn đến một số lượng lớn các công cụ tìm kiếm khác nhau, sau đó xử lý kết quả, xóa các địa chỉ tài nguyên trùng lặp và hiển thị phạm vi rộng hơn những gì được trình bày trên Internet.

    Công cụ tìm kiếm meta phổ biến nhất trên thế giới là Search.com.

    Công cụ tìm kiếm hợp nhất Search.com của CNET, Inc. bao gồm gần hai chục công cụ tìm kiếm, các liên kết đến đó có rất nhiều liên kết trên Internet.

    Tuy nhiên, khi sử dụng loại công cụ tìm kiếm này, người dùng có thể tìm kiếm thông tin trên nhiều công cụ tìm kiếm khác nhau. mặt tiêu cực Những hệ thống này có thể được gọi là sự không ổn định của chúng.

    2.10 Hệ thống tìm kiếm người

    Hệ thống tìm kiếm người là máy chủ đặc biệt, cho phép bạn tìm kiếm mọi người trên Internet, người dùng có thể chỉ định tên đầy đủ của họ. người đó và nhận địa chỉ email và URL của họ. Tuy nhiên, cần lưu ý rằng các công cụ tìm kiếm con người chủ yếu lấy thông tin về địa chỉ email từ các nguồn mở như diễn đàn Usenet. Trong số nhiều nhất hệ thống đã biết tìm kiếm người có thể được phân biệt:

    Tìm kiếm địa chỉ email

    Trong các cột tìm kiếm đặc biệt có thông tin liên hệ (Tên. Thành phố, Họ, Số điện thoại), bạn có thể tìm thấy thông tin bạn quan tâm.

    Công cụ tìm kiếm con người là có thật máy chủ lớn, cơ sở dữ liệu của họ chứa khoảng 6.000.000 địa chỉ.

    3. Kết luận

    Chúng tôi đã xem xét các công nghệ chính để tìm kiếm thông tin trên Internet và trình bày chúng trong phác thảo chung các công cụ tìm kiếm hiện tồn tại trên Internet, cũng như cấu trúc truy vấn tìm kiếm cho các công cụ tìm kiếm tiếng Nga và tiếng Anh phổ biến nhất và để tóm tắt những điều trên, chúng tôi muốn lưu ý rằng không có sơ đồ tối ưu duy nhất cho tìm kiếm thông tin trên Internet. Tùy thuộc vào đặc điểm cụ thể của thông tin bạn cần, bạn có thể sử dụng các công cụ và dịch vụ tìm kiếm phù hợp. Và chất lượng của kết quả tìm kiếm phụ thuộc vào việc lựa chọn dịch vụ tìm kiếm tốt như thế nào.