Công cụ tìm kiếm nổi tiếng. Công cụ tìm kiếm hoạt động như thế nào?

Được biết, người dùng đến một trang web từ các công cụ tìm kiếm cung cấp tới 40% lưu lượng truy cập. Vì vậy, việc quan tâm đến việc lập chỉ mục chính xác trang web của bạn trong các công cụ tìm kiếm là rất hữu ích. Bằng cách “lập chỉ mục chính xác”, ý tôi là sự liên quan của truy vấn và nội dung của trang web phải được tôn trọng, tức là, một cách đơn giản và ngôn ngữ có thể truy cập, nội dung của trang web phải tương ứng với yêu cầu (một số “bậc thầy” lạm dụng bộ từ khóa không phù hợp với thực tế. Ví dụ: khi chị tôi đang chuẩn bị phát hành một đĩa CD có các bản sao cục bộ của các cấp trang Web đầu tiên, từ “x#y” và những từ khác tương tự xuất hiện trên máy chủ của các công ty rất có uy tín nhưng không có gì chung với loại này từ vựng :-).

Altavista
Tìm nạp-tìm kiếm
ngôn ngữ trung gian
Người nói huyên thuyên
RusThông tinDầu
Nga Express
Tìm kiếm cơ thể
HotBot
Yandex

Tại sao tôi liệt kê các công cụ tìm kiếm cụ thể này? Bởi vì, theo quan sát của tôi, đây là những thứ mà cư dân mạng nói tiếng Nga sử dụng. "Quan sát của tôi" là gì? Đây là bản phân tích nhật ký truy cập vào máy chủ của tôi http://citforum.ru/, chính xác hơn là một phần nhật ký nơi thông tin về HTTP_REFERER được thu thập, tức là. địa chỉ (URL) nơi khách hàng sử dụng liên kết đến bất kỳ trang nào trên máy chủ của tôi.

Đánh giá các loại máy mình liệt kê trên thực tế ra sao, máy nào dùng nhiều, máy nào ít?

Altavista đứng ở vị trí đầu tiên với khoảng cách rất lớn so với phần còn lại. Công cụ tìm kiếm này đã dẫn đầu ngay cả trước khi tìm kiếm bằng ngôn ngữ khác nhau(kể cả theo tài liệu tiếng Nga). Chà, điều đó có thể hiểu được - một máy chủ tuyệt vời, dễ truy cập, đã hoạt động được một thời gian dài (kể từ đầu năm 1996), căn cứ khổng lồ tài liệu (trên 50 triệu địa chỉ). Cũng cần lưu ý rằng người dùng nói tiếng Nga không chỉ ở Nga mà còn ở Bulgaria, Cộng hòa Séc và Slovakia, Ba Lan, Israel, Đức, chưa kể các nước cộng hòa cũ của Liên Xô - Ukraine, Belarus. .. (Tôi đặc biệt muốn nói về các quốc gia vùng Baltic: Chính họ, khi gặp nhau trên đường phố của một số Kaunas hoặc Tallinn, không biết tiếng Nga, nhưng trước màn hình, đặc biệt nếu điều đó thực sự cần thiết, họ thực sự biết :-)) Vì vậy, đối với tất cả những người dùng này, việc sử dụng Altavista sẽ thuận tiện hơn chứ không phải ô tô nội địa của chúng tôi - gần hơn, vẫn...

Kỳ lạ thay, công cụ tìm kiếm phổ biến nhất tiếp theo lại là công cụ tìm kiếm trẻ nhất ở Nga - Yandex. Như Aleksey Amilyushchenko (công ty Comptek) đã nói với tôi, ngày nay có trung bình 72.000 yêu cầu mỗi ngày và có xu hướng +10% mỗi tuần (dữ liệu từ ngày 04/07/98). Đối với tôi, có vẻ như Yandex là công cụ tìm kiếm hứa hẹn nhất của Nga. Với hệ thống phân tích ngôn ngữ Nga "vĩ đại và hùng mạnh" của Comptek, Yandex rất có thể sẽ giành chiến thắng trong cuộc cạnh tranh với con cá voi thứ hai trong lĩnh vực này - Rambler.

Rambler là công cụ tìm kiếm nghiêm túc thứ ba dành cho người dùng nói tiếng Nga. Điều chính tôi không thích ở nó là nó bỏ qua nội dung của cấu trúc . (Tôi không nghĩ ra điều này, điều này đã được nói bởi Dmitry Kryukov từ Stack Ltd.) Có lẽ, chính vì việc từ chối tính đến các từ khóa mà một tập hợp liên kết kỳ lạ như vậy mới được hiển thị trong kết quả truy vấn. Hạn chế thứ hai của bản chất giao diện thuần túy là kết quả liên tục được đưa ra dưới dạng mã hóa KOI, bất kể người dùng đã chọn gì trước đó. Hạn chế thứ ba: Nhện Rambler hoạt động trên Giao thức HTTP 0.9, dẫn đến lỗi lập chỉ mục, tức là. nếu nhiều người sống trên cùng một địa chỉ IP máy chủ ảo, Rambler chỉ nhìn thấy cái đầu tiên và coi tất cả những cái khác chỉ đơn giản là từ đồng nghĩa. Ồ, hãy hy vọng điều này sẽ sớm được khắc phục.

Vậy thì nơi cuối cùng Theo đánh giá của tôi, có Aport-Search, lập chỉ mục các máy chủ rất kỳ lạ, RusInfOil, thường xuyên đóng cửa để xây dựng lại và TELA-Search - một tiện ích đẹp và gần như vô dụng dành cho máy chủ www.dux.ru.

Bạn có thể hỏi: HotBot và công cụ tìm kiếm siêu dữ liệu Pathfinder của Medialingua có nằm trong danh sách không? Tôi không quên chúng, chỉ là HotBot, vì một lý do không rõ nào đó, đã để lại rất nhiều mục trong nhật ký của tôi, đó không thể là những chuyến bay ngẫu nhiên của những người nước ngoài không hiểu tiếng Nga (có rất ít chuyến bay như vậy từ các nước khác). máy nhập khẩu) và tôi vẫn chưa nghiên cứu “Pathfinder” một cách nghiêm túc.

Tại sao công cụ tìm kiếm cần quảng bá một trang web?

Rất đơn giản, như tôi đã nói, các công cụ tìm kiếm có thể cung cấp tới 40% lưu lượng truy cập cho một trang web. Và để điều này xảy ra, điều cần thiết là trang web của bạn phải được lập chỉ mục chính xác và để làm được điều này, bạn cần biết cách thực hiện việc này.

Và điều này được thực hiện theo cách sau: chính rô-bốt công cụ tìm kiếm sẽ truy cập trang web của bạn hoặc chính bạn chỉ ra trang web đó trong giao diện thích hợp (AddUrl), giao diện này có trong bất kỳ công cụ tìm kiếm tự trọng nào. Tùy chọn đầu tiên bị chậm trễ (robot vẫn sẽ đến đó, có thể trong một ngày, có thể trong một năm: Internet rất lớn). Cách thứ hai đòi hỏi phải dành chút thời gian (nhiều phần mềm khác nhau để đăng ký tự động Trang web của bạn không cung cấp cho chúng tôi bất kỳ thứ gì trong đám mây của công cụ tìm kiếm - máy được nhập khẩu).

Để mọi việc diễn ra trong tốt nhất của mình yêu cầu:

nên có ít nhất một số văn bản trên trang web. Công cụ tìm kiếm bỏ qua hình ảnh và kiểm tra chúng. Đúng, bạn có thể sao chép văn bản trong thuộc tính alt gắn thẻ hình ảnh
Mỗi tài liệu trang web PHẢI chứa tiêu đề, từ khóa và mô tả ngắn có ý nghĩa. Họ chỉ viết rằng công cụ tìm kiếm là toàn văn, nhưng thực tế không phải vậy.
Tạo tệp robots.txt (đặc biệt nếu bạn có máy chủ riêng như www.name.ru).
Đăng ký thủ công trong mỗi công cụ tìm kiếm mà bạn quan tâm và kiểm soát việc lập chỉ mục trang web của bạn sau đó.

Vì vậy, bạn đã đăng ký trang đầu tiên của trang web của mình trên nhiều công cụ tìm kiếm khác nhau.

Bạn có nghĩ rằng mọi thứ đã có trong hợp đồng? Cho dù nó thế nào đi chăng nữa. Nếu một liên kết đến trang web của bạn trong phản hồi của công cụ tìm kiếm được hiển thị trên màn hình thứ hai, thì “điều đó thật tệ như thể không có liên kết nào cả” (Danny Sullivan, searchenginewatch.com)

Nói cách khác, chỉ xác định trang trong AddURL là không đủ. Cần chuẩn bị trước tài liệu để đáp ứng các yêu cầu thích hợp của công cụ tìm kiếm, để đáp lại yêu cầu của nó, liên kết đến tài liệu của bạn, nếu không phải là liên kết đầu tiên thì ít nhất cũng nằm trong mười liên kết hàng đầu (hoặc sẽ tốt hơn nếu trong top 10 này có một số liên kết đến tài liệu của bạn :- ). "chuẩn bị" nghĩa là gì? Nó sạch sẽ câu hỏi kỹ thuật, không có gì siêu nhiên cả. Ngay trong phần HEAD của mỗi tài liệu trên trang web của bạn, bạn nên chỉ ra Tiêu đề, Từ khóa, Mô tả và Robots.

Tiêu đề:tiêu đề tài liệu. Một tiêu đề hay, ý nghĩa có thể khiến người dùng chọn liên kết của bạn từ nhiều người khác. Bạn thường thấy những tiêu đề như sau: “Nội dung” - cái gì, tại sao - không rõ ràng, không muốn kiểm tra. Một trường hợp khác: trên tất cả các trang của trang web, tiêu đề là “Chào mừng đến với công ty…” - việc kiểm tra tất cả các tài liệu có tiêu đề theo cách này cũng không hấp dẫn lắm. Hãy tưởng tượng rằng bạn đã chọn chế độ tìm kiếm theo tiêu đề mà không có mô tả cho từng tài liệu.

Từ khóa:từ khóa. Chính nội dung của vùng chứa này ảnh hưởng đến mức độ liên quan của tài liệu với truy vấn tìm kiếm.

Cho dù họ có nói rằng công cụ tìm kiếm là toàn văn bản đến mức nào thì điều này không hoàn toàn đúng, nhưng nội dung của vùng chứa này chắc chắn sẽ có trong chỉ mục của công cụ tìm kiếm. Thật không may, những người tạo ra một trong những công cụ tìm kiếm nội địa lớn nhất, Rambler, không muốn làm việc trên vùng chứa này. Nhưng vô ích.

trường nội dung không được chứa dấu cuối dòng, dấu ngoặc kép, v.v. ký tự đặc biệt, chữ hoa chữ thường không quan trọng
Không nên lặp lại cùng một từ khóa nhiều lần; điều này có thể bị coi là spam và trang có nguy cơ bị xóa khỏi chỉ mục của công cụ tìm kiếm.
bạn không nên tạo các từ khóa giống nhau cho các trang khác nhau Trang web của bạn. Tất nhiên, điều này đơn giản hơn, nhưng bản thân nội dung của các tài liệu lại khác. Nếu bạn thực sự muốn tự động hóa quá trình này, bạn có thể viết một chương trình ghi tất cả các khối tài liệu đã chọn vào trường này, ví dụ: giữa các thẻ H, I và B.
nếu dòng trong nội dung quá dài, không được phép tạo thêm nhiều cấu trúc tương tự.
Nói chung, tổng khối lượng từ khóa trong một tài liệu có thể lên tới 50% khối lượng của tài liệu đó.

Sự miêu tả: Mô tả ngắn tài liệu. Một nơi chứa khá hữu ích, nội dung của nó được sử dụng như một mô tả ngắn gọn về các tài liệu có liên quan để đáp ứng các công cụ tìm kiếm hiện đại. Nếu vùng chứa này không tồn tại thì một số dòng nhất định từ đầu tài liệu sẽ được trả về. Theo đó, không có gì lạ khi JavaScript nằm ở đầu tài liệu và thay vì mô tả thông thường, chữ abracadabra được đưa ra dưới dạng một đoạn chữ viết.

Trường nội dung không được chứa kết thúc dòng, dấu ngoặc kép hoặc các ký tự đặc biệt khác.
Điều mong muốn là có một bản tóm tắt có ý nghĩa về tài liệu từ một vài câu của con người, để người dùng công cụ tìm kiếm ngoài tiêu đề có thể hiểu được ý nghĩa của tài liệu.
Thật không may, các công cụ tìm kiếm trong nước vẫn chưa biết cách làm việc với vùng chứa này, mặc dù họ hứa rằng họ sẽ sớm tìm hiểu.

Có thể kiểm soát hành động của công cụ tìm kiếm?

Điều đó là có thể, và thậm chí là cần thiết! Hành động đầu tiên cần thực hiện cho việc này là viết một tệp robots.txt và đặt nó vào thư mục gốc của máy chủ của bạn. Tệp này giải thích phổ biến cho robot công cụ tìm kiếm những gì nên được lập chỉ mục và những gì không nên lập chỉ mục. Ví dụ: tại sao phải lập chỉ mục các tệp dịch vụ, chẳng hạn như báo cáo thống kê? Hoặc kết quả của kịch bản? Hơn nữa, nhiều máy “thông minh” sẽ không lập chỉ mục các máy chủ nếu không tìm thấy robots.txt. Nhân tiện, trong tệp này, bạn có thể chỉ định các mặt nạ lập chỉ mục khác nhau cho các công cụ tìm kiếm khác nhau.

Bạn có thể đọc thêm về điều này trong bản dịch "Tiêu chuẩn loại trừ robot" của tôi. Hành động thứ hai: cung cấp cho các trang của trang web thẻ Robots META. Đây là công cụ kiểm soát lập chỉ mục linh hoạt hơn robots.txt. Đặc biệt, trong thẻ này, bạn có thể hướng dẫn robot công cụ tìm kiếm không đi theo các liên kết đến các máy chủ khác, chẳng hạn như trong các tài liệu có danh sách liên kết. Định dạng của mớ hỗn độn này như sau:

robot_terms là danh sách các từ khóa sau được phân tách bằng dấu phẩy (ký tự viết hoa hoặc viết thường không quan trọng): ALL, NONE, INDEX, NOINDEX, FOLLOW, NOFOLLOW. KHÔNG CÓ yêu cầu tất cả robot bỏ qua trang này khi lập chỉ mục (tương đương với việc sử dụng đồng thời từ khóa NOINDEX, NOFOLLOW). TẤT CẢ cho phép trang này và tất cả các liên kết từ nó được lập chỉ mục (tương đương với việc sử dụng đồng thời các từ khóa INDEX, FOLLOW). MỤC LỤC cho phép trang này được lập chỉ mục NOINDEX không cho phép lập chỉ mục trang này THEO cho phép tất cả các liên kết từ trang này được lập chỉ mục KHÔNG THEO không cho phép lập chỉ mục các liên kết từ trang này

Nếu thẻ meta này bị bỏ qua hoặc robot_terms không được chỉ định thì theo mặc định robot tìm kiếm hoạt động như thể robot_terms=INDEX, FOLLOW (tức là TẤT CẢ) đã được chỉ định. Nếu từ khóa TẤT CẢ được phát hiện trong NỘI DUNG, thì rô-bốt sẽ hành động tương ứng, bỏ qua các từ khóa khác có thể được chỉ định. Nếu NỘI DUNG chứa các từ khóa có ý nghĩa trái ngược nhau, ví dụ: THEO DÕI, KHÔNG THEO DÕI, thì rô-bốt sẽ hành động theo quyết định riêng của nó (trong trường hợp này là THEO).

Nếu robot_terms chỉ chứa NOINDEX thì các liên kết từ trang này sẽ không được lập chỉ mục. Nếu robot_terms chỉ chứa NOFOLLOW thì trang sẽ được lập chỉ mục và các liên kết sẽ bị bỏ qua.

Theo dõi trạng thái hiện tại của tài liệu của bạn trong chỉ mục của công cụ tìm kiếm.

Được rồi, bạn đã đọc mọi thứ ở trên và làm như vậy. Cái gì tiếp theo? Và sau đó sẽ có một cuộc kiểm tra dài, tẻ nhạt và quan trọng nhất là thường xuyên để xem mọi thứ diễn ra như thế nào. Thật đáng buồn, bạn sẽ phải chú ý đến điều này, nếu chỉ vì tài liệu đôi khi biến mất khỏi công cụ tìm kiếm. Tại sao? Tôi ước gì tôi biết... Vì vậy, trong các công cụ tìm kiếm tốt, bạn có thể xem những tài liệu nào và có bao nhiêu trong số đó thời điểm hiện tại có trong chỉ mục. Đây là cách nó được thực hiện:

Alta Vista
Trong công cụ tìm kiếm này, việc kiểm tra trạng thái URL khá đơn giản - chỉ cần nhập dòng truy vấn:

url: citforum.ru
url:citforum.ru/win/
url:citforum.ru/win/internet/index.shtml

Trong trường hợp đầu tiên, tất cả các trang máy chủ được lập chỉ mục sẽ được trả về. Trong trang thứ hai - chỉ có các trang mã hóa Windows. Trong phần thứ ba - có tệp index.shtml từ thư mục được chỉ định trong chỉ mục AltaVista không?

kích thích
Kiểm tra trạng thái của URL trong công cụ tìm kiếm Excite cũng dễ dàng như trong AltaVista. Chỉ cần gõ URL. Ví dụ:

HotBot
Trạng thái URL được kiểm tra trong công cụ tìm kiếm HotBot theo một cách hơi khác. Việc này được thực hiện như thế này:

Nhập URL vào trường yêu cầu
Thay đổi tùy chọn "tất cả các từ" thành "liên kết đến URL này"

Tìm kiếm thông tin
Trong công cụ tìm kiếm Infoseek, có một cách để kiểm tra trạng thái của URL: giao diện riêng biệt với một loạt các cài đặt:

Trình thu thập thông tin web
WebCrawler cung cấp khả năng kiểm tra trạng thái của URL trên một trang:

Người nói huyên thuyên
Trong công cụ tìm kiếm này, trạng thái URL có thể được kiểm tra theo hai cách.

Trong phần "Tìm kiếm nâng cao" bằng cách chỉ định tên máy chủ làm mặt nạ ở một trong các tùy chọn 100 từ hàng đầu trên Rambler

Bộ sưu tập liên kết theo chủ đề là danh sách được biên soạn bởi một nhóm chuyên gia hoặc thậm chí là các nhà sưu tập cá nhân. Rất thường xuyên, một chủ đề có tính chuyên môn cao có thể được một chuyên gia đề cập tốt hơn so với một nhóm nhân viên từ một danh mục lớn. Có rất nhiều bộ sưu tập theo chủ đề trên Internet nên việc cung cấp địa chỉ cụ thể là vô nghĩa.

Lựa chọn tên miền

Mục lục - hệ thống tiện lợi tuy nhiên, hãy tìm kiếm để truy cập vào máy chủ Microsoft hoặc IBM, việc truy cập vào thư mục đó hầu như không có ý nghĩa gì. Không khó để đoán ra tên của trang web tương ứng: www.microsoft.com, www.ibm.com hay www.microsoft.ru, www.ibm.ru là trang web của văn phòng đại diện tại Nga của các công ty này.

Tương tự, nếu người dùng cần một trang web dành riêng cho thời tiết trên thế giới, việc tìm kiếm trang web đó trên máy chủ www.weather.com là điều hợp lý. Trong hầu hết các trường hợp, việc tìm kiếm một trang web có từ khóa trong tiêu đề sẽ hiệu quả hơn việc tìm kiếm một tài liệu sử dụng từ đó trong văn bản. Nếu một công ty thương mại (hoặc dự án) phương Tây có tên một âm tiết và triển khai máy chủ của mình trên Internet, thì tên của nó rất có thể phù hợp với định dạng www.name.com và đối với Runet (phần Internet của Nga) - www.name.ru, trong đó tên - tên của công ty hoặc dự án. Lựa chọn địa chỉ có thể cạnh tranh thành công với các phương pháp tìm kiếm khác vì khi hệ thống tương tự tìm kiếm, bạn có thể thiết lập kết nối tới máy chủ chưa được đăng ký với bất kỳ công cụ tìm kiếm nào. Tuy nhiên, nếu không tìm thấy tên mình đang tìm, bạn sẽ phải chuyển sang công cụ tìm kiếm.

Công cụ tìm kiếm

Hãy cho tôi biết bạn đang tìm kiếm gì trên Internet và tôi sẽ cho bạn biết bạn là ai

Nếu máy tính là một hệ thống cực kỳ thông minh có thể dễ dàng giải thích những gì bạn đang tìm kiếm thì nó sẽ tạo ra hai hoặc ba tài liệu - chính xác là những tài liệu bạn cần. Nhưng thật không may, điều này không phải như vậy và để đáp lại yêu cầu, người dùng thường nhận được một danh sách dài các tài liệu, nhiều tài liệu trong số đó không liên quan gì đến những gì anh ta yêu cầu. Những tài liệu như vậy được gọi là không liên quan (từ tiếng Anh có liên quan - phù hợp, có liên quan). Như vậy, tài liệu liên quan là tài liệu có chứa thông tin bạn đang tìm kiếm. Rõ ràng, tỷ lệ tài liệu liên quan nhận được phụ thuộc vào khả năng đưa ra truy vấn một cách chính xác. Tỷ lệ các tài liệu liên quan trong danh sách tất cả các tài liệu được tìm thấy bởi công cụ tìm kiếm được gọi là độ chính xác của tìm kiếm. Các tài liệu không liên quan được gọi là tiếng ồn. Nếu tất cả các tài liệu được tìm thấy đều có liên quan (không có tài liệu gây nhiễu) thì độ chính xác tìm kiếm là 100%. Nếu tất cả các tài liệu liên quan được tìm thấy thì mức độ hoàn thiện của tìm kiếm là 100%.

Do đó, chất lượng tìm kiếm được xác định bởi hai tham số phụ thuộc lẫn nhau: độ chính xác và tính đầy đủ của tìm kiếm. Việc tăng tính đầy đủ của tìm kiếm sẽ làm giảm độ chính xác và ngược lại.

Công cụ tìm kiếm hoạt động như thế nào?

Công cụ tìm kiếm có thể được so sánh với một bộ phận trợ giúp, trong đó các đại lý đi khắp các doanh nghiệp để thu thập thông tin vào cơ sở dữ liệu (Hình 4.21). Khi bạn liên hệ với dịch vụ, thông tin sẽ được lấy từ cơ sở dữ liệu này. Dữ liệu trong cơ sở dữ liệu trở nên lỗi thời nên các đại lý phải cập nhật dữ liệu đó định kỳ. Một số doanh nghiệp tự gửi thông tin về mình, đại lý không cần phải đến gặp. Nói cách khác, bàn trợ giúp có hai chức năng: tạo và cập nhật liên tục dữ liệu trong cơ sở dữ liệu và tìm kiếm thông tin trong cơ sở dữ liệu theo yêu cầu của khách hàng.

Cơm. 4.21.

Tương tự như vậy, máy tìm kiếm bao gồm hai phần: cái gọi là robot (hoặc nhện), vượt qua các máy chủ Web và hình thành cơ sở dữ liệu của công cụ tìm kiếm.

Cơ sở của robot chủ yếu được hình thành bởi chính nó (robot tự tìm thấy các liên kết đến các tài nguyên mới) và ở mức độ thấp hơn nhiều bởi các chủ sở hữu tài nguyên đăng ký trang web của họ trong công cụ tìm kiếm. Ngoài robot (tác nhân mạng, nhện, sâu) hình thành cơ sở dữ liệu, còn có một chương trình xác định xếp hạng của các liên kết được tìm thấy.

Nguyên tắc hoạt động của công cụ tìm kiếm là nó truy vấn danh mục (cơ sở dữ liệu) nội bộ của nó để tìm các từ khóa mà người dùng chỉ định trong trường truy vấn và tạo ra danh sách các liên kết được xếp hạng theo mức độ liên quan.

Cần lưu ý rằng, khi xử lý một yêu cầu cụ thể của người dùng, công cụ tìm kiếm hoạt động chính xác dựa trên các tài nguyên nội bộ (và không bắt đầu hành trình trên Web, như những người dùng thiếu kinh nghiệm thường tin) và các tài nguyên nội bộ đương nhiên bị hạn chế. Mặc dù cơ sở dữ liệu của công cụ tìm kiếm được cập nhật liên tục, máy tìm kiếm không thể lập chỉ mục tất cả các tài liệu Web: số lượng của chúng quá lớn. Do đó, luôn có khả năng tài nguyên bạn đang tìm kiếm không được một công cụ tìm kiếm cụ thể nào biết đến.

Ý tưởng này được minh họa rõ ràng trong Hình. 4.22. Hình elip 1 giới hạn tập hợp tất cả các tài liệu Web tồn tại tại một thời điểm nào đó, hình elip 2 giới hạn tất cả các tài liệu được lập chỉ mục bởi một công cụ tìm kiếm nhất định và hình elip 3 giới hạn các tài liệu được tìm kiếm. Do đó, bằng cách sử dụng công cụ tìm kiếm này, bạn chỉ có thể tìm thấy một phần tài liệu cần thiết được nó lập chỉ mục.

Cơm. 4.22.

Vấn đề về tính đầy đủ của tìm kiếm không chỉ nằm ở nguồn tài nguyên nội bộ hạn chế của công cụ tìm kiếm mà còn ở chỗ tốc độ của robot bị hạn chế và số lượng tài liệu Web mới không ngừng tăng lên. Việc tăng tài nguyên bên trong của công cụ tìm kiếm không thể giải quyết hoàn toàn vấn đề vì tốc độ thu thập tài nguyên của robot là hữu hạn.

Đồng thời, giả sử rằng máy tìm kiếm chứa bản sao của tài nguyên Internet gốc, nó sẽ không chính xác. Đầy đủ thông tin(tài liệu nguồn) không phải lúc nào cũng được lưu trữ; thường xuyên hơn, chỉ một phần của nó được lưu trữ - cái gọi là danh sách được lập chỉ mục hoặc chỉ mục, nhỏ gọn hơn nhiều so với văn bản của tài liệu và cho phép bạn phản hồi nhanh chóng các truy vấn tìm kiếm.

Để xây dựng một chỉ mục, dữ liệu nguồn được chuyển đổi sao cho khối lượng cơ sở dữ liệu ở mức tối thiểu và việc tìm kiếm được thực hiện rất nhanh chóng và mang lại kết quả tối đa. thông tin hữu ích. Giải thích danh sách được lập chỉ mục là gì, chúng ta có thể so sánh với danh sách trên giấy của nó - cái gọi là sự phù hợp, tức là một cuốn từ điển trong đó thứ tự ABC Các từ được sử dụng bởi một nhà văn cụ thể sẽ được liệt kê, cũng như các tài liệu tham khảo về chúng và tần suất sử dụng chúng trong các tác phẩm của anh ta.

Rõ ràng, sự phù hợp (từ điển) nhỏ gọn hơn nhiều văn bản nguồn hoạt động và tìm thấy trong đó từ đúng dễ dàng hơn nhiều so với việc lật một cuốn sách với hy vọng tìm được từ thích hợp.

Xây dựng chỉ số

Sơ đồ xây dựng chỉ số được thể hiện trong hình. 4.23. Các tác nhân mạng, hay robot nhện, “thu thập dữ liệu” trên Web, phân tích nội dung của các trang Web và thu thập thông tin về những gì được tìm thấy và trên trang nào.

Cơm. 4.23.

Khi bạn tìm thấy một trang HTML khác, hầu hết các công cụ tìm kiếm đều ghi lại các từ, hình ảnh, liên kết và các thành phần khác (trong các công cụ tìm kiếm khác nhau theo những cách khác nhau) có trên đó. Hơn nữa, khi theo dõi các từ trên một trang, không chỉ sự hiện diện của chúng được ghi lại mà còn cả vị trí của chúng, tức là. vị trí của những từ này: trong tiêu đề, phụ đề, thẻ meta 1 Thẻ meta là thẻ dịch vụ cho phép nhà phát triển đặt thông tin dịch vụ trên các trang Web, bao gồm cả để định hướng công cụ tìm kiếm.(thẻ meta) hoặc ở những nơi khác. Trong trường hợp này, chúng thường được cố định những từ có ý nghĩa, và các liên từ và thán từ như “a”, “but” và “or” bị bỏ qua. Thẻ meta cho phép chủ sở hữu trang xác định các từ khóa và chủ đề mà trang được lập chỉ mục. Điều này có thể có liên quan khi từ khóa có nhiều ý nghĩa. Thẻ meta có thể hướng dẫn công cụ tìm kiếm khi chọn từ nhiều nghĩa của một từ cho đến nghĩa duy nhất đúng. Tuy nhiên, thẻ meta chỉ hoạt động đáng tin cậy nếu chúng được điền bởi chủ sở hữu trang web trung thực. Những chủ sở hữu trang web vô đạo đức đã đưa những từ phổ biến nhất trên Web vào thẻ meta của họ, những từ này không liên quan gì đến chủ đề của trang web. Kết quả là, khách truy cập sẽ truy cập vào các trang web không được yêu cầu, do đó thứ hạng của họ sẽ tăng lên. Đây là lý do tại sao nhiều công cụ tìm kiếm hiện đại bỏ qua các thẻ meta hoặc coi chúng là phần bổ sung cho văn bản trang. Mỗi robot duy trì danh sách tài nguyên riêng bị trừng phạt vì quảng cáo sai sự thật.

Rõ ràng, nếu bạn tìm kiếm các trang web sử dụng từ khóa "dog", thì công cụ tìm kiếm không chỉ phải tìm tất cả các trang có đề cập đến từ "dog" mà cả những trang có từ này liên quan đến chủ đề của trang web. Để xác định mức độ liên quan của một từ cụ thể đến hồ sơ của một trang Web nhất định, cần đánh giá tần suất nó xuất hiện trên trang, liệu có Từ này liên kết đến các trang khác hay không. Tóm lại, bạn cần xếp hạng các từ tìm thấy trên trang theo thứ tự tầm quan trọng. Các từ được gán trọng số tùy thuộc vào số lần và vị trí chúng xuất hiện (trong tiêu đề trang, ở đầu hoặc cuối trang, trong liên kết, trong thẻ meta, v.v.). Mỗi công cụ tìm kiếm có thuật toán riêng để gán hệ số trọng số - đây là một trong những lý do khiến công cụ tìm kiếm trả về kết quả cho cùng một từ khóa danh sách khác nhau tài nguyên. Vì các trang được cập nhật liên tục nên quá trình lập chỉ mục phải diễn ra liên tục. Spiderbot đi theo các liên kết và tạo một tệp chứa chỉ mục, tệp này có thể khá lớn. Để giảm kích thước của nó, họ sử dụng cách giảm thiểu lượng thông tin và nén tệp. Với nhiều robot, công cụ tìm kiếm có thể xử lý hàng trăm trang mỗi giây. Ngày nay, các công cụ tìm kiếm mạnh mẽ lưu trữ hàng trăm triệu trang và nhận được hàng chục triệu truy vấn mỗi ngày.

Khi xây dựng chỉ mục, vấn đề giảm số lượng trùng lặp cũng được giải quyết - một nhiệm vụ không hề nhỏ, vì để so sánh chính xác, trước tiên bạn phải xác định mã hóa tài liệu. Thậm chí nhiều hơn nhiệm vụ đầy thử thách là sự phân tách các tài liệu rất giống nhau (chúng được gọi là “gần như trùng lặp”), ví dụ những tài liệu trong đó chỉ có tiêu đề khác nhau và văn bản bị trùng lặp. Có rất nhiều tài liệu tương tự trên Internet - ví dụ: ai đó đã sao chép một bản tóm tắt và xuất bản nó trên trang web có chữ ký của anh ấy. Hiện đại công cụ tìm kiếm cho phép chúng tôi giải quyết những vấn đề như vậy.

Tất nhiên, danh sách các công cụ tìm kiếm phổ biến không dừng lại ở đó – số lượng của chúng lên tới hàng trăm. Tuy nhiên, tôi chắc chắn rằng những điều này sẽ là quá đủ để bạn làm việc với các trang web tiếng Anh.

Cần lưu ý rằng hầu hết tất cả các công cụ tìm kiếm được trình bày ở trên đều có thể hoạt động với bảng chữ cái Cyrillic. Nhưng để tìm kiếm thông tin bằng tiếng Nga, tôi vẫn khuyên dùng các công cụ tìm kiếm trong nước:

Có những công cụ tìm kiếm bằng tiếng Nga khác, nhưng đây là những công cụ phổ biến nhất, đặc biệt là hai công cụ đầu tiên.

Cơm. 4.1. Máy tìm kiếm hệ thống Google

Từ cuốn sách Chống PR đen trên Internet tác giả Kuzin Alexander Vladimirovich

Công cụ tìm kiếm và các danh mục làm công cụ quảng bá các tài nguyên Internet “chiến đấu” và lấp đầy nội dung cho chúng bằng cách sử dụng một số tài liệu từ cuốn sách “Internet Intelligence: A Guide to Action”.

Từ cuốn sách Blog. Tạo và quảng bá tác giả Yushchuk Evgeniy Vladimirovich

Công cụ tìm kiếm và thư mục làm công cụ để quảng bá blog và lấp đầy nội dung vào đó Chúng ta sẽ nói về việc tự động hóa nội dung blog nội dung thú vị, tức là làm thế nào để tìm tài liệu cho blog nhanh hơn các blogger khác. Hầu hết người đọc khó có thể làm được.

Từ cuốn sách Internet Intelligence [Hướng dẫn hành động] tác giả Yushchuk Evgeniy Leonidovich

Biên soạn các truy vấn liên quan đến tên công ty trong công cụ tìm kiếm

Từ cuốn sách Lắp ráp máy tính bằng tay của chính bạn tác giả Vatamanyuk Alexander Ivanovich

5.2. Hệ điều hành phổ biến Có rất nhiều các hệ điều hành và mỗi loại đều có mức độ phổ biến riêng. Một số hệ thống tốt hơn cho việc kết nối mạng, trong khi những hệ thống khác tốt hơn cho tuổi thọ pin, vì bạn có thể kết hợp mọi thứ mà không làm giảm hiệu suất và

Từ cuốn sách Câu hỏi thường gặp về Win2K (v. 6.0) tác giả Shashkov Alexey

(6.10) Có mạng hỗn hợp, netware và NT, máy khách W2kPro và W98. Máy có W98 không thể đăng nhập vào máy có W2k. Để giải quyết vấn đề này, bạn cần liên kết bằng các giao thức: chỉ IPX/SPX với máy khách Novell, chỉ TCP/IP với khách hàng Microsoft. Bạn có thể làm điều này trong thuộc tính kết nối mạng thực đơn

Từ cuốn sách Tóm tắt, đồ án, bằng tốt nghiệp trên máy tính tác giả

Công cụ tìm kiếm Nếu bạn cần tuyển chọn các tài liệu về thông tin cụ thể và chuyên biệt hơn, tốt hơn nên sử dụng công cụ tìm kiếm. Công cụ tìm kiếm là một tập hợp các chương trình đặc biệt để tìm kiếm trên Internet. Họ thoát khỏi những nhược điểm cố hữu

Từ cuốn sách Internet. Cơ hội mới. Thủ thuật và hiệu ứng tác giả Balovsyak Nadezhda Vasilievna

Cách thức hoạt động của các công cụ tìm kiếm và cách xây dựng các truy vấn một cách chính xác Các công cụ tìm kiếm hiện đại là một tập hợp các chương trình đặc biệt được thiết kế để tìm kiếm thông tin trên Internet. Nguyên tắc hoạt động của chúng như sau: đôi khi chúng.

Từ cuốn sách Internet 100%. Hướng dẫn chi tiết: từ cơ bản đến chuyên nghiệp tác giả Gladky Alexey Anatolievich

Rạp chiếu phim trực tuyến phổ biến Một trong những rạp chiếu phim trực tuyến miễn phí phổ biến có tại http://vsekino.tv (Hình 7.5). Cơm.

Từ cuốn sách Internet - dễ dàng và đơn giản! tác giả Alexandrov Egor

Danh mục phổ biến Phổ biến nhất và danh mục đầy đủ trên thế giới chắc chắn là Yahoo! (http://dir.yahoo.com) (Hình 4.4). Cơm. 4.4. Thư mục phổ biến nhất của các liên kết Yahoo! Cần lưu ý rằng các thư mục thường được kết hợp với các công cụ tìm kiếm, rất nhiều trong số đó được trình bày.

Từ cuốn sách Yandex cho mọi người tác giả Abramzon M. G.

1.11.3. Bài viết phổ biến Danh sách các bài viết phổ biến được cập nhật mỗi ngày một lần. Hàng chục hồ sơ như vậy đã được lựa chọn, nhưng chỉ một vài trong số những hồ sơ phổ biến nhất được gửi tới. trang tiêu đề Phần tìm kiếm. Phần còn lại có thể xem tại link Total record.

Từ cuốn sách Cách tìm và tải xuống bất kỳ tệp nào trên Internet tác giả Reitman M.A.

1.11.6. Các danh mục phổ biến Nếu trước đây chúng ta nói về thứ hạng của các blogger, dịch vụ và các bài đăng phổ biến nhất thì bây giờ chúng ta sẽ nói về các danh mục. Thể loại tin nhắn của họ được xác định bởi tác giả của họ. Làm thế nào, tại sao, vì thế - phụ thuộc vào chủ đề, thời trang, tâm trạng. Tuy nhiên

Từ cuốn sách Những bước đầu tiên với Windows 7. Hướng dẫn cho người mới bắt đầu tác giả Kolisnichenko Denis N.

1.11.7. Tin tức phổ biến Xếp hạng tin tức của dịch vụ Yandex được đánh dấu thành một khối riêng biệt giữa các chỉ số khác. Tin tức. Đây là những tin tức được thảo luận nhiều nhất trên blog. Danh sách tin tức phổ biến được cập nhật 5-10 phút một lần. Nếu bạn theo liên kết từ

Từ cuốn sách Gặp gỡ máy tính xách tay tác giả Zhukov Ivan

Các trình theo dõi phổ biến Có rất nhiều trình theo dõi torrent trên thế giới có dịch vụ mà bạn có thể sử dụng. Sau đây là những trình theo dõi phổ biến nhất.? http://lostfilm.tv là trang theo dõi chuyên về phim truyền hình nhiều tập. Theo quy định, các bản phát hành có lồng tiếng chuyên nghiệp và chất lượng.

Từ cuốn sách Bảo mật CNTT: có đáng để tập đoàn mạo hiểm không? của Linda McCarthy

10.2.1. Công cụ tìm kiếm trên Internet có chứa số lượng lớn thông tin. Suy cho cùng, bất kỳ ai cũng có thể tạo một trang web trên Internet, vì vậy số lượng trang web mới đang tăng lên mỗi ngày. Công cụ tìm kiếm được sử dụng để tìm kiếm trên Internet Công cụ tìm kiếm là một công cụ đặc biệt.

Từ cuốn sách của tác giả

Các ứng dụng Internet phổ biến ICQ (ICQ) ICQ là một dịch vụ nhắn tin tức thời tập trung. Người dùng dịch vụ (tức là bạn) làm việc với một chương trình khách (được gọi là “người đưa tin”). Tin nhắn được gửi ngay lập tức. Bạn cũng có thể

Từ cuốn sách của tác giả

Danh sách gửi thư phổ biến của Bugtraq Danh sách này thảo luận về các lỗ hổng UNIX, cách chúng có thể bị khai thác và cách đóng chúng. Mục đích của nó không phải là dạy cách hack hệ thống mà là cách phát hiện các lỗ hổng, cách chia sẻ thông tin về chúng, cách

Tìm kiếm thông tin trên Internet là một trong những hoạt động phổ biến nhất trên Internet. Khách truy cập Internet thường phải tìm kiếm tài liệu về một chủ đề cụ thể. Nếu bạn có địa chỉ chính xác của tài liệu trên Internet, thì trong trường hợp này không có vấn đề gì khi tìm kiếm: trong trình duyệt ở thanh địa chỉ bạn có thể nhập một địa chỉ tài nguyên đã biết và nếu kết nối thành công, trình duyệt sẽ hiển thị trang mong muốn.

Nếu không có địa chỉ chính xác của tài liệu, bạn có thể sử dụng các dịch vụ của công cụ tìm kiếm. Máy tìm kiếm? là một “máy chủ chuyên dụng trên Internet cung cấp Nhiều nghĩa tìm kiếm tài liệu”. Một ví dụ về máy chủ tìm kiếm là máy chủ Rambler (Rambler.ru), được đặt tại http://rambler.ru. Giao diện trang chính của máy chủ được hiển thị trong hình.

Cơm. 1.

Các máy chủ tìm kiếm thường tạo các thư mục tài nguyên Internet của riêng chúng. Danh mục máy chủ tìm kiếm được cập nhật thường xuyên với thông tin về các tài nguyên được tạo trên mạng, đến từ các robot tìm kiếm. Robot tìm kiếm hoặc nhện rất đặc biệt chương trình mạng, truy cập các máy chủ Internet hiện có, phân tích tài liệu và bổ sung các bảng của công cụ tìm kiếm của họ. Robot tìm kiếm thực hiện công việc tìm kiếm và hệ thống hóa các tài nguyên trong lý lịch xung quanh đồng hồ.

Một nguồn thu nhập khác cho máy chủ tìm kiếm thông tin về các trang web hiện có - đăng ký tài nguyên rõ ràng của chủ sở hữu trang web. Máy chủ có các biểu mẫu mà chủ sở hữu tài nguyên điền vào. Biểu mẫu chỉ định địa chỉ tài nguyên, một mô tả ngắn gọn về, từ khóa, các đối tượng mục tiêu v.v. Thông tin này được phân tích và thêm vào thư mục máy chủ một cách tự động chương trình đặc biệt hoặc “thủ công” bởi các chuyên gia - chuyên gia giám sát việc hình thành danh mục tài nguyên.

Hiểu các cơ chế tìm kiếm thông tin trên Internet cho phép các nhà phát triển trang web chuẩn bị tài liệu của họ để sau này các công cụ tìm kiếm có thể tìm thấy chúng và đặt chúng vào các phần thích hợp của thư mục tài nguyên.

Tìm kiếm theo từ khóa trên Internet

Một trong những cách phổ biến để tìm kiếm tài liệu trên WWW là tìm kiếm bằng từ khóa. Khi bạn chỉ định từ khóa trong biểu mẫu tìm kiếm, công cụ tìm kiếm sẽ tìm kiếm các tài liệu có chứa từ khóa được chỉ định. Tất nhiên, để thực hiện một truy vấn, công cụ tìm kiếm sẽ không tìm kiếm nội dung của hàng nghìn máy tính hoạt động trên Internet - bạn sẽ phải đợi nhiều ngày để có kết quả tìm kiếm như vậy. Việc tìm kiếm được thực hiện giữa các tài nguyên (danh mục, bảng) của công cụ tìm kiếm đã được thu thập và hệ thống hóa trước đó với sự trợ giúp của robot và chuyên gia.

Do khối lượng tài nguyên mạng thực sự trở nên vô hạn nên khi yêu cầu tìm kiếm tài liệu bằng từ khóa, công cụ tìm kiếm có thể tìm thấy hàng nghìn tài liệu có chứa từ khóa được chỉ định. Rõ ràng là với rất nhiều tài liệu, thật khó để tìm được tài liệu phù hợp nhất với một chủ đề nhất định. Tuy nhiên, các công cụ tìm kiếm thường cung cấp cơ hội để hình thành một truy vấn chi tiết hơn.

Yêu cầu có thể có hình dáng phức tạp và được biên soạn bằng cách sử dụng từ khóa và hàm logic AND (AND), OR (OR), phủ định (NOT). Hoặc truy vấn tìm kiếm có thể được hình thành bằng các ký tự đặc biệt cho phép bạn đặt (hoặc hủy) dạng từ của từ khóa. Các cơ chế như vậy giúp xây dựng chính xác hơn các yêu cầu lựa chọn tài liệu. Mỗi công cụ tìm kiếm đều có hệ thống trợ giúp, điều này sẽ giúp khách truy cập tạo truy vấn tìm kiếm.

25/04/05 5.4K

Giới thiệu

Một trong những cách chính để tìm thông tin trên Internet là thông qua các công cụ tìm kiếm. Các công cụ tìm kiếm thu thập thông tin trên Internet mỗi ngày: chúng truy cập các trang web và nhập chúng vào cơ sở dữ liệu khổng lồ. Điều này cho phép người dùng nhập một số từ khóa, nhấn gửi và xem trang nào phù hợp với truy vấn của họ.

Hiểu cách hoạt động của công cụ tìm kiếm là điều cần thiết đối với quản trị trang web. Đối với họ, cấu trúc chính xác của tài liệu và toàn bộ máy chủ hoặc trang web theo quan điểm của các công cụ tìm kiếm là rất quan trọng. Nếu không có điều này, các tài liệu sẽ không xuất hiện đủ thường xuyên để đáp ứng yêu cầu của người dùng đối với công cụ tìm kiếm hoặc thậm chí có thể không được lập chỉ mục.

Quản trị viên web muốn tăng thứ hạng cho các trang của họ và điều này có thể hiểu được: xét cho cùng, bất kỳ yêu cầu nào đối với công cụ tìm kiếm đều có thể tạo ra hàng trăm, hàng nghìn liên kết tương ứng đến các tài liệu. Trong hầu hết các trường hợp, chỉ 10 liên kết đầu tiên là đủ liên quan đến truy vấn.

Đương nhiên, bạn muốn tài liệu nằm trong top 10, vì hầu hết người dùng hiếm khi xem các liên kết theo sau top 10. Nói cách khác, nếu liên kết đến tài liệu là liên kết thứ mười một thì nó tệ như thể nó không hề tồn tại.

Các công cụ tìm kiếm chính

Công cụ tìm kiếm nào trong số hàng trăm công cụ tìm kiếm thực sự quan trọng đối với quản trị trang web? Vâng, tất nhiên, được biết đến rộng rãi và thường được sử dụng. Nhưng đồng thời, bạn nên tính đến đối tượng mà máy chủ của bạn được thiết kế. Ví dụ: nếu máy chủ của bạn chứa thông tin chuyên môn cao về những phương pháp mới nhất vắt sữa bò thì có lẽ bạn không nên dựa vào công cụ tìm kiếm mục đích chung. Trong trường hợp này, tôi khuyên bạn nên trao đổi liên kết với các đồng nghiệp đang giải quyết các vấn đề tương tự :) Vì vậy, trước tiên, hãy xác định thuật ngữ.

Có hai loại cơ sở thông tin dữ liệu về các trang web: công cụ tìm kiếm và thư mục.

Công cụ tìm kiếm: (nhện, trình thu thập thông tin) liên tục khám phá Web để bổ sung cơ sở dữ liệu tài liệu của họ. Thông thường điều này không đòi hỏi bất kỳ nỗ lực nào từ phía người đó. Một ví dụ là công cụ tìm kiếm Altavista.

Thiết kế của mỗi tài liệu khá quan trọng đối với các công cụ tìm kiếm. Tầm quan trọng lớn có tiêu đề, thẻ meta và nội dung trang.

Danh mục: không giống như các công cụ tìm kiếm, thông tin được nhập vào danh mục theo sáng kiến của một người. Trang được thêm vào phải được liên kết chặt chẽ với các danh mục được chấp nhận trong danh mục. Một ví dụ về một thư mục là Yahoo. Thiết kế của các trang không thành vấn đề. Dưới đây chúng ta sẽ chủ yếu nói về công cụ tìm kiếm.

Altavista

Hệ thống được khai trương vào tháng 12 năm 1995. Thuộc sở hữu của DEC. Từ năm 1996, ông đã cộng tác với Yahoo.

Kích thích tìm kiếm

Ra mắt vào cuối năm 1995, hệ thống đã phát triển nhanh chóng. Vào tháng 7 năm 1996, Magellan được mua lại, vào tháng 9 năm 1996, WebCrawler được mua lại. Tuy nhiên, cả hai đều sử dụng nó riêng biệt với nhau. Có lẽ trong tương lai họ sẽ làm việc cùng nhau.

Ngoài ra còn có một thư mục trong hệ thống này - Excite Reviews. Vào được thư mục này là một điều may mắn vì không phải tất cả các trang web đều có trong đó. Tuy nhiên, thông tin từ thư mục này không được công cụ tìm kiếm sử dụng theo mặc định nhưng có thể kiểm tra nó sau khi xem kết quả tìm kiếm.

HotBot

Ra mắt vào tháng 5 năm 1996. Thuộc sở hữu của Wired. Dựa trên công nghệ máy tìm kiếm Berkeley Inktomi.

Tìm kiếm thông tin

Ra mắt sớm hơn một chút so với năm 1995, nó được biết đến rộng rãi, có khả năng tìm kiếm cao và dễ dàng truy cập. Hiện tại, "Ultrasmart/Ultraseek" chứa khoảng 50 triệu URL.

Tùy chọn tìm kiếm mặc định là Ultrasmart. Trong trường hợp này, việc tìm kiếm được thực hiện trong cả hai thư mục. Với tùy chọn Ultraseek, kết quả truy vấn được trả về mà không cần thông tin thêm. Công nghệ tìm kiếm thực sự mới cũng cho phép tìm kiếm dễ dàng hơn và nhiều tính năng khác mà bạn có thể đọc về InfoSeek. Có một thư mục riêng biệt với công cụ tìm kiếm: InfoSeek Select.

Lycos

Một trong những công cụ tìm kiếm lâu đời nhất, Lycos, đã hoạt động từ khoảng tháng 5 năm 1994. Được biết đến rộng rãi và thường xuyên sử dụng. Nó bao gồm công cụ tìm kiếm Point (hoạt động từ năm 1995) và danh mục A2Z (hoạt động từ tháng 2 năm 1996).

văn bản mở

Hệ thống OpenText xuất hiện sớm hơn một chút so với năm 1995. Kể từ tháng 6 năm 1996, nó bắt đầu hợp tác với Yahoo. Nó đang dần mất đi vị thế và sẽ sớm không còn là một trong những công cụ tìm kiếm chính.

Trình thu thập thông tin web

Đã mở vào 20 tháng 4, 1994 dự án nghiên cứuĐại học Washington. Vào tháng 3 năm 1995, nó được America Online mua lại. Có một thư mục WebCrawler Select.

Yahoo

Danh bạ lâu đời nhất của Yahoo được ra mắt vào đầu năm 1994. Được biết đến rộng rãi, được sử dụng thường xuyên và được tôn trọng nhất. Vào tháng 3 năm 1996, một danh mục khác của Yahoo đã được ra mắt - Yahooligans dành cho trẻ em. Ngày càng có nhiều thư mục Yahoo hàng đầu và khu vực xuất hiện.

Vì Yahoo hoạt động dựa trên đăng ký nên một số trang web có thể không được đưa vào. Nếu tìm kiếm trên Yahoo không cho kết quả phù hợp, người dùng có thể sử dụng công cụ tìm kiếm. Việc này được thực hiện rất đơn giản. Khi một truy vấn được thực hiện tới Yahoo, thư mục sẽ chuyển tiếp nó tới bất kỳ công cụ tìm kiếm chính nào. Các liên kết đầu tiên trong danh sách địa chỉ đáp ứng yêu cầu là các địa chỉ từ thư mục, sau đó là các địa chỉ nhận được từ các công cụ tìm kiếm, đặc biệt là từ Altavista.

Đặc điểm của công cụ tìm kiếm

Mỗi công cụ tìm kiếm có một số tính năng. Những tính năng này cần được tính đến khi tạo trang của bạn.

Loại công cụ tìm kiếm

Công cụ tìm kiếm “toàn văn” lập chỉ mục mọi từ trên trang web, chỉ loại trừ một số từ dừng. Công cụ tìm kiếm “trừu tượng” tạo ra một loại trích dẫn của mỗi trang.

Đối với quản trị viên web, công cụ toàn văn bản hữu ích hơn vì bất kỳ từ nào được tìm thấy trên trang web đều được phân tích để xác định mức độ liên quan của nó với truy vấn của người dùng. Tuy nhiên, đối với các công cụ tìm kiếm trừu tượng, có thể xảy ra trường hợp các trang được lập chỉ mục tốt hơn so với các trang toàn văn. Điều này có thể đến từ thuật toán trích xuất, chẳng hạn như tần suất của các từ giống nhau được sử dụng trên trang.

Kích cỡ

Kích thước của công cụ tìm kiếm được xác định bởi số lượng trang được lập chỉ mục. Ví dụ: trong một công cụ tìm kiếm có kích thước lớn hầu hết tất cả các trang của bạn đều có thể được lập chỉ mục, với khối lượng trung bình, máy chủ của bạn có thể được lập chỉ mục một phần và với khối lượng thấp, các trang của bạn có thể không được đưa vào thư mục công cụ tìm kiếm.

Thời gian cập nhật

Một số công cụ tìm kiếm ngay lập tức lập chỉ mục trang dựa trên yêu cầu của người dùng, sau đó tiếp tục lập chỉ mục các trang chưa được lập chỉ mục
những người khác có nhiều khả năng “thu thập dữ liệu” các trang web phổ biến nhất hơn những trang khác

Ngày lập chỉ mục tài liệu

Một số công cụ tìm kiếm hiển thị ngày một tài liệu cụ thể được lập chỉ mục. Điều này giúp người dùng hiểu được công cụ tìm kiếm trả về liên kết “mới” như thế nào. Những người khác để người dùng chỉ đoán về nó.

Các trang đã gửi

Lý tưởng nhất là các công cụ tìm kiếm sẽ tìm thấy bất kỳ trang nào trên bất kỳ máy chủ nào nhờ các liên kết sau. Hình thật trông khác hẳn. Các trang máy chủ xuất hiện trong chỉ mục của công cụ tìm kiếm sớm hơn nhiều nếu chúng được chỉ định trực tiếp (Thêm URL).

Các trang chưa được gửi

Nếu có ít nhất một trang máy chủ được chỉ định thì công cụ tìm kiếm chắc chắn sẽ tìm thấy trang tiếp theo thông qua các liên kết được cung cấp. Tuy nhiên, việc này cần nhiều thời gian hơn. Một số máy ngay lập tức lập chỉ mục cho toàn bộ máy chủ, nhưng hầu hết vẫn để lại chỉ mục cho máy chủ sau khi ghi lại trang được chỉ định trong chỉ mục.

Độ sâu lập chỉ mục

Tùy chọn này chỉ áp dụng cho những trường hợp không trang được chỉ định. Nó hiển thị có bao nhiêu trang sau trang được chỉ định mà công cụ tìm kiếm sẽ lập chỉ mục.

Hầu hết các máy lớn không có hạn chế về độ sâu lập chỉ mục. Trong thực tế, điều này không hoàn toàn đúng. Dưới đây là một số lý do khiến không phải tất cả các trang đều có thể được lập chỉ mục:

sử dụng không cẩn thận các cấu trúc khung (không trùng lặp các liên kết trong tệp điều khiển (bộ khung))
sử dụng bản đồ hình ảnh mà không sao chép chúng bằng các liên kết thông thường

Hỗ trợ khung

Nếu robot tìm kiếm không biết cách làm việc với các cấu trúc khung thì nhiều cấu trúc có khung sẽ bị bỏ sót trong quá trình lập chỉ mục.

Hỗ trợ ImageMap

Đây là vấn đề tương tự như với cấu trúc khung máy chủ.

Các thư mục và máy chủ được bảo vệ bằng mật khẩu

Một số công cụ tìm kiếm có thể lập chỉ mục các máy chủ như vậy nếu bạn cung cấp cho chúng Tên người dùng và Mật khẩu. Tại sao điều này là cần thiết? Để người dùng có thể thấy những gì trên máy chủ của bạn. Điều này ít nhất cho phép bạn biết rằng thông tin đó tồn tại và có thể sau đó họ sẽ đăng ký thông tin của bạn.

Tần số liên kết

Các công cụ tìm kiếm chính có thể xác định mức độ phổ biến của một tài liệu bằng tần suất nó được liên kết đến từ những nơi khác trên Web. Một số máy, dựa trên dữ liệu đó, “kết luận” liệu có đáng hay không đáng để dành thời gian lập chỉ mục cho một tài liệu đó.

Khả năng học tập

Nếu máy chủ được cập nhật thường xuyên, công cụ tìm kiếm sẽ lập chỉ mục lại nó thường xuyên hơn; nếu nó hiếm khi được cập nhật, nó sẽ được lập chỉ mục lại ít thường xuyên hơn.

Kiểm soát chỉ mục

Hiển thị những công cụ nào có thể được sử dụng để quản lý một công cụ tìm kiếm cụ thể. Tất cả các công cụ tìm kiếm chính đều tuân theo hướng dẫn của tệp robots.txt. Một số cũng hỗ trợ kiểm soát bằng cách sử dụng thẻ META từ chính các tài liệu được lập chỉ mục.

Chuyển hướng

Một số trang web chuyển hướng khách truy cập từ máy chủ này sang máy chủ khác và tham số này cho biết URL nào sẽ được liên kết với tài liệu của bạn. Điều này rất quan trọng vì nếu công cụ tìm kiếm không xử lý việc chuyển hướng, vấn đề với các tệp không tồn tại có thể phát sinh.

Lời nói an toàn

Một số công cụ tìm kiếm không đưa một số từ nhất định vào chỉ mục của chúng hoặc có thể không đưa những từ đó vào truy vấn của người dùng. Những từ này thường được coi là giới từ hoặc đơn giản là những từ được sử dụng rất thường xuyên. Nhưng chúng không được đưa vào để tiết kiệm dung lượng trên phương tiện truyền thông. Ví dụ: Altavista bỏ qua từ web và đối với các truy vấn như nhà phát triển web, các liên kết sẽ chỉ được trả về cho từ thứ hai. Có nhiều cách để tránh điều này.

Tác động đến thuật toán xác định mức độ liên quan

Công cụ tìm kiếm nhất thiết phải sử dụng vị trí và tần suất lặp lại các từ khóa trong tài liệu. Tuy nhiên, cơ chế bổ sung Mức độ liên quan tăng lên là khác nhau đối với mỗi máy. Tham số này hiển thị chính xác cơ chế nào tồn tại cho một máy cụ thể.

Tiền phạt thư rác

Tất cả các công cụ tìm kiếm lớn đều không thích khi một trang web cố gắng tăng thứ hạng của nó bằng cách liệt kê chính nó nhiều lần thông qua Thêm URL hoặc đề cập đến cùng một điều nhiều lần. từ khóa v.v. Trong hầu hết các trường hợp, những hành động như vậy (gửi thư rác, xếp chồng) sẽ bị trừng phạt và ngược lại, xếp hạng của trang web sẽ giảm xuống.

Hỗ trợ thẻ META

Về lý thuyết, tất cả các công cụ tìm kiếm đều phải tính đến siêu dữ liệu khi lập chỉ mục các trang, nhưng trên thực tế, không phải tất cả đều làm được điều này.

Tiêu đề

Tham số này cho thấy cách công cụ tìm kiếm tạo tiêu đề liên kết cho người dùng để đáp ứng yêu cầu của họ.

Sự miêu tả

Tham số này cho thấy cách công cụ tìm kiếm tạo mô tả liên kết cho người dùng để đáp ứng yêu cầu của họ.

Kiểm tra trạng thái URL

Một tính năng rất hữu ích của công cụ tìm kiếm dành cho quản trị viên web là liệu có thể kiểm tra xem máy chủ của nó được lập chỉ mục sâu đến mức nào và liệu nó có nằm trong chỉ mục của công cụ tìm kiếm hay không.

Xóa dữ liệu cũ

Một tham số xác định hành động của quản trị viên web khi đóng máy chủ hoặc di chuyển nó sang địa chỉ khác. Có hai hành động có thể thực hiện: chỉ cần xóa nội dung cũ và viết lại tệp robots.txt.

Xóa nội dung: Khi công cụ tìm kiếm cố gắng lập chỉ mục lại các tài liệu nhưng không tìm thấy chúng, các liên kết cũ trong chỉ mục sẽ bị xóa. Trong trường hợp này, tất cả phụ thuộc vào thời gian cập nhật dữ liệu cho công cụ tìm kiếm.
robots.txt: khi công cụ tìm kiếm yêu cầu tệp này và “thấy” rằng máy chủ đã đóng hoàn toàn việc lập chỉ mục, thì tất cả các liên kết đến tệp trên máy chủ này sẽ bị xóa khỏi chỉ mục.

Tốt xấu