Địa chỉ công cụ tìm kiếm trên Internet. Công cụ tìm kiếm Internet: xem xét các giải pháp hiện có

Thoạt nhìn, có vẻ như chỉ Yandex mới có thể tốt hơn Google và thậm chí đó không phải là sự thật. Các công ty này đầu tư số tiền khổng lồ vào đổi mới và phát triển. Có ai thực sự có cơ hội không chỉ để cạnh tranh với những người dẫn đầu mà còn để giành chiến thắng? Câu trả lời của Lifehacker: “Có!” Có một số công cụ tìm kiếm đã thành công. Hãy nhìn vào những anh hùng của chúng ta.

Cái này là cái gì

Đây là một công cụ tìm kiếm mã nguồn mở khá nổi tiếng. Máy chủ được đặt tại Hoa Kỳ. Ngoài robot của riêng mình, công cụ tìm kiếm còn sử dụng kết quả từ các nguồn khác: Yahoo! Tìm kiếm BOSS, Wikipedia, Wolfram|Alpha.

Tốt hơn

DuckDuckGo tự định vị mình là một công cụ tìm kiếm cung cấp sự riêng tư và bảo mật tối đa. Hệ thống không thu thập bất kỳ dữ liệu nào về người dùng, không lưu trữ nhật ký (không có lịch sử tìm kiếm) và việc sử dụng cookie càng hạn chế càng tốt.

DuckDuckGo không thu thập hoặc chia sẻ thông tin cá nhân từ người dùng. Đây là chính sách bảo mật của chúng tôi.
Gabriel Weinberg, người sáng lập DuckDuckGo

Tại sao bạn cần cái này

Tất cả các công cụ tìm kiếm lớn đều đang cố gắng cá nhân hóa kết quả tìm kiếm dựa trên dữ liệu về người ngồi trước màn hình. Hiện tượng này được gọi là “bong bóng bộ lọc”: người dùng chỉ nhìn thấy những kết quả phù hợp với sở thích của mình hoặc hệ thống cho là như vậy.

DuckDuckGo tạo ra một bức tranh khách quan không phụ thuộc vào hành vi trước đây của bạn trên Internet và loại bỏ quảng cáo theo chủ đề khỏi Google và Yandex dựa trên các truy vấn của bạn. Với DuckDuckGo, thật dễ dàng tìm kiếm thông tin bằng tiếng nước ngoài: Google và Yandex theo mặc định ưu tiên các trang web tiếng Nga, ngay cả khi truy vấn được nhập bằng ngôn ngữ khác.

Cái này là cái gì

"" là một hệ thống siêu tìm kiếm của Nga được phát triển bởi các sinh viên tốt nghiệp Đại học quốc gia Moscow Viktor Lavrenko và Vladimir Chernyshov. Nó tìm kiếm thông qua các chỉ mục của Google, Bing, Yandex và các chỉ mục khác, đồng thời cũng có thuật toán tìm kiếm riêng.

Tốt hơn

Tìm kiếm thông qua các chỉ mục của tất cả các công cụ tìm kiếm chính cho phép bạn tạo ra các kết quả có liên quan. Ngoài ra, Nigma chia kết quả thành nhiều nhóm (cụm) theo chủ đề và mời người dùng thu hẹp trường tìm kiếm, loại bỏ những nhóm không cần thiết hoặc làm nổi bật những nhóm ưu tiên. Nhờ các học phần Toán học và Hóa học, bạn có thể giải các bài toán và yêu cầu kết quả phản ứng hóa học trực tiếp trên thanh tìm kiếm.

Tại sao bạn cần cái này

Loại bỏ nhu cầu tìm kiếm cùng một truy vấn trong các công cụ tìm kiếm khác nhau. Hệ thống cụm giúp dễ dàng thao tác kết quả tìm kiếm. Ví dụ: Nigma thu thập kết quả từ các cửa hàng trực tuyến vào một cụm riêng biệt. Nếu bạn không có ý định mua bất cứ thứ gì thì chỉ cần loại trừ nhóm này. Bằng cách chọn cụm “trang web tiếng Anh”, bạn sẽ chỉ nhận được kết quả bằng tiếng Anh. Các học phần Toán và Hóa sẽ giúp ích cho học sinh.

Thật không may, dự án hiện không được phát triển vì các nhà phát triển đã chuyển hoạt động của họ sang thị trường Việt Nam. Tuy nhiên, “Nigma” không những chưa lỗi thời mà còn mang lại cho Google một khởi đầu thuận lợi ở một số mặt. Hãy hy vọng sự phát triển tiếp tục.

Cái này là cái gì

not Evil là một hệ thống tìm kiếm mạng Tor ẩn danh. Để sử dụng nó, bạn cần phải truy cập mạng này, chẳng hạn như bằng cách khởi chạy một trình duyệt chuyên dụng cùng tên. not Evil không phải là công cụ tìm kiếm duy nhất thuộc loại này. Có LOOK (tìm kiếm mặc định trong trình duyệt Tor, có thể truy cập từ Internet thông thường) hoặc TORCH (một trong những công cụ tìm kiếm lâu đời nhất trên mạng Tor) và các công cụ khác. Chúng tôi quyết định không chọn Ác ma vì rõ ràng ám chỉ đến chính Google (chỉ cần nhìn vào trang bắt đầu).

Tốt hơn

Nó tìm kiếm ở những nơi Google, Yandex và các công cụ tìm kiếm khác thường đóng cửa.

Tại sao bạn cần cái này

Mạng Tor chứa nhiều tài nguyên không thể tìm thấy trên Internet tuân thủ luật pháp. Và khi sự kiểm soát của chính phủ đối với nội dung Internet được thắt chặt, số lượng của họ sẽ tăng lên. Tor là một loại Mạng trong Mạng: có mạng xã hội riêng, trình theo dõi torrent, phương tiện truyền thông, nền tảng giao dịch, blog, thư viện, v.v.

YaCy

Cái này là cái gì

YaCy là một công cụ tìm kiếm phi tập trung hoạt động trên nguyên tắc mạng P2P. Mỗi máy tính được cài đặt mô-đun phần mềm chính sẽ quét Internet một cách độc lập, nghĩa là nó tương tự như một robot tìm kiếm. Các kết quả thu được sẽ được thu thập vào cơ sở dữ liệu chung được tất cả những người tham gia YaCy sử dụng.

Tốt hơn

Thật khó để nói liệu điều này tốt hơn hay tệ hơn, vì YaCy là một cách tiếp cận hoàn toàn khác để tổ chức tìm kiếm. Việc không có một máy chủ và công ty chủ sở hữu duy nhất khiến kết quả hoàn toàn độc lập với sở thích của bất kỳ ai. Quyền tự chủ của mỗi nút giúp loại bỏ sự kiểm duyệt. YaCy có khả năng tìm kiếm trên deep web và các mạng công cộng không được lập chỉ mục.

Tại sao bạn cần cái này

Nếu bạn là người ủng hộ phần mềm nguồn mở và Internet miễn phí, không bị ảnh hưởng bởi các cơ quan chính phủ và tập đoàn lớn thì YaCy là sự lựa chọn dành cho bạn. Nó cũng có thể được sử dụng để tổ chức tìm kiếm trong mạng công ty hoặc mạng tự trị khác. Và mặc dù YaCy không hữu ích lắm trong cuộc sống hàng ngày nhưng nó là một sự thay thế xứng đáng cho Google về mặt quá trình tìm kiếm.

Pipl

Cái này là cái gì

Pipl là một hệ thống được thiết kế để tìm kiếm thông tin về một người cụ thể.

Tốt hơn

Các tác giả của Pipl khẳng định rằng các thuật toán chuyên biệt của họ tìm kiếm hiệu quả hơn các công cụ tìm kiếm “thông thường”. Đặc biệt, các nguồn thông tin ưu tiên bao gồm hồ sơ mạng xã hội, bình luận, danh sách thành viên và các cơ sở dữ liệu khác nhau công bố thông tin về mọi người, chẳng hạn như các quyết định của tòa án. Sự dẫn đầu của Pipl trong lĩnh vực này được khẳng định bằng các đánh giá từ Lifehacker.com, TechCrunch và các ấn phẩm khác.

Tại sao bạn cần cái này

Nếu bạn cần tìm thông tin về một người sống ở Mỹ thì Pipl sẽ hiệu quả hơn Google rất nhiều. Cơ sở dữ liệu của các tòa án Nga dường như không thể truy cập được đối với công cụ tìm kiếm. Vì vậy, anh ta không đối phó tốt với công dân Nga.

Cái này là cái gì

Một công cụ tìm kiếm chuyên dụng khác. Tìm kiếm nhiều âm thanh khác nhau (ngôi nhà, thiên nhiên, ô tô, con người, v.v.) trong các nguồn mở. Dịch vụ này không hỗ trợ truy vấn bằng tiếng Nga, nhưng có một danh sách ấn tượng các thẻ tiếng Nga mà bạn có thể tìm kiếm.

Tốt hơn

Đầu ra chỉ chứa âm thanh và không có gì bổ sung. Trong cài đặt tìm kiếm, bạn có thể đặt định dạng và chất lượng âm thanh mong muốn. Tất cả âm thanh được tìm thấy đều có sẵn để tải xuống. Có một tìm kiếm âm thanh theo mẫu.

Tại sao bạn cần cái này

Nếu bạn cần nhanh chóng tìm thấy âm thanh của tiếng súng hỏa mai, tiếng thổi của chim gõ kiến đang bú hoặc tiếng kêu của Homer Simpson, thì dịch vụ này là dành cho bạn. Và tôi chỉ chọn điều này từ các truy vấn tiếng Nga có sẵn. Trong tiếng Anh, phạm vi thậm chí còn rộng hơn. Nhưng nghiêm túc mà nói, một dịch vụ chuyên biệt cần có một lượng khán giả chuyên biệt. Nhưng nếu nó cũng có ích cho bạn thì sao?

Tuổi thọ của các công cụ tìm kiếm thay thế thường rất ngắn ngủi. Lifehacker đã hỏi cựu tổng giám đốc chi nhánh Yandex của Ukraine, Sergei Petrenko, về triển vọng lâu dài của những dự án như vậy.

Đối với số phận của các công cụ tìm kiếm thay thế, thật đơn giản: trở thành những dự án rất thích hợp với lượng khán giả nhỏ, do đó không có triển vọng thương mại rõ ràng hoặc ngược lại, hoàn toàn rõ ràng về sự vắng mặt của chúng.

Nếu bạn xem các ví dụ trong bài viết, bạn có thể thấy rằng các công cụ tìm kiếm như vậy chuyên về một phân khúc hẹp nhưng phổ biến, có lẽ chưa phát triển đủ để gây chú ý trên radar của Google hoặc Yandex, hoặc họ đang thử nghiệm một giả thuyết ban đầu trong xếp hạng, chưa được áp dụng trong tìm kiếm thông thường.

Ví dụ: nếu một tìm kiếm trên Tor đột nhiên có nhu cầu, nghĩa là ít nhất một phần trăm khán giả của Google cần kết quả từ đó, thì tất nhiên, các công cụ tìm kiếm thông thường sẽ bắt đầu giải quyết vấn đề làm thế nào để tìm chúng và hiển thị chúng cho người dùng. Nếu hành vi của khán giả cho thấy rằng đối với một tỷ lệ đáng kể người dùng trong một số lượng truy vấn đáng kể, kết quả được đưa ra mà không tính đến các yếu tố tùy thuộc vào người dùng có vẻ phù hợp hơn, thì Yandex hoặc Google sẽ bắt đầu tạo ra những kết quả như vậy.

“Trở nên tốt hơn” trong bối cảnh của bài viết này không có nghĩa là “trở nên giỏi hơn về mọi thứ”. Đúng, về nhiều mặt, các anh hùng của chúng ta khác xa Google và Yandex (thậm chí còn xa Bing). Nhưng mỗi dịch vụ này đều mang lại cho người dùng những thứ mà những gã khổng lồ trong ngành tìm kiếm không thể cung cấp.

Cái này là cái gì

DuckDuckGo là một công cụ tìm kiếm mã nguồn mở khá nổi tiếng. Máy chủ được đặt tại Hoa Kỳ. Ngoài robot của riêng mình, công cụ tìm kiếm còn sử dụng kết quả từ các nguồn khác: Yahoo, Bing, Wikipedia.

Tốt hơn

DuckDuckGo không thu thập hoặc chia sẻ thông tin cá nhân từ người dùng. Đây là chính sách bảo mật của chúng tôi.
Gabriel Weinberg, người sáng lập DuckDuckGo

Tại sao bạn cần cái này

Tạo thành một bức tranh khách quan không phụ thuộc vào hành vi trước đây của bạn trên Internet và loại bỏ quảng cáo theo chủ đề của Google và Yandex dựa trên các truy vấn của bạn. Với DuckDuckGo, bạn có thể dễ dàng tìm kiếm thông tin bằng tiếng nước ngoài, trong khi Google và Yandex theo mặc định ưu tiên các trang web tiếng Nga, ngay cả khi truy vấn được nhập bằng ngôn ngữ khác.

Cái này là cái gì

not Evil là một hệ thống tìm kiếm mạng Tor ẩn danh. Để sử dụng nó, bạn cần phải truy cập mạng này, chẳng hạn như bằng cách khởi chạy một tệp .

not Evil không phải là công cụ tìm kiếm duy nhất thuộc loại này. Có LOOK (tìm kiếm mặc định trong trình duyệt Tor, có thể truy cập từ Internet thông thường) hoặc TORCH (một trong những công cụ tìm kiếm lâu đời nhất trên mạng Tor) và các công cụ khác. Chúng tôi quyết định không chọn Ác ma vì gợi ý rõ ràng từ Google (chỉ cần nhìn vào trang bắt đầu).

Tốt hơn

Nó tìm kiếm ở những nơi Google, Yandex và các công cụ tìm kiếm khác thường đóng cửa.

Tại sao bạn cần cái này

Mạng Tor chứa nhiều tài nguyên không thể tìm thấy trên Internet tuân thủ luật pháp. Và số lượng của họ sẽ tăng lên khi sự kiểm soát của chính phủ đối với nội dung Internet được thắt chặt. Tor là một loại mạng trên Internet với các mạng xã hội, trình theo dõi torrent, phương tiện truyền thông, nền tảng giao dịch, blog, thư viện, v.v.

3. YaCy

Cái này là cái gì

Tốt hơn

Tại sao bạn cần cái này

Nếu bạn là người ủng hộ phần mềm nguồn mở và Internet miễn phí, không chịu sự ảnh hưởng của các cơ quan chính phủ và tập đoàn lớn thì YaCy là sự lựa chọn dành cho bạn. Nó cũng có thể được sử dụng để tổ chức tìm kiếm trong mạng công ty hoặc mạng tự trị khác. Và mặc dù YaCy không hữu ích lắm trong cuộc sống hàng ngày nhưng nó là một sự thay thế xứng đáng cho Google về mặt quá trình tìm kiếm.

4. Pipl

Cái này là cái gì

Pipl là một hệ thống được thiết kế để tìm kiếm thông tin về một người cụ thể.

Tốt hơn

Các tác giả của Pipl khẳng định rằng các thuật toán chuyên biệt của họ tìm kiếm hiệu quả hơn các công cụ tìm kiếm “thông thường”. Đặc biệt, ưu tiên cho hồ sơ mạng xã hội, bình luận, danh sách thành viên và các cơ sở dữ liệu khác nhau công bố thông tin về mọi người, chẳng hạn như cơ sở dữ liệu về các quyết định của tòa án. Sự dẫn đầu của Pipl trong lĩnh vực này được khẳng định bằng các đánh giá từ Lifehacker.com, TechCrunch và các ấn phẩm khác.

Tại sao bạn cần cái này

Cái này là cái gì

FindSounds là một công cụ tìm kiếm chuyên dụng khác. Tìm kiếm nhiều âm thanh khác nhau trong các nguồn mở: ngôi nhà, thiên nhiên, ô tô, con người, v.v. Dịch vụ này không hỗ trợ truy vấn bằng tiếng Nga, nhưng có một danh sách ấn tượng các thẻ tiếng Nga mà bạn có thể sử dụng để tìm kiếm.

Tốt hơn

Đầu ra chỉ chứa âm thanh và không có gì bổ sung. Trong cài đặt, bạn có thể đặt định dạng và chất lượng âm thanh mong muốn. Tất cả âm thanh được tìm thấy đều có sẵn để tải xuống. Có một tìm kiếm theo mẫu.

Tại sao bạn cần cái này

Nếu bạn cần nhanh chóng tìm thấy âm thanh của tiếng súng hỏa mai, tiếng thổi của chim gõ kiến đang bú hoặc tiếng kêu của Homer Simpson, thì dịch vụ này là dành cho bạn. Và chúng tôi chỉ chọn điều này từ các truy vấn tiếng Nga có sẵn. Trong tiếng Anh, phạm vi thậm chí còn rộng hơn.

Nghiêm túc mà nói, một dịch vụ chuyên biệt cần có một lượng khán giả chuyên biệt. Nhưng nếu nó cũng có ích cho bạn thì sao?

Cái này là cái gì

Wolfram|Alpha là một công cụ tìm kiếm tính toán. Thay vì liên kết đến các bài viết chứa từ khóa, nó cung cấp câu trả lời có sẵn cho yêu cầu của người dùng. Ví dụ: nếu bạn nhập “so sánh dân số của New York và San Francisco” vào biểu mẫu tìm kiếm bằng tiếng Anh, Wolfram|Alpha sẽ ngay lập tức hiển thị các bảng và đồ thị có so sánh.

Tốt hơn

Dịch vụ này tốt hơn các dịch vụ khác trong việc tìm kiếm dữ kiện và tính toán dữ liệu. Wolfram|Alpha thu thập và sắp xếp kiến thức có sẵn trên Web từ nhiều lĩnh vực khác nhau, bao gồm khoa học, văn hóa và giải trí. Nếu cơ sở dữ liệu này chứa câu trả lời có sẵn cho truy vấn tìm kiếm, hệ thống sẽ hiển thị nó; nếu không, nó sẽ tính toán và hiển thị kết quả. Trong trường hợp này, người dùng chỉ thấy không có gì thừa.

Tại sao bạn cần cái này

Ví dụ: nếu bạn là sinh viên, nhà phân tích, nhà báo hoặc nhà nghiên cứu, bạn có thể sử dụng Wolfram|Alpha để tìm và tính toán dữ liệu liên quan đến công việc của mình. Dịch vụ này không hiểu tất cả các yêu cầu nhưng nó không ngừng phát triển và trở nên thông minh hơn.

Cái này là cái gì

Công cụ tìm kiếm siêu dữ liệu Dogpile hiển thị danh sách kết quả tổng hợp từ kết quả tìm kiếm từ Google, Yahoo và các hệ thống phổ biến khác.

Tốt hơn

Đầu tiên, Dogpile hiển thị ít quảng cáo hơn. Thứ hai, dịch vụ sử dụng thuật toán đặc biệt để tìm và hiển thị kết quả tốt nhất từ các công cụ tìm kiếm khác nhau. Theo các nhà phát triển Dogpile, hệ thống của họ tạo ra kết quả tìm kiếm đầy đủ nhất trên toàn bộ Internet.

Tại sao bạn cần cái này

Nếu bạn không thể tìm thấy thông tin trên Google hoặc một công cụ tìm kiếm tiêu chuẩn khác, hãy tìm thông tin đó trên nhiều công cụ tìm kiếm cùng lúc bằng Dogpile.

Cái này là cái gì

BoardReader là một hệ thống tìm kiếm văn bản trong các diễn đàn, dịch vụ hỏi đáp và các cộng đồng khác.

Tốt hơn

Dịch vụ này cho phép bạn thu hẹp trường tìm kiếm của mình sang các nền tảng xã hội. Nhờ các bộ lọc đặc biệt, bạn có thể nhanh chóng tìm thấy các bài đăng và nhận xét phù hợp với tiêu chí của mình: ngôn ngữ, ngày xuất bản và tên trang web.

Tại sao bạn cần cái này

BoardReader có thể hữu ích cho các chuyên gia PR và các chuyên gia truyền thông khác quan tâm đến ý kiến của quần chúng về một số vấn đề nhất định.

Cuối cùng

Serge Petrenko

Cựu Tổng Giám đốc Yandex.Ukraine.

“Trở nên tốt hơn” trong bối cảnh của bài viết này không có nghĩa là “trở nên giỏi hơn về mọi thứ”. Đúng, về nhiều mặt, các anh hùng của chúng ta khác xa Yandex (thậm chí xa Bing). Nhưng mỗi dịch vụ này đều mang lại cho người dùng những thứ mà những gã khổng lồ trong ngành tìm kiếm không thể cung cấp. Chắc hẳn bạn cũng biết những dự án tương tự. Chia sẻ với chúng tôi - cùng thảo luận.

Công cụ tìm kiếm được coi là các trang web phổ biến nhất trên Internet. Điều này không có gì đáng ngạc nhiên, vì để tìm được thứ gì đó trên Internet, trước tiên bạn phải sử dụng các dịch vụ tìm kiếm.

Có khá nhiều trong số họ và ngay cả những người dùng Internet thiếu kinh nghiệm cũng biết ít nhất 2-3 công cụ tìm kiếm.

Có những công cụ tìm kiếm nào? Một số người biết về một công cụ tìm kiếm, một số người biết về 10 dịch vụ tìm kiếm, nhưng trên thực tế còn nhiều dịch vụ khác nữa.

Tất nhiên, mức độ phổ biến của chúng khác nhau, cũng như giao diện và chất lượng của kết quả. Chúng tôi sẽ cung cấp cho bạn danh sách từ các công cụ tìm kiếm khác nhau để bạn có thể so sánh chúng.

Công cụ tìm kiếm phổ biến

Dịch vụ tìm kiếm đã được phát triển cho nhiều loại người khác nhau. Những cái nổi tiếng nhất bao gồm các quốc gia hoặc thậm chí toàn thế giới, trong khi những cái ít được biết đến hơn được thiết kế cho các khu vực hoặc sở thích của người dùng.

Dưới đây là 10 công cụ tìm kiếm bạn nên biết:

– mọi người đều biết về công cụ tìm kiếm này, nó phổ biến nhất ở Nga và cung cấp nhiều chức năng cho người dùng (từ thanh toán điện tử đến bảng điều khiển dành cho quản trị viên web).
– người dẫn đầu trong số tất cả các trang web trên thế giới. Nó được mọi người từ khắp nơi trên thế giới sử dụng và được coi là công cụ tìm kiếm chất lượng cao nhất. Giống như Yandex, khách hàng được cung cấp nhiều công cụ bổ sung.
– hệ thống tìm kiếm và thông tin, có tính đến hình thái tiếng Nga. Trang web có một số phiên bản riêng biệt, chẳng hạn như XRambler, qua đó bạn có thể tìm kiếm trong một số dịch vụ cùng một lúc.
– Hệ thống này cực kỳ phổ biến ở nước ngoài. Nó đã được dịch sang tiếng Nga từ lâu, nhưng nó chưa bao giờ nhận được nhiều danh tiếng trên Runet. Người dùng có quyền truy cập vào nhiều tìm kiếm khác nhau (bằng hình ảnh, video, v.v.).
là một công ty nổi tiếng ở Runet, tham gia phát triển theo nhiều hướng cùng một lúc. Ngoài công cụ tìm kiếm của riêng họ và dịch vụ thư phổ biến nhất, họ còn là chủ sở hữu của các dự án như Odnoklassniki và Vkontakte.
– được tạo ra như một nguồn tài nguyên nhà nước ở Nga, nhưng không được phân phối rộng rãi. Thông qua đó, bạn có thể thực hiện các định dạng tìm kiếm khác nhau và cũng có được thông tin hữu ích.
– được thiết kế để tìm kiếm thông tin trên phân khúc Internet Trung Quốc. Ai biết được, có thể điều này sẽ hữu ích cho bạn. Bạn có thể nhận tin tức, tìm kiếm hình ảnh, âm nhạc, nhận bản đồ và nhiều hơn thế nữa.
là một dự án của công ty nổi tiếng Microsoft. Về lưu lượng truy cập, trang web này đứng thứ hai trong bảng xếp hạng công cụ tìm kiếm thế giới. Nó đã hoạt động từ năm 1998 và đã được hiện đại hóa nhiều lần trong thời gian này.
– dịch vụ này chỉ được sử dụng bởi người nước ngoài. Dự án của Mỹ và ngoài công cụ tìm kiếm, công ty còn có rất nhiều trang web và dịch vụ khác. Điều đáng chú ý là họ có danh mục liên kết lớn nhất đến các trang web trên World Wide Web.

Nếu bạn không thể tìm thấy thông tin trên một trong các công cụ tìm kiếm thì tại sao không tìm kiếm thông tin đó qua một trang web khác? Bây giờ bạn có một số tài nguyên chất lượng, bạn chắc chắn sẽ tìm thấy những gì bạn cần.

Đúng như dự đoán, Google đã chiếm vị trí đầu tiên trên bảng xếp hạng thế giới. Chia sẻ của anh ấy là hơn 70% truy vấn tìm kiếm từ cư dân từ khắp nơi trên thế giới. Hơn nữa, một phần ba tổng lưu lượng truy cập google.com đến từ công dân Hoa Kỳ. Ngoài ra, Google còn là trang web được truy cập nhiều nhất trên thế giới. Thời gian sử dụng trung bình hàng ngày của công cụ tìm kiếm Google là 9 phút.

Ưu điểm của công cụ tìm kiếm Google là không có các yếu tố không cần thiết trên trang. Chỉ cần một thanh tìm kiếm và logo công ty. Chip là những hình ảnh hoạt hình và trò chơi trình duyệt dành riêng cho các ngày lễ nổi tiếng và địa phương.

2. Bing

Bing - công cụ tìm kiếm của Microsoft, kể từ năm 2009. Kể từ thời điểm đó, nó đã trở thành một thuộc tính bắt buộc của điện thoại thông minh chạy hệ điều hành Windows. Bing còn nổi bật bởi sự tối giản - ngoài tiêu đề có danh sách tất cả các sản phẩm của Microsoft, trang này chỉ chứa một thanh tìm kiếm và tên hệ thống. Bing phổ biến nhất ở Mỹ (31%), Trung Quốc (18%) và Đức (6%).

3. Yahoo!

Vị trí thứ ba thuộc về một trong những công cụ tìm kiếm lâu đời nhất - Yahoo. Phần lớn người dùng cũng sống ở Hoa Kỳ (24%). Có vẻ như phần còn lại của thế giới đang cố tình tránh sự trợ giúp của robot tìm kiếm... Công cụ tìm kiếm này cũng phổ biến ở Ấn Độ, Indonesia, Đài Loan và Vương quốc Anh. Ngoài thanh tìm kiếm, trên Yahoo! cung cấp dự báo thời tiết trong khu vực của bạn cũng như xu hướng toàn cầu dưới dạng nguồn cấp tin tức.

4. Baidu

Một công cụ tìm kiếm của Trung Quốc đã nổi tiếng ở Nga. Do chính sách tích cực và thiếu bản dịch sang tiếng Nga hoặc tiếng Anh, các phần mở rộng của công cụ tìm kiếm này bị coi là vi-rút. Rất khó để loại bỏ chúng hoàn toàn và loại bỏ các cửa sổ bật lên có chữ tượng hình. Tuy nhiên, trang web này là thứ tư trên thế giới bằng sự tham dự. 92% khán giả là công dân Trung Quốc.

5. AOL

AOL là một công cụ tìm kiếm của Mỹ có tên viết tắt của America Online. Mức độ phổ biến của nó thấp hơn đáng kể so với các hệ thống trước đó. Thời hoàng kim của nó là vào những năm 90 và 00. Gần 70% khán giả của AOL là cư dân Hoa Kỳ.

6.Ask.com

Công cụ tìm kiếm này, có từ năm 1995, đã có khá nhiều giao diện khác thường. Cô ấy coi tất cả các yêu cầu là câu hỏi và đưa ra các tùy chọn trả lời phù hợp với kết quả tìm kiếm. Điều này phần nào gợi nhớ đến dịch vụ Answers.Mail. Tuy nhiên, kết quả tìm kiếm không phải là những câu trả lời nghiệp dư mà là những bài viết chính thức. Trong năm qua, trang này đã mất khoảng 50 vị trí trong bảng xếp hạng các tài nguyên Internet phổ biến nhất thế giới và ngày nay chỉ đứng thứ 104.

7. Kích thích

Công cụ tìm kiếm này không có gì nổi bật và tương tự như nhiều trang web khác. Nó cung cấp cho người dùng rất nhiều dịch vụ (chẳng hạn như Tin tức, Thư, Thời tiết, Du lịch, v.v.). Giao diện của trang web cũng gợi lại ký ức về web của những năm 90 và người ta có thể cho rằng đã thay đổi rất ít kể từ đó.

8.DuckDuckGo

Các nhà phát triển ngay lập tức cảnh báo rằng công cụ tìm kiếm này không theo dõi hành động của bạn trực tuyến. Ngày nay, đây là một lập luận quan trọng khi lựa chọn một công cụ tìm kiếm. Thiết kế trang web được thực hiện theo phong cách hiện đại, sử dụng màu sắc tươi sáng và hình ảnh vui nhộn. Không giống như các công cụ tìm kiếm khác, “công cụ tìm kiếm vịt” đã được dịch sang tiếng Nga. Trong năm qua, trang web đã đạt được khoảng 400 vị trí và tính đến tháng 3 năm 2017. được xếp hạng thứ 504 trong bảng xếp hạng mức độ phổ biến của Alexa.

9. Wolfram Alpha

Điểm đặc biệt của tìm kiếm này là sự đa dạng của các dịch vụ phụ trợ được thiết kế cho các truy vấn liên quan đến kiến thức nhất định. Nghĩa là, trong kết quả tìm kiếm, bạn sẽ không thấy liên kết đến các bài đăng trên mạng xã hội hoặc các bài báo từ báo chí màu vàng. Bạn sẽ được cung cấp những con số cụ thể và sự thật đã được xác minh dưới dạng một tài liệu duy nhất. Trình duyệt này lý tưởng cho học sinh và sinh viên.

10. Yandex

Công cụ tìm kiếm phổ biến nhất ở Nga và các nước CIS. Ngoài ra, khoảng 3% khán giả của trang web là cư dân Đức. Trang web này đáng chú ý với số lượng lớn các dịch vụ dành cho mọi dịp (âm nhạc, đài phát thanh, lịch trình giao thông công cộng, bất động sản, dịch giả, v.v.). Tài nguyên này cũng cung cấp nhiều lựa chọn về thiết kế trang web cá nhân. tùy chỉnh các widget. Yandex đứng thứ 31 trên thế giới về mức độ phổ biến, mất 11 bậc trong năm qua.

Chúng từ lâu đã trở thành một phần không thể thiếu của Internet Nga. Các công cụ tìm kiếm hiện nay là những cơ chế khổng lồ và phức tạp, không chỉ là một công cụ tìm kiếm thông tin mà còn là những lĩnh vực hấp dẫn đối với doanh nghiệp.

Hầu hết người dùng công cụ tìm kiếm chưa bao giờ nghĩ (hoặc nghĩ về nó nhưng không tìm thấy câu trả lời) về nguyên lý hoạt động của công cụ tìm kiếm, về sơ đồ xử lý yêu cầu của người dùng, về những gì các hệ thống này bao gồm và cách chúng hoạt động...

Lớp chính này được thiết kế để trả lời câu hỏi về cách hoạt động của công cụ tìm kiếm. Tuy nhiên, bạn sẽ không tìm thấy ở đây những yếu tố ảnh hưởng đến thứ hạng của tài liệu. Hơn nữa, bạn không nên tin tưởng vào lời giải thích chi tiết về thuật toán Yandex. Theo Ilya Segalovich, giám đốc công nghệ và phát triển công cụ tìm kiếm Yandex, ông chỉ có thể được chính Ilya Segalovich công nhận là “đang bị tra tấn”...

2. Khái niệm và chức năng của công cụ tìm kiếm

Hệ thống tìm kiếm là một tổ hợp phần mềm và phần cứng được thiết kế để tìm kiếm trên Internet và đáp ứng yêu cầu của người dùng, được chỉ định dưới dạng cụm từ văn bản (truy vấn tìm kiếm), bằng cách tạo danh sách các liên kết đến các nguồn thông tin, theo thứ tự mức độ liên quan ( theo yêu cầu). Các công cụ tìm kiếm quốc tế lớn nhất: "Google", Yahoo, MSN. Trên Internet Nga có Yandex, Rambler, Aport.

Chúng ta hãy xem xét kỹ hơn khái niệm truy vấn tìm kiếm bằng cách sử dụng công cụ tìm kiếm Yandex làm ví dụ. Truy vấn tìm kiếm phải được người dùng xây dựng phù hợp với những gì họ muốn tìm, càng ngắn gọn và đơn giản càng tốt. Giả sử chúng tôi muốn tìm thông tin trên Yandex về cách chọn ô tô. Để thực hiện việc này, hãy mở trang chính Yandex và nhập nội dung của truy vấn tìm kiếm “cách chọn ô tô”. Tiếp theo, nhiệm vụ của chúng tôi là mở các liên kết được cung cấp theo yêu cầu của chúng tôi tới các nguồn thông tin trên Internet. Tuy nhiên, rất có thể chúng ta sẽ không tìm được thông tin mình cần. Nếu điều này xảy ra thì bạn cần phải diễn đạt lại yêu cầu của mình hoặc cơ sở dữ liệu công cụ tìm kiếm thực sự không có bất kỳ thông tin liên quan nào về yêu cầu của chúng tôi (điều này có thể xảy ra khi hỏi các truy vấn rất “hẹp”, chẳng hạn như “cách chọn” một chiếc ô tô ở Arkhangelsk”)

Mục tiêu chính của bất kỳ công cụ tìm kiếm nào là cung cấp cho mọi người chính xác thông tin họ đang tìm kiếm. Và dạy người dùng thực hiện các yêu cầu “đúng” đối với hệ thống, tức là. các truy vấn tuân thủ nguyên tắc hoạt động của công cụ tìm kiếm là không thể. Do đó, các nhà phát triển tạo ra các thuật toán và nguyên tắc hoạt động cho các công cụ tìm kiếm cho phép người dùng tìm thấy thông tin họ đang tìm kiếm.

Điều này có nghĩa là công cụ tìm kiếm phải “suy nghĩ” giống như cách người dùng nghĩ khi tìm kiếm thông tin. Khi người dùng đưa ra yêu cầu với công cụ tìm kiếm, anh ta muốn tìm thấy thứ mình cần một cách nhanh chóng và dễ dàng nhất có thể. Nhận được kết quả, anh đánh giá hiệu suất của hệ thống, được hướng dẫn bởi một số thông số cơ bản. Liệu anh ấy có tìm thấy thứ mình đang tìm kiếm không? Nếu không tìm thấy, anh ấy đã phải diễn đạt lại truy vấn bao nhiêu lần để tìm được thứ mình đang tìm kiếm? Anh ta có thể tìm được bao nhiêu thông tin liên quan? Công cụ tìm kiếm xử lý truy vấn nhanh như thế nào? Kết quả tìm kiếm được trình bày thuận tiện như thế nào? Kết quả bạn đang tìm kiếm là kết quả đầu tiên hay thứ một trăm? Bao nhiêu rác không cần thiết được tìm thấy cùng với thông tin hữu ích? Liệu thông tin cần thiết sẽ được tìm thấy khi truy cập công cụ tìm kiếm, chẳng hạn như sau một tuần hay một tháng?

Để trả lời tất cả những câu hỏi này bằng câu trả lời, các nhà phát triển công cụ tìm kiếm không ngừng cải tiến các thuật toán và nguyên tắc tìm kiếm, bổ sung các chức năng và khả năng mới, đồng thời cố gắng bằng mọi cách có thể để tăng tốc hoạt động của hệ thống.

3. Đặc điểm chính của công cụ tìm kiếm

Hãy để chúng tôi mô tả các đặc điểm chính của công cụ tìm kiếm:

Tính đầy đủ
Tính đầy đủ là một trong những đặc điểm chính của hệ thống tìm kiếm, là tỷ lệ giữa số lượng tài liệu được tìm thấy theo yêu cầu trên tổng số tài liệu trên Internet thỏa mãn yêu cầu nhất định. Ví dụ: nếu có 100 trang trên Internet chứa cụm từ “cách chọn ô tô” và chỉ tìm thấy 60 trang trong số đó cho truy vấn tương ứng thì mức độ đầy đủ của tìm kiếm sẽ là 0,6. Rõ ràng, việc tìm kiếm càng đầy đủ thì khả năng người dùng không tìm thấy tài liệu mình cần càng ít, miễn là nó tồn tại trên Internet.
Sự chính xác
Độ chính xác là một đặc điểm chính khác của công cụ tìm kiếm, được xác định bởi mức độ tài liệu tìm thấy phù hợp với truy vấn của người dùng. Ví dụ: nếu truy vấn “cách chọn ô tô” chứa 100 tài liệu, thì 50 tài liệu trong số đó chứa cụm từ “cách chọn ô tô” và phần còn lại chỉ chứa những từ này (“cách chọn đài phù hợp và lắp đặt nó trong một chiếc ô tô”) thì độ chính xác của tìm kiếm được coi là bằng 50/100 (=0,5). Tìm kiếm càng chính xác, người dùng sẽ tìm thấy tài liệu mình cần càng nhanh, càng ít loại “rác” khác nhau được tìm thấy trong số đó, tần suất các tài liệu được tìm thấy sẽ không tương ứng với yêu cầu càng ít.
Mức độ liên quan
Mức độ liên quan là một thành phần quan trọng không kém của tìm kiếm, được đặc trưng bởi thời gian trôi qua từ thời điểm tài liệu được xuất bản trên Internet cho đến khi chúng được nhập vào cơ sở dữ liệu chỉ mục của công cụ tìm kiếm. Ví dụ: một ngày sau khi tin tức thú vị xuất hiện, một lượng lớn người dùng đã chuyển sang các công cụ tìm kiếm với các truy vấn liên quan. Khách quan mà nói, chưa đầy một ngày trôi qua kể từ khi tin tức về chủ đề này được công bố, nhưng các tài liệu chính đã được lập chỉ mục và có sẵn để tìm kiếm, nhờ sự tồn tại của cái gọi là “cơ sở dữ liệu nhanh” của các công cụ tìm kiếm lớn, được cập nhật nhiều lần trong ngày.
Tốc độ tìm kiếm
Tốc độ tìm kiếm có liên quan chặt chẽ đến khả năng chịu tải của nó. Ví dụ, theo Rambler Internet Holding LLC, ngày nay, trong giờ làm việc, công cụ tìm kiếm Rambler nhận được khoảng 60 yêu cầu mỗi giây. Khối lượng công việc như vậy đòi hỏi phải giảm thời gian xử lý một yêu cầu riêng lẻ. Ở đây, lợi ích của người dùng và công cụ tìm kiếm trùng nhau: khách truy cập muốn nhận được kết quả nhanh nhất có thể và công cụ tìm kiếm phải xử lý yêu cầu càng nhanh càng tốt để không làm chậm quá trình tính toán các truy vấn tiếp theo.
Hiển thị

4. Sơ lược lịch sử phát triển của công cụ tìm kiếm

Trong thời kỳ đầu phát triển Internet, số lượng người dùng còn ít và lượng thông tin có sẵn tương đối ít. Phần lớn chỉ có nhân viên nghiên cứu mới có quyền truy cập Internet. Vào thời điểm đó, nhiệm vụ tìm kiếm thông tin trên Internet chưa cấp bách như bây giờ.

Một trong những cách đầu tiên để tổ chức quyền truy cập vào tài nguyên thông tin mạng là tạo các thư mục mở của các trang web, liên kết đến các tài nguyên được nhóm theo chủ đề. Dự án đầu tiên như vậy là trang web Yahoo.com, được khai trương vào mùa xuân năm 1994. Sau khi số lượng trang web trong danh mục tăng lên đáng kể, khả năng tìm kiếm thông tin cần thiết trong danh mục đã được thêm vào. Theo nghĩa đầy đủ, nó vẫn chưa phải là một công cụ tìm kiếm, vì khu vực tìm kiếm chỉ giới hạn ở các tài nguyên có trong danh mục chứ không phải tất cả các tài nguyên Internet.

Trước đây, các thư mục liên kết đã được sử dụng rộng rãi nhưng hiện tại gần như đã mất đi sự phổ biến hoàn toàn. Vì ngay cả những danh mục hiện đại, có khối lượng khổng lồ, cũng chỉ chứa thông tin về một phần không đáng kể của Internet. Thư mục lớn nhất của mạng DMOZ (còn gọi là Dự án thư mục mở) chứa thông tin về 5 triệu tài nguyên, trong khi cơ sở dữ liệu của công cụ tìm kiếm Google bao gồm hơn 8 tỷ tài liệu.

Năm 1995, công cụ tìm kiếm Lycos và AltaVista xuất hiện. Sau này đã dẫn đầu trong lĩnh vực tìm kiếm thông tin trên Internet trong nhiều năm.

Năm 1997, Sergey Brin và Larry Page đã tạo ra công cụ tìm kiếm Google như một phần của dự án nghiên cứu tại Đại học Stanford. Google hiện là công cụ tìm kiếm phổ biến nhất trên thế giới!

Vào tháng 9 năm 1997, công cụ tìm kiếm Yandex, công cụ phổ biến nhất trên Internet tiếng Nga, đã chính thức được công bố.

Hiện tại, có ba công cụ tìm kiếm chính (quốc tế) - Google, Yahoo và có cơ sở dữ liệu và thuật toán tìm kiếm riêng. Hầu hết các công cụ tìm kiếm khác (trong đó có một số lượng lớn) sử dụng dưới dạng này hay dạng khác các kết quả của ba loại được liệt kê. Ví dụ: tìm kiếm AOL (search.aol.com) sử dụng cơ sở dữ liệu Google, trong khi AltaVista, Lycos và AllTheWeb sử dụng cơ sở dữ liệu Yahoo.

5. Thành phần và nguyên lý hoạt động của hệ thống tra cứu

Ở Nga, công cụ tìm kiếm chính là Yandex, tiếp theo là Rambler.ru, Google.ru, Aport.ru, Mail.ru. Hơn nữa, hiện tại, Mail.ru sử dụng cơ sở dữ liệu và công cụ tìm kiếm Yandex.

Hầu như tất cả các công cụ tìm kiếm lớn đều có cấu trúc riêng, khác với các công cụ khác. Tuy nhiên, có thể xác định các thành phần chính chung cho tất cả các công cụ tìm kiếm. Sự khác biệt về cấu trúc chỉ có thể ở dạng thực hiện cơ chế tương tác của các thành phần này.

Mô-đun lập chỉ mục

Mô-đun lập chỉ mục bao gồm ba chương trình phụ trợ (robot):

Spider là một chương trình được thiết kế để tải xuống các trang web. Con nhện tải trang xuống và lấy tất cả các liên kết nội bộ từ trang đó. Mã html của mỗi trang được tải xuống. Robot sử dụng giao thức HTTP để tải xuống các trang. Con nhện hoạt động như sau. Robot gửi yêu cầu “get/path/document” và một số lệnh yêu cầu HTTP khác đến máy chủ. Để phản hồi, robot sẽ nhận được một luồng văn bản chứa thông tin dịch vụ và chính tài liệu đó.

URL trang
ngày trang được tải xuống
Tiêu đề http phản hồi của máy chủ
nội dung trang (mã html)

Trình thu thập thông tin (nhện “du lịch”) là một chương trình tự động đi theo tất cả các liên kết được tìm thấy trên trang. Chọn tất cả các liên kết có trên trang. Công việc của nó là xác định nơi con nhện sẽ đi tiếp theo, dựa trên các liên kết hoặc dựa trên danh sách địa chỉ được xác định trước. Trình thu thập thông tin, theo các liên kết được tìm thấy, tìm kiếm các tài liệu mới mà công cụ tìm kiếm vẫn chưa biết.

Indexer (robot lập chỉ mục) là chương trình phân tích các trang web được tải xuống bởi các con nhện. Bộ chỉ mục phân tích trang thành các phần cấu thành của nó và phân tích chúng bằng các thuật toán từ vựng và hình thái riêng của nó. Các thành phần trang khác nhau được phân tích, chẳng hạn như văn bản, tiêu đề, liên kết, tính năng cấu trúc và kiểu dáng, thẻ HTML dịch vụ đặc biệt, v.v.

Do đó, mô-đun lập chỉ mục cho phép bạn thu thập dữ liệu một nhóm tài nguyên nhất định bằng cách sử dụng các liên kết, tải xuống các trang gặp phải, trích xuất liên kết đến các trang mới từ các tài liệu đã nhận và thực hiện phân tích đầy đủ các tài liệu này.

Cơ sở dữ liệu

Cơ sở dữ liệu, hay chỉ mục của công cụ tìm kiếm, là một hệ thống lưu trữ dữ liệu, một mảng thông tin trong đó lưu trữ các tham số được chuyển đổi đặc biệt của tất cả các tài liệu được mô-đun lập chỉ mục tải xuống và xử lý.

Máy chủ tìm kiếm

Máy chủ tìm kiếm là thành phần quan trọng nhất của toàn bộ hệ thống, vì chất lượng và tốc độ tìm kiếm phụ thuộc trực tiếp vào các thuật toán làm nền tảng cho chức năng của nó.

Máy chủ tìm kiếm hoạt động như sau:

Yêu cầu nhận được từ người dùng sẽ được phân tích hình thái. Môi trường thông tin của từng tài liệu có trong cơ sở dữ liệu được tạo ra (sau đó sẽ được hiển thị dưới dạng, tức là thông tin văn bản tương ứng với yêu cầu trên trang kết quả tìm kiếm).
Dữ liệu nhận được sẽ được chuyển dưới dạng tham số đầu vào cho mô-đun xếp hạng đặc biệt. Dữ liệu được xử lý cho tất cả tài liệu, do đó mỗi tài liệu có xếp hạng riêng đặc trưng cho mức độ liên quan của truy vấn do người dùng nhập và các thành phần khác nhau của tài liệu này được lưu trữ trong chỉ mục của công cụ tìm kiếm.
Tùy thuộc vào lựa chọn của người dùng, xếp hạng này có thể được điều chỉnh theo các điều kiện bổ sung (ví dụ: cái gọi là “tìm kiếm nâng cao”).
Tiếp theo, một đoạn mã được tạo, nghĩa là đối với mỗi tài liệu được tìm thấy, tiêu đề, một bản tóm tắt ngắn phù hợp nhất với truy vấn và một liên kết đến chính tài liệu đó sẽ được trích xuất từ bảng tài liệu và các từ tìm thấy sẽ được đánh dấu.
Kết quả tìm kiếm thu được được truyền tới người dùng dưới dạng SERP (Trang kết quả của Công cụ tìm kiếm) – trang kết quả tìm kiếm.

Như bạn có thể thấy, tất cả các thành phần này có liên quan chặt chẽ với nhau và hoạt động tương tác, tạo thành một cơ chế rõ ràng, khá phức tạp cho hoạt động của hệ thống tìm kiếm, đòi hỏi lượng tài nguyên khổng lồ.

6. Kết luận

Bây giờ hãy tóm tắt tất cả những điều trên.

Mục tiêu chính của bất kỳ công cụ tìm kiếm nào là cung cấp cho mọi người chính xác thông tin họ đang tìm kiếm.
Đặc điểm chính của công cụ tìm kiếm:
1. Tính đầy đủ
2. Sự chính xác
3. Mức độ liên quan
4. Tốc độ tìm kiếm
5. Hiển thị
Công cụ tìm kiếm chính thức đầu tiên là dự án WebCrawler, được xuất bản năm 1994.
Hệ thống tìm kiếm bao gồm các thành phần sau:
1. Mô-đun lập chỉ mục
2. Cơ sở dữ liệu
3. Máy chủ tìm kiếm

Chúng tôi hy vọng rằng lớp học nâng cao của chúng tôi sẽ giúp bạn làm quen hơn với khái niệm về công cụ tìm kiếm và hiểu rõ hơn về các chức năng, đặc điểm và nguyên tắc hoạt động chính của công cụ tìm kiếm.