Công cụ tìm kiếm và các tính năng của chúng. Chất lượng công cụ tìm kiếm. Công cụ tìm kiếm hoạt động như thế nào?

Yếu tố chính Internet hiện đại- Cái này công cụ tìm kiếm hoặc công cụ tìm kiếm, Yandex, Rambler, Google và những người khác. Có một biển trên Internet thông tin khác nhau và chính các công cụ tìm kiếm sẽ giúp người dùng nhanh chóng tìm thấy những thông tin cần thiết.

Trong sách giáo khoa hay sách khoa học đều có danh sách các thuật ngữ quan trọng - theo thứ tự bảng chữ cái chỉ mục chủ đề hoặc mục lục. Chỉ mục liệt kê nhiều nhất điều khoản quan trọng của cuốn sách này (từ khóa) và số trang mà chúng xuất hiện.

Công việc của các công cụ tìm kiếm cũng dựa trên nguyên tắc tương tự. Về cơ bản, khi người dùng nhập cụm từ tìm kiếm (từ khóa), họ đang truy cập vào chỉ mục hoặc chỉ mục chủ đề Internet - một danh sách tất cả từ khóa Internet, chỉ ra các trang nơi chúng xuất hiện.

Máy tìm kiếm là một chương trình biên dịch và lưu trữ chỉ mục (chỉ mục) chủ đề Internet, đồng thời tìm thấy các từ khóa được chỉ định trong đó.

Các giai đoạn biên soạn chỉ mục và tìm kiếm nó:

Thu thập địa chỉ trang web trên Internet

Danh sách ban đầu các địa chỉ trang web được tải vào công cụ tìm kiếm. Sau đó máy tìm kiếm, hay đúng hơn là cô ấy thành phần – robot tìm kiếm, thu thập tất cả các liên kết siêu văn bản từ mỗi trang nhất địnhđến các trang khác và thêm tất cả các địa chỉ tìm thấy trong các liên kết vào danh sách địa chỉ ban đầu của nó. Vì vậy, danh sách ban đầu nhanh chóng phát triển.

Bơm ra các trang

Robot tìm kiếm hoặc nhện thu thập dữ liệu các trang, tải tài liệu văn bản từ chúng xuống và lưu trữ trên đĩa của máy tính, sau đó chuyển nó sang robot lập chỉ mục để lập chỉ mục.

Biên soạn chỉ mục

Để bắt đầu, văn bản của trang được lập chỉ mục sẽ bị xóa khỏi tất cả các thành phần phi văn bản (đồ họa, đánh dấu ngôn ngữ HTML vân vân.). Tiếp theo, các từ được chọn từ văn bản sẽ được rút gọn thành gốc hoặc cách viết chỉ định của chúng. Các thân từ thu thập được sắp xếp theo thứ tự ABC chỉ ra Số trang, nơi lấy cơ sở, và số lần xuất hiện, cơ sở trên trang này ở đâu?

Tìm kiếm

Khi người dùng nhập một từ vào chuỗi truy vấn, công cụ tìm kiếm sẽ truy cập vào chỉ mục. Tìm tất cả số trang liên quan đến Từ này và hiển thị cho người dùng kết quả tìm kiếm (danh sách các trang).

Chất lượng công cụ tìm kiếm

Một từ đồng nghĩa với chất lượng tìm kiếm là sự liên quan. Liên quan đến công cụ tìm kiếm, từ liên quan(liên quan đến vấn đề) gần như là thuật ngữ chính. Mức độ liên quan của kết quả tìm kiếm của công cụ tìm kiếm có nghĩa là những kết quả đó chứa các trang có liên quan đến ý nghĩa của truy vấn tìm kiếm. Mức độ liên quan hoặc chất lượng tìm kiếm là một điều khá phức tạp.

Một lần nữa tiêu chí quan trọng chất lượng của công cụ tìm kiếm là sự chính xác.

Sự chính xác là thước đo chất lượng của kết quả trả về, nó được tính bằng số lượng trang có liên quan trong tổng số trang được trả về trong kết quả tìm kiếm. Tuy nhiên, không chỉ độ chính xác của việc tìm kiếm là quan trọng mà còn khác nhau kết quả tìm kiếm.

Khác nhau– sắp xếp kết quả tìm kiếm theo mức độ liên quan.

Không thể nói công cụ tìm kiếm nào tốt hơn. Đối với người dùng công cụ tìm kiếm tốt hơn, mang lại kết quả phù hợp và chính xác nhất. Đối với chủ sở hữu trang web, một chiếc máy tốt là chiếc máy trong đó trang web được hiển thị rõ ràng và mang lại số lớn nhất khách truy cập mục tiêu.

Công cụ tìm kiếm hoạt động như thế nào? Một trong những điều tuyệt vời về Internet là có hàng trăm triệu tài nguyên web đang chờ và sẵn sàng giới thiệu cho chúng ta. Nhưng điều tồi tệ là có hàng triệu trang giống nhau mà ngay cả khi chúng ta cần chúng cũng sẽ không xuất hiện trước mắt chúng ta, bởi vì... đơn giản là chúng tôi chưa biết. Làm thế nào để tìm ra những gì và nơi bạn có thể tìm thấy trên Internet? Để làm điều này, chúng tôi thường chuyển sang các công cụ tìm kiếm.

Công cụ tìm kiếm trên Internet là những trang web đặc biệt trong mạng lưới toàn cầu, được thiết kế để giúp mọi người tìm thấy mạng toàn cầu thông tin họ cần. Có sự khác biệt trong cách các công cụ tìm kiếm thực hiện chức năng của chúng, nhưng nhìn chung có 3 chức năng chính và giống nhau:

Tất cả đều “tìm kiếm” trên Internet (hoặc một số lĩnh vực trên Internet) - dựa trên các từ khóa nhất định;
- tất cả các công cụ tìm kiếm lập chỉ mục các từ họ tìm kiếm và những nơi họ tìm thấy chúng;
- tất cả các công cụ tìm kiếm đều cho phép người dùng tìm kiếm các từ hoặc tổ hợp từ khóa dựa trên các trang web đã được lập chỉ mục và có trong cơ sở dữ liệu của họ.

Các công cụ tìm kiếm đầu tiên đã lập chỉ mục lên tới vài trăm nghìn trang và nhận được 1.000 - 2.000 yêu cầu mỗi ngày. Ngày nay, các công cụ tìm kiếm hàng đầu đã lập chỉ mục và liên tục lập chỉ mục cho hàng trăm triệu trang và xử lý hàng chục triệu yêu cầu mỗi ngày. Dưới đây chúng tôi sẽ nói về cách các công cụ tìm kiếm hoạt động và cách chúng “kết hợp” tất cả các thông tin được tìm thấy để có thể trả lời bất kỳ câu hỏi nào mà chúng tôi quan tâm.

Chúng ta hãy nhìn vào Web

Khi mọi người nói về Công cụ tìm kiếm trên Internet máy móc, thực ra chúng có nghĩa là công cụ tìm kiếm Thế giới Web rộng . Trước khi Web trở thành phần dễ thấy nhất của Internet, các công cụ tìm kiếm đã tồn tại để giúp mọi người tìm kiếm thông tin trên Internet. Các chương trình có tên "gopher" và "Archie" có thể lập chỉ mục các tệp nằm trên máy chủ khác nhau, kết nối với InternetInternet và giảm đáng kể thời gian tìm kiếm chương trình cần thiết hoặc tài liệu. Vào cuối những năm 80 của thế kỷ trước, từ đồng nghĩa với “khả năng làm việc trên Internet” là khả năng sử dụng gopher, Archie, Veronica, v.v. chương trình tìm kiếm. Ngày nay, hầu hết người dùng Internet giới hạn tìm kiếm của họ chỉ mạng toàn cầu hoặc WWW.

Một khởi đầu nhỏ

Trước khi tôi nói cho bạn biết nơi để tìm tài liệu cần thiết hoặc một tập tin, tập tin hoặc tài liệu này phải được tìm thấy ở một thời điểm nào đó. Để tìm thông tin về hàng trăm triệu trang WEB hiện có, công cụ tìm kiếm sử dụng một chương trình robot đặc biệt. Chương trình này còn được gọi là nhện ("nhện") và được sử dụng để xây dựng danh sách các từ được tìm thấy trên trang. Quá trình xây dựng một danh sách như vậy được gọi là thu thập dữ liệu web(Thu thập thông tin trên web). Để tiếp tục xây dựng và nắm bắt được danh sách các từ “hữu ích” (có ý nghĩa), con nhện tìm kiếm phải “xem qua” rất nhiều trang khác.

Mọi người bắt đầu như thế nào? nhện(nhện) hành trình của bạn trên web? Thông thường điểm khởi đầu là các máy chủ lớn nhất thế giới và các trang web rất phổ biến. Con nhện bắt đầu cuộc hành trình của nó từ một trang web như vậy, lập chỉ mục tất cả các từ được tìm thấy và tiếp tục di chuyển xa hơn, theo các liên kết đến các trang web khác. Do đó, robot nhện bắt đầu bao phủ những “mảnh” không gian web ngày càng lớn. Google.com bắt đầu như một công cụ tìm kiếm học thuật. Trong một bài viết mô tả cách tạo ra công cụ tìm kiếm này, Sergey Brin và Lawrence Page (người sáng lập và chủ sở hữu Google) đã đưa ra một ví dụ về tốc độ hoạt động của nhện Google. Có một số trong số chúng và việc tìm kiếm thường bắt đầu bằng việc sử dụng 3 con nhện. Mỗi con nhện hỗ trợ tới 300 con cùng một lúc kết nối mở với các trang web. Khi tải cao điểm, sử dụng 4 nhện, hệ thống Google có khả năng xử lý 100 trang/giây, tạo ra lưu lượng truy cập khoảng 600 kilobyte/giây.

Để cung cấp cho các con nhện dữ liệu mà chúng cần xử lý, Google từng có một máy chủ không làm gì khác hơn là cung cấp cho các con nhện ngày càng nhiều URL. Để không phụ thuộc vào các nhà cung cấp dịch vụ Internet về máy chủ tên miền (DNS) dịch URL thành địa chỉ IP, Google đã mua lại máy chủ tên miền của riêng mình. máy chủ DNS, giảm thiểu thời gian dành cho việc lập chỉ mục các trang.

Khi robot Google thăm trang HTML, nó tính đến 2 điều:

Từ (văn bản) trên mỗi trang;
- vị trí của chúng (ở phần nào của nội dung trang).

Các từ nằm trong phần dịch vụ như tiêu đề, phụ đề, thẻ meta và những thứ khác được gắn cờ là đặc biệt quan trọng đối với truy vấn tìm kiếm của người dùng. Google Spider được xây dựng để lập chỉ mục mọi từ tương tự trên một trang, ngoại trừ các thán từ như "a", "an" và "the". Các công cụ tìm kiếm khác có cách tiếp cận hơi khác trong việc lập chỉ mục.

Tất cả các phương pháp và thuật toán của công cụ tìm kiếm cuối cùng đều nhằm mục đích làm cho robot nhện hoạt động nhanh hơn và hiệu quả hơn. Ví dụ: một số rô-bốt tìm kiếm theo dõi các từ trong tiêu đề, liên kết và tối đa 100 từ được sử dụng thường xuyên nhất trên một trang trong quá trình lập chỉ mục và thậm chí từng từ trong 20 dòng nội dung văn bản đầu tiên trên trang. Đây là thuật toán lập chỉ mục, đặc biệt là của Lycos.

Các công cụ tìm kiếm khác, chẳng hạn như AltaVista, đi theo hướng khác, lập chỉ mục từng từ trong một trang, bao gồm "a", "an", "the" và các từ không quan trọng khác.

Thẻ meta

Thẻ meta cho phép chủ sở hữu trang web chỉ định các từ khóa và khái niệm xác định bản chất nội dung của nó. Đây là một công cụ rất hữu ích, đặc biệt khi những từ khóa này có thể được lặp lại tới 2-3 lần trong nội dung của trang. Trong trường hợp này, thẻ meta có thể “hướng” robot tìm kiếm tới sự lựa chọn đúng đắn từ khóa để lập chỉ mục trang. Có khả năng xảy ra các thẻ meta “gian lận” với các truy vấn và khái niệm tìm kiếm phổ biến không hề liên quan đến nội dung của trang đó. Ví dụ: rô-bốt tìm kiếm có thể chống lại điều này bằng cách phân tích mối tương quan giữa thẻ meta và nội dung của trang web, “loại bỏ” những thẻ meta (từ khóa tương ứng) không tương ứng với nội dung của trang.

Tất cả điều này áp dụng cho những trường hợp khi chủ sở hữu tài nguyên web thực sự muốn được đưa vào kết quả tìm kiếm cho các từ tìm kiếm mong muốn. Nhưng thường xảy ra trường hợp chủ sở hữu không muốn bị robot lập chỉ mục chút nào. Nhưng những trường hợp như vậy không phải là chủ đề của bài viết của chúng tôi.

Xây dựng chỉ số

Khi các con nhện đã hoàn thành công việc tìm kiếm các trang web mới, các công cụ tìm kiếm phải đặt tất cả thông tin tìm thấy sao cho thuận tiện cho việc sử dụng nó trong tương lai. Có 2 thành phần chính quan trọng ở đây:

Thông tin được lưu trữ cùng với dữ liệu;
- phương pháp mà thông tin này được lập chỉ mục.

Trong trường hợp đơn giản nhất, công cụ tìm kiếm có thể chỉ cần đặt từ đó và địa chỉ URL, nó nằm ở đâu. Nhưng điều này sẽ làm cho công cụ tìm kiếm trở thành một công cụ hoàn toàn thô sơ, vì không có thông tin về phần nào của tài liệu từ này (thẻ meta hoặc văn bản thuần túy), liệu từ này được sử dụng một lần hay nhiều lần và liệu nó có được sử dụng hay không. chứa trong một liên kết đến một tài nguyên quan trọng và có liên quan khác. Nói cách khác, phương pháp này sẽ không xếp hạng các trang web, sẽ không cung cấp kết quả phù hợp cho người dùng, v.v.

Để cung cấp cho chúng tôi dữ liệu hữu ích, các công cụ tìm kiếm không chỉ lưu trữ thông tin từ từ và URL của nó. Công cụ tìm kiếm có thể lưu dữ liệu về số lượng (tần suất) đề cập đến một từ trên một trang, gán “trọng số” cho từ đó, sau đó sẽ giúp tạo danh sách tìm kiếm (kết quả) dựa trên xếp hạng có trọng số cho từ này, lấy tính đến vị trí của nó (trong các liên kết, thẻ meta, tiêu đề trang, v.v.). Mỗi công cụ tìm kiếm thương mại đều có công thức riêng để tính “trọng số” của từ khóa trong quá trình lập chỉ mục. Đây là một trong những lý do tại sao các công cụ tìm kiếm tạo ra các kết quả hoàn toàn khác nhau cho cùng một truy vấn tìm kiếm.

Kế tiếp tâm điểm khi xử lý thông tin tìm thấy - mã hóa thông tin đó để giảm âm lượng không gian đĩađể cứu nó. Ví dụ, trong bản gốc bài viết của Google Người ta mô tả rằng 2 byte (mỗi byte 8 bit) được sử dụng để lưu trữ dữ liệu trọng số của các từ - điều này tính đến loại từ (lớn hoặc bằng chữ in hoa), kích thước của các chữ cái (Kích thước phông chữ) và các thông tin khác giúp xếp hạng trang web. Mỗi “mảnh” thông tin như vậy cần 2-3 bit dữ liệu trong một bộ 2 byte hoàn chỉnh. Kết quả là, một lượng lớn thông tin có thể được lưu trữ ở dạng rất nhỏ gọn. Sau khi thông tin được “nén”, đã đến lúc bắt đầu lập chỉ mục.

Việc lập chỉ mục có một mục tiêu: đảm bảo tối đa tìm kiếm nhanh thông tin cần thiết. Có nhiều cách để xây dựng chỉ mục nhưng cách hiệu quả nhất là xây dựng bảng băm(bảng băm). Khi băm nó được sử dụng công thức cụ thể, với sự trợ giúp của mỗi từ được gán một giá trị số nhất định.

Trong bất kỳ ngôn ngữ nào cũng có những chữ cái bắt đầu bằng nhiều từ ngữ hơn hơn so với các chữ cái còn lại trong bảng chữ cái. Ví dụ: các từ bắt đầu bằng "M" trong phần Từ điển tiếng Anh nhiều hơn đáng kể so với chữ "X". Điều này có nghĩa là việc tìm kiếm một từ bắt đầu bằng chữ cái phổ biến nhất sẽ mất nhiều thời gian hơn bất kỳ từ nào khác. Băm(Băm) cân bằng sự khác biệt này và giảm thời gian tìm kiếm trung bình, đồng thời tách chính chỉ mục ra khỏi dữ liệu thực. Bảng băm chứa các giá trị băm cùng với con trỏ tới dữ liệu tương ứng với giá trị đó. Lập chỉ mục hiệu quả + vị trí hiệu quả cùng nhau cung cấp tốc độ cao tìm kiếm, ngay cả khi người dùng yêu cầu một câu hỏi rất phức tạp truy vấn tìm kiếm.

Tương lai của công cụ tìm kiếm

Tìm kiếm dựa trên các toán tử Boolean ("và", "hoặc", "không") là tìm kiếm theo nghĩa đen - công cụ tìm kiếm nhận được Tìm kiếm từ chính xác như chúng đã được nhập vào. Điều này có thể gây ra sự cố, chẳng hạn như khi từ được nhập có nhiều nghĩa. Ví dụ: "Chìa khóa" có thể có nghĩa là "phương tiện để mở cửa" hoặc có thể có nghĩa là "mật khẩu" để đăng nhập vào máy chủ. Nếu bạn chỉ quan tâm đến một nghĩa của một từ thì rõ ràng bạn sẽ không cần dữ liệu về nghĩa thứ hai của nó. Tất nhiên, bạn có thể xây dựng một truy vấn theo nghĩa đen sẽ loại trừ dữ liệu đầu ra dựa trên ý nghĩa không cần thiết của một từ, nhưng sẽ thật tuyệt nếu chính công cụ tìm kiếm có thể giúp bạn.

Một lĩnh vực nghiên cứu về các thuật toán của công cụ tìm kiếm trong tương lai là truy xuất thông tin khái niệm. Đây là những thuật toán sử dụng Phân tích thống kê các trang chứa từ khóa hoặc cụm từ tìm kiếm nhất định. Rõ ràng là một "công cụ tìm kiếm khái niệm" như vậy sẽ cần nhiều không gian lưu trữ hơn cho mỗi trang và nhiều thời gian hơn để xử lý từng yêu cầu. Hiện nay có nhiều nhà nghiên cứu đang nghiên cứu vấn đề này.

Công việc đang được thực hiện không kém phần chuyên sâu trong lĩnh vực phát triển. thuật toán tìm kiếm dựa trên yêu cầu ngôn ngữ tự nhiên(Truy vấn ngôn ngữ tự nhiên).

Ý tưởng đằng sau các truy vấn tự nhiên là bạn có thể viết truy vấn của mình như thể bạn đang hỏi một đồng nghiệp ngồi đối diện. Không cần phải lo lắng về các toán tử Boolean hoặc sự căng thẳng khi soạn thảo truy vấn phức tạp. Trang tìm kiếm ngôn ngữ tự nhiên phổ biến nhất hiện nay là AskJeeves.com. Nó chuyển đổi truy vấn thành từ khóa, sau đó nó sử dụng khi lập chỉ mục các trang web. Cách tiếp cận này chỉ hoạt động nếu truy vấn đơn giản. Tuy nhiên, tiến độ không hề đứng yên, rất có thể chúng ta sẽ sớm “nói chuyện” với công cụ tìm kiếm bằng “ngôn ngữ con người” của chúng ta.

CÔNG CỤ TÌM KIẾM INTERNET

Được lưu trữ trên Internet số lượng lớn thông tin hữu ích, nhưng việc tìm ra cái phù hợp có thể mất rất nhiều thời gian. Đây là một trong những vấn đề chính dẫn đến sự xuất hiện của các công cụ tìm kiếm. Các công cụ tìm kiếm trên Internet được liên kết với các cơ sở dữ liệu liệt kê nhiều thông tin có sẵn trên Internet. Các công cụ tìm kiếm có các chương trình lập chỉ mục cơ sở dữ liệu và các thủ thư con người phân loại, sắp xếp và biến Web thành một môi trường có thể tìm kiếm được. Mặc dù thực tế có hơn 100 công cụ tìm kiếm và công cụ duyệt web nhưng người dùng thường cảm thấy thất vọng do khó tìm được thông tin họ cần. Và câu hỏi chính ngày nay không phải là sự sẵn có của thông tin này hay thông tin kia trên Internet, mà là câu hỏi tìm nó ở đâu.

Công cụ tìm kiếm bao gồm ba yếu tố chính. Phần tử đầu tiên là bộ chỉ mục, hay còn được gọi là “con nhện”. Người lập chỉ mục đọc thông tin từ một trang web và đi theo các liên kết đến các trang khác trên cùng một trang web. Các trang web được xem thường xuyên, mỗi tháng một lần hoặc hai tháng một lần; điều này là cần thiết để theo dõi những thay đổi. Tất cả dữ liệu về thông tin được tìm thấy sẽ được chuyển đến phần thứ hai của công cụ tìm kiếm, chỉ mục hoặc đôi khi được gọi là danh mục. Đây giống như một cuốn sách khổng lồ lưu trữ mục lục của mỗi trang web được người lập chỉ mục tìm thấy. Khi một trang web thay đổi, thông tin về nó trong chỉ mục cũng được cập nhật. Đôi khi các trang mới hoặc những thay đổi không xuất hiện ngay trong danh mục. Cho đến khi dữ liệu về trang web được đưa vào danh mục, công cụ tìm kiếm sẽ không thể truy cập trang đó. Phần mềm công cụ tìm kiếm là thành phần thứ ba của nó. Chương trình này sàng lọc hàng triệu trang được phân loại để tìm thông tin phù hợp với mục đích tìm kiếm, sau đó xếp hạng chúng theo mức độ liên quan với mục tiêu đã chỉ định. Các công cụ tìm kiếm được thiết kế để phân tích các trang web dựa trên việc sử dụng các truy vấn. Người dùng gõ từ hoặc cụm từ liên quan đến chủ đề quan tâm.

Một chương trình đặc biệt (nhện) “thu thập dữ liệu” trên Web và sau đó sử dụng thuật toán đặc biệt tìm kiếm, tìm thấy dữ liệu cần thiết trong vài giây. Khi trả lời một truy vấn tìm kiếm, công cụ tìm kiếm sẽ sàng lọc hàng triệu nguồn và tìm ra địa chỉ của các tài liệu liên quan. Các công cụ tìm kiếm cung cấp danh sách các siêu liên kết có chú thích tới các trang Internet có liên quan. Nếu bạn nhấp vào một siêu liên kết, URL tương ứng sẽ được sử dụng để tìm văn bản, hình ảnh và liên kết trên máy tính khác. Các công cụ tìm kiếm trên Internet với danh mục trang web khổng lồ đang không ngừng cải tiến các thuật toán tìm kiếm và mở rộng chức năng của chúng. Mỗi công cụ tìm kiếm đều có đặc điểm riêng (có những đặc điểm riêng) và hoạt động khác nhau. Công việc của nhiều công cụ tìm kiếm được coi là khá thành công. Tuy nhiên, mọi thứ hệ thống hiện đại mắc phải một số nhược điểm nghiêm trọng:

1. Tìm kiếm từ khóa mang lại quá nhiều liên kết và nhiều liên kết trong số đó vô dụng.

2. Một số lượng lớn các công cụ tìm kiếm khác nhau giao diện người dùng tạo ra vấn đề quá tải về nhận thức.

3. Các phương pháp lập chỉ mục cơ sở dữ liệu về nguyên tắc không liên quan về mặt ngữ nghĩa với nội dung thông tin.

4. Chiến lược bảo trì thư mục không phù hợp thường dẫn đến các liên kết đến thông tin không còn có trên Internet.

5. Công cụ tìm kiếm chưa đủ tiên tiến để hiểu ngôn ngữ tự nhiên.

6. Với mức độ truy cập mà các công cụ tìm kiếm hiện đại cung cấp, điều đó gần như không thể thực hiện được kết luận hợp lý về sự hữu ích của nguồn.

TRONG Gần đây nhu cầu hỗ trợ trí tuệ đang tăng lên nhanh chóng: cần có sự hỗ trợ để tìm kiếm thông tin hiệu quả, để điều hướng Internet rộng lớn hoặc Mạng lưới công ty thông tin chuyên ngành. Điều này dẫn đến sự xuất hiện của các tác nhân thông minh. Thông thường, các tác nhân thông minh được một phần không thể thiếu máy tìm kiếm. Một số chương trình đặc biệt tiên tiến giống như trợ lý sống. Công nghệ được sử dụng để tìm kiếm và sắp xếp thông tin trí tuệ nhân tạo. Một công cụ tìm kiếm như vậy “suy nghĩ” và tự hành động. Người dùng đào tạo tác nhân, sau đó tác nhân tìm kiếm trên Internet để chọn các tài liệu cần thiết từ hàng triệu tài liệu có sẵn và đánh giá chúng. Người dùng có thể “gọi lại” tác nhân thông minh bất cứ lúc nào và xem công việc đang tiến triển như thế nào hoặc tiếp tục đào tạo nó dựa trên thông tin tìm thấy, điều này sẽ giúp việc tìm kiếm trở nên chính xác hơn. Bảng 3 cho thấy các ví dụ về các tác nhân thông minh và đặc điểm của chúng.

Các tác nhân thông minh thực hiện một loạt hướng dẫn thay mặt người dùng hoặc chương trình khác, có thể hoạt động độc lập và có một số mức độ tự chủ trong mạng. Có một số khác biệt giữa các tác nhân thông minh và các ứng dụng Java. Các ứng dụng Java được tải xuống từ Internet và chạy trên máy của người dùng. Các tác nhân thông minh thực sự lên mạng và tìm kiếm các ứng dụng giúp hoàn thành một nhiệm vụ và thực hiện nhiệm vụ của họ từ xa, giải phóng máy tính của người dùng cho các nhiệm vụ khác. Khi đạt được mục tiêu, họ thông báo cho người dùng rằng công việc đã hoàn thành và trình bày kết quả cho người dùng.

Các tác nhân thông minh có thể “hiểu” thông tin nào người dùng cần. Tác nhân có thể được lập trình để thay đổi hành vi dựa trên kinh nghiệm và tương tác với các tác nhân khác. Đặc điểm tổng quát của các tác nhân thông minh có thể được trình bày như sau:

Trí tuệ - học tập dựa trên nhận xét, bằng ví dụ, lỗi và thông qua tương tác với các tác nhân khác.

Dễ sử dụng - các tác nhân có thể được “đào tạo” bằng ngôn ngữ tự nhiên.

Cách tiếp cận cá nhân - tác nhân thích ứng với sở thích của người dùng.

Tích hợp - học tập liên tục, áp dụng kiến thức hiện có vào các tình huống mới, phát triển mô hình tinh thần.

Tự chủ - các đại lý có thể “cảm nhận được” môi trường và phản ứng với những thay đổi của nó, họ có thể đưa ra kết luận.

bàn số 3

Ví dụ về các tác nhân thông minh và đặc điểm của chúng.

Tỉ lệ tài nguyên thông tin và số lượng của họ trên Internet không ngừng mở rộng. Rõ ràng là cơ sở dữ liệu tập trung điển hình của các công cụ tìm kiếm không phải là một giải pháp thỏa đáng. Tác nhân thông minh là một lĩnh vực hoàn toàn mới làm nền tảng cho thế hệ công cụ tìm kiếm tiếp theo có khả năng lọc thông tin và đạt được kết quả chính xác hơn. Ví dụ: Công cụ tìm kiếm chủ đề dựa trên siêu liên kết, được phát triển bởi John Kleinberg từ Đại học Cornell. Công cụ tìm kiếm này không săn tìm từ khóa. Hệ thống phân tích cấu trúc tự nhiên của Web, tìm kiếm "cộng đồng" các trang liên quan đến một chủ đề cụ thể, sau đó tìm ra trang nào trong số này được coi là quan trọng theo quan điểm của chính tác giả trang. Ý tưởng này tương tự như các thước đo trích dẫn đã được sử dụng từ lâu trong cộng đồng học thuật. Cách tiếp cận này hiệu quả và đáng tin cậy hơn so với tìm kiếm từ khóa truyền thống.

Tìm kiếm thông tin trên Internet là một trong những hoạt động phổ biến nhất trên Internet. Khách truy cập Internet thường phải tìm kiếm tài liệu về một chủ đề cụ thể. Nếu bạn có địa chỉ chính xác của tài liệu trên Internet, thì trong trường hợp này không có vấn đề gì khi tìm kiếm: trong trình duyệt ở thanh địa chỉ bạn có thể nhập một địa chỉ tài nguyên đã biết và nếu kết nối thành công, trình duyệt sẽ hiển thị trang mong muốn.

Nếu không có địa chỉ chính xác của tài liệu, bạn có thể sử dụng các dịch vụ của công cụ tìm kiếm. Máy tìm kiếm? là một “máy chủ chuyên dụng trên Internet cung cấp Nhiều nghĩa tìm kiếm tài liệu." Một ví dụ về máy chủ tìm kiếm là máy chủ Rambler (Rambler.ru), được đặt tại http://rambler.ru. Giao diện trang chính của máy chủ được hiển thị trong hình.

Cơm. 1.

Các máy chủ tìm kiếm thường tạo các thư mục tài nguyên Internet của riêng chúng. Danh mục máy chủ tìm kiếm được cập nhật thường xuyên với thông tin về các tài nguyên được tạo trên mạng, đến từ các robot tìm kiếm. Robot tìm kiếm hoặc nhện rất đặc biệt chương trình mạng, truy cập các máy chủ Internet hiện có, phân tích tài liệu và bổ sung các bảng của công cụ tìm kiếm của họ. Robot tìm kiếm thực hiện công việc tìm kiếm và hệ thống hóa các tài nguyên trong lý lịch xung quanh đồng hồ.

Một nguồn thu nhập khác cho máy chủ tìm kiếm thông tin về các trang web hiện có - đăng ký tài nguyên rõ ràng của chủ sở hữu trang web. Máy chủ có các biểu mẫu mà chủ sở hữu tài nguyên điền vào. Biểu mẫu chỉ định địa chỉ tài nguyên, một mô tả ngắn gọn về, từ khóa, các đối tượng mục tiêu v.v. Thông tin này được phân tích và thêm vào thư mục máy chủ một cách tự động bởi các chương trình đặc biệt hoặc “thủ công” bởi các chuyên gia - chuyên gia giám sát việc hình thành các thư mục tài nguyên.

Hiểu các cơ chế tìm kiếm thông tin trên Internet cho phép các nhà phát triển trang web chuẩn bị tài liệu của họ để sau này các công cụ tìm kiếm có thể tìm thấy chúng và đặt chúng vào các phần thích hợp của thư mục tài nguyên.

Tìm kiếm theo từ khóa trên Internet

Một trong những cách phổ biến để tìm kiếm tài liệu trên WWW là tìm kiếm bằng từ khóa. Khi bạn chỉ định từ khóa trong biểu mẫu tìm kiếm, công cụ tìm kiếm sẽ tìm kiếm các tài liệu có chứa từ khóa được chỉ định. Tất nhiên, để thực hiện một truy vấn, công cụ tìm kiếm sẽ không tìm kiếm nội dung của hàng nghìn máy tính hoạt động trên Internet - bạn sẽ phải đợi nhiều ngày để có kết quả tìm kiếm như vậy. Việc tìm kiếm được thực hiện giữa các tài nguyên (danh mục, bảng) của công cụ tìm kiếm đã được thu thập và hệ thống hóa trước đó với sự trợ giúp của robot và chuyên gia.

Do khối lượng tài nguyên mạng thực sự trở nên vô hạn nên khi yêu cầu tìm kiếm tài liệu bằng từ khóa, công cụ tìm kiếm có thể tìm thấy hàng nghìn tài liệu có chứa từ khóa được chỉ định. Rõ ràng là với rất nhiều tài liệu, thật khó để tìm được tài liệu phù hợp nhất với một chủ đề nhất định. Tuy nhiên, các công cụ tìm kiếm thường cung cấp cơ hội để hình thành một truy vấn chi tiết hơn.

Yêu cầu có thể có hình dáng phức tạp và được biên soạn bằng cách sử dụng từ khóa và hàm logic AND (AND), OR (OR), phủ định (NOT). Hoặc yêu cầu tìm kiếm có thể được tạo bằng cách sử dụng ký tự đặc biệt, cho phép bạn đặt (hoặc hủy) dạng từ của từ khóa. Các cơ chế như vậy giúp xây dựng chính xác hơn các yêu cầu lựa chọn tài liệu. Mỗi công cụ tìm kiếm đều có hệ thống trợ giúp, điều này sẽ giúp khách truy cập tạo truy vấn tìm kiếm.

Tất nhiên, danh sách các công cụ tìm kiếm phổ biến không dừng lại ở đó – số lượng của chúng lên tới hàng trăm. Tuy nhiên, tôi chắc chắn rằng những điều này sẽ là quá đủ để bạn làm việc với các trang web tiếng Anh.

Cần lưu ý rằng hầu hết tất cả các công cụ tìm kiếm được trình bày ở trên đều có thể hoạt động với bảng chữ cái Cyrillic. Nhưng để tìm kiếm thông tin bằng tiếng Nga, tôi vẫn khuyên dùng các công cụ tìm kiếm trong nước:

Có những công cụ tìm kiếm bằng tiếng Nga khác, nhưng đây là những công cụ phổ biến nhất, đặc biệt là hai công cụ đầu tiên.

Cơm. 4.1. Máy tìm kiếm hệ thống Google

Từ cuốn sách Chống PR đen trên Internet tác giả Kuzin Alexander Vladimirovich

Các công cụ tìm kiếm và thư mục làm công cụ quảng bá các tài nguyên Internet “chiến đấu” và lấp đầy nội dung cho chúng Phần này được viết bằng cách sử dụng một số tài liệu từ cuốn sách “Internet Intelligence: A Guide to Action”.

Từ cuốn sách Blog. Tạo và quảng bá tác giả Yushchuk Evgeniy Vladimirovich

Công cụ tìm kiếm và thư mục làm công cụ để quảng bá blog và lấp đầy nội dung vào đó Chúng ta sẽ nói về việc tự động hóa nội dung blog nội dung thú vị, tức là làm thế nào để tìm tài liệu cho blog nhanh hơn các blogger khác. Hầu hết người đọc sẽ không thể làm được

Từ cuốn sách Internet Intelligence [Hướng dẫn hành động] tác giả Yushchuk Evgeniy Leonidovich

Biên soạn các truy vấn liên quan đến tên công ty trong công cụ tìm kiếm

Từ cuốn sách Lắp ráp máy tính bằng tay của chính bạn tác giả Vatamanyuk Alexander Ivanovich

5.2. Hệ điều hành phổ biến Có rất nhiều các hệ điều hành và mỗi loại đều có mức độ phổ biến riêng. Một số hệ thống tốt hơn cho việc kết nối mạng, trong khi những hệ thống khác tốt hơn cho tuổi thọ pin, vì bạn có thể kết hợp mọi thứ mà không làm giảm hiệu suất và

Từ cuốn sách Câu hỏi thường gặp về Win2K (v. 6.0) tác giả Shashkov Alexey

(6.10) Có mạng hỗn hợp, netware và NT, máy khách W2kPro và W98. Máy có W98 không thể đăng nhập vào máy có W2k. Để giải quyết vấn đề này, bạn cần liên kết bằng các giao thức: chỉ IPX/SPX với máy khách Novell, chỉ TCP/IP với khách hàng Microsoft. Bạn có thể làm điều này trong thuộc tính kết nối mạng thực đơn

Từ cuốn sách Tóm tắt, đồ án, bằng tốt nghiệp trên máy tính tác giả

Công cụ tìm kiếm Nếu bạn cần tuyển chọn các tài liệu về thông tin cụ thể và chuyên biệt hơn, tốt hơn hết bạn nên sử dụng các công cụ tìm kiếm. Công cụ tìm kiếm là một công cụ phức tạp chương trình đặc biệtđể tìm kiếm trên web. Họ thoát khỏi những nhược điểm cố hữu

Từ cuốn sách Internet. Cơ hội mới. Thủ thuật và hiệu ứng tác giả Balovsyak Nadezhda Vasilievna

Cách thức hoạt động của các công cụ tìm kiếm và cách xây dựng các truy vấn chính xác Các công cụ tìm kiếm hiện đại là một tập hợp các chương trình đặc biệt được thiết kế để tìm kiếm thông tin trên Internet. Nguyên tắc hoạt động của chúng như sau: đôi khi chúng

Từ cuốn sách Internet 100%. Hướng dẫn chi tiết: từ cơ bản đến chuyên nghiệp tác giả Gladky Alexey Anatolievich

Rạp chiếu phim trực tuyến phổ biến Một trong những rạp chiếu phim trực tuyến miễn phí phổ biến có tại http://vsekino.tv (Hình 7.5). Cơm.

Từ cuốn sách Internet - dễ dàng và đơn giản! tác giả Alexandrov Egor

Danh mục phổ biến Phổ biến nhất và danh mục đầy đủ trên thế giới chắc chắn là Yahoo! (http://dir.yahoo.com) (Hình 4.4). Cơm. 4.4. Thư mục phổ biến nhất của các liên kết Yahoo! Cần lưu ý rằng các thư mục thường được kết hợp với các công cụ tìm kiếm, rất nhiều trong số đó được trình bày

Từ cuốn sách Yandex cho mọi người tác giả Abramzon M. G.

1.11.3. Bài viết phổ biến Danh sách các bài viết phổ biến được cập nhật mỗi ngày một lần. Hàng chục hồ sơ như vậy đã được lựa chọn, nhưng chỉ một vài trong số những hồ sơ phổ biến nhất được gửi tới. trang tiêu đề Phần tìm kiếm. Phần còn lại có thể xem tại link Total record.

Từ cuốn sách Cách tìm và tải xuống bất kỳ tệp nào trên Internet tác giả Reitman M.A.

1.11.6. Các danh mục phổ biến Nếu trước đây chúng ta nói về thứ hạng của các blogger, dịch vụ và các bài đăng phổ biến nhất thì bây giờ chúng ta sẽ nói về các danh mục. Thể loại tin nhắn của họ được xác định bởi tác giả của họ. Làm thế nào, tại sao, vì thế - phụ thuộc vào chủ đề, thời trang, tâm trạng. Tuy nhiên

Từ cuốn sách Những bước đầu tiên với Windows 7. Hướng dẫn cho người mới bắt đầu tác giả Kolisnichenko Denis N.

1.11.7. Tin tức phổ biến Xếp hạng tin tức của dịch vụ Yandex được đánh dấu thành một khối riêng biệt giữa các chỉ số khác. Tin tức. Đây là những tin tức được thảo luận nhiều nhất trên blog. Danh sách tin tức phổ biến được cập nhật 5-10 phút một lần. Nếu bạn theo liên kết từ

Từ cuốn sách Gặp gỡ máy tính xách tay tác giả Zhukov Ivan

Các trình theo dõi phổ biến Có rất nhiều trình theo dõi torrent trên thế giới có dịch vụ mà bạn có thể sử dụng. Sau đây là những trình theo dõi phổ biến nhất.? http://lostfilm.tv là trang theo dõi chuyên về phim truyền hình nhiều tập. Theo quy định, các bản phát hành có lồng tiếng chuyên nghiệp và chất lượng.

Từ cuốn sách Bảo mật CNTT: có đáng để tập đoàn mạo hiểm không? bởi Linda McCarthy

10.2.1. Công cụ tìm kiếm Internet chứa một lượng thông tin khổng lồ. Suy cho cùng, bất kỳ ai cũng có thể tạo một trang web trên Internet, vì vậy số lượng trang web mới đang tăng lên mỗi ngày. Công cụ tìm kiếm được sử dụng để tìm kiếm trên Internet. Công cụ tìm kiếm là một công cụ đặc biệt

Từ cuốn sách của tác giả

Các ứng dụng Internet phổ biến ICQ (ICQ) ICQ là một dịch vụ nhắn tin tức thời tập trung. Người dùng dịch vụ (tức là bạn) làm việc với một chương trình khách (được gọi là “người đưa tin”). Tin nhắn được gửi ngay lập tức. Bạn cũng có thể

Từ cuốn sách của tác giả

Danh sách gửi thư phổ biến của Bugtraq Danh sách này thảo luận về các lỗ hổng UNIX, cách chúng có thể bị khai thác và cách đóng chúng. Mục đích của nó không phải là dạy cách hack hệ thống mà là cách phát hiện các lỗ hổng, cách chia sẻ thông tin về chúng, cách