Làm cách nào để kiểm tra xem robot có thuộc về Yandex. Robot tìm kiếm là gì? Chức năng của robot tìm kiếm "Yandex" và Google

Robot tìm kiếm (bot, nhện, nhện, trình thu thập thông tin) là một chương trình công cụ tìm kiếm đặc biệt được thiết kế để quét các trang web trên Internet.

Nhiều người không biết rằng bot quét chỉ đơn giản là thu thập và lưu trữ thông tin. Họ không xử lý nó. Các chương trình khác làm điều này.

Nếu bạn muốn xem trang web qua con mắt của robot tìm kiếm, bạn có thể thực hiện việc này thông qua bảng quản trị trang web.

Bạn có thể thấy cách Google hoạt động thông qua bảng quản trị trang web. Ở đó bạn cần thêm trang web của mình và sau đó bạn có thể xem trang:

https://www.google.com/webmasters/tools/googlebot-fetch?hl=ru

Bạn có thể xem Yandex thông qua bản sao đã lưu của trang. Để thực hiện việc này, hãy tìm trang mong muốn trong tìm kiếm Yandex, nhấp vào “bản sao đã lưu” và sau đó “xem phiên bản văn bản”.

Dưới đây là danh sách các robot tìm kiếm truy cập trang web của chúng tôi. Một số trong số họ lập chỉ mục các trang web, một số khác giám sát quảng cáo theo ngữ cảnh. Có những robot chuyên dụng thực hiện một số nhiệm vụ hẹp nhất định. Ví dụ: họ lập chỉ mục hình ảnh hoặc tin tức.

Nhận biết robot bằng mắt thường, bạn có thể cấm hoặc cho phép nó thu thập thông tin xung quanh trang web, từ đó giảm tải cho máy chủ. Vâng, hoặc bảo vệ thông tin của bạn khỏi bị xâm nhập vào mạng.

Robot tìm kiếm Yandex

Công cụ tìm kiếm Yandex có hàng tá robot tìm kiếm được chúng tôi biết đến. Dưới đây là danh sách các bot mà tôi đã tìm được, bao gồm cả từ trợ giúp chính thức.

YandexBot là robot lập chỉ mục chính;
YandexMedia là robot lập chỉ mục dữ liệu đa phương tiện;
YandexImages - Trình lập chỉ mục Yandex.Images;
YandexCatalog - một công cụ “khai thác” dành cho Yandex.Catalog, được sử dụng để tạm thời xóa các trang web không có sẵn khỏi ấn bản trong Danh mục;
YaDirectFetcher - Robot Yandex.Direct;
YandexBlogs là một rô-bốt tìm kiếm blog có chức năng lập chỉ mục các bài đăng và nhận xét;
YandexNews - Robot Yandex.News;
YandexWebmaster – xuất hiện khi thêm một trang web thông qua diễn đàn AddURL;
YandexPagechecker - trình xác thực đánh dấu vi mô;
YandexFavicons - công cụ lập chỉ mục favicon
YandexMetrika - Robot Yandex.Metrica;
YandexMarket - Robot Yandex.Market;
YandexCalendar là robot Yandex.Calendar.

Robot tìm kiếm Google (bot)

Googlebot là robot lập chỉ mục chính;
Googlebot Nes - người lập chỉ mục tin tức;
Hình ảnh Googlebot - trình lập chỉ mục hình ảnh;
Googlebot Video - robot cho dữ liệu video;
Google Mobile - người lập chỉ mục nội dung di động;
Google Mobile AdSense - robot AdSense trên điện thoại di động
Google AdSense - Robot AdSense
Google AdsBot – bot kiểm tra chất lượng trang đích
Mediapartners-Google - Robot AdSense

Robot của các công cụ tìm kiếm khác

Ngoài ra, trong nhật ký trang web của bạn, bạn có thể tình cờ gặp một số robot của các công cụ tìm kiếm khác.

Rambler - StackRambler
Mail.ru - Mail.Ru
Yahoo! — Slurp (hoặc Yahoo! Slurp)
AOL - Slurp
MSN - MSNBot
Trực tiếp - MSNBot
Hỏi - Teoma
Alexa - ia_archiver
Lycos - Lycos
Cảng - Cảng
Webalta - WebAlta (Trình thu thập thông tin WebAlta/2.0)

Ngoài các bot công cụ tìm kiếm, còn có một đội quân khổng lồ gồm đủ loại nhện cánh tả chạy khắp các trang web. Đây là nhiều trình phân tích cú pháp khác nhau thu thập thông tin từ các trang web, thường nhằm mục đích ích kỷ của người tạo ra chúng.

Một số ăn cắp nội dung, số khác ăn cắp hình ảnh, số khác hack các trang web và bí mật đặt liên kết. Nếu bạn nhận thấy rằng trình phân tích cú pháp như vậy đã tự đính kèm vào trang web của bạn, hãy chặn quyền truy cập của nó bằng mọi cách có thể, kể cả thông qua

Nhìn qua nhật ký máy chủ, đôi khi bạn có thể nhận thấy sự quan tâm quá mức đến các trang web từ robot tìm kiếm. Nếu các bot hữu ích (ví dụ: các bot lập chỉ mục PS), tất cả những gì còn lại là quan sát, ngay cả khi tải trên máy chủ tăng lên. Nhưng cũng có rất nhiều robot nhỏ không cần truy cập vào trang web. Đối với bản thân tôi và đối với bạn, quý độc giả thân mến, tôi đã thu thập thông tin và chuyển đổi nó thành một chiếc máy tính bảng tiện lợi.

Robot tìm kiếm là ai

Tìm kiếm bot, hay như chúng còn được gọi là robot, trình thu thập thông tin, nhện - không gì khác hơn một chương trình tìm kiếm và quét nội dung của các trang web bằng cách đi theo các liên kết trên các trang. Không chỉ các công cụ tìm kiếm mới có robot tìm kiếm. Ví dụ: dịch vụ Ahrefs sử dụng nhện để cải thiện dữ liệu về các liên kết ngược, Facebook thực hiện quét mã trang trên web để hiển thị các liên kết được đăng lại cùng với tiêu đề, hình ảnh và mô tả. Quét web là việc thu thập thông tin từ nhiều nguồn khác nhau.

Sử dụng tên nhện trong robots.txt

Như bạn có thể thấy, bất kỳ dự án nghiêm túc nào liên quan đến tìm kiếm nội dung đều có những con nhện riêng. Và đôi khi nhiệm vụ cấp bách là hạn chế quyền truy cập của một số con nhện nhất định vào trang web hoặc các phần riêng lẻ của nó. Điều này có thể được thực hiện thông qua tệp robots.txt trong thư mục gốc của trang web. Tôi đã viết thêm về cách thiết lập robot trước đó, tôi khuyên bạn nên đọc nó.

Xin lưu ý rằng tệp robots.txt và các chỉ thị của nó có thể bị robot tìm kiếm bỏ qua. Chỉ thị chỉ là khuyến nghị cho bot.

Bạn có thể đặt lệnh cho robot tìm kiếm bằng cách sử dụng phần - liên hệ với tác nhân người dùng của robot này. Các phần dành cho các nhện khác nhau được phân tách bằng một dòng trống.

Tác nhân người dùng: Googlebot Cho phép: /

Tác nhân người dùng: Googlebot

Cho phép: /

Trên đây là ví dụ về lệnh gọi tới công cụ tìm kiếm chính của Google.

Ban đầu, tôi dự định thêm các mục vào bảng về cách các bot tìm kiếm tự nhận dạng trong nhật ký máy chủ. Nhưng vì dữ liệu này ít quan trọng đối với SEO và đối với mỗi mã thông báo tác nhân có thể có một số loại bản ghi, nên người ta quyết định chỉ thực hiện với tên của các bot và mục đích của chúng.

Tìm kiếm robot G o g l e

Đại lý người dùng Chức năng
Googlebot Trình thu thập thông tin lập chỉ mục chính của các trang dành cho PC và được tối ưu hóa cho điện thoại thông minh
Đối tác truyền thông-Google Robot mạng quảng cáo AdSense
API-Google API-Tác nhân người dùng Google
AdsBot-Google Kiểm tra chất lượng quảng cáo trên các trang web dành cho PC
AdsBot-Google-Mobile Kiểm tra chất lượng quảng cáo trên các trang web được thiết kế cho thiết bị di động
Hình ảnh Googlebot (Googlebot) Lập chỉ mục hình ảnh trên các trang của trang web
Googlebot-Tin tức (Googlebot) Tìm kiếm các trang để thêm vào Google Tin tức
Googlebot-Video (Googlebot) Chỉ mục tài liệu video
AdsBot-Google-Mobile-Apps Kiểm tra chất lượng quảng cáo trong các ứng dụng dành cho thiết bị Android, hoạt động theo nguyên tắc giống như AdsBot thông thường

Tìm kiếm robot tôi ndex

Đại lý người dùng Chức năng
Yandex Khi bạn chỉ định mã thông báo tác nhân này trong robots.txt, yêu cầu sẽ được chuyển đến tất cả các bot Yandex
YandexBot Robot lập chỉ mục cơ bản
YandexDirect Tải xuống thông tin về nội dung của các trang đối tác YAN
Hình ảnh Yandex Lập chỉ mục hình ảnh trang web
YandexMetrika Robot Yandex.Metrica
YandexMobileBot Tải xuống tài liệu để phân tích sự hiện diện của bố cục cho thiết bị di động
YandexMedia Robot lập chỉ mục dữ liệu đa phương tiện
Tin tức Yandex Trình lập chỉ mục Yandex.News
YandexPagechecker Trình xác thực đánh dấu vi mô
YandexThị trường Robot Yandex.Market;
YandexLịch Robot Yandex.Calendar
YandexDirectDyn Tạo biểu ngữ động (Trực tiếp)
YaDirectFetcher Tải xuống các trang có quảng cáo để kiểm tra tính khả dụng của chúng và làm rõ chủ đề (YAN)
YandexKhả năng truy cậpBot Tải xuống các trang để kiểm tra tính khả dụng của chúng đối với người dùng
YandexẢnh chụp màn hìnhBot Chụp ảnh nhanh (ảnh chụp màn hình) của trang
YandexTrình phân tích cú pháp video Yandex.Nhện dịch vụ video
YandexTìm kiếmCửa hàng Tải xuống tệp YML của danh mục sản phẩm
YandexOntoDBAPI Bot phản hồi đối tượng tải xuống dữ liệu động

Các bot tìm kiếm phổ biến khác

Đại lý người dùng Chức năng
Baiduspider Con nhện của công cụ tìm kiếm Trung Quốc Baidu
Cliqzbot Robot của công cụ tìm kiếm ẩn danh Cliqz
AhrefsBot Bot tìm kiếm Ahrefs (phân tích liên kết)
Thần đèn Robot dịch vụ Genieo
Bingbot Trình thu thập thông tin của công cụ tìm kiếm Bing
xì xụp Trình thu thập thông tin của công cụ tìm kiếm Yahoo
VịtBot Trình thu thập dữ liệu web PS DuckDuckGo
facebot Robot Facebook để thu thập dữ liệu web
WebAlta (Trình thu thập thông tin WebAlta/2.0) Trình thu thập thông tin tìm kiếm PS WebAlta
BomboraBot Quét các trang liên quan đến dự án Bombora
CCBot Trình thu thập thông tin dựa trên Nutch sử dụng dự án Apache Hadoop
MSNBot Robot PS MSN
Thư.Ru Trình thu thập thông tin của công cụ tìm kiếm Mail.Ru
ia_archiver Loại bỏ dữ liệu cho dịch vụ Alexa
Teoma Hỏi bot dịch vụ

Có rất nhiều bot tìm kiếm, tôi chỉ chọn những bot phổ biến và nổi tiếng nhất. Nếu có những bot mà bạn gặp phải do quá trình quét trang web mạnh mẽ và liên tục, vui lòng cho biết điều này trong phần nhận xét, tôi cũng sẽ thêm chúng vào bảng.

Xóa toàn bộ trang web

Để xóa một trang web khỏi công cụ tìm kiếm và ngăn tất cả rô-bốt thu thập dữ liệu trang web đó trong tương lai, hãy đặt tệp robots.txt sau vào thư mục gốc của máy chủ:

Đại lý người dùng: *
Không cho phép: /

Để chỉ xóa một trang web khỏi Google và ngăn robot tìm kiếm của Google thu thập dữ liệu trang web đó trong tương lai, hãy đặt tệp robots.txt có nội dung sau vào thư mục gốc của máy chủ:

Tác nhân người dùng: Googlebot
Không cho phép: /

Mỗi cổng phải có tệp robots.txt riêng. Đặc biệt, nếu sử dụng giao thức http và https thì sẽ cần có các tệp robots.txt riêng biệt cho mỗi giao thức. Ví dụ: để cho phép trình thu thập thông tin của Google lập chỉ mục tất cả các trang http và ngăn nó thu thập dữ liệu https, các tệp robots.txt của bạn sẽ trông như thế này.

Đối với giao thức http ( http://yourserver.com/robots.txt):

Đại lý người dùng: *
Cho phép: /

Đối với giao thức https ( https://yourserver.com/robots.txt):

Đại lý người dùng: *
Không cho phép: /

Nếu tệp robots.txt vẫn còn trong thư mục gốc của máy chủ web thì Google sẽ không thu thập dữ liệu trang web hoặc các thư mục của trang web đó trong tương lai. Nếu không có quyền truy cập vào thư mục gốc của máy chủ, bạn có thể đặt tệp robots.txt ở cùng cấp độ với các tệp bạn muốn xóa. Sau khi bạn thực hiện việc này và sử dụng hệ thống xóa URL tự động, trang web sẽ tạm thời bị xóa khỏi chỉ mục của Google trong 180 ngày, bất kể tệp robots.txt có bị xóa sau khi yêu cầu được xử lý hay không. (Nếu bạn để tệp robots.txt ở cùng cấp độ, URL sẽ cần được hệ thống tự động xóa sau mỗi 180 ngày.)

Xóa một phần của trang web

Tùy chọn 1. Robots.txt

Để xóa các thư mục hoặc các trang riêng lẻ của một trang web, bạn có thể đặt tệp robots.txt vào thư mục gốc của máy chủ. Để biết thông tin về cách tạo tệp robots.txt, hãy xem Tiêu chuẩn ngoại lệ của robot. Khi tạo tệp robots.txt, hãy ghi nhớ những điểm sau. Khi quyết định thu thập dữ liệu những trang nào trên một máy chủ cụ thể, trình thu thập thông tin của Google sẽ hoạt động theo mục nhập đầu tiên trong tệp robots.txt, trong đó thông số Tác nhân người dùng bắt đầu bằng từ "Googlebot". Nếu không có mục nhập như vậy, quy tắc đầu tiên sẽ được thực thi, trong đó Tác nhân người dùng là “*”. Ngoài ra, Google cho phép bạn sử dụng tệp robots.txt linh hoạt hơn bằng cách sử dụng dấu hoa thị. Trong các mẫu từ chối, ký tự "*" có thể đại diện cho bất kỳ chuỗi ký tự nào. Mẫu có thể kết thúc bằng ký tự "$", đánh dấu sự kết thúc của tên.

Để xóa tất cả các trang trong một thư mục cụ thể (ví dụ: "vượn cáo"), hãy thêm mục nhập sau vào tệp robots.txt:

Tác nhân người dùng: Googlebot
Không cho phép: /vượn cáo

Để xóa tất cả các tệp thuộc một loại nhất định (ví dụ: .gif), hãy thêm mục nhập sau vào tệp robots.txt của bạn:

Tác nhân người dùng: Googlebot
Không cho phép: /*.gif$

Để xóa các trang được tạo động, hãy thêm mục nhập sau vào tệp robots.txt của bạn:

Tác nhân người dùng: Googlebot
Không cho phép: /*?

Tùy chọn 2. Thẻ meta

Một tiêu chuẩn khác, thuận tiện hơn khi làm việc với các trang, cung cấp việc sử dụng thẻ meta trên trang HTML để cấm robot lập chỉ mục trang. Tiêu chuẩn này được mô tả trên trang.

Để ngăn tất cả rô-bốt lập chỉ mục một trang của trang web, hãy thêm thẻ meta sau vào một phần của trang đó:

Để ngăn chỉ các robot của Google lập chỉ mục một trang và cho phép người khác lập chỉ mục trang đó, hãy sử dụng thẻ sau:

Để cho phép robot lập chỉ mục một trang nhưng không theo các liên kết bên ngoài, hãy sử dụng thẻ sau:

Ghi chú. Nếu yêu cầu của bạn khẩn cấp và không thể chờ lần thu thập thông tin tiếp theo của Google, hãy sử dụng hệ thống xóa URL tự động. Để kích hoạt quá trình tự động này, trước tiên quản trị viên web phải chèn thẻ meta thích hợp vào mã trang HTML. Sau đó, các thư mục sẽ tạm thời bị xóa khỏi chỉ mục của Google trong 180 ngày, bất kể bạn xóa tệp robots.txt hay thẻ meta sau khi xử lý yêu cầu.

Loại bỏ các đoạn (đoạn)

Đoạn (đoạn) là văn bản xuất hiện dưới tiêu đề trang trong danh sách kết quả tìm kiếm và mô tả nội dung của trang.

Để ngăn Google hiển thị các đoạn từ trang của bạn, hãy thêm vào phần thẻ tiếp theo:

Ghi chú. Khi các đoạn bị xóa, các trang được lưu trong bộ nhớ đệm cũng bị xóa.

Xóa các trang được lưu trong bộ nhớ đệm

Google tự động tạo và lưu trữ ảnh chụp nhanh của mỗi trang mà nó thu thập dữ liệu. Việc có các phiên bản được lưu trong bộ nhớ đệm này cho phép người dùng cuối tìm thấy các trang ngay cả khi chúng không có sẵn (do sự cố tạm thời với máy chủ lưu trữ trang). Người dùng sẽ thấy các trang được lưu trong bộ nhớ đệm giống như khi Google thu thập dữ liệu chúng. Một thông báo xuất hiện ở đầu trang cho biết đây là phiên bản được lưu trong bộ nhớ đệm. Để truy cập một trang như vậy, người dùng phải chọn liên kết "Đã lưu trong bộ nhớ cache" trên trang kết quả tìm kiếm.

Để ngăn tất cả các công cụ tìm kiếm hiển thị liên kết này đến trang web của bạn, hãy thêm vào phần thẻ tiếp theo:

Ghi chú. Nếu yêu cầu của bạn là khẩn cấp và không thể đợi phiên tiếp theo của robot Google thu thập dữ liệu trang web của bạn, hãy sử dụng hệ thống xóa URL tự động. Để kích hoạt quá trình tự động này, trước tiên quản trị viên web phải chèn thẻ meta thích hợp vào mã HTML của trang.

Xóa hình ảnh khỏi tìm kiếm hình ảnh của Google

Để xóa hình ảnh khỏi Chỉ mục hình ảnh của Google, hãy đặt tệp robots.txt vào thư mục gốc của máy chủ. (Nếu không thể, hãy đặt nó ở cấp thư mục).

Ví dụ: Nếu bạn muốn xóa hình ảnh sobaki.jpg khỏi chỉ mục của Google, nằm trên trang web của bạn tại www.vash-sajt.ru/kartinki/sobaki.jpg, hãy tạo một trang www.vash-sajt.ru/robots.txt và thêm vào đó dòng văn bản sau:

Tác nhân người dùng: Googlebot-Image
Không cho phép: /images/dogs.jpg

Để xóa tất cả hình ảnh trên trang web khỏi chỉ mục, hãy đặt tệp robots.txt có nội dung sau vào thư mục gốc của máy chủ:

Tác nhân người dùng: Googlebot-Image
Không cho phép: /

Đây là giao thức chuẩn mà hầu hết các máy quét đều tuân theo; nó cho phép bạn xóa máy chủ hoặc thư mục khỏi chỉ mục. Thông tin thêm về robots.txt có sẵn trên trang

Google cũng cho phép bạn sử dụng tệp robots.txt của mình linh hoạt hơn bằng cách sử dụng dấu hoa thị. Trong các mẫu từ chối, ký tự "*" có thể đại diện cho bất kỳ chuỗi ký tự nào. Mẫu có thể kết thúc bằng ký tự "$", đánh dấu sự kết thúc của tên. Để xóa tất cả các tệp thuộc một loại nhất định (ví dụ: để hình ảnh ở định dạng .jpg và xóa những hình ảnh ở định dạng .gif), hãy thêm mục nhập sau vào tệp robots.txt:

Tác nhân người dùng: Googlebot-Image
Không cho phép: /*.gif$

Ghi chú. Nếu yêu cầu của bạn là khẩn cấp và không thể đợi phiên tiếp theo của robot Google thu thập dữ liệu trang web của bạn, hãy sử dụng hệ thống xóa URL tự động. Để bắt đầu quá trình tự động này, trước tiên quản trị viên web phải tạo tệp robots.txt và đặt tệp đó vào trang web thích hợp.

Nếu tệp robots.txt vẫn còn trong thư mục gốc của máy chủ web, Google sẽ không thu thập dữ liệu trang web hoặc các thư mục của nó nữa. Nếu không có quyền truy cập vào thư mục gốc của máy chủ, bạn có thể đặt tệp robots.txt ở cùng cấp độ với các tệp bạn muốn xóa. Sau khi bạn thực hiện việc này và sử dụng hệ thống xóa URL tự động, các thư mục được liệt kê trong tệp robots.txt sẽ tạm thời bị xóa khỏi chỉ mục của Google trong 180 ngày, bất kể bạn có xóa tệp robots.txt sau khi xử lý yêu cầu hay không. (Nếu bạn để tệp robots.txt ở cùng cấp độ, URL sẽ cần được hệ thống tự động xóa sau mỗi 180 ngày.)

Một số robot có thể cải trang thành robot Yandex bằng cách chỉ định Tác nhân người dùng thích hợp. Bạn có thể xác minh rằng robot chính là người mà nó tuyên bố đang sử dụng nhận dạng dựa trên tra cứu DNS ngược.

Để làm điều này, bạn cần phải làm như sau:

    Đối với tác nhân người dùng quan tâm, hãy xác định địa chỉ IP từ nhật ký máy chủ của bạn. Tất cả các robot Yandex đều được thể hiện bằng Tác nhân người dùng được chỉ định.

    Sử dụng địa chỉ IP nhận được, xác định tên miền của máy chủ bằng truy vấn DNS ngược.

    Sau khi xác định tên máy chủ, bạn có thể kiểm tra xem nó thuộc về Yandex..net" hay "yandex.com". Nếu tên máy chủ có phần cuối khác, điều này có nghĩa là robot không thuộc về Yandex.

    Cuối cùng, hãy đảm bảo tên bạn nhận được là chính xác. Để thực hiện việc này, bạn cần sử dụng tra cứu DNS chuyển tiếp để lấy địa chỉ IP tương ứng với tên máy chủ. Nó phải khớp với địa chỉ IP được sử dụng trong tra cứu DNS ngược. Nếu địa chỉ IP không khớp, điều đó có nghĩa là tên máy chủ nhận được là giả mạo.

Robot Yandex trong nhật ký máy chủ

Câu hỏi và câu trả lời

Cách bảo vệ bạn khỏi những robot lừa đảo giả danh robot Yandex

Nếu bạn muốn bảo vệ mình khỏi các rô-bốt lừa đảo giả danh rô-bốt Yandex, bạn có thể sử dụng tính năng lọc dựa trên truy vấn DNS ngược. Lược đồ này thích hợp hơn để kiểm soát truy cập dựa trên địa chỉ IP, vì nó có khả năng chống lại những thay đổi trong mạng nội bộ Yandex.

Lượng lưu lượng truy cập giữa máy chủ web của tôi và robot của bạn quá lớn. Có hỗ trợ tải trang ở dạng nén không?

Vâng, nó tồn tại. Robot tìm kiếm Yandex sẽ nói với mỗi yêu cầu trang: "Chấp nhận-Mã hóa: gzip,deflate". Điều này có nghĩa là bằng cách định cấu hình máy chủ web phù hợp, bạn có thể giảm lượng lưu lượng truy cập được truyền giữa nó và robot của chúng tôi. Tuy nhiên, hãy nhớ rằng việc truyền nội dung ở dạng nén sẽ làm tăng tải cho CPU máy chủ của bạn và nếu nội dung đó được tải nhiều thì có thể phát sinh vấn đề. Hỗ trợ gzip và giảm phát, robot tuân thủ tiêu chuẩn rfc2616.