Làm cách nào để chỉnh sửa tệp txt robot. Đề xuất thiết lập tệp txt robot

Điều này đòi hỏi phải có hướng dẫn thực hiện; các công cụ tìm kiếm cũng không ngoại lệ, đó là lý do tại sao họ đưa ra một tệp đặc biệt có tên là robot.txt. Tệp này phải được đặt trong thư mục gốc của trang web của bạn hoặc có thể là tệp ảo nhưng phải được mở theo yêu cầu: www.yoursite.ru/robots.txt

Các công cụ tìm kiếm từ lâu đã học cách phân biệt các tệp html cần thiết với các tập lệnh nội bộ của hệ thống CMS của bạn, hay đúng hơn, chúng đã học cách nhận biết các liên kết đến các bài viết nội dung và tất cả các loại rác rưởi. Vì vậy, nhiều quản trị viên web đã quên làm robot cho trang web của họ và nghĩ rằng mọi thứ sẽ ổn. Đúng, họ đúng 99%, bởi vì nếu trang web của bạn không có tệp này, thì các công cụ tìm kiếm sẽ không có giới hạn trong việc tìm kiếm nội dung, nhưng có những sắc thái, những lỗi có thể được xử lý trước.

Nếu bạn gặp bất kỳ vấn đề nào với tệp này trên trang web, hãy viết bình luận về bài viết này và tôi sẽ nhanh chóng giúp bạn việc này, hoàn toàn miễn phí. Rất thường xuyên, quản trị viên web mắc phải những lỗi nhỏ trong đó, dẫn đến việc lập chỉ mục trang web kém hoặc thậm chí bị loại khỏi chỉ mục.

Robot.txt dùng để làm gì?

Tệp robots.txt được tạo để định cấu hình việc công cụ tìm kiếm lập chỉ mục chính xác cho trang web. Nghĩa là, nó chứa các quy tắc về quyền và lệnh cấm đối với một số đường dẫn nhất định trên trang web hoặc loại nội dung của bạn. Nhưng đây không phải là thuốc chữa bách bệnh. Tất cả quy tắc trong tệp robot không phải là hướng dẫn hãy làm theo chúng một cách chính xác nhưng chỉ là đề xuất cho các công cụ tìm kiếm. Google ví dụ viết:

Bạn không thể sử dụng tệp robots.txt để ẩn một trang khỏi kết quả của Google Tìm kiếm. Các trang khác có thể liên kết tới nó và nó vẫn sẽ được lập chỉ mục.

Robot tìm kiếm tự quyết định những gì cần lập chỉ mục và những gì không, cũng như cách hoạt động trên trang web. Mỗi công cụ tìm kiếm đều có nhiệm vụ và chức năng riêng. Dù chúng ta có muốn bao nhiêu đi chăng nữa thì đây cũng không phải là cách để thuần hóa chúng.

Nhưng có một thủ thuật không liên quan trực tiếp đến chủ đề của bài viết này. Để ngăn chặn hoàn toàn việc robot lập chỉ mục và hiển thị một trang trong kết quả tìm kiếm, bạn cần viết:

Hãy quay trở lại với robot. Các quy tắc trong tệp này có thể chặn hoặc cho phép truy cập vào các loại tệp sau:

  • Tệp phi đồ họa. Về cơ bản đây là những tệp html chứa một số thông tin. Bạn có thể đóng các trang trùng lặp hoặc các trang không cung cấp bất kỳ thông tin hữu ích nào (trang phân trang, trang lịch, trang lưu trữ, trang hồ sơ, v.v.).
  • Tệp đồ họa. Nếu bạn muốn hình ảnh trang web không được hiển thị trong tìm kiếm, bạn có thể đặt tùy chọn này trong tệp robots.
  • Tệp tài nguyên. Ngoài ra, bằng cách sử dụng robot, bạn có thể chặn lập chỉ mục các tập lệnh khác nhau, tệp kiểu CSS và các tài nguyên không quan trọng khác. Nhưng bạn không nên chặn các tài nguyên chịu trách nhiệm về phần trực quan của trang web đối với khách truy cập (ví dụ: nếu bạn đóng css và js của trang web hiển thị các khối hoặc bảng đẹp mắt, robot tìm kiếm sẽ không nhìn thấy điều này và sẽ phàn nàn về Nó).

Để thấy rõ cách thức hoạt động của robot, hãy nhìn vào hình ảnh bên dưới:

Robot tìm kiếm, theo dõi một trang web, xem xét các quy tắc lập chỉ mục, sau đó bắt đầu lập chỉ mục theo đề xuất của tệp.
Tùy thuộc vào cài đặt quy tắc, công cụ tìm kiếm biết những gì có thể được lập chỉ mục và những gì không thể.

Từ tệp robots.txt intax

Để viết các quy tắc cho công cụ tìm kiếm, các lệnh với nhiều tham số khác nhau được sử dụng trong tệp rô-bốt, với sự trợ giúp của rô-bốt tuân theo. Hãy bắt đầu với chỉ thị đầu tiên và có lẽ là quan trọng nhất:

Chỉ thị tác nhân người dùng

Đại lý người dùng— Với lệnh này, bạn chỉ định tên của robot sẽ sử dụng các đề xuất trong tệp. Chính thức có 302 robot loại này trên thế giới Internet. Tất nhiên, bạn có thể viết quy tắc riêng cho từng người, nhưng nếu bạn không có thời gian cho việc này, chỉ cần viết:

Đại lý người dùng: *

*-trong ví dụ này có nghĩa là “Tất cả”. Những thứ kia. tệp robots.txt của bạn phải bắt đầu bằng “chính xác ai” là tệp dành cho ai. Để không phải bận tâm đến tất cả tên của robot, chỉ cần viết một “dấu hoa thị” trong chỉ thị tác nhân người dùng.

Tôi sẽ cung cấp cho bạn danh sách chi tiết về robot của các công cụ tìm kiếm phổ biến:

Google - Googlebot-robot chính

Các robot Google khác

Googlebot-Tin tức- robot tìm kiếm tin tức
Hình ảnh Googlebot- hình ảnh robot
Googlebot-Video- video về robot
Googlebot-Di động- phiên bản di động robot
AdsBot-Google- robot kiểm tra chất lượng trang đích
Đối tác truyền thông-Google— Robot dịch vụ AdSense

Yandex - YandexBot- robot lập chỉ mục chính;

Robot Yandex khác

Chỉ thị Disallow và Allow

Không cho phép- quy tắc cơ bản nhất trong robot, với sự trợ giúp của chỉ thị này, bạn cấm lập chỉ mục một số vị trí nhất định trên trang web của mình. Chỉ thị được viết như thế này:

Không cho phép:

Rất thường xuyên, bạn có thể thấy lệnh Disallow: trống, tức là. được cho là đang nói với robot rằng không có gì bị cấm trên trang web, hãy lập chỉ mục bất cứ thứ gì bạn muốn. Hãy cẩn thận! Nếu bạn đặt / vào không cho phép thì bạn sẽ đóng hoàn toàn việc lập chỉ mục trang web.

Do đó, phiên bản tiêu chuẩn nhất của robots.txt, “cho phép lập chỉ mục toàn bộ trang web cho tất cả các công cụ tìm kiếm,” trông như thế này:

Tác nhân người dùng: * Không cho phép:

Nếu bạn không biết phải viết gì trong robots.txt nhưng đã nghe nói về nó ở đâu đó, chỉ cần sao chép đoạn mã trên, lưu nó vào một tệp có tên robots.txt và tải nó lên thư mục gốc của trang web của bạn. Hoặc không tạo bất cứ thứ gì, vì ngay cả khi không có nó, robot vẫn sẽ lập chỉ mục mọi thứ trên trang web của bạn. Hoặc đọc đến cuối bài viết, bạn sẽ hiểu cái gì nên đóng trên trang web và cái gì không.

Theo quy tắc của robot, phải có lệnh không cho phép.

Lệnh này có thể cấm cả một thư mục và một tập tin riêng lẻ.

Nếu bạn muốn cấm thư mục bạn nên viết:

Không cho phép: /thư mục/

Nếu bạn muốn cấm một tập tin cụ thể:

Không cho phép: /images/img.jpg

Nếu bạn muốn cấm một số loại tập tin nhất định:

Không cho phép: /*.png$

Biểu thức thông thường không được nhiều công cụ tìm kiếm hỗ trợ. Google hỗ trợ.

Cho phép— lệnh cho phép trong Robots.txt. Nó cho phép robot lập chỉ mục một đường dẫn hoặc tệp cụ thể trong thư mục bị cấm. Cho đến gần đây, nó chỉ được Yandex sử dụng. Google đã bắt kịp điều này và cũng bắt đầu sử dụng nó. Ví dụ:

Cho phép: /nội dung Không cho phép: /

Những chỉ thị này ngăn không cho lập chỉ mục tất cả nội dung trang ngoại trừ thư mục nội dung. Hoặc đây là một số chỉ thị phổ biến khác gần đây:

Cho phép: /template/*.js Cho phép: /template/*.css Không cho phép: /template

những giá trị cho phép tất cả các tệp CSS và JS trên trang web được lập chỉ mục, nhưng họ không cho phép lập chỉ mục mọi thứ trong thư mục có mẫu của bạn. Trong năm qua, Google đã gửi rất nhiều thư tới các webmaster với nội dung như sau:

Googlebot không thể truy cập các tệp CSS và JS trên trang web

Và nhận xét tương ứng: Chúng tôi đã phát hiện ra sự cố với trang web của bạn có thể khiến trang web không thể được thu thập dữ liệu. Googlebot không thể xử lý mã JavaScript và/hoặc tệp CSS do những hạn chế trong tệp robots.txt. Dữ liệu này là cần thiết để đánh giá hiệu suất của trang web. Do đó, nếu quyền truy cập vào tài nguyên bị chặn, điều này có thể làm xấu đi vị trí trang web của bạn trong Tìm kiếm..

Nếu bạn thêm hai lệnh cho phép được viết bằng mã cuối cùng vào Robots.txt thì bạn sẽ không thấy các thông báo tương tự từ Google.

Và việc sử dụng các ký tự đặc biệt trong robots.txt

Bây giờ về các dấu hiệu trong chỉ thị. Các dấu hiệu cơ bản (ký tự đặc biệt) trong việc cấm hoặc cho phép /,*,$ này

Giới thiệu về dấu gạch chéo lên “/”

Dấu gạch chéo rất dễ đánh lừa trong robots.txt. Tôi đã quan sát thấy một tình huống thú vị vài chục lần khi do thiếu hiểu biết, nội dung sau đã được thêm vào robots.txt:

Tác nhân người dùng: * Không cho phép: /

Bởi vì họ đọc ở đâu đó về cấu trúc của trang web và sao chép nó trên trang web của họ. Nhưng trong trường hợp này bạn cấm lập chỉ mục toàn bộ trang web.Để cấm lập chỉ mục một thư mục cụ thể, với tất cả các phần bên trong, bạn chắc chắn cần đặt / ở cuối. Ví dụ: nếu bạn viết Disallow: /seo, thì tất cả các liên kết trên trang web của bạn có chứa từ seo sẽ không được lập chỉ mục. Dù nó sẽ là một thư mục /seo/, dù nó sẽ là một danh mục /seo-tool/, dù nó sẽ là một bài viết /seo-best-of-the-best-soft.html, tất cả những điều này sẽ không được lập chỉ mục.

Hãy xem xét mọi thứ một cách cẩn thận / trong robots.txt của bạn

Luôn đặt / ở cuối thư mục. Nếu bạn đặt / vào Disallow thì bạn sẽ ngăn chặn việc lập chỉ mục toàn bộ trang web, nhưng nếu bạn không đặt / vào Allow thì bạn cũng sẽ ngăn chặn việc lập chỉ mục toàn bộ trang web. / - theo một nghĩa nào đó có nghĩa là “Mọi thứ tuân theo chỉ thị /”.

Giới thiệu về dấu hoa thị * trong robots.txt

Ký tự đặc biệt * có nghĩa là bất kỳ chuỗi ký tự nào (kể cả trống). Bạn có thể sử dụng nó ở bất cứ đâu trong robot như thế này:

Tác nhân người dùng: * Không cho phép: /papka/*.aspx Không cho phép: /*old

Cấm tất cả các tệp có phần mở rộng aspx trong thư mục papka và cũng cấm không chỉ thư mục /old mà còn cả lệnh /papka/old. Khó khăn? Vì vậy, tôi không khuyên bạn nên sử dụng biểu tượng * trong tệp robots.

Mặc định trong lập chỉ mục và cấm tập tin quy tắc robots.txt có * trên tất cả các lệnh!

Về ký tự đặc biệt $

Ký tự đặc biệt $ trong robot kết thúc tác dụng của ký tự đặc biệt *. Ví dụ:

Không cho phép: /menu$

Quy tắc này cấm '/menu', nhưng không cấm '/menu.html', tức là. Tệp chỉ cấm các công cụ tìm kiếm khỏi lệnh /menu và không thể cấm tất cả các tệp có menu từ trong URL.

Chỉ thị máy chủ

Quy tắc máy chủ chỉ hoạt động trong Yandex, vì vậy Là tùy chọn, nó sẽ xác định miền chính từ bản sao trang web của bạn, nếu có. Ví dụ: bạn có một miền dom.com, nhưng các miền sau cũng đã được mua và định cấu hình: dom2.com, dom3,com, dom4.com và từ đó có một chuyển hướng đến miền chính dom.com

Để giúp Yandex nhanh chóng xác định trang nào trong số đó là trang web chính (máy chủ), hãy viết thư mục máy chủ trong tệp robots.txt của bạn:

Máy chủ: trang web

Nếu trang web của bạn không có bản sao thì bạn không cần phải đặt quy tắc này. Nhưng trước tiên, hãy kiểm tra trang web của bạn theo địa chỉ IP, có thể trang chính của bạn sẽ mở từ đó và bạn nên đăng ký bản sao chính. Hoặc có thể ai đó đã sao chép tất cả thông tin từ trang web của bạn và tạo một bản sao chính xác, một mục nhập trong robots.txt nếu nó cũng bị đánh cắp sẽ giúp bạn điều này.

Cần có một mục nhập máy chủ và nếu cần, có cổng đã đăng ký. (Máy chủ: trang web: 8080)

Lệnh trì hoãn thu thập thông tin

Lệnh này được tạo ra để loại bỏ khả năng tải trên máy chủ của bạn. Các bot công cụ tìm kiếm có thể thực hiện hàng trăm yêu cầu tới trang web của bạn cùng lúc và nếu máy chủ của bạn yếu, điều này có thể gây ra những trục trặc nhỏ. Để ngăn điều này xảy ra, chúng tôi đã đưa ra quy tắc dành cho rô-bốt có độ trễ thu thập dữ liệu - đây là khoảng thời gian tối thiểu giữa khi tải một trang trên trang web của bạn. Nên đặt giá trị tiêu chuẩn cho lệnh này thành 2 giây. Trong Robot, nó trông như thế này:

Độ trễ thu thập thông tin: 2

Lệnh này hoạt động cho Yandex. Trong Google, bạn có thể đặt tần suất thu thập dữ liệu trong bảng quản trị trang web, trong phần Cài đặt trang web, ở góc trên bên phải bằng “bánh răng”.

Chỉ thị sạch-param

Tham số này cũng chỉ dành cho Yandex. Nếu địa chỉ trang của trang chứa các tham số động không ảnh hưởng đến nội dung của chúng (ví dụ: số nhận dạng phiên, người dùng, người giới thiệu, v.v.), bạn có thể mô tả chúng bằng lệnh Clean-param.

Sử dụng thông tin này, robot Yandex sẽ không tải lại thông tin trùng lặp nhiều lần. Điều này sẽ tăng hiệu quả thu thập dữ liệu trang web của bạn và giảm tải cho máy chủ.
Ví dụ: trang web có các trang:

www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123

Tham số giới thiệu chỉ được sử dụng để theo dõi yêu cầu được thực hiện từ tài nguyên nào và không thay đổi nội dung; cùng một trang với sách book_id=123 sẽ được hiển thị ở cả ba địa chỉ. Sau đó, nếu bạn chỉ định lệnh như sau:

Tác nhân người dùng: Yandex Không cho phép: Clean-param: ref /some_dir/get_book.pl

Robot Yandex sẽ giảm tất cả địa chỉ trang thành một:
www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123,
Nếu một trang không có tham số có sẵn trên trang web:
www.site.com/some_dir/get_book.pl?book_id=123
sau đó mọi thứ sẽ ổn khi nó được robot lập chỉ mục. Các trang khác trên trang web của bạn sẽ được thu thập thông tin thường xuyên hơn vì không cần phải làm mới trang:
www.site.com/some_dir/get_book.pl?ref=site_2&book_id=123
www.site.com/some_dir/get_book.pl?ref=site_3&book_id=123

#for các địa chỉ như: www.site1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.site1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243 #robots.txt sẽ chứa: Tác nhân người dùng: Yandex Disallow: Clean-param: s /forum/showthread.php

Chỉ thị sơ đồ trang web

Với lệnh này, bạn chỉ cần chỉ định vị trí của sitemap.xml của mình. Robot ghi nhớ điều này, “nói lời cảm ơn” và liên tục phân tích nó theo một đường dẫn nhất định. Nó trông như thế này:

Sơ đồ trang web: http://site/sitemap.xml

Bây giờ chúng ta hãy xem các câu hỏi chung phát sinh khi tạo robot. Có rất nhiều chủ đề như vậy trên Internet, vì vậy chúng tôi sẽ phân tích những chủ đề phù hợp nhất và phổ biến nhất.

Đúng robot.txt

Có rất nhiều từ “đúng” trong từ này, vì đối với một trang trên CMS này thì nó sẽ đúng nhưng trên một CMS khác thì nó sẽ tạo ra lỗi. “Cấu hình đúng” là riêng cho từng trang web. Trong Robots.txt, bạn cần ngừng lập chỉ mục những phần và những tệp mà người dùng không cần và không cung cấp bất kỳ giá trị nào cho công cụ tìm kiếm. Phiên bản robots.txt đơn giản và chính xác nhất

Tác nhân người dùng: * Không cho phép: Sơ đồ trang web: http://site/sitemap.xml Tác nhân người dùng: Yandex Không cho phép: Máy chủ: site.com

Tệp này chứa các quy tắc sau: cài đặt quy tắc cấm cho tất cả các công cụ tìm kiếm (Tác nhân người dùng: *), việc lập chỉ mục toàn bộ trang web được cho phép hoàn toàn (“Không cho phép:” hoặc bạn có thể chỉ định “Cho phép: /”), máy chủ của máy nhân bản chính cho Yandex được chỉ định (Máy chủ : site.ncom) và vị trí của Sitemap.xml của bạn (Sơ đồ trang web: .

R obots.txt cho WordPress

Một lần nữa, có rất nhiều câu hỏi, một trang web có thể là một cửa hàng trực tuyến, một trang khác là blog, trang thứ ba là trang đích, trang thứ tư là trang danh thiếp cho một công ty và tất cả những trang này có thể có trên CMS WordPress và các quy tắc dành cho rô bốt sẽ trở nên hoàn toàn khác Đây là robots.txt của tôi cho blog này:

Tác nhân người dùng: * Cho phép: /wp-content/uploads/ Cho phép: /wp-content/*.js$ Cho phép: /wp-content/*.css$ Cho phép: /wp-includes/*.js$ Cho phép: / wp-includes/*.css$ Không cho phép: /wp-login.php Không cho phép: /wp-register.php Không cho phép: /xmlrpc.php Không cho phép: /template.html Không cho phép: /wp-admin Không cho phép: /wp-includes Không cho phép: /wp-content Không cho phép: /category Không cho phép: /archive Không cho phép: */trackback/ Không cho phép: */feed/ Không cho phép: /?feed= Không cho phép: /job Không cho phép: /?.net/sitemap.xml

Có rất nhiều cài đặt ở đây, chúng ta hãy cùng nhau xem xét chúng.

Cho phép trong WordPress. Các quy tắc cho phép đầu tiên là dành cho nội dung mà người dùng cần (đây là những hình ảnh trong thư mục tải lên) và robot (đây là CSS và JS để hiển thị các trang). Đó là CSS và JS mà Google thường phàn nàn, vì vậy chúng tôi đã để chúng mở. Có thể sử dụng phương thức tất cả các tệp bằng cách chỉ cần chèn “/*.css$”, nhưng dòng cấm chính xác các thư mục chứa tệp này không cho phép sử dụng chúng để lập chỉ mục, vì vậy tôi phải chỉ định đường dẫn vào thư mục cấm đầy đủ.

Cho phép luôn trỏ đến đường dẫn của nội dung bị cấm trong Disallow. Nếu điều gì đó không bị cấm đối với bạn, bạn không nên viết cho phép nó, được cho là nghĩ rằng bạn đang tạo động lực cho các công cụ tìm kiếm, chẳng hạn như “Nào, đây là URL dành cho bạn, lập chỉ mục cho nó nhanh hơn”. Nó sẽ không hoạt động theo cách đó.

Không cho phép trong WordPress. Có rất nhiều thứ cần bị cấm trong WP CMS. Rất nhiều plugin khác nhau, nhiều cài đặt và chủ đề khác nhau, một loạt tập lệnh và nhiều trang khác nhau không chứa bất kỳ thông tin hữu ích nào. Nhưng tôi đã đi xa hơn và cấm hoàn toàn việc lập chỉ mục mọi thứ trên blog của mình, ngoại trừ chính các bài viết (bài đăng) và các trang (về Tác giả, Dịch vụ). Tôi thậm chí đã đóng các danh mục trên blog, tôi sẽ mở chúng khi chúng được tối ưu hóa cho các truy vấn và khi có mô tả văn bản cho từng danh mục, nhưng giờ đây đây chỉ là những bản xem trước bài đăng trùng lặp mà công cụ tìm kiếm không cần.

Vâng, Máy chủ và Sơ đồ trang web là các chỉ thị tiêu chuẩn. Tôi chỉ cần tạo máy chủ riêng cho Yandex, nhưng tôi không bận tâm về điều đó. Bây giờ có lẽ chúng ta sẽ kết thúc với Robots.txt cho WP.

Cách tạo robots.txt

Nó không khó như thoạt nhìn. Bạn chỉ cần lấy một cuốn sổ tay thông thường (Notepad) và sao chép dữ liệu cho trang web của mình vào đó theo cài đặt từ bài viết này. Nhưng nếu điều này gây khó khăn cho bạn, thì có những tài nguyên trên Internet cho phép bạn tạo rô-bốt cho trang web của mình:

Sẽ không ai cho bạn biết thêm về Robots.txt của bạn như những người đồng chí này. Suy cho cùng, đối với họ, bạn tạo ra “tập tin bị cấm” của mình.

Bây giờ hãy nói về một số lỗi nhỏ có thể tồn tại trong robot.

  • « Dòng trống" - không thể chấp nhận việc tạo một dòng trống trong chỉ thị tác nhân người dùng.
  • Tại xung đột giữa hai chỉ thị với các tiền tố có cùng độ dài, lệnh này được ưu tiên Cho phép.
  • Đối với mỗi tệp robots.txt được xử lý chỉ có một chỉ thị máy chủ. Nếu một số lệnh được chỉ định trong tệp, robot sẽ sử dụng lệnh đầu tiên.
  • Chỉ thị Thông số sạch có tính chất cắt ngang nên có thể được chỉ định ở bất kỳ đâu trong tệp robots.txt. Nếu một số lệnh được chỉ định, tất cả chúng sẽ được robot tính đến.
  • Sáu robot Yandex không tuân theo các quy tắc của Robots.txt (YaDirectFetcher, YandexCalendar, YandexDirect, YandexDirectDyn, YandexMobileBot, YandexAccessibilityBot). Để ngăn chúng được lập chỉ mục trên trang web, bạn nên tạo các tham số tác nhân người dùng riêng cho từng chúng.
  • Chỉ thị tác nhân người dùng, phải luôn được viết phía trên chỉ thị cấm.
  • Một dòng, cho một thư mục. Bạn không thể viết nhiều thư mục trên một dòng.
  • Tên tập tin nó chỉ nên như thế này: robot.txt. Không có Robots.txt, ROBOTS.txt, v.v. Chỉ có chữ nhỏ trong tiêu đề.
  • Trong chỉ thị chủ nhà bạn nên viết đường dẫn tới tên miền không có http và không có dấu gạch chéo. Không chính xác: Máy chủ: http://www.site.ru/, Đúng: Máy chủ: www.site.ru
  • Khi trang web sử dụng giao thức bảo mật https trong chỉ thị chủ nhà(đối với robot Yandex) cần chỉ định chính xác giao thức, vì vậy Máy chủ: https://www.site.ru

Bài viết này sẽ được cập nhật khi có những câu hỏi và sắc thái thú vị.

Tôi đã ở bên bạn, Staurus lười biếng.

  • Đây là sự xuất hiện khi tìm kiếm các trang không mang bất kỳ thông tin hữu ích nào cho người dùng và rất có thể người dùng sẽ không truy cập chúng và nếu có thì sẽ không lâu nữa.
  • Đây là sự xuất hiện khi tìm kiếm các bản sao của cùng một trang với các địa chỉ khác nhau. (Nội dung trùng lặp)
  • Điều này lãng phí thời gian quý báu vào việc lập chỉ mục các trang không cần thiết bằng robot tìm kiếm. Robot tìm kiếm thay vì tham gia vào các nội dung cần thiết và hữu ích sẽ lãng phí thời gian lang thang khắp trang web một cách vô ích. Và vì robot không lập chỉ mục toàn bộ trang web cùng một lúc (có nhiều trang web và mọi người đều cần chú ý), nên bạn có thể không sớm thấy các trang quan trọng mà bạn muốn xem trong tìm kiếm.

Người ta đã quyết định chặn quyền truy cập của robot tìm kiếm vào một số trang của trang web. Tệp robots.txt sẽ giúp chúng ta việc này.

Tại sao bạn cần robots.txt?

robots.txt là một tệp văn bản thông thường chứa các hướng dẫn dành cho robot tìm kiếm. Điều đầu tiên robot tìm kiếm thực hiện khi truy cập một trang web là tìm tệp robots.txt. Nếu không tìm thấy hoặc tệp robots.txt trống, trình thu thập thông tin sẽ đi qua tất cả các trang và thư mục có sẵn trên trang web (bao gồm cả thư mục hệ thống) nhằm cố gắng lập chỉ mục nội dung. Và thực tế không phải là nó sẽ lập chỉ mục trang bạn cần, nếu nó truy cập được.

Bằng cách sử dụng robots.txt, chúng tôi có thể cho rô-bốt tìm kiếm biết chúng có thể truy cập những trang nào, tần suất truy cập cũng như nơi chúng không nên truy cập. Hướng dẫn có thể được chỉ định cho tất cả các robot hoặc cho từng robot riêng lẻ. Các trang bị đóng khỏi rô-bốt tìm kiếm sẽ không xuất hiện trong công cụ tìm kiếm. Nếu tập tin này không tồn tại thì nó phải được tạo.

Tệp robots.txt phải được đặt trên máy chủ, ở thư mục gốc của trang web của bạn. Bạn có thể xem tệp robots.txt trên bất kỳ trang web nào trên Internet; để thực hiện việc này, chỉ cần thêm /robots.txt sau địa chỉ trang web. Đối với trang web, địa chỉ nơi bạn có thể xem robots..txt.

Tệp robots.txt, thông thường mỗi trang web đều có những đặc điểm riêng và việc sao chép thiếu suy nghĩ tệp của người khác có thể gây ra vấn đề khi robot tìm kiếm lập chỉ mục trang web của bạn. Vì vậy, chúng ta cần hiểu rõ mục đích của file robots.txt và mục đích của những hướng dẫn (chỉ thị) mà chúng ta sẽ sử dụng khi tạo ra nó.

Chỉ thị tệp Robots.txt.

Hãy xem các hướng dẫn (chỉ thị) cơ bản mà chúng ta sẽ sử dụng khi tạo tệp robots.txt.

Tác nhân người dùng: — chỉ định tên của robot mà tất cả các hướng dẫn bên dưới sẽ hoạt động. Nếu cần sử dụng hướng dẫn cho tất cả robot thì hãy sử dụng * (dấu hoa thị) làm tên.

Ví dụ:
Đại lý người dùng:*
#instructions áp dụng cho tất cả robot tìm kiếm
Tác nhân người dùng: Yandex
#instructions chỉ áp dụng cho robot tìm kiếm Yandex

Tên của các công cụ tìm kiếm Runet phổ biến nhất là Googlebot (cho Google) và Yandex (cho Yandex). Tên của các công cụ tìm kiếm khác, nếu quan tâm, có thể tìm thấy trên Internet, nhưng đối với tôi, có vẻ như không cần thiết phải tạo ra các quy tắc riêng cho chúng.

Disallow – cấm robot tìm kiếm truy cập vào một số phần của trang web hoặc toàn bộ trang web.

Ví dụ:
Không cho phép /wp-includes/
#denies quyền truy cập của robot vào wp-includes
Không cho phép /
# Từ chối quyền truy cập của robot vào toàn bộ trang web.

Allow – cho phép robot tìm kiếm truy cập vào một số phần của trang web hoặc toàn bộ trang web.

Ví dụ:
Cho phép /wp-content/
#cho phép robot truy cập vào nội dung wp
Cho phép /
#Cho phép robot truy cập vào toàn bộ trang web.

Sơ đồ trang web: - có thể được sử dụng để chỉ định đường dẫn đến tệp mô tả cấu trúc trang web của bạn (sơ đồ trang web). Cần tăng tốc và cải thiện việc lập chỉ mục trang web bằng robot tìm kiếm.

Ví dụ:
.xml

Máy chủ: - Nếu trang web của bạn có bản sao (bản sao của trang web trên tên miền khác)..site. Sử dụng tệp Máy chủ, bạn có thể chỉ định bản sao chính của trang web. Chỉ có gương chính mới tham gia tìm kiếm.

Ví dụ:
Máy chủ: trang web

Bạn cũng có thể sử dụng các ký tự đặc biệt. *# và $
*(dấu hoa thị) – biểu thị bất kỳ chuỗi ký tự nào.

Ví dụ:
Không cho phép /wp-content*
#denies quyền truy cập của robot vào /wp-content/plugins, /wp-content/themes, v.v.

$(dấu đô la) – Theo mặc định, cuối mỗi quy tắc được coi là có *(dấu hoa thị) để ghi đè ký tự *(dấu hoa thị), bạn có thể sử dụng ký tự $(ký hiệu đô la).

Ví dụ:
Không cho phép /example$
#denies quyền truy cập của robot vào /example nhưng không từ chối quyền truy cập vào /example.html

#(dấu thăng) – có thể được sử dụng để nhận xét trong tệp robots.txt

Bạn có thể tìm thêm thông tin chi tiết về các chỉ thị này cũng như một số chỉ thị bổ sung trên trang web Yandex.

Cách viết robots.txt cho WordPress.

Bây giờ hãy bắt đầu tạo tệp robots.txt. Vì blog của chúng tôi chạy trên WordPress nên hãy xem quá trình tạo robots.txt cho WordPress chi tiết.

Đầu tiên, chúng ta cần quyết định những gì chúng ta muốn cho phép robot tìm kiếm và những gì cần cấm. Tôi quyết định chỉ để lại những thứ cần thiết cho mình, đó là các bài đăng, trang và phần. Chúng tôi sẽ đóng mọi thứ khác.

Chúng ta có thể biết những thư mục nào trong WordPress và những thư mục nào cần phải đóng nếu chúng ta xem thư mục trên trang web của mình. Tôi đã thực hiện việc này thông qua bảng điều khiển lưu trữ trên trang web và thấy hình ảnh sau đây.

Hãy xem mục đích của các thư mục và quyết định những gì có thể được đóng lại.

/cgi-bin (thư mục tập lệnh trên máy chủ - chúng tôi không cần nó khi tìm kiếm.)

/files (thư mục chứa các tệp để tải xuống. Ví dụ: đây là một tệp lưu trữ có bảng Excel để tính toán lợi nhuận, mà tôi đã viết trong bài viết ““. Chúng tôi không cần thư mục này trong tìm kiếm.)

/playlist (Tôi đã tạo thư mục này cho chính mình, dành cho danh sách phát trên IPTV - nó không cần thiết khi tìm kiếm.)

/test (Tôi tạo thư mục này để thử nghiệm; thư mục này không cần thiết khi tìm kiếm)

/wp-admin/ (Quản trị viên WordPress, chúng tôi không cần nó trong tìm kiếm)

/wp-includes/ (thư mục hệ thống từ WordPress, chúng tôi không cần nó khi tìm kiếm)

/wp-content/ (từ thư mục này chúng ta chỉ cần /wp-content/uploads/; thư mục này chứa ảnh từ trang web nên chúng tôi sẽ cấm thư mục /wp-content/, và cho phép thư mục có ảnh có hướng dẫn riêng .)

Chúng tôi cũng không cần các địa chỉ sau trong tìm kiếm:

Lưu trữ – địa chỉ như //site/2013/ và tương tự.

Thẻ - địa chỉ thẻ chứa /tag/

Nguồn cấp dữ liệu RSS - tất cả các nguồn cấp dữ liệu đều có /feed trong địa chỉ của chúng

Để đề phòng, tôi sẽ đóng các địa chỉ có PHP ở cuối, vì có nhiều trang có sẵn, cả có PHP ở cuối và không có. Đối với tôi, điều này có vẻ sẽ tránh được sự trùng lặp của các trang khi tìm kiếm.

Tôi cũng sẽ đóng các địa chỉ bằng /GOTO/; tôi sử dụng chúng để theo các liên kết bên ngoài; chúng chắc chắn không liên quan gì đến việc tìm kiếm.

Và cuối cùng, chúng tôi sẽ xóa các địa chỉ ngắn khỏi tìm kiếm, chẳng hạn như //site/?p=209 và tìm kiếm trên trang //site/?s=, cũng như các nhận xét (địa chỉ chứa /?replytocom=)

Đây là những gì chúng ta nên để lại:

/images (mình đặt một số hình ảnh vào thư mục này, cho robot vào thư mục này)

/wp-content/uploads/ - chứa hình ảnh từ trang web.

Bây giờ hãy cùng đưa ra hướng dẫn cho robots.txt. Đây là những gì tôi có:

#Chúng tôi chỉ ra rằng tất cả các robot sẽ thực hiện các hướng dẫn này
Đại lý người dùng: *

#Chúng tôi cho phép robot đi lang thang trong thư mục tải lên.
Cho phép: /wp-content/uploads/

#Cấm thư mục có tập lệnh
Không cho phép: /cgi-bin/

#Cấm thư mục tập tin
Không cho phép: /files/

#Cấm thư mục danh sách phát
Không cho phép: /danh sách phát/

#Cấm thư mục kiểm tra
Không cho phép: /test/

#Chúng tôi cấm mọi thứ bắt đầu bằng /wp- , điều này sẽ cho phép bạn đóng một số thư mục có tên bắt đầu bằng /wp- , lệnh này có thể ngăn chặn việc lập chỉ mục các trang hoặc bài đăng bắt đầu bằng /wp-, nhưng tôi thì có không có ý định đặt những cái tên như vậy.
Không cho phép: /wp-*

#Chúng tôi cấm các địa chỉ chứa /?p= và /?s=. Đây là những liên kết ngắn và tìm kiếm.
Không cho phép: /?p=
Không cho phép: /?s=

#Chúng tôi cấm tất cả các tài liệu lưu trữ trước năm 2099.
Không cho phép: /20

#Chúng tôi cấm các địa chỉ có phần mở rộng PHP ở cuối.
Không cho phép: /*.php

#Chúng tôi cấm các địa chỉ chứa /goto/. Tôi không cần phải viết nó ra nhưng tôi sẽ ghi nó vào để đề phòng.
Không cho phép: /goto/

#Chúng tôi cấm địa chỉ thẻ
Không cho phép: /tag/

#Chúng tôi cấm tất cả các nguồn cấp dữ liệu.
Không cho phép: */nguồn cấp dữ liệu

#Chúng tôi cấm lập chỉ mục các bình luận.
Không cho phép: /?replytocom=

#Và cuối cùng, chúng tôi viết đường dẫn đến sơ đồ trang web của mình.
.xml

Viết tập tin robots.txt cho WordPress Bạn có thể sử dụng notepad thông thường. Hãy tạo một tập tin và viết những dòng sau vào đó.

Đại lý người dùng: *
Cho phép: /wp-content/uploads/
Không cho phép: /cgi-bin/
Không cho phép: /files/
Không cho phép: /danh sách phát/
Không cho phép: /test/
Không cho phép: /wp-*
Không cho phép: /?p=
Không cho phép: /?s=
Không cho phép: /20
Không cho phép: /*.php
Không cho phép: /goto/
Không cho phép: /tag/
Không cho phép: /tác giả/
Không cho phép: */nguồn cấp dữ liệu
Không cho phép: /?replytocom=
.xml

Lúc đầu, tôi dự định tạo một khối quy tắc chung cho tất cả robot, nhưng Yandex từ chối làm việc với khối quy tắc chung. Tôi đã phải tạo một khối quy tắc riêng cho Yandex. Để làm điều này, tôi chỉ cần sao chép các quy tắc chung, thay đổi tên của robot và trỏ robot vào bản sao chính của trang web bằng chỉ thị Máy chủ.

Tác nhân người dùng: Yandex
Cho phép: /wp-content/uploads/
Không cho phép: /cgi-bin/
Không cho phép: /files/
Không cho phép: /danh sách phát/
Không cho phép: /test/
Không cho phép: /wp-*
Không cho phép: /?p=
Không cho phép: /?s=
Không cho phép: /20
Không cho phép: /*.php
Không cho phép: /goto/
Không cho phép: /tag/
Không cho phép: /tác giả/
Không cho phép: */nguồn cấp dữ liệu
Không cho phép: /?replytocom=
.xml
Máy chủ: trang web

Bạn cũng có thể chỉ định bản sao chính của trang web thông qua phần “Gương chính”

Bây giờ tập tin đó robots.txt cho WordPressđược tạo, chúng ta cần tải nó lên máy chủ, vào thư mục gốc của trang web của chúng ta. Điều này có thể được thực hiện theo bất kỳ cách nào thuận tiện cho bạn.
Bạn cũng có thể sử dụng plugin WordPress SEO để tạo và chỉnh sửa robots.txt. Tôi sẽ viết thêm về plugin hữu ích này sau. Trong trường hợp này, bạn không cần phải tạo tệp robots.txt trên màn hình mà chỉ cần dán mã của tệp robots.txt vào phần thích hợp của plugin.

Cách kiểm tra robots.txt

Bây giờ chúng ta đã tạo xong tệp robots.txt, chúng ta cần kiểm tra nó. Để thực hiện việc này, hãy đi tới bảng điều khiển Yandex.Webmaster. Tiếp theo, đi đến phần “Thiết lập lập chỉ mục” rồi đến “phân tích robots.txt”. Ở đây, chúng tôi nhấp vào nút “Tải robots.txt từ trang web”, sau đó nội dung robots.txt của bạn sẽ xuất hiện trong cửa sổ tương ứng.

Sau đó nhấp vào “thêm” và trong cửa sổ xuất hiện, nhập các url khác nhau từ trang web của bạn mà bạn muốn kiểm tra. Tôi đã nhập một số địa chỉ nên bị từ chối và một số địa chỉ được cho phép.

Nhấp vào nút “Kiểm tra”, sau đó Yandex sẽ cung cấp cho chúng tôi kết quả kiểm tra tệp robots.txt. Như bạn có thể thấy, tệp của chúng tôi đã vượt qua bài kiểm tra thành công. Những gì nên bị cấm đối với robot tìm kiếm đều bị cấm ở đây. Những gì nên được cho phép được cho phép ở đây.

Việc kiểm tra tương tự có thể được thực hiện đối với robot Google, thông qua GoogleWebmaster, nhưng nó không khác nhiều so với việc kiểm tra qua Yandex, vì vậy tôi sẽ không mô tả nó.

Đó là tất cả. Chúng tôi đã tạo robots.txt cho WordPress và nó hoạt động rất tốt. Tất cả những gì còn lại là thỉnh thoảng xem xét hành vi của rô-bốt tìm kiếm trên trang web của chúng tôi. Để kịp thời nhận thấy lỗi và nếu cần, hãy thực hiện các thay đổi đối với tệp robots.txt. Bạn có thể xem các trang bị loại khỏi chỉ mục và lý do loại trừ trong phần tương ứng của Yandex.WebMaster (hoặc GoogleWebmaster).

Đầu tư tốt và thành công trong mọi nỗ lực của bạn.

Mỗi blog đều có câu trả lời riêng cho vấn đề này. Vì vậy, những người mới tham gia quảng cáo trên công cụ tìm kiếm thường bối rối, như thế này:

Những loại robot nào?

Tài liệu robot.txt hoặc tập tin chỉ mục- một tài liệu văn bản thông thường ở dạng mã hóa UTF-8, hợp lệ cho các giao thức http, https và FTP. Tệp này đưa ra đề xuất cho robot tìm kiếm: trang/tệp nào sẽ được thu thập thông tin. Nếu tệp chứa các ký tự có mã hóa không phải UTF-8 thì rô-bốt tìm kiếm có thể xử lý chúng không chính xác. Các quy tắc được liệt kê trong tệp robots.txt chỉ hợp lệ đối với máy chủ, giao thức và số cổng nơi đặt tệp.

Tệp phải được đặt trong thư mục gốc dưới dạng tài liệu văn bản thuần túy và có sẵn tại: https://site.com.ua/robots.txt.

Trong các tệp khác, người ta thường đánh dấu BOM (Byte Order Mark). Đây là ký tự Unicode được sử dụng để xác định chuỗi byte khi đọc thông tin. Ký tự mã của nó là U+FEFF. Ở đầu tệp robots.txt, dấu chuỗi byte bị bỏ qua.

Google đã đặt giới hạn kích thước cho tệp robots.txt - tệp này không được nặng quá 500 KB.

Được rồi, nếu bạn quan tâm đến các chi tiết kỹ thuật thuần túy, tệp robots.txt là mô tả ở dạng Backus-Naur (BNF). Điều này sử dụng các quy tắc của RFC 822.

Khi xử lý các quy tắc trong tệp robots.txt, rô-bốt tìm kiếm sẽ nhận được một trong ba hướng dẫn:

  • truy cập một phần: có sẵn chức năng quét các thành phần trang web riêng lẻ;
  • toàn quyền truy cập: bạn có thể quét mọi thứ;
  • lệnh cấm hoàn toàn: robot không thể quét bất cứ thứ gì.

Khi quét tệp robots.txt, robot sẽ nhận được các phản hồi sau:

  • 2xx — quá trình quét đã thành công;
  • 3xx - robot tìm kiếm sẽ đi theo chuyển hướng cho đến khi nhận được phản hồi khác. Thông thường, có năm lần thử để robot nhận được phản hồi khác ngoài 3xx, sau đó lỗi 404 sẽ được ghi lại;
  • 4xx — robot tìm kiếm tin rằng có thể thu thập thông tin toàn bộ nội dung của trang web;
  • 5xx —được đánh giá là lỗi máy chủ tạm thời, việc quét hoàn toàn bị cấm. Rô-bốt sẽ truy cập tệp cho đến khi nhận được phản hồi khác. Rô-bốt tìm kiếm của Google có thể xác định xem phản hồi của các trang bị thiếu trên trang web được định cấu hình đúng hay sai, tức là nếu trang trả về phản hồi 5xx thay vì lỗi 404. trường hợp này trang sẽ được xử lý bằng mã phản hồi 404.

Hiện vẫn chưa biết tệp robots.txt được xử lý như thế nào, tệp này không thể truy cập được do sự cố máy chủ khi truy cập Internet.

Tại sao bạn cần tệp robots.txt?

Ví dụ: đôi khi robot không nên truy cập:

  • các trang có thông tin cá nhân của người dùng trên trang web;
  • trang có nhiều hình thức gửi thông tin;
  • địa điểm nhân bản;
  • các trang kết quả tìm kiếm.

Quan trọng: ngay cả khi trang nằm trong tệp robots.txt, vẫn có khả năng trang đó sẽ xuất hiện trong kết quả nếu tìm thấy liên kết đến trang đó trong trang web hoặc ở đâu đó trên tài nguyên bên ngoài.

Đây là cách robot của công cụ tìm kiếm nhìn thấy một trang web có và không có tệp robots.txt:

Nếu không có robots.txt, thông tin cần được ẩn khỏi những con mắt tò mò có thể xuất hiện trong kết quả tìm kiếm và do đó, cả bạn và trang web đều sẽ bị ảnh hưởng.

Đây là cách robot công cụ tìm kiếm nhìn thấy tệp robots.txt:

Google đã phát hiện thấy tệp robots.txt trên trang web và tìm ra các quy tắc mà theo đó các trang của trang web phải được thu thập dữ liệu

Cách tạo tệp robots.txt

Sử dụng notepad, Notepad, Sublime hoặc bất kỳ trình soạn thảo văn bản nào khác.

Tác nhân người dùng - danh thiếp cho robot

Tác nhân người dùng—quy tắc về những robot cần xem hướng dẫn được mô tả trong tệp robots.txt. Hiện có 302 robot tìm kiếm được biết đến

Nó nói rằng chúng tôi chỉ định các quy tắc trong robots.txt cho tất cả các robot tìm kiếm.

Đối với Google, robot chính là Googlebot. Nếu chúng ta chỉ muốn tính đến điều này, mục nhập trong tệp sẽ như sau:

Trong trường hợp này, tất cả các robot khác sẽ thu thập dữ liệu nội dung dựa trên chỉ thị của chúng để xử lý tệp robots.txt trống.

Đối với Yandex, robot chính là... Yandex:

Các robot đặc biệt khác:

  • Googlebot-Tin tức- để tìm kiếm tin tức;
  • Đối tác truyền thông-Google— đối với dịch vụ AdSense;
  • AdsBot-Google— để kiểm tra chất lượng của trang đích;
  • Hình ảnh Yandex— Bộ chỉ mục Yandex.Images;
  • Hình ảnh Googlebot- cho hình ảnh;
  • YandexMetrika— Robot Yandex.Metrica;
  • YandexMedia— một robot lập chỉ mục dữ liệu đa phương tiện;
  • YaDirectFetcher— Robot Yandex.Direct;
  • Googlebot-Video- đối với video;
  • Googlebot-Di động- dành cho phiên bản di động;
  • YandexDirectDyn— robot tạo biểu ngữ động;
  • YandexBlog- một robot tìm kiếm blog lập chỉ mục các bài đăng và nhận xét;
  • YandexThị trường— Robot Yandex.Market;
  • Tin tức Yandex— Robot Yandex.News;
  • YandexDirect— tải xuống thông tin về nội dung của các trang đối tác của Mạng Quảng cáo để làm rõ các chủ đề của họ để lựa chọn quảng cáo có liên quan;
  • YandexPagechecker- trình xác nhận đánh dấu vi mô;
  • YandexLịch— Robot Yandex.Calendar.

Không cho phép - đặt "gạch"

Nó đáng để sử dụng nếu trang web đang trong quá trình cải tiến và bạn không muốn nó xuất hiện trong kết quả tìm kiếm ở trạng thái hiện tại.

Điều quan trọng là phải loại bỏ quy tắc này ngay khi trang web sẵn sàng cho người dùng xem. Thật không may, nhiều quản trị web quên mất điều này.

Ví dụ. Cách đặt quy tắc Không cho phép để khuyên robot không xem nội dung của thư mục /papka/:

Dòng này cấm lập chỉ mục tất cả các tệp có phần mở rộng .gif

Cho phép - chúng tôi chỉ đạo robot

Cho phép cho phép quét bất kỳ tập tin/chỉ thị/trang nào. Giả sử bạn muốn robot chỉ có thể xem các trang bắt đầu bằng /catalog và đóng tất cả nội dung khác. Trong trường hợp này, sự kết hợp sau đây được quy định:

Quy tắc Cho phép và Không cho phép được sắp xếp theo độ dài tiền tố URL (nhỏ nhất đến lớn nhất) và được áp dụng tuần tự. Nếu có nhiều quy tắc khớp với một trang, robot sẽ chọn quy tắc cuối cùng trong danh sách đã sắp xếp.

Máy chủ - chọn một trang web nhân bản

Máy chủ là một trong những quy tắc bắt buộc đối với robots.txt; nó cho robot Yandex biết bản sao nào của trang web cần được xem xét để lập chỉ mục.

Bản sao trang web là bản sao chính xác hoặc gần như chính xác của một trang web, có sẵn ở các địa chỉ khác nhau.

Robot sẽ không bị nhầm lẫn khi tìm các bản sao trang web và sẽ hiểu rằng bản sao chính được chỉ định trong tệp robots.txt. Địa chỉ trang web được chỉ định mà không có tiền tố “http://”, nhưng nếu trang web chạy trên HTTPS thì phải chỉ định tiền tố “https://”.

Cách viết quy tắc này:

Ví dụ về tệp robots.txt nếu trang web chạy trên giao thức HTTPS:

Sơ đồ trang web - sơ đồ trang web y tế

Sơ đồ trang web cho robot biết rằng tất cả các URL trang web cần thiết để lập chỉ mục đều nằm ở http://site.ua/sitemap.xml. Với mỗi lần thu thập dữ liệu, robot sẽ xem xét những thay đổi nào đã được thực hiện đối với tệp này và nhanh chóng cập nhật thông tin về trang web trong cơ sở dữ liệu của công cụ tìm kiếm.

Độ trễ thu thập dữ liệu - đồng hồ bấm giờ cho máy chủ yếu

Độ trễ thu thập thông tin là một tham số có thể được sử dụng để đặt khoảng thời gian sau đó các trang của trang web sẽ tải. Quy tắc này có liên quan nếu bạn có một máy chủ yếu. Trong trường hợp này, có thể có độ trễ kéo dài khi robot tìm kiếm truy cập các trang của trang web. Thông số này được đo bằng giây.

Clean-param - thợ săn nội dung trùng lặp

Clean-param giúp xử lý các tham số get để tránh trùng lặp nội dung có thể có ở các địa chỉ động khác nhau (có dấu chấm hỏi). Những địa chỉ như vậy xuất hiện nếu trang web có nhiều cách sắp xếp, id phiên khác nhau, v.v.

Giả sử trang này có sẵn tại các địa chỉ sau:

www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

Trong trường hợp này, tệp robots.txt sẽ trông như thế này:

Đây giới thiệu cho biết liên kết đến từ đâu, vì vậy nó được viết ngay từ đầu và chỉ sau đó phần còn lại của địa chỉ mới được chỉ định.

Nhưng trước khi chuyển sang file tham khảo, bạn vẫn cần tìm hiểu về một số ký hiệu được sử dụng khi viết file robots.txt.

Các ký hiệu trong robots.txt

Các ký tự chính của file là “/, *, $, #”.

Bằng cách sử dụng gạch chéo "/" chúng tôi cho thấy rằng chúng tôi muốn ngăn chặn sự phát hiện của robot. Ví dụ: nếu có một dấu gạch chéo trong quy tắc Không cho phép, chúng tôi cấm quét toàn bộ trang web. Sử dụng hai ký tự gạch chéo, bạn có thể ngăn việc quét một thư mục cụ thể, ví dụ: /catalog/.

Mục này nói rằng chúng tôi cấm quét toàn bộ nội dung của thư mục danh mục, nhưng nếu chúng tôi viết /catalog, chúng tôi sẽ cấm tất cả các liên kết trên trang web bắt đầu bằng /catalog.

Dấu hoa thị "*" có nghĩa là bất kỳ chuỗi ký tự nào trong tệp. Nó được đặt sau mỗi quy tắc.

Mục này nói rằng tất cả các robot không nên lập chỉ mục bất kỳ tệp nào có phần mở rộng .gif trong thư mục /catalog/

Ký hiệu đô la «$» hạn chế các hành động của dấu hoa thị. Nếu bạn muốn chặn toàn bộ nội dung của thư mục catalog nhưng không thể chặn các URL chứa /catalog thì mục trong file chỉ mục sẽ như sau:

Lưới "#"được sử dụng cho các nhận xét mà quản trị viên web để lại cho chính họ hoặc các quản trị viên web khác. Robot sẽ không tính đến chúng khi quét trang web.

Ví dụ:

Một robots.txt lý tưởng trông như thế nào

Tệp mở nội dung của trang web để lập chỉ mục, máy chủ được đăng ký và bản đồ trang web được chỉ định, điều này sẽ cho phép các công cụ tìm kiếm luôn nhìn thấy các địa chỉ cần được lập chỉ mục. Các quy tắc dành cho Yandex được chỉ định riêng vì không phải tất cả robot đều hiểu hướng dẫn của Máy chủ.

Nhưng đừng vội sao chép nội dung của tệp vào chính mình - mỗi trang web phải có các quy tắc riêng, tùy thuộc vào loại trang web và CMS. Do đó, điều đáng ghi nhớ là tất cả các quy tắc khi điền vào tệp robots.txt.

Cách kiểm tra tệp robots.txt của bạn

Nếu bạn muốn biết tệp robots.txt đã được điền chính xác hay chưa, hãy kiểm tra nó trong công cụ quản trị trang web Google và Yandex. Chỉ cần nhập mã nguồn của tệp robots.txt vào biểu mẫu thông qua liên kết và chỉ định trang web cần kiểm tra.

Làm thế nào để không điền vào tệp robots.txt

Thông thường, khi điền vào tệp chỉ mục, bạn sẽ mắc phải những lỗi khó chịu và chúng liên quan đến sự thiếu chú ý hoặc vội vàng thông thường. Dưới đây là bảng các lỗi mà tôi gặp phải trong thực tế.

2. Viết nhiều thư mục/thư mục trong một câu lệnh Disallow:

Mục nhập như vậy có thể gây nhầm lẫn cho rô-bốt tìm kiếm; chúng có thể không hiểu chính xác những gì chúng không nên lập chỉ mục: thư mục đầu tiên hoặc thư mục cuối cùng, vì vậy bạn cần phải viết riêng từng quy tắc.

3. Bản thân tập tin phải được gọi chỉ có robot.txt, chứ không phải Robots.txt, ROBOTS.TXT hay bất cứ thứ gì khác.

4. Bạn không thể để trống quy tắc Tác nhân người dùng - bạn cần cho biết robot nào sẽ tính đến các quy tắc được ghi trong tệp.

5. Ký tự bổ sung trong tệp (dấu gạch chéo, dấu hoa thị).

6. Thêm các trang vào tệp không có trong chỉ mục.

Việc sử dụng robots.txt không chuẩn

Ngoài chức năng trực tiếp, tệp chỉ mục có thể trở thành nền tảng cho sự sáng tạo và là cách tìm kiếm nhân viên mới.

Đây là trang web mà bản thân robots.txt là một trang web nhỏ có các thành phần công việc và thậm chí cả đơn vị quảng cáo.

Tệp này chủ yếu được các cơ quan SEO sử dụng làm nền tảng để tìm kiếm các chuyên gia. Ai khác có thể biết về sự tồn tại của nó? :)

Và Google có một tập tin đặc biệt con người.txt, để bạn không cho phép mình nghĩ đến việc phân biệt đối xử với các chuyên gia về da và thịt.

kết luận

Với Robots.txt, bạn có thể đưa ra hướng dẫn để tìm kiếm robot, quảng cáo bản thân, thương hiệu của mình và tìm kiếm chuyên gia. Đây là một lĩnh vực tuyệt vời để thử nghiệm. Điều chính là phải nhớ điền vào hồ sơ một cách chính xác và những lỗi điển hình.

Quy tắc hay còn gọi là chỉ thị, hay còn gọi là hướng dẫn trong tệp robots.txt:

  1. Tác nhân người dùng - quy tắc về robot cần xem hướng dẫn được mô tả trong robots.txt.
  2. Disallow đưa ra khuyến nghị về những thông tin không nên quét.
  3. Sơ đồ trang web cho robot biết rằng tất cả các URL trang web cần thiết để lập chỉ mục đều nằm ở http://site.ua/sitemap.xml.
  4. Máy chủ thông báo cho robot Yandex biết trang web nào nên được xem xét để lập chỉ mục.
  5. Cho phép cho phép quét bất kỳ tập tin/chỉ thị/trang nào.

Dấu hiệu khi biên dịch robots.txt:

  1. Ký hiệu đô la "$" giới hạn hành động của dấu hoa thị.
  2. Bằng cách sử dụng dấu gạch chéo “/”, chúng tôi cho biết rằng chúng tôi muốn ẩn nó khỏi sự phát hiện của robot.
  3. Dấu hoa thị "*" có nghĩa là bất kỳ chuỗi ký tự nào trong tệp. Nó được đặt sau mỗi quy tắc.
  4. Hàm băm "#" được sử dụng để biểu thị nhận xét mà quản trị viên web viết cho chính mình hoặc cho quản trị viên web khác.

Hãy sử dụng tệp chỉ mục một cách khôn ngoan - và trang web sẽ luôn có trong kết quả tìm kiếm.

Tài liệu robot.txt là một tệp thông thường có phần mở rộng .txt, có thể được tạo bằng notepad Windows thông thường. Tệp này chứa hướng dẫn lập chỉ mục cho robot tìm kiếm. Đặt tập tin thư mục gốc này trên hosting.

Khi vào một trang web, trước tiên robot tìm kiếm sẽ chuyển sang tệp robots.txt để nhận hướng dẫn cho hành động tiếp theo và tìm ra những tệp và thư mục nào bị cấm lập chỉ mục. Tài liệu robot.txt mang tính chất tư vấn cho các công cụ tìm kiếm. Không thể nói chắc chắn tuyệt đối rằng tất cả các file bị cấm lập chỉ mục cuối cùng sẽ không được lập chỉ mục.

Hãy xem một ví dụ đơn giản về tệp robots.txt. Tập tin này chứa các dòng sau:

Tác nhân người dùng: * Không cho phép: /wp-admin/ Không cho phép: /images/

Dòng đầu tiên cho biết hướng dẫn này áp dụng cho robot tìm kiếm nào. Trong ví dụ này, dấu hoa thị được chỉ định - điều này có nghĩa là hướng dẫn áp dụng cho tất cả rô-bốt tìm kiếm. Nếu bạn cần cung cấp hướng dẫn cho một robot tìm kiếm cụ thể, bạn phải nhập tên của nó. Dòng thứ hai và thứ ba cấm lập chỉ mục các thư mục “wp-admin” và “images”.

Đối với robot tìm kiếm Yandex, điều quan trọng là phải đăng ký thư mục Máy chủ để chỉ ra bản sao chính của trang web:

Tác nhân người dùng: Yandex Không cho phép: /wp-admin/ Không cho phép: /images/ Máy chủ: yoursite.ru

Ví dụ về cách viết tệp robots.txt cho các tác vụ cụ thể

1. Không cấm robot của bất kỳ công cụ tìm kiếm nào lập chỉ mục trang web:

Tác nhân người dùng: googlebot Không cho phép: /

4. Không cấm chỉ một robot lập chỉ mục (ví dụ: googlebot) và cấm tất cả các robot tìm kiếm khác lập chỉ mục:

Tác nhân người dùng: googlebot Không cho phép:
Tác nhân người dùng: * Không cho phép: /admin/ Không cho phép: /wp-content/ Không cho phép: /images/
Tác nhân người dùng: * Không cho phép: /News/webnews.html Không cho phép: /content/page.php
Tác nhân người dùng: * Không cho phép: /page.php Không cho phép: /links.htm Không cho phép: /secret.html

Các quy tắc cơ bản để viết robots.txt

Lỗi thường mắc phải khi viết tệp robots.txt. Để tránh chúng, chúng ta hãy xem xét các quy tắc cơ bản:

1. Nội dung trong hồ sơ chỉ được viết bằng chữ in hoa.
2. Câu lệnh Disallow chỉ được chỉ định một thư mục hoặc một tệp.
3. Dòng “User-agent” không được để trống. Nếu hướng dẫn áp dụng cho tất cả rô-bốt tìm kiếm thì bạn phải chỉ ra dấu hoa thị và nếu chúng áp dụng cho một rô-bốt tìm kiếm cụ thể thì hãy cho biết tên của nó.
4. Không thể hoán đổi hướng dẫn Disallow và User-agent.
5. Trong chỉ thị Máy chủ, được sử dụng cho Yandex, địa chỉ trang web của chúng tôi phải được chỉ định mà không có giao thức HTTP và không có dấu gạch chéo đóng.
6. Khi cấm lập chỉ mục các thư mục cần phải có dấu gạch chéo.
7. Bạn nên kiểm tra tệp robots.txt trước khi tải nó lên máy chủ. Điều này sẽ tránh được các vấn đề có thể xảy ra với việc lập chỉ mục trang web trong tương lai.