Kiểm tra trọng lượng tệp txt của tệp php. Tác nhân người dùng - lời chào bằng robot

Bạn chỉ cần chỉ định URL mong muốn. Sau đó công cụ xác minh sẽ xử lý tệp robots.txt như Googlebot sẽ làm và xác định xem quyền truy cập vào địa chỉ này có bị chặn hay không.

Thủ tục xác minh

Trong Google Search Console, chọn trang web của bạn, đi tới công cụ xác minh và xem lại nội dung của tệp robots.txt. cú pháp Và trêu ghẹo não lỗi trong đó sẽ được đánh dấu, và số của chúng được chỉ định bên dưới cửa sổ chỉnh sửa.
Ở cuối trang giao diện, chỉ định URL mong muốn trong cửa sổ thích hợp.
Từ menu thả xuống ở bên phải, chọn người máy.
Nhấn vào nút KIỂM TRA.
Trạng thái sẽ được hiển thị CÓ SẴN hoặc KHÔNG CÓ SẴN. Trong trường hợp đầu tiên, robot Google có thể truy cập địa chỉ bạn đã chỉ định, nhưng trong trường hợp thứ hai thì không.
Nếu cần, hãy thay đổi menu và thực hiện lại bài kiểm tra. Chú ý! Những chỉnh sửa này sẽ không được tự động thêm vào tệp robots.txt trên trang web của bạn.
Sao chép nội dung đã sửa đổi và thêm nó vào tệp robots.txt trên máy chủ web của bạn.

Cần chú ý điều gì

Những thay đổi được thực hiện trong trình chỉnh sửa sẽ không được lưu vào máy chủ web. Bạn cần sao chép mã kết quả và dán vào tệp robots.txt.
Công cụ kiểm tra tệp Robots.txt chỉ cung cấp kết quả cho tác nhân người dùng của Google và các rô-bốt dành riêng cho Google (chẳng hạn như Googlebot). Chúng tôi không thể đảm bảo rằng các robot tìm kiếm khác sẽ diễn giải nội dung tệp của bạn theo cách tương tự.

Đây là sự xuất hiện khi tìm kiếm các trang không mang bất kỳ thông tin hữu ích nào cho người dùng và rất có thể người dùng sẽ không truy cập chúng và nếu có thì sẽ không lâu nữa.
Đây là sự xuất hiện khi tìm kiếm các bản sao của cùng một trang với các địa chỉ khác nhau. (Nội dung trùng lặp)
Điều này lãng phí thời gian quý báu vào việc lập chỉ mục các trang không cần thiết bằng robot tìm kiếm. Robot tìm kiếm thay vì tham gia vào các nội dung cần thiết và hữu ích sẽ lãng phí thời gian lang thang khắp trang web một cách vô ích. Và vì robot không lập chỉ mục toàn bộ trang web cùng một lúc (có nhiều trang web và mọi người đều cần chú ý), nên bạn có thể không sớm thấy các trang quan trọng mà bạn muốn xem trong tìm kiếm.

Người ta đã quyết định chặn quyền truy cập của robot tìm kiếm vào một số trang của trang web. Tệp robots.txt sẽ giúp chúng ta điều này.

Tại sao bạn cần robots.txt?

robots.txt là một tệp văn bản thông thường chứa hướng dẫn dành cho robot tìm kiếm. Điều đầu tiên robot tìm kiếm thực hiện khi truy cập một trang web là tìm tệp robots.txt. Nếu không tìm thấy hoặc tệp robots.txt trống, trình thu thập thông tin sẽ đi qua tất cả các trang và thư mục có sẵn trên trang web (bao gồm cả thư mục hệ thống) nhằm cố gắng lập chỉ mục nội dung. Và thực tế không phải là nó sẽ lập chỉ mục trang bạn cần, nếu nó truy cập được.

Bằng cách sử dụng robots.txt, chúng tôi có thể cho robot tìm kiếm biết chúng có thể truy cập những trang nào, tần suất truy cập cũng như nơi chúng không nên truy cập. Hướng dẫn có thể được chỉ định cho tất cả các robot hoặc cho từng robot riêng lẻ. Các trang bị đóng khỏi rô-bốt tìm kiếm sẽ không xuất hiện trong công cụ tìm kiếm. Nếu tập tin này không tồn tại thì nó phải được tạo.

Tệp robots.txt phải được đặt trên máy chủ, ở thư mục gốc của trang web của bạn. Bạn có thể xem tệp robots.txt trên bất kỳ trang web nào trên Internet; để thực hiện việc này, chỉ cần thêm /robots.txt sau địa chỉ trang web. Đối với trang web, địa chỉ nơi bạn có thể xem robots..txt.

Tệp robots.txt, thông thường mỗi trang web đều có những đặc điểm riêng và việc sao chép thiếu suy nghĩ tệp của người khác có thể gây ra vấn đề khi robot tìm kiếm lập chỉ mục trang web của bạn. Vì vậy, chúng ta cần hiểu rõ mục đích của file robots.txt và mục đích của những hướng dẫn (chỉ thị) mà chúng ta sẽ sử dụng khi tạo nó.

Chỉ thị tệp Robots.txt.

Hãy xem các hướng dẫn (chỉ thị) cơ bản mà chúng ta sẽ sử dụng khi tạo tệp robots.txt.

Tác nhân người dùng: — chỉ định tên của robot mà tất cả các hướng dẫn bên dưới sẽ hoạt động. Nếu cần sử dụng hướng dẫn cho tất cả robot thì hãy sử dụng * (dấu hoa thị) làm tên.

Ví dụ:
Đại lý người dùng:*
#inguides áp dụng cho tất cả robot tìm kiếm
Tác nhân người dùng: Yandex
#instructions chỉ áp dụng cho robot tìm kiếm Yandex

Tên của các công cụ tìm kiếm Runet phổ biến nhất là Googlebot (cho Google) và Yandex (cho Yandex). Tên của các công cụ tìm kiếm khác, nếu quan tâm, có thể tìm thấy trên Internet, nhưng đối với tôi, có vẻ như không cần thiết phải tạo ra các quy tắc riêng cho chúng.

Disallow – cấm robot tìm kiếm truy cập vào một số phần của trang web hoặc toàn bộ trang web.

Ví dụ:
Không cho phép /wp-includes/
#denies quyền truy cập của robot vào wp-includes
Không cho phép /
# ngăn robot truy cập vào toàn bộ trang web.

Allow – cho phép robot tìm kiếm truy cập vào một số phần của trang web hoặc toàn bộ trang web.

Ví dụ:
Cho phép /wp-content/
#cho phép robot truy cập vào nội dung wp
Cho phép /
#Cho phép robot truy cập vào toàn bộ trang web.

Sơ đồ trang web: - có thể được sử dụng để chỉ định đường dẫn đến tệp mô tả cấu trúc trang web của bạn (sơ đồ trang web). Cần tăng tốc và cải thiện việc lập chỉ mục trang web bằng robot tìm kiếm.

Ví dụ:
.xml

Máy chủ: - Nếu trang web của bạn có bản sao (bản sao của trang web trên tên miền khác)..site. Sử dụng tệp Máy chủ, bạn có thể chỉ định bản sao chính của trang web. Chỉ có gương chính mới tham gia tìm kiếm.

Ví dụ:
Máy chủ: trang web

Bạn cũng có thể sử dụng các ký tự đặc biệt. *# và $
*(dấu hoa thị) – biểu thị bất kỳ chuỗi ký tự nào.

Ví dụ:
Không cho phép /wp-content*
#denies quyền truy cập của robot vào /wp-content/plugins, /wp-content/themes, v.v.

$(dấu đô la) – Theo mặc định, phần cuối của mỗi quy tắc được giả sử có một *(dấu hoa thị) để ghi đè ký tự *(dấu hoa thị), bạn có thể sử dụng ký tự $(ký hiệu đô la).

Ví dụ:
Không cho phép /example$
#denies quyền truy cập của robot vào /example nhưng không từ chối quyền truy cập vào /example.html

#(dấu thăng) – có thể được sử dụng để nhận xét trong tệp robots.txt

Bạn có thể tìm thêm thông tin chi tiết về các chỉ thị này cũng như một số chỉ thị bổ sung trên trang web Yandex.

Cách viết robots.txt cho WordPress.

Bây giờ hãy bắt đầu tạo tệp robots.txt. Vì blog của chúng tôi chạy trên WordPress nên hãy xem quá trình tạo robots.txt cho WordPress chi tiết.

Đầu tiên, chúng ta cần quyết định những gì chúng ta muốn cho phép robot tìm kiếm và những gì cần cấm. Tôi quyết định chỉ để lại những thứ cần thiết cho mình, đó là các bài đăng, trang và phần. Chúng tôi sẽ đóng mọi thứ khác.

Chúng ta có thể biết những thư mục nào trong WordPress và những thư mục nào cần phải đóng nếu chúng ta xem thư mục trên trang web của mình. Tôi đã làm điều này thông qua bảng điều khiển lưu trữ trên trang web reg.ru, và nhìn thấy hình ảnh sau đây.

Hãy xem mục đích của các thư mục và quyết định những gì có thể được đóng lại.

/cgi-bin (thư mục tập lệnh trên máy chủ - chúng tôi không cần nó khi tìm kiếm.)

/files (thư mục chứa các tệp để tải xuống. Ví dụ: đây là một tệp lưu trữ có bảng Excel để tính toán lợi nhuận, mà tôi đã viết trong bài viết ““. Chúng tôi không cần thư mục này trong tìm kiếm.)

/playlist (Tôi đã tạo thư mục này cho chính mình, dành cho danh sách phát trên IPTV - nó không cần thiết khi tìm kiếm.)

/test (Tôi đã tạo thư mục này để thử nghiệm; thư mục này không cần thiết khi tìm kiếm)

/wp-admin/ (Quản trị viên WordPress, chúng tôi không cần nó trong tìm kiếm)

/wp-includes/ (thư mục hệ thống từ WordPress, chúng tôi không cần nó khi tìm kiếm)

/wp-content/ (trong thư mục này chúng ta chỉ cần /wp-content/uploads/; thư mục này chứa ảnh từ trang web nên chúng tôi sẽ cấm thư mục /wp-content/, và cho phép thư mục có ảnh có hướng dẫn riêng .)

Chúng tôi cũng không cần các địa chỉ sau trong tìm kiếm:

Lưu trữ – địa chỉ như //site/2013/ và tương tự.

Thẻ - địa chỉ thẻ chứa /tag/

Nguồn cấp dữ liệu RSS - tất cả các nguồn cấp dữ liệu đều có /feed trong địa chỉ của chúng

Để đề phòng, tôi sẽ đóng các địa chỉ có PHP ở cuối, vì có nhiều trang có sẵn, cả có PHP ở cuối và không có. Đối với tôi, điều này có vẻ sẽ tránh được sự trùng lặp của các trang khi tìm kiếm.

Tôi cũng sẽ đóng các địa chỉ bằng /GOTO/; tôi sử dụng chúng để theo các liên kết bên ngoài; chúng chắc chắn không liên quan gì đến việc tìm kiếm.

P=209 và tìm kiếm trang web //site/?s=, cũng như các nhận xét (địa chỉ chứa /?replytocom=)

Đây là những gì chúng ta nên để lại:

/images (mình đặt một số hình ảnh vào thư mục này, cho robot vào thư mục này)

/wp-content/uploads/ - chứa hình ảnh từ trang web.

Các bài viết, trang và phần có địa chỉ rõ ràng, dễ đọc.
Ví dụ: hoặc

Bây giờ hãy cùng đưa ra hướng dẫn cho robots.txt. Đây là những gì tôi có:

#Chúng tôi chỉ ra rằng tất cả các robot sẽ thực hiện các hướng dẫn này
Đại lý người dùng: *

#Chúng tôi cho phép robot đi lang thang trong thư mục tải lên.
Cho phép: /wp-content/uploads/

#Cấm thư mục có tập lệnh
Không cho phép: /cgi-bin/

#Cấm thư mục tập tin
Không cho phép: /files/

#Cấm thư mục danh sách phát
Không cho phép: /danh sách phát/

#Cấm thư mục kiểm tra
Không cho phép: /test/

#Chúng tôi cấm mọi thứ bắt đầu bằng /wp- , điều này sẽ cho phép bạn đóng một số thư mục có tên bắt đầu bằng /wp- , lệnh này có thể ngăn chặn việc lập chỉ mục các trang hoặc bài đăng bắt đầu bằng /wp-, nhưng tôi thì có không có ý định đặt những cái tên như vậy.
Không cho phép: /wp-*

#Chúng tôi cấm các địa chỉ chứa /?p= và /?s=. Đây là những liên kết ngắn và tìm kiếm.
Không cho phép: /?p=
Không cho phép: /?s=

#Chúng tôi cấm tất cả các tài liệu lưu trữ trước năm 2099.
Không cho phép: /20

#Chúng tôi cấm các địa chỉ có phần mở rộng PHP ở cuối.
Không cho phép: /*.php

#Chúng tôi cấm các địa chỉ chứa /goto/. Tôi không cần phải viết nó ra nhưng tôi sẽ ghi nó vào để đề phòng.
Không cho phép: /goto/

#Chúng tôi cấm địa chỉ thẻ
Không cho phép: /tag/

#Chúng tôi cấm tất cả các nguồn cấp dữ liệu.
Không cho phép: */nguồn cấp dữ liệu

#Chúng tôi cấm lập chỉ mục các bình luận.
Không cho phép: /?replytocom=

#Và cuối cùng, chúng tôi viết đường dẫn đến sơ đồ trang web của mình.
.xml

Viết tập tin robots.txt cho WordPress Bạn có thể sử dụng notepad thông thường. Hãy tạo một tập tin và viết những dòng sau vào đó.

Đại lý người dùng: *
Cho phép: /wp-content/uploads/
Không cho phép: /cgi-bin/
Không cho phép: /files/
Không cho phép: /danh sách phát/
Không cho phép: /test/
Không cho phép: /wp-*
Không cho phép: /?p=
Không cho phép: /?s=
Không cho phép: /20
Không cho phép: /*.php
Không cho phép: /goto/
Không cho phép: /tag/
Không cho phép: /tác giả/
Không cho phép: */nguồn cấp dữ liệu
Không cho phép: /?replytocom=
.xml

Lúc đầu, tôi dự định tạo một khối quy tắc chung cho tất cả robot, nhưng Yandex từ chối làm việc với khối quy tắc chung. Tôi đã phải tạo một khối quy tắc riêng cho Yandex. Để làm điều này, tôi chỉ cần sao chép các quy tắc chung, thay đổi tên của robot và trỏ robot vào bản sao chính của trang web bằng chỉ thị Máy chủ.

Tác nhân người dùng: Yandex
Cho phép: /wp-content/uploads/
Không cho phép: /cgi-bin/
Không cho phép: /files/
Không cho phép: /danh sách phát/
Không cho phép: /test/
Không cho phép: /wp-*
Không cho phép: /?p=
Không cho phép: /?s=
Không cho phép: /20
Không cho phép: /*.php
Không cho phép: /goto/
Không cho phép: /tag/
Không cho phép: /tác giả/
Không cho phép: */nguồn cấp dữ liệu
Không cho phép: /?replytocom=
.xml
Máy chủ: trang web

Bạn cũng có thể chỉ định bản sao chính của trang web thông qua phần “Gương chính”

Bây giờ tập tin đó robots.txt cho WordPressđược tạo, chúng ta cần tải nó lên máy chủ, vào thư mục gốc của trang web của chúng ta. Điều này có thể được thực hiện theo bất kỳ cách nào thuận tiện cho bạn.
Bạn cũng có thể sử dụng plugin WordPress SEO để tạo và chỉnh sửa robots.txt. Tôi sẽ viết thêm về plugin hữu ích này sau. Trong trường hợp này, bạn không cần phải tạo tệp robots.txt trên màn hình mà chỉ cần dán mã của tệp robots.txt vào phần thích hợp của plugin.

Cách kiểm tra robots.txt

Bây giờ chúng ta đã tạo xong tệp robots.txt, chúng ta cần kiểm tra nó. Để thực hiện việc này, hãy đi tới bảng điều khiển Yandex.Webmaster. Tiếp theo, đi đến phần “Thiết lập lập chỉ mục” rồi đến “phân tích robots.txt”. Ở đây, chúng tôi nhấp vào nút “Tải robots.txt từ trang web”, sau đó nội dung robots.txt của bạn sẽ xuất hiện trong cửa sổ tương ứng.

Sau đó nhấp vào “thêm” và trong cửa sổ xuất hiện, nhập các url khác nhau từ trang web của bạn mà bạn muốn kiểm tra. Tôi đã nhập một số địa chỉ nên bị từ chối và một số địa chỉ được cho phép.

Nhấp vào nút “Kiểm tra”, sau đó Yandex sẽ cung cấp cho chúng tôi kết quả kiểm tra tệp robots.txt. Như bạn có thể thấy, tệp của chúng tôi đã vượt qua bài kiểm tra thành công. Những gì nên bị cấm đối với robot tìm kiếm đều bị cấm ở đây. Những gì nên được cho phép được cho phép ở đây.

Việc kiểm tra tương tự có thể được thực hiện đối với robot Google, thông qua GoogleWebmaster, nhưng nó không khác nhiều so với việc kiểm tra qua Yandex, vì vậy tôi sẽ không mô tả nó.

Đó là tất cả. Chúng tôi đã tạo robots.txt cho WordPress và nó hoạt động rất tốt. Tất cả những gì còn lại là thỉnh thoảng xem xét hành vi của rô-bốt tìm kiếm trên trang web của chúng tôi. Để nhận thấy lỗi kịp thời và nếu cần, hãy thực hiện các thay đổi đối với tệp robots.txt. Bạn có thể xem các trang bị loại khỏi chỉ mục và lý do loại trừ trong phần tương ứng của Yandex.WebMaster (hoặc GoogleWebmaster).

Đầu tư tốt và thành công trong mọi nỗ lực của bạn.

Xin chào các độc giả thân mến! Tôi xin dành bài viết hôm nay của mình cho một tập tin quan trọng và cực kỳ cần thiết robot.txt.

Tôi sẽ cố gắng giải thích càng chi tiết càng tốt và quan trọng nhất là rõ ràng, tệp này có chức năng gì và cách soạn nó một cách chính xác cho blog Wordpress.

Thực tế là mọi blogger mới vào nghề đều mắc phải một sai lầm giống nhau, anh ta không coi trọng tập tin này, cả vì mù chữ và thiếu hiểu biết về vai trò mà nó được tạo ra.

Hôm nay chúng ta sẽ xem xét các câu hỏi sau:

Tại sao bạn cần tệp robot trên trang web?
Cách tạo robots.txt;
Ví dụ về một tập tin chính xác;
Robot kiểm tra trong Yandex Webmaster.

Tệp robots.txt dùng để làm gì?

Tôi quyết định sử dụng công cụ WordPress để tạo blog của mình vì nó rất tiện lợi, đơn giản và đa chức năng.

Tuy nhiên, không có một điều gì là lý tưởng. Thực tế là cms này được thiết kế sao cho khi viết một bài viết, nó sẽ tự động được sao chép trong kho lưu trữ, chuyên mục, kết quả tìm kiếm trang web, .

Hóa ra một bài viết của bạn sẽ có nhiều bản sao chính xác trên trang web nhưng có các URL khác nhau.

Kết quả là, bạn vô tình lấp đầy dự án với nội dung không độc đáo và các công cụ tìm kiếm sẽ không quan tâm đến tài liệu trùng lặp đó và sẽ sớm đưa nó vào các bộ lọc: từ Yandex hoặc Google.

Cá nhân tôi đã bị thuyết phục về điều này bằng ví dụ của chính mình.

Khi tôi mới bắt đầu viết blog này, tất nhiên, tôi không hề biết rằng có một loại tệp robot nào đó, càng không biết nó nên là gì và nên viết gì vào đó.

Điều quan trọng nhất đối với tôi là viết nhiều bài hơn để sau này có thể bán liên kết từ họ trên sàn giao dịch. Tôi muốn kiếm tiền nhanh chóng, nhưng đó không phải là trường hợp...

Tôi đã viết khoảng 70 bài báo, nhưng bảng điều khiển Yandex Webmaster cho thấy robot tìm kiếm đã lập chỉ mục 275.

Tất nhiên, tôi nghi ngờ rằng mọi thứ không thể tốt như vậy, nhưng tôi không thực hiện bất kỳ hành động nào, hơn nữa tôi còn thêm blog vào trao đổi liên kết. sape.ru và bắt đầu nhận được 5 rúp. mỗi ngày.

Và một tháng sau, dự án của tôi bị áp đặt, tất cả các trang đều không còn được liệt kê, và do đó cửa hàng sinh lời của tôi bị đóng cửa.

Do đó, bạn cần nói cho robot công cụ tìm kiếm biết những trang, tệp, thư mục, v.v. cần được lập chỉ mục và những trang nào cần tránh.

Robots.txt- một tệp cung cấp lệnh cho các công cụ tìm kiếm những gì có thể được lập chỉ mục trên blog và những gì không thể.

Tệp này được tạo trong trình soạn thảo văn bản thông thường (notepad) với phần mở rộng txt và nằm ở thư mục gốc của tài nguyên.

Trong tệp robots.txt, bạn có thể chỉ định:

Những trang, tập tin hoặc thư mục nào cần được loại trừ khỏi việc lập chỉ mục;
Những công cụ tìm kiếm nào bị cấm hoàn toàn lập chỉ mục dự án;
Chỉ định đường dẫn đến tệp sitemap.xml (sơ đồ trang web);
Xác định bản sao chính và bản sao bổ sung của trang web (có www hoặc không có www);

Những gì có trong robots.txt - danh sách các lệnh

Vì vậy, bây giờ chúng ta đang chuyển sang thời điểm khó khăn và quan trọng nhất, chúng ta sẽ phân tích các lệnh và lệnh chính có thể được ghi trong tệp nền tảng robot WordPress.

1) Đại lý người dùng

Trong chỉ thị này, bạn chỉ ra công cụ tìm kiếm nào sẽ được xử lý các quy tắc (lệnh) sau đây.

Ví dụ: nếu bạn muốn tất cả các quy tắc được xử lý cụ thể cho dịch vụ Yandex thì nó sẽ nêu rõ:

Tác nhân người dùng: Yandex

Nếu bạn cần hỏi hoàn toàn tất cả các công cụ tìm kiếm thì hãy nhập dấu hoa thị “*” và kết quả sẽ như sau:

Đại lý người dùng: *

2) Không cho phép và cho phép

Không cho phép - cấm lập chỉ mục các phần, thư mục hoặc trang blog được chỉ định;

Cho phép - theo đó cho phép lập chỉ mục các phần này;

Trước tiên, bạn cần chỉ định lệnh Cho phép và chỉ sau đó là lệnh Disallow. Ngoài ra, hãy nhớ rằng không được có dòng trống giữa các lệnh này, cũng như sau lệnh User-agent. Nếu không, robot tìm kiếm sẽ cho rằng hướng dẫn đã kết thúc.

Ví dụ bạn muốn mở hoàn toàn việc lập chỉ mục của trang web thì chúng ta viết như sau:

Cho phép: /

Không cho phép:

Nếu chúng tôi muốn cấm Yandex lập chỉ mục một trang web, thì chúng tôi viết như sau:

Tác nhân người dùng: Yandex
Không cho phép: /

Bây giờ hãy ngăn việc lập chỉ mục tệp rss.html, nằm ở thư mục gốc của trang web của tôi.

Không cho phép: /rss.html

Và đây là lệnh cấm đối với một tập tin nằm trong một thư mục "tư thế".

Không cho phép: /posumer/rss.html

Bây giờ hãy cấm các thư mục chứa các trang trùng lặp và rác không cần thiết. Điều này có nghĩa là tất cả các tệp nằm trong các thư mục này sẽ không thể truy cập được bởi robot công cụ tìm kiếm.

Không cho phép: /cgi-bin/
Không cho phép: /wp-admin/
Không cho phép: /wp-includes/

Vì vậy, bạn cần cấm rô-bốt truy cập tất cả các trang, thư mục và tệp có thể ảnh hưởng tiêu cực đến sự phát triển của trang web trong tương lai.

3) Máy chủ

Lệnh này cho phép robot của công cụ tìm kiếm xác định trang web nhân bản nào sẽ được coi là trang web chính (có www hoặc không có www). Điều này sẽ bảo vệ dự án khỏi sự trùng lặp hoàn toàn và do đó, sẽ giúp bạn không phải áp dụng bộ lọc.

Bạn chỉ cần đăng ký lệnh này cho công cụ tìm kiếm Yandex, sau Disallow và Allow.

Máy chủ: trang web

4) Sơ đồ trang web

Với lệnh này, bạn chỉ ra vị trí của sơ đồ trang web của mình ở định dạng XML. Nếu ai đó chưa tạo sơ đồ trang web XML cho dự án của họ, tôi khuyên bạn nên sử dụng bài viết “”, trong đó mọi thứ được mô tả chi tiết.

Ở đây chúng ta cần chỉ định địa chỉ đầy đủ cho sơ đồ trang web ở định dạng xml.

Sơ đồ trang web: https://site/sitemap.xml

Xem đoạn video ngắn sẽ giải thích rất rõ ràng cách hoạt động của tệp robots.txt.

Ví dụ về một tập tin hợp lệ

Bạn không cần phải biết tất cả những điều phức tạp khi thiết lập tệp robot mà chỉ cần xem cách các quản trị viên web khác soạn nó và lặp lại tất cả các bước sau họ.

Trang blog của tôi được các công cụ tìm kiếm lập chỉ mục hoàn hảo và không có bản sao hoặc tài liệu rác nào khác trong chỉ mục.

Đây là tập tin được sử dụng trong dự án này:

Tác nhân người dùng: * Không cho phép: / wp- Host: seoslim. ru Sơ đồ trang web: https: //site/sitemap.xml Tác nhân người dùng: Googlebot- Image Allow: / wp- content/ uploads/ Người dùng- tác nhân: YandexImages Cho phép: / wp- content/ uploads/

Tác nhân người dùng: * Không cho phép: /wp- Máy chủ: site.xml Tác nhân người dùng: Googlebot-Image Cho phép: /wp-content/uploads/ Tác nhân người dùng: YandexImages Cho phép: /wp-content/uploads/

Nếu muốn, bạn có thể lấy ví dụ này làm ví dụ, chỉ cần nhớ đổi tên trang web của tôi thành tên trang web của bạn.

Bây giờ hãy để tôi giải thích chính xác những gì một robot như vậy sẽ mang lại cho chúng ta. Thực tế là nếu bạn cấm một số trang trong tệp này bằng cách sử dụng các chỉ thị được mô tả ở trên, thì robot của công cụ tìm kiếm vẫn sẽ đưa chúng vào chỉ mục, điều này chủ yếu liên quan đến Google.

Nếu PS bắt đầu cấm một cái gì đó, thì ngược lại, nó chắc chắn sẽ lập chỉ mục cho nó, đề phòng. Do đó, ngược lại, chúng tôi phải cho phép các công cụ tìm kiếm lập chỉ mục tất cả các trang và tệp của trang web, đồng thời cấm các trang mà chúng tôi không cần (phân trang, bản sao trùng lặp và rác khác) bằng các lệnh sau bằng thẻ meta:

< meta name= "robots" content= "noindex,follow" />

Trước hết, thêm các dòng sau vào tệp .htaccess:

RewriteRule (.+ ) / Feed / $1 [ R= 301 , L] RewriteRule (.+ ) / comment- page / $1 [ R= 301 , L] RewriteRule (.+ ) / trackback / $1 [ R= 301 , L] RewriteRule (.+ ) / comments / $1 [ R= 301 , L] RewriteRule (.+ ) / attachment / $1 [ R= 301 , L] RewriteCond % ( QUERY_STRING) ^attachment_id= [ NC] RewriteRule (.* ) $1 ? [R= 301, L]

RewriteRule (.+)/feed /$1 RewriteRule (.+)/comment-page /$1 RewriteRule (.+)/trackback /$1 RewriteRule (.+)/comments /$1 RewriteRule (.+)/attachment /$1 RewriteCond %( QUERY_STRING) ^attachment_id= Quy tắc viết lại (.*) $1?

Do đó, chúng tôi thiết lập chuyển hướng từ các trang trùng lặp (nguồn cấp dữ liệu, trang bình luận, trackback, bình luận, tệp đính kèm) đến các bài viết gốc.

Tệp này nằm ở thư mục gốc của trang web của bạn và sẽ trông giống như thế này:

#BẮT ĐẦU WordPress< IfModule mod_rewrite. c>RewriteEngine Trên RewriteBase / RewriteCond % ( QUERY_STRING) ^replytocom= [ NC] RewriteRule (.* ) $1 ? [ R= 301 , L] RewriteRule (.+ ) / Feed / $1 [ R= 301 , L] RewriteRule (.+ ) / comment- page / $1 [ R= 301 , L] RewriteRule (.+ ) / trackback / $1 [ R= 301 , L] RewriteRule (.+ ) / comments / $1 [ R= 301 , L] RewriteRule (.+ ) / attachment / $1 [ R= 301 , L] RewriteCond % ( QUERY_STRING) ^attachment_id= [ NC] Quy tắc viết lại (.* ) $1 ? [ R= 301 , L] RewriteRule ^index\. php$ - [ L] RewriteCond % ( REQUEST_FILENAME) !- f RewriteCond % ( REQUEST_FILENAME) !- d RewriteRule . /mục lục. php[L]#ENDWordPress

#BẮT ĐẦU WordPress RewriteEngine Trên RewriteBase / RewriteCond %(QUERY_STRING) ^replytocom= RewriteRule (.*) $1? RewriteRule (.+)/feed /$1 RewriteRule (.+)/comment-page /$1 RewriteRule (.+)/trackback /$1 RewriteRule (.+)/comments /$1 RewriteRule (.+)/attachment /$1 RewriteCond %( QUERY_STRING) ^attachment_id= Quy tắc viết lại (.*) $1? RewriteRule ^index\.php$ - [L] RewriteCond %(REQUEST_FILENAME) !-f RewriteCond %(REQUEST_FILENAME) !-d RewriteRule . /index.php [L]#ENDWordPress

/*** Chúng tôi đóng các trang phân trang khỏi việc lập chỉ mục bằng cách sử dụng noindex, nofollow ***/ hàm my_meta_noindex () ( if ( is_paged() // Trỏ tới tất cả các trang phân trang) ( tiếng vang "" . "" . "\N"; ) ) add_action("wp_head" , "my_meta_noindex" , 3 ) ; // thêm lệnh noindex,nofollow vào đầu template

/*** Chúng tôi đóng các trang phân trang khỏi việc lập chỉ mục bằng cách sử dụng noindex, nofollow ***/ function my_meta_noindex () ( if (is_paged() // Trỏ tới tất cả các trang phân trang) (echo ""." "."\n";) ) add_action("wp_head", "my_meta_noindex", 3); // thêm lệnh noindex,nofollow vào đầu mẫu

Để đóng các danh mục, kho lưu trữ, thẻ, hãy đi tới cài đặt của plugin All in One Seo Pack và đánh dấu mọi thứ như trong ảnh chụp màn hình:

Tất cả cài đặt đã được thực hiện, bây giờ hãy đợi cho đến khi trang web của bạn được lập chỉ mục lại để các bản sao trùng lặp sẽ thoát khỏi kết quả tìm kiếm và lưu lượng truy cập sẽ lên hàng đầu.

Để xóa kết quả của snot, chúng tôi phải cho phép tệp robot lập chỉ mục các trang rác, nhưng khi robot PS truy cập chúng, chúng sẽ thấy thẻ meta noindex và sẽ không đưa chúng vào chỉ mục của chúng.

Kiểm tra robot trong Yandex Webmaster

Sau khi biên soạn chính xác tệp robots.txt và tải tệp đó lên thư mục gốc của trang web, bạn có thể thực hiện kiểm tra đơn giản về chức năng của tệp trong bảng Quản trị trang web.

Để thực hiện việc này, hãy truy cập bảng điều khiển Yandex Webmaster bằng cách sử dụng liên kết

Phần kết luận

Ở cuối bài viết, tôi muốn nói rằng nếu bạn thực hiện bất kỳ thay đổi nào đối với tệp robots.txt, chúng sẽ chỉ có hiệu lực sau một vài tháng.

Để các thuật toán của công cụ tìm kiếm quyết định loại trừ một trang, chúng cần có một quyết định có chủ ý - nó không chỉ chấp nhận chúng ở đó.

Tôi muốn bạn xem xét việc tạo tệp này một cách nghiêm túc, vì số phận tương lai của trang web sẽ phụ thuộc vào nó.

Nếu có thắc mắc gì hãy cùng nhau giải quyết nhé. Để lại một bình luận và nó sẽ không bao giờ không được trả lời. Hẹn sớm gặp lại!

Xin chào lần nữa! Tiếp theo, tôi muốn nhấn mạnh một khía cạnh như kiểm tra quyền truy cập của robot tìm kiếm vào các trang của trang web. Nói cách khác, bot tìm kiếm có quyền lập chỉ mục một trang và đặt nó vào kết quả tìm kiếm không?

Tại sao điều này lại cần thiết và nó có thể hữu ích ở đâu? Ứng dụng thực tế chính là kiểm tra các lệnh chặn quyền truy cập vào các phần hoặc trang riêng lẻ của trang web, tức là. Kiểm tra liệu trang có được phép lập chỉ mục hay không. Ngoài robot, các phương pháp khác có thể được sử dụng để hạn chế quyền truy cập, ví dụ.htaccess, thẻ meta noindex.

Đôi khi điều đó xảy ra là một tác giả blog hoặc quản trị viên trang web mới làm quen không hiểu đầy đủ về cách biên dịch robot và không chắc liệu mình có làm mọi thứ chính xác hay không - các công cụ tiện lợi để kiểm tra sẽ ra tay giải cứu. Hãy xem các ví dụ và các công cụ này ngày nay lần lượt là Phân tích robots.txt và Xem với tư cách Googlebot trong Yandex và Google.

Phân tích robots.txt trong Yandex

Để kiểm tra quyền truy cập của robot Yandex vào trang, bạn nên sử dụng công cụ có tên Phân tích Robots.txt từ bảng điều khiển Quản trị trang web Yandex. Bạn có thể tìm thấy nó thông qua liên kết trên trang chính của bảng YaV.

Trong trường Tên máy chủ, bạn cần chèn địa chỉ của trang chính và nhấp vào nút Tải robots.txt từ trang web, sau đó nội dung của tệp sẽ được hiển thị trong trường văn bản bên dưới. Bước tiếp theo là thêm Danh sách URL - một địa chỉ trên mỗi dòng và nhấp vào nút kiểm tra. Thậm chí thấp hơn, kết quả kiểm tra URL sẽ xuất hiện - quyền truy cập được cho phép hoặc bị từ chối. Bằng cách này, bạn có thể kiểm tra xem các lệnh của robot có được xử lý chính xác hay không và liệu tất cả các trang không cần thiết có bị chặn lập chỉ mục hay không.

Xem với tư cách Googlebot

Để kiểm tra quyền truy cập của robot Google vào các trang, chúng tôi sẽ sử dụng một công cụ tương tự từ bảng dành cho quản trị viên webđược gọi là Xem với tư cách Googlebot. Trong trường văn bản, chèn địa chỉ trang, chọn loại bot tìm kiếm và nhấp vào nút Nhận nội dung. Sau vài giây, yêu cầu sẽ được xử lý và trạng thái nhận sẽ được biểu thị - thành công hoặc bị từ chối trong tệp robots.txt. Có giới hạn về lượt xem trang: 500 địa chỉ cứ sau mười ngày.

Gần đây, chức năng Gửi để lập chỉ mục đã xuất hiện - một trang đã được gửi để xem xét có thể được gửi để lập chỉ mục. Khi bạn bấm vào liên kết tương ứng, một cửa sổ sẽ mở ra với quyền lựa chọn, bao gồm hai tùy chọn: chỉ gửi URL này để lập chỉ mục hoặc URL và tất cả các trang liên quan.