Hướng dẫn tạo file robots.txt chuẩn cho wordpress

Files robots.txt file là một file được đặt tại thư mục gốc của trang web, nó cho phép các công cụ tìm kiếm hiểu rõ hơn về website, blog của bạn đối với những mục được truy cập và những mục không được truy cập để lập chỉ mục…

tệp tin robots.txt dành cho website

Robots Exclusion Standard được đề xuất phát triển vào năm 1994, nó như là một sơ đồ giúp hướng dẫn các con bots của các công cụ tìm kiếm thu thập thông tin website bạn đúng với ý bạn muốn, đồng thời files robots.txt còn giúp ngăn chặn công cụ tìm kiếm lập chỉ mục nhưng thư mục nhạy cảm mà bạn không muốn nó được index trên công cụ tìm kiếm.

Một số định nghĩa cơ bản của tệp tin robots.txt

Files robots.txt được tạo ra bởi các trình soạn thảo và phải được lưu dưới dạng có đuôi .txt và tệp tin này phải được đặt ngang hàng với các thư mục gốc trên website, và nó sẽ có đường dẫn mặc định như sau: https://tenwebsite.com/robots.txt/

Mặc định khi bạn khai báo website với công cụ tìm kiếm, khi những con bots tìm kiếm thu thập thông tin website nó sẽ kiểm tra tệp tin robost.txt để nó hiểu hơn về website của bạn trước khi nó đi thu thập thông tin, ở google nếu như website của bạn không tồn tại files robots.txt ngay lập tức bạn sẽ nhận được thông báo trong trình quản trị WMT.

Có thể bạn quan tâm:

Ngoài ra files robots.txt còn được phân biệt bằng chữ hoa và chữ thường, ở đây bắt buộc bạn phải lưu dưới dạng chữ thường chứ không được phép lưu "Robots.txt, robots.TXT"

Các cú pháp trong files robots.txt được gọi là ” chỉ thị và nó có một số lệnh cơ bản sau:

  1. User-agent – Xác định nhận dạng các công cụ tìm kiếm để thực hiện một lệnh hay một chỉ thị nào đó.
  2. Disallow – Lệnh để nói với User-agent không thu thập dữ liệu URL cụ thể. Chỉ cho phép một dòng “Disallow:” cho mỗi URL.
  3. Allow – (Chỉ áp dụng cho Googlebot): Lệnh nói với Googlebot rằng nó có thể truy cập một trang hoặc thư mục con ngay cả khi trang gốc hoặc thư mục con của nó có thể không được phép.
  4. Crawl-delay – Thời gian mà công cụ tìm kiếm tiến hành thu thập thông tin của 1 trang nhất định ( googlebot không thừa nhận lệnh này ).
  5. Sitemap – Được sử dụng để gọi vị trí của bất kỳ sơ đồ trang XML áp dụng cho một số công cụ như (Google, Ask, Bing và Yahoo ).
  6. * – Cho phép tất cả
  7. / Đại diện cho đường dẫn gốc của tên miền
  8. Và còn một số ký tự như:? $ nhưng mình sẽ không đề cập ở đây.

Ví dụ khi tôi muốn tất cả các công cụ tìm kiếm khi truy cập vào website của tôi không được phép thu thập dữ liệu tôi sẽ làm như sau:

User-agent: *
Disallow: /

Hoặc tôi muốn chỉ định chính sác tên của một công cụ tìm kiếm nào đó không được phép thu thập dữ liệu của 1 thư mục cụ thể trên website, ở đây tôi sẽ không cho phép bot của google nhé.

User-agent: Googlebot 
Disallow: /hinh-anh/

Hoặc cho phép tất cả các công cụ tìm kiếm thu thập toàn bộ thông tin website:

User-agent: * 
Disallow:

Chặn công cụ Bing thu thập chỉ mục cụ thể

User-agent: Bingbot
Disallow: /example-subfolder/bai-viet.html

Mẫu files robots.txt chuẩn dành cho wordpress

Qua những ví dụ trên các bạn cũng đã phần nào hiểu được cách thức vận hành của một files robot.txt rồi đúng không nào. Bây giờ quay trở lại với wordpress mình cũng có cho bạn một mẫu files robots.txt , và dĩ nhiên bạn cũng có thể sử dụng cho website của mình.

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Allow: /wp-admin/images/*
Sitemap: https://baonguyenblog.com/sitemap_index.xml

Bạn chỉ việc sử lại cái tên website ở phần sitemap thành tên website của mình là được. Do mình dùng Seo By Yoas lên khi gõ đường dẫn https://baonguyenblog.com/sitemap_index.xml nó sẽ liệt kê toàn bộ các sitemap có trên website lên mình cũng không cần khai báo hết vô files robots.txt

Cách chỉnh sửa files robots.txt cho wordpress

Như đã nói ở trên thì files robots.txt nằm ngang hàng với thư mục gốc trên website cho lên bạn sẽ dễ dàng tìm thấy nó khi truy cập vào hosting, trong trường hợp không có thì bạn phải tạo mới rồi upload lên website của bạn.

Nếu như bạn sử dụng plugin seo by yoas thì bạn có thể di chuột vào SEO -> Tools -> File editor để tiến hành sửa, hoặc bạn có thể truy cập nhanh theo đường dẫn https://baonguyenblog.com/wp-admin/admin.php?page=wpseo_tools&tool=file-editor nhớ là hãy đổi https://baonguyenblog.com thành tên miền của bạn nhé.

Như vậy mình đã giới thiệu cho các bạn các thành phần cơ bản và cách mà files robots.txt hoạt động rồi, đồng thời với mẫu files robots.txt chuẩn cho wordpress mà mình giới thiệu hi vọng sẽ giúp ích được đối với các bạn, mọi thắc mắc các bạn có thể đặt câu hỏi phía dưới.

Bảo Nguyễn

Đam mê dòng nhạc Bolero, thích con gái công sở và thích bàn luận quân sự.

Leave a Reply

Be the First to Comment!

Notify of
avatar
wpDiscuz

Create Account



Log In Your Account