Robots.txt là gì? Cách sử dụng file Robot.txt

Robots.txt là gì?

Robots.txt là một tệp dữ liệu dạng text đặc biệt. Robots.txt có tác dụng cho phép hay không cho phép các công cụ tìm kiếm truy cập đến những trang mà bạn quy định trong nó, giúp cho những trang này nhanh chóng được index hoặc không được index trên các kết quả tìm kiếm.

Cách Robots.txt hoạt động.

  • Crawl-Delay: thông số này xác định thời gian (tính bằng giây) bots phải đợi trước khi chuyển sang phần tiếp theo. Điều này sẽ có ích để ngăn chặn các search engine load server tùy tiện.
  • Dấu # được sử dụng trước các dòng cần comment.
  • robots.txt hoạt động bằng cách xác định một user-agent và một lệnh cho user-agent này.
  • Các tham số có trong file robots.txt
  • Disallow: là khu vực mà bạn muốn khoanh vùng không cho phép search engine truy cập.
  • User-agent: khai báo tên search engine mà bạn muốn điều khiển, ví dụ: Googlebot, Yahoo! Slurp

Cách tạo và sử dụng file Robots.txt:

cách tạo:

File robots.txt là một dạng file rất đơn giản có thể được tảo bởi công cụ Notepad. Nếu bạn sử dụng WordPress Một file robots.txt sẽ có dạng như sau :

User-agent: *
Disallow: /wp-
Disallow: /feed/
Disallow: /trackback/

VD :

  • User-agent: * : Cho tất các các loại bot truy cập vào website
  • Disallow: / : Chặn không cho bot truy cập vào toàn bộ website
  • Disallow: /images/nguoidep.JPG : Chặn không cho bot truy cập vào file ảnh có tên nguoidep.JPG
  • Disallow: /administrator/ : chặn không cho bot truy cập vào trang quản trị.

cách sử dụng file Robot.txt:

1. Không cho phép bot truy cập vào thư mục nào mà mình không muốn:

  • Lấy lại ví dụ trên :User-agent: *
  • Disallow: /wp-admin/
  • Disallow: /wp-includes/
  • ==> Diều này có nghĩa là cho phép tất cả các loại bot thu thập chỉ trừ 2 thư mục wp-admin và wp-includes

2. Khóa toàn bộ website không cho bot đánh chỉ mục:

  • User-agent: *
  • Disallow: /
  • ==> có nghĩa là cấm tất cả các loại bot truy cập vào tất cả tài nguyên có trên website của bạn, như vậy có nghĩa là website bạn chả thèm chơi với các SE.

3. Chặn 1 trang:

Disallow: /lien-he.html

4. Chặn một bot nào đó:

  • User-agent: SpamBot
  • Disallow: /
  • User-agent: *
  • Disallow: /wp-admin/
  • Disallow: /wp-includes/
  • ==> Để bắt đầu chỉ định mới thì bạn hãy đặt một dòng trắng. Và bot SpamBot bị cấm truy cập tất cả tài nguyên. Trong khi các bot khác được truy cập tất cả trừ thư mục “wp-admin ” và “wp-
  • includes”
  • User-agent: SpamBot
  • Disallow: /admin/
  • Disallow: /includes/
  • Disallow: /config/config.php

5. Loại bỏ 1 hình từ Google Images:

  • User-agent: Googlebot-Image
  • Disallow: /images/hinh.png
  • User-agent: *
  • Disallow: /admin/
  • Disallow: /includes/
  • ==> Không cho phép SpamBot truy cập các thư mục được liệt kê như: thư mục “admin”, “includes” và và file “config.php” . Còn các bot khác được truy cập mọi thứ trừ hai thư mục “admin” và “includes”.

6. sử dụng đồng thời “Allow” và “Disallow” cùng nhau:

  • User-agent: Googlebot
  • Disallow: /vidu/
  • Allow: /vidu/chi-demo-thoi-nha.html
  • == > có nghĩa là chặn Googlebot truy cập vào tài nguyên có trong thư mục “vidu” .Nhưng chỉ có thể truy cập được file “chi-demo-thoi-nha.html”
  • User-agent: Googlebot
  • Disallow: /
  • User-agent: Googlebot-Mobile
  • Allow: /

Những sai sót nên tránh khi sử dụng.

khi các bạn sử dụng lại một robots.txt của ai đó hoặc tự mình tạo ra một robots.txt riêng cho website mình thì cũng không tránh khỏi những sai sót. Bạn cần lưu ý những những vấn đề sau:

  • Câu lệnh cần viết chính xác, không thiếu hay thừa ký tự hay khoảng trắng, và có phân biệt chữ hoa chữ thường.
  • File phải được lưu với bảng mã là utf-8, không sử dụng mã Unicode vì như vậy sẽ hiển thị ra các ký tự không đúng với mong muốn, và làm sai mã chỉ dẫn.
  • Việc chặn bằng file này không mang tính tuyệt đối. Nếu bạn đặt đường link từ trang không bị chặn đến trang bị chặn, thì trang bị chặn vẫn rất có thể xuất hiện trên kết quả tìm kiếm. Vì vậy khi muốn bảo vệ nội dung, để cho chắc bạn nên đặt mật khẩu bảo vệ cho những thư mục hoặc trang nào cần thiết.

Tuy Robots.txt là một tập tin đơn giản nhưng có chức năng rất quan trọng giúp những công cụ tìm kiếm dễ dàng index những thông tin nóng hổi trên trang web của bạn thường xuyên nhất. 

Qua bài viết này hy vọng các bạn đã hiểu hơn về robots.txt là gì? cách tạo và cách dùng file robots.txt. Nếu có nhu cầu sử dụng hosting, tên miền thì hãy liên hệ với bên mình để được hưởng những ưu đãi tốt nhất nhé: hotline 0971.861.698. 

Công ty CP công nghệ Sami Việt Nam chuyên cung cấp các dịch vụ thiet ke web, tên miền và hosting, chạy quảng cáo Google Ads, quản trị website,…. với hơn 6 năm kinh nghiệm làm việc trong lĩnh vực thiết kế web, chúng tôi tự tin mang lại cho bạn dịch vụ thiết kế web Thái Nguyên uy tín, chuyên nghiệp nhất.

Đừng quên đọc SEO là gì? Thiết kế web chuẩn SEO sẽ giúp bạn hiểu rõ hơn về SEO.