File Robots.txt là gì? Ý nghĩa file robots.txt trong SEO

14-08-16 adminseo 0 comment

Đã bao giờ bạn thử hỏi một ai đó hay tự hỏi bản thân rằng file robots.txt là gì và nó có tác dụng như thế nào trong SEO chưa?
Trong bài viết này đào tạo SEO TPHCM sẽ giải thích chi tiết về thuật ngữ đặc biệt này và cũng xin đưa ra hướng dẫn cách sử dụng cụ thể để các bạn có thể tối ưu cho website chuẩn SEO một cách dễ dàng.

file-robot-la-gi

File Robots.txt là gì?


Để dễ hiểu đơn giản chúng tôi sẽ đưa dẫn chứng như sau: Website của bạn như một ngôi trường bạn đang theo học thì file Robots.txt chính là những bảng nội qui của trường học đó. Việc đầu tiên khi bạn vào trường (chính là các Spider – Bọ tìm kiếm) muốn vào trường không vi phạm nội quy thì phải đọc nội qui của cơ để biết mình được phép làm gì, không được phép làm gì, tại ngôi trường đó, những việc gì được phép làm và việc nào thì không…


Chính vì vậy việc bạn cài đặt và cấu hình file Robots.txt được xem như là cực kỳ quan trọng.


Ý nghĩa file robots.txt trong SEO


Nếu website của bạn có những bảo mật thông tin không muốn các bọ tìm kiếm của Google, Yandex… index và xuất hiện trong kết quả tìm kiếm thì bạn có thể thiết lập ở đây. Ngoài ra việc cấu hình file Robots.txt còn có ích rất nhiều trong SEO.


Cài đặt và cấu hình file Robots.txt


Thực chất Robots.txt là một file văn bản hết sức đơn giản được đặt ở thư mục root của host (VD: http://daotaoseotphcm.edu.vn/robots.txt). Bạn có thể sử dụng bất kì trình soạn thảo văn bản nào để tạo. Ví dụ Notepad chẳng hạn.


Dưới đây là cấu trúc một file robots.txt đơn giản của WordPress:


User-agent: *

Allow: /
Disallow: /wp-admin/
Disallow: /wp-includes/

Trong đó:


User-agen:* qui định các loại bot được phép truy cập vì hiện tại có rất nhiều bot như Googlebot (Google), Googlebot Image, Bingbot, Yahoo Slurp, Yandex ( Yandex là công cụ tìm kiếm của Nga). Ở đây sử dụng dấu * nghĩa là cho phép mọi loại bot truy cập.


Allow:/ cho phép dò và index toàn bộ các trang và thư mục

Disallow: /wp-admin/ và Disallow: /wp-includes/ chặn hai thư mục wp-admin và wp-includes

Những cú pháp thông dụng trong file Robots.txt


– Cho phép dò và index toàn bộ trang và các thư mục, các file

Allow: /
– Chặn không cho phép bot truy cập và index toàn bộ
Disallow: /
– Chặn toàn bộ một thư mục và các file, thư mục con trong nó
Disallow: /abc/
– Chặn một trang cố định
Disallow: /abc.html
– Chặn một loại file cố định từ một bot của công cụ tìm kiếm
User-agent: Googlebot
Disallow: /*.doc (thay doc bằng jpg hoặc bất kì file nào muốn chặn)
– Chặn một hình không cho Googlebot-Image index
User-agent: Googlebot-Image
Disallow: /abc/def.jpg
– Chặn không cho một bot bất kì truy cập:
User-agent: Googlebot
Disallow: /

Lưu ý khi sử dụng và tạo file Robots.txt


– Phân biệt chữ hoa, chữ thường

– Không được viết thừa hoặc thiếu khoảng trắng
– Mỗi lệnh viết trên một dòng
– Không tự ý thêm các ký tự đặc biệt dễ gây nhầm lẫn cho bot
– Hết sức thận trọng khi sử dụng
– Kiểm tra thường xuyên file robots.txt

Trên đây là các thông tin về file Robots.txt mà Trung Tâm Đào Tạo SEO TPHCM muốn gửi đến học viên. Nếu bạn có thêm bất kì thắc mắc nào về loại file này và cách sử dụng hãy liên hệ ngay cho chúng tôi qua thông tin dưới đây


Trung Tâm Đào Tạo SEO TPHCM

Địa chỉ : 641/3 Quang Trung, P.11, Q. Gò Vấp, TPHCM
Hotline : 0973 556 107 – 096 2222 648
Email : daotaoseotphcm.edu.vn
Website : daotaoseotphcm.edu.vn

File Robots.txt là gì? Ý nghĩa file robots.txt trong SEO
5 (100%) 2 votes


Viết bài bình luận