File robots.txt

Một phần của tài liệu Tìm hiểu và ứng dụng tối ưu hóa tìm kiếm Google (SEO) (Trang 44)

Khi Robot truy cập vào 1 website, trước khi đọc nội dung các trang web, nó sẽ tìm đến file robots.txt. Đây là một file text, đặt ở thư mục gốc, chứa các dòng lệnh dùng để CẤM Robot không được truy cập đến 1 số tài nguyên trên website.

Trong website của bạn chắc chắn sẽ có một số trang, thư mục, file mà bạn không muốn bị người khác “nhòm ngó”. Khi đó bạn hãy sử dụng lệnh DisAllow để cấm Robot đọc. Nếu bạn sử dụng lệnh Allow: /, tất cả mọi ngóc ngách trong website sẽ được Google index.

Xem ví dụ: http://inet.edu.vn/robots.txt

45

User-agent: * <-- tất cả các spiders

Disallow: /admin/ <-- cấm đọc các trang trong Disallow: /private/ thư mục admin.

Disallow: /backup/

Allow:/ <-- cho phép đọc phần còn lại Sitemap: http://inet.edu.vn/sitemap.xml

Bước 2: Copy file lên thư mục gốc của website

Nếu thấy website bị mất nhiều index, bạn hãy kiểm tra file robots.txt xem có dòng cấm (DISALLOW) Robot đọc nội dung trang web hay không.

Ngoài cách sử dụng file robots.txt, bạn có thể sử dụng thẻ META ROBOTS trong phần <head>...</head> của nội dung HTML để điều khiển Robot truy cập vào trang web đó:

<META content="name="robots" index, follow" />

Trong đó, giá trị của trường content:

ALL Cho phép Robots Index và đi theo links tới trang khác = Index, Follow

NONE Không cho Index và không cho đi tới trang khác = NoIndex, NoFollow

[NO]INDEX [Không] cho phép Robot index trang web

[NO]FOLLOW [Không] cho phép Robot lần theo các link đến trang đích, không truyền giá trị cho trang đích.

Khi Robot đọc file robots.txt, nó sẽ đưa nội dung của file này về máy chủ để báo cáo. Bạn có thể xem nội dung này trong Webmaster Tools, menu: Tình trạng >> URL bị chặn

Một phần của tài liệu Tìm hiểu và ứng dụng tối ưu hóa tìm kiếm Google (SEO) (Trang 44)