Sử dụng noindex

Một phần của tài liệu TÌM HIỂU GOOGLE HACKING VÀ ỨNG DỤNG TRONG AN TOÀN THÔNG TIN (Trang 25 - 26)

Như đã nói ở trên robot.txt có hạn chế là nếu trang web bị dẫn liên kết từ một nơi khác đến, trang web của bạn vẫn có thể bị xuất hiện trên Google.

Ta có 2 cách sử dụng noindex:  Sử dụng với thẻ meta.

 Sử dụng với file .htaccess hoặc https.conf trên Apache hoặc file .conf trên Nginx.

Sử dụng với thẻ meta

Thẻ meta robots cho phép bạn sử dụng phương pháp chi tiết, cụ thể theo từng trang để kiểm soát cách Google lập chỉ mục và phân phát từng trang riêng lẻ cho người dùng trong kết quả của Google Tìm kiếm. Hãy đặt thẻ meta robots vào phần <head> của một trang nhất định, như trong ví dụ sau:

<!DOCTYPE html> <html><head>

<meta name="robots" content="noindex" /> (…)

</head>

<body>(…)</body> </html>

Giá trị của thuộc tính name (robots) chỉ định rằng lệnh này áp dụng cho mọi trình thu thập dữ liệu. Để chỉ dẫn cho một trình thu thập dữ liệu cụ thể, hãy thay thế giá trị robots của thuộc tính name bằng tên của trình thu thập dữ liệu mà bạn muốn chỉ dẫn.

Với Google ta có thể sử dụng Googlebot để chỉ định chặn Google lập chỉ mục trang web của mình, hoặc Googlebot-Image để chặn trang web xuất hiện trên Google Hình ảnh, hay Googlebot-News để chặn xuất hiện trên Google Tin tức.

Sử dụng với file .htaccess hoặc https.conf trên Apache hoặc file .conf trên Nginx

Khác với thêm ở thẻ meta là Google chỉ chặn những trang có chứa nó thì khi bạn thêm vào các file cấu hình chung này thì sẽ chặn Google lập chỉ mục trên toàn bộ trang web.

Với Apache, ta sẽ thêm dòng dưới vào file .htaccess ở public_html hoặc file httpd.conf ở /usr/local/Apache/conf/httpd.conf:

Header set X-Robots-Tag "noindex"

Với Nginx, ta sẽ thêm dòng dưới vào file .conf thường được tìm thấy tại /etc/nginx/:

add_header X-Robots-Tag "noindex";

Một phần của tài liệu TÌM HIỂU GOOGLE HACKING VÀ ỨNG DỤNG TRONG AN TOÀN THÔNG TIN (Trang 25 - 26)

Tải bản đầy đủ (DOCX)

(30 trang)
w