Tệp "robots.txt" cho cỏc cụng cụ tỡm kiếm biết liệu chỳng cú thể truy cập và nhờ vậy, thu thập dữ liệu cỏc phần trong trang web của mỡnh khụng. Tệp này phải được đặt tờn là "robots.txt" và được đặt trong thư mục gốc của website.
Tất cả cỏc bot cụng cụ tỡm kiếm tương thớch (được biểu thị bằng biểu tượng ký tự đặc trưng *) khụng được truy cập và thu thập dữ liệu nội dung theo /images/ hoặc bất kỳ URL nào cú đường dẫn bắt đầu bằng /search.
Chỳng ta cú thể khụng muốn một số trang nhất định trong trang web của mỡnh được thu thập dữ liệu bởi vỡ chỳng cú thể khụng hữu ớch cho người dựng nếu được tỡm thấy trong cỏc kết quả tỡm kiếm của cụng cụ tỡm kiếm. Nếu muốn
ngăn khụng cho cỏc cụng cụ tỡm kiếm thu thập dữ liệu cỏc trang của mỡnh, Cụng cụ Quản trị Trang web của Search engine cú trỡnh tạo robots.txt thõn thiện để giỳp chỳng ta tạo tệp này.
Lưu ý rằng nếu trang web sử dụng cỏc tờn miền phụ và ta muốn một số trang nhất định khụng được thu thập dữ liệu trong tờn miền phụ cụ thể, thỡ ta sẽ phải tạo tệp robots.txt riờng biệt cho tờn miền phụ đú.
Cú một số cỏch khỏc để ngăn khụng cho nội dung xuất hiện trong cỏc kết quả tỡm kiếm như thờm "NOINDEX" vào thẻ meta của cỏc robot của website, sử
dụng .htaccess để bảo vệ bằng mật khẩu cỏc thư mục và sử dụng Cụng cụ Quản trị Trang web của Search engine để xoỏ nội dung đó được thu thập dữ liệu trước đú.
Cỏc nguyờn tắc hữu ớch dành cho robots.txt
• Sử dụng cỏc phương thức an toàn hơn đối với nội dung nhạy cảm ta sẽ khụng cảm thấy yờn tõm khi sử dụng robots.txt để chặn tài liệu nhạy cảm hoặc bớ mật. Một lý do là cỏc cụng cụ tỡm kiếm cú thể vẫn tham chiếu cỏc URL ta chặn (chỉ hiển thị URL, khụng phải tiờu đề hay đoạn trớch) nếu ngẫu nhiờn cú được cỏc liờn kết đến những URL đú trờn Internet(như cỏc bản ghi tham chiếu). Cũng vậy, cỏc cụng cụ tỡm kiếm lừa đảo hoặc khụng tương thớch khụng thừa nhận Chuẩn Loại trừ Robot cú thể khụng tuõn theo cỏc hướng dẫn của robots.txt của website. Cuối cựng, người dựng tũ mũ cú thể kiểm tra cỏc thư mục hoặc thư mục con trong tệp robots.txt của mỡnh và đoỏn ra URL của nội dung mà ta khụng muốn cho xem.
Mó hoỏ nội dung hoặc bảo vệ bằng mật khẩu với .htaccess là lựa chọn an toàn khỏc.
Trỏnh:
• Cho phộp cỏc trang giống kết quả tỡm kiếm được thu thập dữ liệu (người dựng khụng thớch rời trang kết quả tỡm kiếm và vào trang kết quả tỡm kiếm khỏc khụng thờm giỏ trị quan trọng nào cho họ).
• Cho phộp số lượng lớn cỏc trang tự tạo với cựng nội dung hoặc nội dung chỉ hơi khỏc nhau được thu thập dữ liệu: "100.000 trang gần như trựng lặp này cú thật sự nờn nằm trong chỉ mục của cụng cụ tỡm kiếm?"
• Cho phộp cỏc URL được tạo ra bởi cỏc dịch vụ uỷ quyền được thu thập dữ liệu.