Crawler, Spider, Robot

Web Crawler, web spider [3] hay web robot là một chương trình tự động tìm kiếm trên Internet. Nó được thiết kế để thu thập tài nguyên trên internet như trang web, hình ảnh, video, tài liệu Word, PDF cho phép hệ thống tìm kiếm đánh chỉ số sau đó.

Quá trình thực hiện được gọi là web crawling hay spidering, rất nhiều công cụ tìm kiếm trên thế giới sử dụng spidering để cập nhập kho dữ liệu website của mình. Chẳng hạn Google để lấy các thông tin trên các website rồi cập vào cơ sở dữ liệu của nó giúp người dùng tìm kiếm ra các trang theo ý muốn.

Web crawler là một loại mà thường gọi là bot. Hiểu như là, nó bắt đầu từ danh sách của các địa chỉ gọi là URL được gọi là seeds. Nó sẽ vào các địa chỉ này lọc thông

tin rồi tìm các địa chỉ khác như URL để thêm chúng vào danh sách các địa chỉ đã duyệt qua gọi là crawl frontier. Những link trong các crawl frontier sẽ tìm ra cho crawl đi đến những page khác trong website. Sau đó, nó lại lặp lại quá trình đó duyệt qua những URL mới. Cứ thế, nó lặp lại nhiều lần địa chỉ website và thu thập rất nhiều nội dung khác nhau giúp ta dễ dàng tìm kiếm thông tin của mình cần.

Mỗi search engine có đều những tên riêng cho crawler cụ như:

o Ask: Teoma

o Baidu: Baidu

o Alta Vista: Scooter

o Google: GoogleBot

o Yahoo! Web search: Yahoo SLURP hay SLURP

Sự khác biệt duy nhất của trình duyệt web (web browser) và crawler là crawler chỉ thấy được giao diện html text.

Tuy nhiên chúng ta có một vài trường hợp không mong muốn crawler vào website của mình để lấy thông tin như:

Website trong quá trình xây dựng, sữa chữa, bảo trì thì không mong muốn các crawler sẽ không vào website để index.

Thông tin cá nhân, thông tin riêng tư: với những thông tin dạng này, chúng ta nên đặt password-protect để bảo vệ thông tin cá nhân, và không ai có thể lấy được thông tin kể cả crawler. Ngoài cách này, có thể sử dụng file robots.txt đặt trong web root “/robots.txt” để tránh crawler tìm kiếm và lấy thông tin.

Trên thế giới những web crawler rất nhiều và áp dụng vào nhiều loại hình website khác nhau như: web việc làm, web tin tức, web chứng khoán, web rao vặt, web sức khỏe, … Ở việt nam cũng xuất hiện khá nhiều như:

 Web việc làm: vietnamworks.com, kiemviec.com, tuyendung.com

 Web tin tức: vnexpress.net, dantri.com, .vn, tuoitre.vn

 Web chứng khoán: cafef.vn, vietstock.vn, stockbiz.vn

 Web sức khỏe: suckhoedoisong.vn, dinhduong.com.vn, ykhoanet.com Ngoài crawler và spider ta còn có robots.txt. Đây là một file dạng text, được đặt ở thư mục root của domain. Nội dung này của file là hướng dẫn cho các crawler khi vào website để biết được những site nào crawler được phép đánh chỉ mục index hay không đánh chỉ mục.

Cú pháp file robots.txt gồm hai phần: phần đầu là “User-agent”, xác định những User-agent hay crawler được cho phép truy cập vào các thư mục, file. Phần hai là “Disallow” và “Allows”, cho phép hoặc không cho phép User-agent được chỉ định ở phần một. Như mẫu dưới đây sẽ cấm tất cả User-agent truy cập vào thư mục root ”/” của domain.

User-agent:* Diasllow:/

Ta có thể thay thế “*” ở trên bằng tên các bot của search engine như Googlebot, Yahoo SLURP, Teoma, Scooter … để cấm truy cập tài nguyên “/”.

Ví dụ: robots.txt của youtube.com

Hình 3 - File robots.txt (Nguồn: tác giả)

Robot meta tag là một thẻ tag trong html, được đặt trong thẻ <header>. Robot meta tag làm việc tương đối giống với file robots.txt.

Dưới đây ví dụ về robot meta tag của vnexpress.net.

Robot meta tag cho crawler có thể được chỉ mục và follow các liên kết trong site hay không.

Sau khác biệt cơ bản giữa robot meta tag và file robots.txt là file robots.txt có thể định dạng được từng crawler khi đánh chỉ mục theo những liên kết trong site, còn robot meta tag áp dụng với mọi crawler.

Hình 4 - Robot meta tag (Nguồn: tác giả)

XML sitemap, tạo file sitemap

SEO mũ đen và cách phòng tránh