Nguyên lí thu thập dữ liệu (Crawler)

Bộ thu thập dữ liệu Web còn được biết đến với các tên như: Web Spider, Web Robot. Chúng là một chương trình hoặc script tự động duyệt qua tất cả các URL thỏa mãn một yêu cầu nào đó. Quá trình này được gọi là Web crawling hoặc Web spidering.

Vận dụng khả năng trên, các crawler được dùng phổ biến trong các ứng dụng như lấy toàn bộ một trang Web, đồng nhất dữ liệu trực tuyến và gián tuyến, cập nhật liên kết, kiểm tra liên kết hỏng định kì. Các máy tìm kiếm cũng sử dụng crawler trong các tác vụ cập nhật CSDL phục vụ cho tìm kiếm, crawler trả ra kết quả là một chỉ mục của các site mà đã đăng kí với nó, chỉ mục này được sử dụng mỗi khi người dùng nhập một vài thông tin và thực hiện tìm kiếm. Hệ thống đang xây dựng cũng cần đến một crawler trong quá trình thu thập và cập nhật thông tin tự động. Chúng ta có thể mô tả khả năng của crawler trong bài toán này như sau:

(1) Cung cấp cho crawler vài thông tin về nơi có nguồn dữ liệu tốt;

(2) Crawler sẽ tự động tìm kiếm toàn bộ nguồn dữ liệu này và cập nhật về CSDL của chuơng trình.

Nguyên lí hoạt động

Một crawler có điểm bắt đầu từ một địa chỉ URL. Theo thứ tự để thao tác với các tài nguyên WWW, crawler sử dụng giao thức HTTP, nó cho phép crawler giao tiếp với máy chủ Web để lấy dữ liệu và gửi các yêu cầu xử lí cho máy chủ. Kết quả trả về là một trang Web, crawler sẽ thực hiện phân tích trang Web và tìm kiếm trong nội dung các siêu liên kết. Crawler tiếp tục thao tác với các liên kết này theo một cách hoàn toàn tương tự (hình 2.3).

Ngoài việc phân tích dữ liệu trả về của các liên kết, crawler còn thực hiện các thao tác phân tích các dữ liệu khác nhau tùy thuộc vào bài toán. Muscle Fish (Một công cụ tìm kiếm tệp âm thanh) dùng crawler để tìm kiếm trên các trang Web các tệp âm thanh. Hầu hết các trình tìm kiếm đều kiểm soát tất cả các tệp thông qua các thông tin văn bản gắn với chúng. Đây là một công việc dễ hiểu và không phức tạp, tìm kiếm các tệp âm thanh không khác với việc tìm kiếm các loại tệp khác. Tuy nhiên, cách tiếp cận của Muscle Fish là phân tích chính những âm thanh của các tệp đó. Lựa chọn này cho phép ta tìm kiếm các tệp âm thanh dựa trên các âm thanh thực sự của chúng chứ không bị giới hạn như các trình tìm kiếm khác.

Bài toán bóc tách thông tin

tưởng giải thuật “Khoảng cách cây soạn thảo”