Trích xuất thông tin sử dụng Web Spider

Về bản chất, Web Spider chính là quá trình duyệt đệ quy một đồ thị cây có các node là các trang web. Tùy thuộc vào chiến lược của Web Spider, các node có thể được duyệt theo chiều sâu hoặc duyệt theo chiều rộng. Trong thực tế, Web Spider sẽ phải đối diện với rất nhiều vấn đề khó khăn như: kích thước khổng lồ của World Wide Web, các trang web HTML được viết không chuẩn, hạn chế ghé thăm một URL đã được ghé thăm trước đó, các trang web động, nội dung các trang web được cập nhật thường xuyên v.v…

Tuy nhiên báo cáo khóa luận này sẽ tập trung vào việc chuyển đổi nội dung không cấu trúc của các trang web (chủ yếu được viết bằng HTML) sang thành nội dung có cấu trúc, sau đó bóc tách, trích xuất phần thông tin mà người dùng quan tâm trên một trang web chứ không cố gắng tìm kiếm càng nhiều trang web trên World Wide Web càng tốt như các Web Spider khác.

Một số kỹ thuật được sử dụng trong Web Spider có thể kể ra như:

 So trùng: một kỹ thuật đơn giản nhưng khá hiệu quả để tìm kiếm các phần nội dung chữ có sự tương đồng với nhau (do nội dung trang web chủ yếu là ở dạng ký tự). Kỹ thuật này thường sử dụng biểu thức chính quy (regular expression) để so trùng và tìm kiếm.

 Phân tích cấu trúc DOM: phân tích nội dung HTML của trang web và xây dựng một cây DOM (Document Object Model), giúp Web Spider có thể duyệt các node trên cây này và chỉ lấy ra phần nội dung mà nó cần.

 Lập trình HTTP: ta có thể lấy được nội dung trang web bằng cách gửi một yêu cầu HTTP đến web server, cũng giống như cách web browser làm.

Trích xuất thông tin sử dụng Web Spider

Cấu trúc của chương trình

Thực nghiệm chức năng chương trình