Cùng với sự phát triển nhanh chóng của Internet, kèm theo đó là hàng loạt các dịch vụ trực tuyến. Các dịch vụ này được cung cấp trên nền tảng Web. Một trong những đối tượng được nhiều người quan tâm và có tầm ảnh hưởng lớn nhất là các site cung cấp thông tin. Các thông tin đó có thể là các tin tức thời sự, xuất hiện dưới dạng các bản tin, các thông tin cũng có thể là các thông tin thời tiết, giá cả.
Mỗi loại thông tin đều có các ứng dụng khác nhau, đi kèm phục vụ cho việc khai thác chúng. Đối tượng của khai phá Web là các trang Web có cấu trúc. Trong tập đối tượng đã giới hạn này, chúng ta nhận thấy giữa các trang Web vẫn có những đặc điểm khác nhau rõ rệt về cấu trúc khi chúng được dùng làm đầu vào cho các bộ trích lọc. Chẳng hạn so sánh site báo chí với các site bán hàng trực tuyến để thấy rõ sự khác nhau này. Một site báo chí có cấu trúc gồm các khối thông tin được sắp xếp trên một khuôn mẫu định trước. Khi thu thập thông tin từ các site báo chí làm đầu vào cho các bộ trích lọc, trên mỗi trang chỉ bao gồm một khối chứa thông tin có giá trị nội dung, còn lại là các khối thông tin khác như quảng cáo, bảng điều hướng,... Như vậy, với trang này các bộ trích lọc chỉ bóc tách ra một bản ghi. Trong khi đó, các site bán hàng, chẳng hạn site cung cấp thông tin giá cả sản phẩm, là các trang dùng để liệt kê sản phẩm. Mỗi trang liệt kê các sản phẩm như thế thường chứa nhiều sản phẩm (lớn hơn một) có cấu trúc tương tự nhau. Chúng có thể phân bố ở nhiều vị trí trên site. Như vậy, bộ trích lọc sẽ bóc tách được nhiều bản ghi dữ liệu đối với một trang đầu vào.
Luận văn này sẽ tập trung vào giải quyết một dạng bài toán cụ thể, đó là bài toán bóc tách các thông tin giá cả từ các trang liệt kê sản phẩm.
Đầu vào: Lấy từ các site bán hàng trực tuyến. Đó là các trang liệt kê sản phẩm theo một cấu trúc tương tự nhau, nghĩa là trên mỗi trang, các bản ghi sử dụng cùng một khuôn mẫu. Trên các trang này chứa các thông tin như tên sản phẩm, đơn vị, mô tả sản phẩm, giá cả.
Phương pháp: Thực hiện việc bóc tách tự động thông tin, không cần sự can thiệp của người dùng, không cần cấu hình sẵn đối với từng nguồn dữ liệu. Thuật toán bóc tách được xây dựng từ lí thuyết Khoảng cách cây soạn thảo (Tree Edit Distance).
Đầu ra: Bóc tách các thông tin chính (nếu có) bao gồm tên sản phẩm, đường dẫn ảnh sản phẩm, giá của sản phẩm.