38
• Mô hình tổng quan
Hình 23. Mô hình tổng quan của hệ thống
Trước hết, tập hạt giống các tên sản phẩm được đưa qua “module xác định website kinh doanh sản phẩm và mẫu trích xuất” để tạo ra một tập các website kinh doanh sản phẩm và mẫu trích xuất tên, giá sản phẩm tại các website đó.
Các website và mẫu trích xuất tương ứng này sẽ qua “module thu thập dữ liệu và trích xuất thông tin” để thu thập được tên sản phẩm và giá của sản phẩm, thông tin này sẽ được cập nhật vào cơ sở dữ liệu “thông tin sản phẩm” và “tập hạt giống tên sản phẩm”.
39
• Module xác định các website kinh doanh sản phẩm và các mẫu trích xuất
Hình 24. Module xác định các website kinh doanh sản phẩm và các mẫu trích xuất
Module này được xây dựng trên cơ sở “bài toán động trích xuất thông tin về tên và giá của các trang sản phẩm”.
Tập hạt giống ban đầu qua tiến trình “xác định các trang liên quan” để được một tập các trang liên quan đến sản phẩm. Tập các trang liên quan sẽ được qua tiến trình “trích xuất các mẫu trích xuất thông tin” để đạt được các mẫu trích xuất và website tướng ứng với mẫu trích xuất đó. Các mẫu và website này sẽđược thống kê sự trùng lặp, đểđạt được website và mẫu trích xuất phù hợp với website.
40
• Module Thu thập dữ liệu và trích xuất thông tin
Hình 25. Module Thu thập dữ liệu và trích xuất thông tin
Sau khi xác định được các website và các mẫu trích xuất thông tin của website, thì website này sẽđược thu thập dữ liệu. Sau đó tập dữ liệu thu thập này sẽđược qua module trích xuất thông tin để lấy các thông tin về sản phẩm: tên sản phẩm và giá của sản phẩm.
Các thông tin này sẽđược cập nhật vào cơ sở dữ liệu về sản phẩm, tên của sản phẩm sẽđược dùng để mở rộng tập hạt giống.