Mô hình hệ thống

Một phần của tài liệu bài toán trích xuất thông tin cho dữ liệu bán cấu trúc và áp dụng xây dựng hệ thống tìm kiếm giá cả sản phẩm (Trang 48 - 51)

38 • Mô hình tổng quan

Hình 23. Mô hình tng quan ca h thng

Trước hết, tập hạt giống các tên sản phẩm được đưa qua “module xác định website kinh doanh sản phẩm và mẫu trích xuất” để tạo ra một tập các website kinh doanh sản phẩm và mẫu trích xuất tên, giá sản phẩm tại các website đó.

Các website và mẫu trích xuất tương ứng này sẽ qua “module thu thập dữ liệu và trích xuất thông tin” để thu thập được tên sản phẩm và giá của sản phẩm, thông tin này sẽ được cập nhật vào cơ sở dữ liệu “thông tin sản phẩm” và “tập hạt giống tên sản phẩm”.

39 • Module xác định các website kinh doanh sản phẩm và các mẫu trích xuất

Hình 24. Module xác định các website kinh doanh sn phm và các mu trích xut

Module này được xây dựng trên cơ sở “bài toán động trích xuất thông tin về tên và giá của các trang sản phẩm”.

Tập hạt giống ban đầu qua tiến trình “xác định các trang liên quan” để được một tập các trang liên quan đến sản phẩm. Tập các trang liên quan sẽ được qua tiến trình “trích xuất các mẫu trích xuất thông tin” để đạt được các mẫu trích xuất và website tướng ứng với mẫu trích xuất đó. Các mẫu và website này sẽđược thống kê sự trùng lặp, đểđạt được website và mẫu trích xuất phù hợp với website.

40 • Module Thu thập dữ liệu và trích xuất thông tin

Hình 25. Module Thu thp d liu và trích xut thông tin

Sau khi xác định được các website và các mẫu trích xuất thông tin của website, thì website này sẽđược thu thập dữ liệu. Sau đó tập dữ liệu thu thập này sẽđược qua module trích xuất thông tin để lấy các thông tin về sản phẩm: tên sản phẩm và giá của sản phẩm.

Các thông tin này sẽđược cập nhật vào cơ sở dữ liệu về sản phẩm, tên của sản phẩm sẽđược dùng để mở rộng tập hạt giống.

Một phần của tài liệu bài toán trích xuất thông tin cho dữ liệu bán cấu trúc và áp dụng xây dựng hệ thống tìm kiếm giá cả sản phẩm (Trang 48 - 51)