Bài toán tự động trích xuất thông tin về tên và giá của sản phẩm trong các trang

Một phần của tài liệu LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx (Trang 44 - 48)

các trang kinh doanh sản phẩm

Trong những bài toán về trích xuất thông tin ở mục 2.3 thì tập mẫu huấn luyện phải

được xác định trước. Với phương pháp trích xuất bán tự động thì cần sự gán nhãn bằng tay với tập mẫu huấn luyện này. Với phương pháp trích xuất tựđộng như RoadRunner thì phải gán nhãn bằng tay kết quảđầu ra.

Trong bài toán khóa luận nêu ra dưới đây có thể tự động xác định tập mẫu huấn luyện từ một tập các tên sản phẩm, tự động sinh ra các mẫu trích xuất tên và giá của sản phẩm.

Với một tập hạt giống các tên sản phẩm, chúng ta có thể tựđộng xác định được tập các trang liên quan đến sản phẩm, sau đó sẽ sinh ra các mẫu trích xuất thông tin về tên và giá sản phẩm một cách tựđộng trong tập trang liên quan này dựa vào tập luật nêu ở 3.3.2.

34

Mô tả bài toán

- Đầu vào: Một tập hạt giống tên các sản phẩm.

- Đầu ra: Các website kinh doanh sản phẩm và các mẫu trích xuất thông tin về tên, giá của các sản phẩm trong website đó.

Phương pháp giải quyết bài toán

Để giải quyết bài toán này khóa luận sử dụng bài toán xác định giá thực của sản phẩm nêu ở mục 3.3.2.

- Bước 1: Xác định các trang lên quan

Với tập hạt giống các tên này, ta sẽ tạo ra các truy vấn gửi đến máy tìm kiếm, kết quả trả về sẽđược những trang liên quan đến sản phẩm đó. Cụ thể ta sẽ giải quyết bước 1 như sau :

Với tên sản phẩm ta sẽ tạo ra những truy vấn gửi tới máy tìm kiếm, kết quả trả về

của máy tìm kiếm là các trang liên quan đến sản phẩm.

Ví dụ: với tên sản phẩm nokia 1200, ta sẽ tạo truy vấn “nokia 1200” gửi tới máy tìm kiếm google ta sẽ xác định được các trang liên quan đến sản phẩm nokia 1200 như hình 21 sau.

35

Hình 21. Kết quả google trả về với truy vấn "nokia 1200"

Tuy nhiên các kết quả trả về có thể chỉ là trang giới thiệu, trang tin tức về sản phẩm, ngay trong ví dụ trên thì kết quảđầu tiên trả về của máy tìm kiếm lại là một trang tin tức sản phẩm.Vì vậy ta phải tối ưu những truy vấn gửi đến máy tìm kiếm để đạt được kết quả

tốt nhất, tức là số lượng trang liên quan đến kinh doanh sản phẩm nhiều nhất. Dựa vào

đặc thù của các trang kinh doanh sản phẩm chúng ta có thể tạo ra những truy vấn tốt để

gửi tới máy tìm kiếm.

Ví dụ: một truy vấn được tối ưu của “nokia 1200” là “nokia 1200” + “vnđ OR usd”

Kết quả trả về của máy tìm kiếm google được minh họa trong hình 22:

Trang tin tức

Trang kinh doanh sp

36

Hình 22. Kết quả trả về của google với query "nokia 1200" + "vnđ OR usd"

Qua ví dụ này chúng tôi thấy nếu tối ưu các truy vấn gửi đến máy tìm kiếm thì kết quả trả về những trang kinh doanh sản phẩm xuất hiện nhiều hơn, như trong ví dụ trên thì 6 trang đầu tiên này đều là trang kinh doanh sản phẩm.

- Bước 2: Lấy được mẫu trích xuất tương ứng với từng trang ở bước 1.

Với mỗi một trang liên quan được xác định ở bước 1, nó sẽ tương ứng là trang liên quan đến một sản phẩm trong tập hạt giống. Cặp “tên sản phẩm, trang lên quan đến sản phẩm” sẽ làm đầu vào cho “bài toán trích xuất thông tin giá của một sản phẩm xác định”, kết quả trả về sẽ là các mẫu trích xuất tương ứng với từng trang.

- Bước 3: Xác định được website kinh doanh và các mẫu trích xuất tương ứng. Qua bước 2 ta sẽ thống kê được những cặp mẫu trích xuất trên từng website.

Trang kinh doanh sp

37

Để xác định được một website là kinh doanh sản phẩm. Chúng tôi sử dụng một phương pháp thống kê đó là thống kê số lượng sản phẩm có thể trích xuất được giá trong website đó. Nếu số lượng này lớn hơn một ngưỡng thì website này sẽ là website kinh doanh sản phẩm. Ngưỡng này được xác định thông qua số lượng sản phẩm trong tập hạt giống.

Sau khi đã xác định được website kinh doanh sản phẩm. Khóa luận này xác định

được các mẫu trích xuất thông tin về tên sản phẩm và giá sản phẩm tương ứng với website

đó. Thống kê sự trùng lặp của các mẫu trích xuất, nếu độ trùng lặp lớn hơn một ngưỡng thì mẫu trích xuất đó có thể áp dụng cho các trang khác trong cùng website này.

Một phần của tài liệu LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx (Trang 44 - 48)

Tải bản đầy đủ (PDF)

(71 trang)