Xây dựng cơ sở dữ liệu đặc tả sản phẩm

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp trích chọn đặc trưng trong bài toán khai phá quan điểm và ứng dụng (Trang 26 - 28)

Trong pha này, đầu vào là tập các trang web đặc tả các sản phẩm máy ảnh kĩ thuật số. Sau quá trình xử lý, hệ thống thu đƣợc các đặc tả là danh sách các đặc trƣng của từng loại máy ảnh này.

Trích rút thông tin đặc tả sản phẩm Cơ sở dữ liệu đặc trƣng các loại máy ảnh Tài liệu đặc tả sản phẩm

Pha 1. Xây dựng cơ sở dữ liệu đặc tả sản phẩm

Pha 2. Sinh tập ứng viên đặc trƣng

Tiền xử lí Xử lý

ngôn ngữ

Lan truyền kép File text đánh giá

sản phẩm Tài liệu html đánh giá sản phẩm File xml xử lý ngôn ngữ Tập ứng viên đặc trƣng Xếp hạng, Nhóm gộp Tập đặc trƣng Pha 3. Xếp hạng, nhóm gộp Trích rút thông tin đặc tả sản phẩm Cơ sở dữ liệu đặc trƣng các loại máy ảnh Tài liệu html đặc tả sản phẩm

Một trang web đặc tả sản phẩm không chỉ chứa nội dung đặc tả sản phẩm mà còn chứa các thông tin khác nhƣ các quảng cáo, các liên kết... Các thông tin đặc tả sản phẩm trong một trang web thƣờng đƣợc lƣu ở cùng một cấu trúc dạng bảng với định dạng liệt kê các đặc trƣng sản phẩm cùng các giá trị tƣơng ứng. Trích rút thông tin đặc tả sản phẩm có trong các tài liệu html dạng này dựa vào kỹ thuật phân tích trích rút thông tin từ tài liệu html. Việc xử lý văn bản html và trích xuất các phần tử trong văn bản html có thể thực hiện đƣợc bằng cách sử dụng biểu thức chính quy (regex regulation) hoặc các công cụ phân tích tài liệu html còn gọi là các “html parser”.

Sau khi tìm hiểu một số công cụ phân tích tài liệu html, tác giả sử dụng công cụ Html Agility Pack [http://htmlagilitypack.codeplex.com/]. Đây là một thƣ viện .NET phân tích cú pháp HTML hiệu quả dựa trên việc xây dựng một bộ đọc/ghi DOM và hỗ trợ XPath. Mô hình đối tƣợng thực hiện nhiệm vụ phân tích tài liệu html tƣơng tự nhƣ mô hình đối tƣợng System.XML của thƣ viện .NET.

Giải thuật

Đầu vào: Tập tài liệu đặc tả D dạng html

Đầu ra: Văn bản T dạng plain text chứa thông tin đặc tả các loại máy ảnh. specificationString = ””;

cameraNameString = “”; For each file in D

{

Tạo thể hiện của đối tƣợng HtmlDocument từ file; cameraNameString = Nội dung trong thẻ <h1>;

specificationString = Nội dung trong thẻ <table class = specification>; Ghi chuỗi cameraNameString, specificationString vào văn bản T;

}

Sau khi đã trích rút đƣợc các thông tin đặc tả sản phẩm vào một văn bản dạng text, hệ thống sẽ lƣu các thông tin này ở một dạng file nhị phân là danh sách các đối tƣợng máy ảnh. Mỗi đối tƣợng máy ảnh có cấu trúc gồm tên máy ảnh, danh sách nhóm đặc trƣng. Mỗi nhóm đặc trƣng chứa danh sách các đặc trƣng. Mỗi đặc trƣng gồm hai thành phần (tên đặc trƣng, giá trị)

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp trích chọn đặc trưng trong bài toán khai phá quan điểm và ứng dụng (Trang 26 - 28)

Tải bản đầy đủ (PDF)

(51 trang)