Hiện nay trên thế giới có khá nhiều công trình nghiên cứu về lĩnh vực trích chọn thuộc tính sản phẩm trong các đánh giá của khách hàng với nhiều cách tiếp cận khác nhau. Phần này sẽđiểm qua một số mô hình trích chọn có cách tiếp cận khác với khóa luận:
• Đầu tiên là OPINE, một hệ thống trích chọn thông tin không giám sát, được xây dựng trên nền tảng hệ thống KnowItAll [6] dùng để trích chọn thuộc tính sản phẩm và ý kiến đánh giá trong các đánh giá sản phẩm trực tuyến. Một đặc điểm nổi trội của OPINE là khả năng trích chọn cả thuộc tính rõ ràng và thuộc tính không rõ ràng.
• Thứ hai là mô hình của Heng Ren, Jingye Wang, và Tony Wu [10]. Trong mô hình này, quá trình trích chọn sẽ đi từ mức độ câu rồi mới xuống đến mức độ từ. Bước đầu tiên là xác định các câu trong đánh giá có khả năng chứa thuộc tính của sản phẩm. Bước 2, dùng luật kết hợp và PMI (Point- wise Mutual Information) để trích chọn ra các thuộc tính trong đó. Để xác định câu có chứa thuộc tính hay không, nhóm tác giả áp dụng một vài phương pháp học máy như Naïve Bayesian, Spy EM, phương pháp Rocchio, SVM dựa trên Rocchio, Biased-SVM.
30
• Ngoài ra còn có mô hình trích chọn tựđộng thuộc tính sản phẩm từ các đánh giá sản phẩm trực tuyến sử dụng mô hình entropy cực đại kết hợp với các đặc trưng cú pháp và từ vựng của nhóm tác giả Gamgarn Somprasertsri và Pattarachai Lalitrojwong [9]. Phương pháp tiến hành như sau: trích chọn các thuộc tính từ một tập dữ liệu đã gán nhãn, sau đó tiến hành huấn luyện mô hình entropy cực đại, và sử dụng mô hình đã được huấn luyện để trích chọn ra các thuộc tính của sản phẩm. Cuối cùng áp dụng kĩ thuật xử lý ngôn ngữ tự nhiên để xác định các thuộc tính còn lại.
3.4. Tổng kết chương:
Chương này đã đi vào xem xét các nội dung chính của bài toán trích chọn thuộc tính sản phẩm trong hệ thống mua bán trực tuyến. Trình bày hai thách thức cơ bản và một số phương pháp giải quyết. Đồng thời đưa ra mô hình trích chọn thuộc tính sản phẩm sử dụng kĩ thuật xử lý ngôn ngữ tự nhiên và khai phá luật kết hợp khá hiệu quả.
Chương tiếp theo trình bày các thử nghiệm thực tế trên tập dữ liệu cụ thểđược lấy từ các hệ thống mua bán trực tuyến tiếng Việt và đánh giá kết quả thu được.
31
Chương 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ