sim_score, tác giả sử dụng độ đo Jcn với ngƣỡng 𝜃 = 0.5 đƣợc chọn qua thực nghiệm.
Để đánh giá kết quả nhóm gộp, tác giả sử dụng 8 file đối sánh bằng tay tƣơng ứng với 8 loại camera trong thực nghiệm làm các file đối sánh chuẩn GS (gold standard mapping file). Việc đánh giá kết quả nhóm gộp dựa trên hai tiêu chí: độ chính xác của thuật toán đối sánh và độ giảm dƣ thừa trên tập ứng viên đặc trƣng.
4.3.3.1. Đánh giá độ chính xác
Vì luận văn tiến hành đối sánh các đặc trƣng cfi thu đƣợc vào các nút đặc trƣng dfi trong taxonomy nên độ chính xác của thuật toán đối sánh đƣợc đánh giá bằng khoảng cách giữa nút mà cfi đƣợc đặt vào bởi thuật toán và nút mà cfi
đƣợc đặt vào trong file đối sánh chuẩn GS. Khoảng cách này càng nhỏ thì độ chính xác của thuật toán càng cao.
𝑝𝑙𝑎𝑐𝑒𝑚𝑒𝑛𝑡_𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝑐𝑓𝑖) = 𝑎𝑣𝑔(𝑒𝑑𝑔𝑒𝐶𝑜𝑢𝑛𝑡(𝑐𝑓𝑖))
edgeCount là số cạnh trên đƣờng đi ngắn nhất giữa nút vị trí xác định bởi thuật toán và nút vị trí xác định bằng tay. Trong trƣờng hợp một đặc trƣng cfi
đƣợc ánh xạ sang nhiều nút dfi, luận văn sử dụng giá trị trung bình của số cạnh này. Độ chính xác của thuật toán đối sánh giữa tập đặc trƣng CF hệ thống trích chọn đƣợc với tập đặc trƣng DF trong cơ sở dữ liệu đƣợc tính bằng giá trị trung bình của các độ đo placement_distance(cfi)
𝑝𝑙𝑎𝑐𝑒𝑚𝑒𝑛𝑡_𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝐶𝐹) = 𝑎𝑣𝑔(𝑝𝑙𝑎𝑐𝑒𝑚𝑒𝑛𝑡_𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝑐𝑓𝑖)) 𝑐𝑓𝑖 ∈ 𝐶𝐹
4.3.3.2. Đánh giá độ giảm dư thừa
Chẳng hạn, có hai đặc trƣng đƣợc trích chọn là “picture quality” và “quality photo”. Hai đặc trƣng này cùng đƣợc nhóm gộp vào nút đặc trƣng “image” trong cây phân cấp đặc trƣng. Khi đó ta có thể nói, một trong hai đặc trƣng đƣợc trích chọn là dƣ thừa. Độ giảm dƣ thừa đƣợc tính theo công thức sau:
𝑟𝑒𝑑𝑢𝑛_𝑟𝑒𝑑𝑢𝑐 = |𝑝𝑙𝑎𝑐𝑒𝑑𝐶𝐹| – |𝑛𝑜𝑛𝐸𝑚𝑝𝑡𝑦𝐷𝐹| |𝐶𝐹|
Trong đó, |placedCF| là số đặc trƣng CF đƣợc ánh xạ sang taxonomy, |nonEmptyDF| là số nút trong taxonomy không có đặc trƣng nào đƣợc ánh xạ vào. Độ giảm dƣ thừa càng lớn càng tốt.
Bảng 4.9: Kết quả độ chính xác, độ giảm dư thừa của nhóm gộp đặc trưng Máy ảnh Độ chính xác (placement_distance) Độ giảm dƣ thừa (redun_reduc) C1 0.42 0.46 C2 0.34 0.41 C3 0.45 0.47 C4 0.18 0.45 C5 0.32 0.32 C6 0.5 0.47 C7 0.17 0.36 C8 0.44 0.31 Avg 0.35 0.4 Tóm tắt chƣơng 4
Trong chƣơng này, tác giả đã tiến hành thực nghiệm, xem xét và đánh giá kết quả của mô hình trích chọn đặc trƣng sản phẩm máy ảnh đƣợc xây dựng trong chƣơng ba. Kết quả thực nghiệm cho thấy tính khả thi của mô hình giải quyết bài toán trích chọn đặc trƣng trong khai phá quan điểm dựa trên đặc trƣng.
KẾT LUẬN
Kết quả đạt đƣợc của luận văn
Trong luận văn này, tác giả đã tìm hiểu các phƣơng pháp trích chọn đặc trƣng trong khai phá quan điểm, tập trung vào hai phƣơng pháp chính là trích chọn đặc trƣng dựa trên tập mục phổ biến và trích chọn đặc trƣng dựa trên lan truyền kép. Trên cơ sở đó, tác giả xây dựng một mô hình trích chọn đặc trƣng sản phẩm dựa trên hƣớng tiếp cận lan truyền kép nhƣng có bổ sung một số cải tiến để nâng cao chất lƣợng trích chọn của mô hình. Cải tiến luận văn đề xuất dựa trên việc bổ sung một cơ sở dữ liệu đặc trƣng của sản phẩm vào mô hình, từ đó tự động sinh tập hạt giống đặc trƣng cho thuật toán lan truyền kép. Ngoài ra, luận văn cũng giải quyết vấn đề xếp hạng và nhóm gộp các đặc trƣng sau khi đƣợc trích chọn. Kết quả thực nghiệm trên miền sản phẩm máy ảnh cho kết quả trích chọn với độ đo F1 đạt 72.87% chứng tỏ tính khả thi của mô hình.
Định hƣớng tƣơng lai
Định hƣớng nghiên cứu trong thời gian tới của luận văn là tiếp tục hoàn thiện và phát triển mô hình trích chọn đặc trƣng, tập trung vào các phƣơng pháp xếp hạng và gộp nhóm đặc trƣng hiệu quả hơn, ngoài ra giải quyết vấn đề trích chọn đặc trƣng ẩn và vấn đề độ chi tiết của đặc trƣng, tiến tới hoàn thiện ứng dụng tổng hợp quan điểm cho từng đặc trƣng của sản phẩm trích chọn đƣợc. Do hạn chế về thời gian và kiến thức cùng những khó khăn trong quá trình thu thập và tiền xử lý dữ liệu tiếng Việt nên luận văn chƣa thực nghiệm đƣợc phƣơng pháp đề xuất với dữ liệu tiếng Việt. Vì vậy, nghiên cứu tiếp theo cũng sẽ tập trung vào việc phát triển ứng dụng trích chọn đặc trƣng và tổng hợp quan điểm dựa trên đặc trƣng với tập dữ liệu tiếng Việt.
Tài liệu tham khảo
Tài liệu tiếng Việt:
[1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009). Giáo trình khai phá dữ liệu Web, Nhà xuất bản giáo dục Việt Nam.
Tài liệu tiếng Anh:
[2] Agirre E, Alfonseca E, Hall K, Kravalova J, Pasca M, and Soroa A (2009), “A study on similarity and relatedness using distributional and WordNet-based approaches”, NAACL '09 Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp. 19-27.
[3] Bo Pang, Lillian Lee (2008), “Opinion Mining and Sentiment Analysis”,
JournalFoundations and Trends in Information Retrieval, Volume 2 Issue 1-2. [4] Budanitsky A and Hirst G (2001), “Semantic distance in wordnet: An experimental, application-oriented evaluation of five measures”, Workshop on WordNet and Other Lexical Resources.
[5] Carenini G, Ng R, and Zwart E (2005), “Extracting knowledge from evaluative text”, K-CAP '05 Proceedings of the 3rd international conference on Knowledge capture, pp. 11-18.
[6] Etzioni O, Cafarella M, Downey D, Kok S, Popescu A, Shaked T, Soderland S, Weld D, and Yates A (2004), “Web-Scale information extraction in Knowitall”. WWW '04 Proceedings of the 13th international conference on World Wide Web, pp. 100-110.
[7] Fellbaum C (1998), WordNet: An On-Line Lexical Database, MIT Press. [8] Freitag D, McCallum A (2000), “Information extraction with HMM structures learned by stochastic optimization”, Proceedings of the Seventeenth National Conference on Artificial Intelligence and Twelfth Conference on Innovative Applications of Artificial Intelligence, pp. 584-589.
[9] Girju R, Badulescu A and Moldovan D (2006), “Automatic Discovery of Part-Whole Relations”, Journal Computational Linguistics, Volume 32 Issue 1, pp. 83-135.
[10] Ghani R, Probst K, Liu Y, Krema M, Fano A (2006), “Text mining for product attribute extraction”, ACM SIGKDD Explorations Newsletter, Volume 8 Issue 1, pp. 41-48.
Proceedings of the 18th ACM conference on Information and knowledge management, pp. 1087-1096.
[12] Hu M and Liu B (2004), “Mining opinion features in customer reviews”,
AAAI'04 Proceedings of the 19th national conference on Artifical intelligence, pp. 755-760.
[13] Jiang J and Conrath D (2007). “Semantic similarity based on corpus statistics and lexical taxonomy”, Proceedings of Research in Computational Linguistics.
[14] Kobayashi N, Inui K, and Matsumoto Y (2007), “Extracting aspect-
evaluation and aspect-of relations in opinion mining “, Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL).
[15] Lafferty J, McCallum A, and Pereira F (2001), “Conditional random fields: Probabilistic models for segmenting and labeling sequence data”, ICML '01 Proceedings of the Eighteenth International Conference on Machine Learning, pp. 282-289.
[16] Liu B (2011), Web data mining: Exploring hyperlinks, Contents, and Usage Data, Second Edition, Springer, pp. 459-517.
[17] Mei Q, Ling X, Wondra M, Su H, and Zhai C (2007), “Topic sentiment mixture: Modeling facetsand opinions in weblogs”, WWW '07 Proceedings of the 16th international conference on World Wide Web, pp. 71 – 180.
[18] Pedersen T (2010), “Information Content Measures of Semantic Similarity Perform Better Without Sense-Tagged Text”, HLT '10 Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp. 329-332.
[19] Popescu A-M, and Etzioni O (2005), “Extracting product features and opinions from reviews”, HLT '05 Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, pp. 339-346.
[20] Qiu G, Liu B, Bu J and Chen Ch (2009). “Expanding domain sentiment lexicon through double propagation”, IJCAI'09 Proceedings of the 21st international jont conference on Artifical intelligence, pp. 1199-1204.
[21] Raju S, Shishtla P, VarmaA V (2009), “Graph Clustering Approach to Product Attribute Extraction”, 4th Indian International Conference on Artificial Intelligence
[22] Scaffidi C, Bierhoff K, Chang E, Felker M, Ng H, and Jin C (2007), “Red opal: product-feature scoring from reviews”, EC '07 Proceedings of the 8th ACM conference on Electronic commerce, pp. 182-191.
[23] Somprasertsri G, Lalitrojwong P (2008), “A Maximum Entropy Model for Product Feature Extraction in Online Customer Reviews”, Proceedings of The IEEE International Conference on Cybernetics and Intelligent Systems (CIS 2008).
[24] Taylor A, Marcus M, Santorini B (1994), “The Penn Tree Bank: An overview”, ARPA Human Language Technology Workshop.
[25] Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu, Quang-Thuy Ha (2011). A Feature-based Opinion Mining Model on Product Reviews in Vietnamese, ICCCI’11 (submitted).
[26] Yang D and Powers D (2005), “Measuring semantic similarity in the taxonomy of WordNet”, ACSC '05 Proceedings of the Twenty-eighth Australasian conference on Computer Science - Volume 38, pp. 315-322.
[27] Zhang L and Liu B (2010), “Extracting and ranking product features in opinion Documents”, COLING '10 Proceedings of the 23rd International Conference on Computational Linguistics: Posters, pp. 1462-1470.
[28] Zhai Z, Liu B, Xu H and Jia P (2010), “Grouping Product Features Using Semi-Supervised Learning with Soft-Constraints”, Proceedings of the 23rd International Conference on Computational Linguistics (COLING-2010).
[29] Zhai Z, Liu B, Xu H and Jia P (2011), “Clustering product features for opinion mining”, Proceedings of the fourth ACM international conference on Web search and data mining.
A watermark is added at the end of each output PDF file.
To remove the watermark, you need to purchase the software from