4.6.1. Giao diện chính
Bao gồm màn hình chính và 2 button cho phép chuyển đến các giao diện thành phần. Nút Add New cho phép chuyển sang màn hình thêm mới ý kiến, nút Summary cho phép chuyển sang màn hình thống kê ý kiến. Giao diện chính đƣợc mô tả nhƣ trong Hình 4.10.
Hình 4.10. Giao diện chính của ch ơng trình thử nghiệm
4.6.2. Giao diện thêm mới ý kiến
Giao diện bao gồm textbox input cho phép nhập một ý kiến và textbox output dùng để hiện thị kết quả phân lớp, nút Classify để thực hiện phân lớp văn bản trong textbox input. Chƣơng trình cho phép phân lớp các ý kiến có thể bao gồm nhiều ý kiến nhỏ, góp ý cho nhiều điều khoản khác nhau. Giao diện thêm mới ý kiến đƣợc mô tả nhƣ trong Hình 4.11.
Hình 4.11. Giao diện thêm mới ý iến
4.6.3. Giao diện tổng hợp ý kiến
Giao diện bao gồm hai phần chính: Bên trái là danh sách các Chƣơng, điều khoản tổ chức dƣới dạng cây, bên phải trình bày tổng hợp về các chƣơng và điều đã chọn. Danh sách bao gồm ở mức cao nhất là node Hiến pháp, cấp thứ hai là các Chƣơng của hiến pháp, trong các chƣơng là các điều của chƣơng đó. Khi node Hiến pháp đƣợc lựa chọn, tổng hợp về tất cả các ý kiến của Hiến pháp đƣợc liệt kê. Khi các chƣơng đƣợc lựa chọn, ý kiến chung về các chƣơng đƣợc hiển thị. Khi các điều đƣợc chọn, ý kiến nhận xét về các điều đƣợc hiển thị theo cấu trúc nhất định đã trình bày trƣớc đây.
KẾT LUẬN VÀ ĐỊNH HƢỚNG 1. Các kết quả đạt đƣợc
Luận văn tiến hành nghiên cứu giải quyết bài toán Tổng hợp ý kiến trong Hội nghị. Sau một quá trình thực hiện, luận văn đã trình bày một cách rất bao quát về các phƣơng pháp tổng hợp ý kiến của các tác giả trong thời gian gần đây.
Dựa trên các nghiên cứu về Tổng hợp ý kiến, luận văn đã đề xuất đƣợc một mô hình cho việc tổng hợp ý kiến góp ý trong Hội nghị. Hơn nữa, luận văn còn tiến hành thực nghiệm để đánh giá, so sánh giữa các phƣơng pháp, lựa chọn đƣợc phƣơng pháp thích hợp cho bài toán Tổng hợp ý kiến trong hội nghị.
Quá trình thực nghiệm đạt đƣợc kết quả khả quan, cho thấy tính đúng đắn của việc lựa chọn cũng nhƣ kết hợp các phƣơng pháp, đồng thời hứa hẹn nhiều tiềm năng phát triển hoàn thiện. Kết quả nghiên cứu này sẽ là tiền đề cho việc hỗ trợ tổng hợp ý kiến trong các Hội nghị.
Nội dung của luận văn là kết quả của đề tài nghiên cứu khoa học cấp cơ sở Trƣờng Đại học Công Nghệ, Đại học Quốc gia Hà Nội có mã số CN.12.17 [23] mà tác giả cùng TS. Bùi Quang Hƣng là thành viên thực hiện chính.
2. Định hƣớng phát triển
Các kết quả nghiên cứu của đề tài cho thấy tính khả thi và tính ứng dụng cao của hệ thống, góp phần giảm tải khối lƣợng công việc báo cáo trong các Hội nghị. Tuy nhiên, để hệ thống ứng dụng có hiệu quả đòi hỏi rất nhiều công việc cần giải quyết. Chính vì vậy, trong tƣơng lai luận văn sẽ tiếp tục phát triển theo các nội dung sau:
Sử dụng các độ đo để rút gọn các đặc trƣng trong pha phân lớp ý kiến, nâng cao độ chính xác và giảm thời gian phân lớp ý kiến.
Tiến hành các kỹ thuật phân cụm, tóm tắt đa văn bản trong quá trình sinh bản tổng hợp ý kiến.
Áp dụng mô hình với tập các chủ đề mới trong Hội nghị, tiến tới xây dựng một hệ thống tổng hợp ý kiến mang tính mở, độc lập với tri thức miền ứng dụng.
TÀI LIỆU THAM KHẢO Tiếng Anh:
1. ARCHAK, N., GHOSE, A., AND IPEIROTIS, P. G. 2007. Show me the money!: deriving the pricing power of product features by mining consumer reviews. In KDD ‟07: Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, New York, NY, USA, 56–65.
2. B. Liu, 2006, Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (Data-Centric Systems and Applications), Springer-Verlag New York, Inc., Secaucus, NJ, USA.
3. B. Liu, 2010, Sentiment analysis and subjectivity, In Handbook of Natural Language Processing, Second Edition, N. Indurkhya and F. J. Damerau, Eds. CRC Press, Taylor and Francis Group, Boca Raton, FL. ISBN 978-1420085921. 4. B. Liu, 2011, Sentiment analysis and Opinion mining, University Of Illinois at
Chicago.
5. B. Pang and L. Lee, 2008, Opinion mining and sentiment analysis, Found. Trends Inf. Retr. 2, 1-2, 1–135.
6. GANESAN, K., ZHAI, C., AND HAN, J. 2010. Opinosis: a graph-based approach to abstractive summarization of highly redundant opinions. In
Proceedings of the 23rd International Conference on Computational Linguistics. COLING ’10. Association for Computational Linguistics, Stroudsburg, PA, USA, 340–348.
7. HU, M. AND LIU, B. 2004a. Mining and summarizing customer reviews. In KDD ‟04: Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, New York, NY, USA, 168–177. 8. KIM, H. D. AND ZHAI, C. 2009. Generating comparative summaries of
contradictory opinions in text. In CIKM ‟09: Proceeding of the 18th ACM conference on Information and knowledge management. ACM, New York, NY, USA, 385–394.
9. Kim, Hyun Duk, Ganesan Kavita A., Sondhi Parikshit, and Zhai ChengXiang, 2011, Comprehensive Review Of Opinion Summarization, Technical Report, University of Illinois.
10. KU, L.-W., LIANG, Y.-T., AND CHEN, H.-H. 2006. Opinion extraction, summarization and tracking in news and blog corpora. In AAAI Symposium on Computational Approaches to Analysing Weblogs (AAAI-CAAW). 100–107. 11. LIN, D. 1998. Dependency-based evaluation of minipar. In Proc. Workshop on
the Evaluation of Parsing Systems. Granada.
12. LIU, B., HU, M., AND CHENG, J. 2005. Opinion observer: analyzing and comparing opinions on the web. In WWW ’05: Proceedings of the 14th international conference on World Wide Web. ACM, New York, NY, USA, 342– 351.
13. LU, Y. AND ZHAI, C. 2008. Opinion integration through semi-supervised topic modeling. In WWW ’08: Proceeding of the 17th international conference on World Wide Web. ACM, New York, NY, USA, 121–130.
14. LU, Y., ZHAI, C., AND SUNDARESAN, N. 2009. Rated aspect summarization of short comments. In WWW ’09: Proceedings of the 18th international conference on World wide web. ACM, New York, NY, USA, 131–140.
15. Lucian Vlad Lita, Andrew Hazen Schlaikjer, WeiChang Hong, and Eric Nyberg. Qualitative dimensions in question answering: Extending the definitional QA task. In Proceedings of AAAI, pages 1616–1617, 2005. Student abstract.
16. MISHNE, G. A., DE RIJKE, M., NICOLOV, N., SALVETTI, F., LIBERMAN, M., AND MARTIN, J. 2006. Mood views: Tools for blog mood analysis. In
AAAI 2006 Spring Symposium on Computational Approaches to Analysing Weblogs (AAAI-CAAW 2006). AAAI Press, AAAI Press, 153–154.
17. POPESCU, A.-M. AND ETZIONI, O. 2005. Extracting product features and opinions from reviews. In HLT ’05: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Association for Computational Linguistics, Morristown, NJ, USA, 339–346. 18. STOYANOV, V. AND CARDIE, C. 2006a. Partially supervised coreference
EMNLP ’06: Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, Morristown, NJ, USA, 336–344.
19. TITOV, I. AND MCDONALD, R. 2008. Modeling online reviews with multi- grain topic models. In WWW ’08: Proceeding of the 17th international conference on World Wide Web. ACM, New York, NY, USA, 111–120.
20. TURNEY, P. D. AND LITTMAN, M. L. 2003. Measuring praise and criticism: Inference of semantic orientation from association. ACM Trans. Inf. Syst. 21, 4, 315–346.
21. ZHUANG, L., JING, F., AND ZHU, X.-Y. 2006. Movie review mining and summarization. In CIKM ’06: Proceedings of the 15th ACM international conference on Information and knowledge management. ACM, New York, NY, USA, 43–50.
22. SEERAT, B. AND AZAM, F. 2012. Opinion Mining: Issues and Challenges,
International Journal of Computer Applications (0975 – 8887)
Tiếng Việt:
23.Bùi Quang Hƣng, Vũ Duy Lợi, Hà Quang Thụy, Trần Mai Vũ, Phạm Văn Hà (2014), Hệ thống tự ộng tổng hợp ý kiến góp ý trong hội nghị, Đề tài nghiên cứu khoa học CN 12.17, Trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội.
PHỤ LỤC A. KẾT QUẢ ĐÁNH GIÁ PHÂN LỚP CHI TIẾT
1. Không sử dụng công cụ tách từ VNTokenizer, sử dụng 3-gram
Số ý kiến: 750 Số thuộc tính: 49795 Regex tách từ: 1-gram: [\p{L}\p{N}]+ 2-gram: ([\p{L}\p{N}]+)\s([\p{L}\p{N}]+) 3-gram: ([\p{L}\p{N}]+)\s([\p{L}\p{N}]+)\s([\p{L}\p{N}]+)
Phƣơng pháp test: 3-fold cross-validation
Precision Recall F - measure
SMO 77.6 77.2 77.3 LibSVM 66.9 66.8 66.8 LibLINEAR 72.1 71.7 71.8 NaiveBayes 51.6 51.5 51.5 J48 77.4 77.6 77.4 RandomForest 58.3 58.1 57.6
Phƣơng pháp test: 5-fold cross-validation
Precision Recall F - measure
SMO 80.6 80.1 80.379.3 LibSVM 71.4 71.3 71.4 LibLINEAR 75.1 74.8 74.8 NaiveBayes 55.7 55.3 55.4 J48 79.3 79.5 79.3 RandomForest 56.7 55.9 55.3
Phƣơng pháp test: 10-fold cross-validation
Precision Recall F - measure
SMO 80.8 80.4 80.5 LibSVM 73.6 73.5 73.5 LibLINEAR 76.1 75.9 75.9 NaiveBayes 56.8 56.5 56.6 J48 79.3 79.2 69.0 RandomForest 59.0 57.7 56.9
Trung bình
Precision Recall F - measure
SMO 79.7 79.2 78.9 LibSVM 70.6 70.5 70.6 LibLINEAR 74.4 74.1 74.2 NaiveBayes 54.7 54.4 54.5 J48 78.7 78.8 75.2 RandomForest 58 57.2 56.6
2. Sử dụng công cụ tách từ VNTokenizer, không sử dụng n-gram Số ý kiến: 750
Số thuộc tính: 3361
Regex tách từ: [\p{L}\p{N}_]+
Phƣơng pháp test: 3-fold cross-validation
Precision Recall F - measure
SMO 77.5 76.9 77.0 LibSVM 72.2 72.0 72.0 LibLINEAR 70.5 70.3 70.3 NaiveBayes 54.1 54.0 54.0 J48 75.4 75.3 75.3 RandomForest 60.5 60.0 59.5
Phƣơng pháp test: 5-fold cross-validation
Precision Recall F - measure
SMO 81.0 80.5 80.6 LibSVM 75.8 75.6 75.6 LibLINEAR 73.2 73.2 73.2 NaiveBayes 56.0 56.0 55.9 J48 78.7 78.7 78.7 RandomForest 60.3 60.0 60.0
Phƣơng pháp test: 10-fold cross-validation
Precision Recall F - measure
SMO 81.1 80.7 80.8 LibSVM 76.3 76.0 76.0 LibLINEAR 75.0 74.9 74.9 NaiveBayes 55.4 55.2 55.2 J48 78.0 78.0 78.0 RandomForest 63.0 62.8 62.8
Trung bình
Precision Recall F - measure
SMO 79.9 79.4 79.5 LibSVM 74.8 74.5 74.5 LibLINEAR 72.9 72.8 72.8 NaiveBayes 55.2 55.1 55.0 J48 77.4 77.3 77.3 RandomForest 61.3 60.9 60.8
3. Sử dụng công cụ tách từ VNTokenizer kết hợp 2-gram Số ý kiến: 750
Số thuộc tính: 21419 Regex tách từ:
1-gram: [\p{L}\p{N}_]+
2-gram: [\p{L}\p{N}_]+\s[\p{L}\p{N}_]+
Phƣơng pháp test: 3-fold cross-validation
Precision Recall F - measure
SMO 78.0 77.9 77.9 LibSVM 69.7 69.7 69.7 LibLINEAR 73.4 73.3 73.4 NaiveBayes 56.7 56.5 56.6 J48 77.8 77.7 77.7 RandomForest 54.3 52.9 52.3
Phƣơng pháp test: 5-fold cross-validation
Precision Recall F - measure
SMO 82.0 81.9 81.9 LibSVM 74.8 74.7 74.7 LibLINEAR 77.0 76.5 76.6 NaiveBayes 58.7 58.7 58.7 J48 79.1 79.2 79.1 RandomForest 60.4 59.2 59.0
Phƣơng pháp test: 10-fold cross-validation
Precision Recall F - measure
SMO 82.4 82.1 82.2 LibSVM 75.6 75.3 75.4 LibLINEAR 78.0 77.7 77.8 NaiveBayes 57.6 57.6 57.6 J48 79.6 79.7 79.7 RandomForest 60.6 60.4 60.1
Trung bình
Precision Recall F - measure
SMO 80.8 80.6 80.7 LibSVM 73.4 73.2 73.3 LibLINEAR 76.1 75.8 75.9 NaiveBayes 57.7 57.6 57.6 J48 78.8 78.9 78.8 RandomForest 58.4 57.5 57.1