Kết quả thử nghiệm và đánh giá

Bảng 3.2 là kết quả thực nghiệm với các phương pháp đã được trình bày ở trên. Ta cĩ thể tổng kết lại ngắn gọn như sau:

- Tập dữ liệu huấn luyện và kiểm thử: Sử dụng tập dữ liệu được mơ tả ở phần 3.2.1, và bộ từ vựng đã xây dựng.

- Các thuật tốn phân lớp: Nạve Bayes, SVM (cĩ giám sát) với mơ hình ngơn ngữ unigram và bigram, dựa trên bộ từ vựng (khơng giám sát)

- Phƣơng pháp đánh giá: đánh giá chéo 10 lần (10-fold cross validation) với độ đo: độ bao phủ và độ chính xác

- Thƣ viện và cơng cụ: Weka, libSVM, vnTokenizer, JvnTagger, LingPipe

Bảng 3. 2: Kết quả kiểm nghiệm các phƣơng pháp phân loại ý kiến Phƣơng

pháp Ngram

Số câu phân loại đúng

Số câu phân loại

sai Độ chính xác Độ bao phủ

Neg Pos Tổng Neg Pos Tổng Neg Pos TB Neg Pos TB

Nạve Bayes Unigram 954 1322 2276 302 362 664 0.725 0.814 0.776 0.760 0.785 0.774 Bigram 883 1360 2243 373 324 697 0.732 0.785 0.762 0.703 0.808 0.763 SVM Unigram 1039 1483 2522 217 201 418 0.838 0.872 0.858 0.827 0.881 0.858 Bigram 979 1477 2456 277 207 484 0.825 0.842 0.835 0.779 0.877 0.835 LingPipe Unigram 710 1322 2032 546 362 908 0.662 0.708 0.688 0.565 0.785 0.691 Bigram 923 1373 2296 333 311 644 0.748 0.805 0.781 0.735 0.815 0.781 Dùng bộ từ vựng 642 1351 1993 99 365 464 0.638 0.932 0.843 0.866 0.787 0.811

Bảng 3.2 tổng kết số lượng cũng như độ chính xác, và độ bao phủ của các phương pháp phân tích ý kiến, cả cĩ giám sát và khơng giám sát. Cột thứ nhất liệt kê các phương pháp được kiểm thử. Cột thứ hai là mơ hình ngơn ngữ được áp dụng cho phương pháp phân loại Nạve Bayes và SVM. Hai cột kế tiếp là thống kê số

lượng các câu phân loại đúng và phân loại sai cho từng loại neg (tiêu cực), pos (tích cực) và kết quả tổng hợp. Cịn lại là độ chính xác và độ bao phủ của từng phương pháp đối với mỗi loại neg, pos và giá trị trung bình thu được. Giá trị trung bình được tính theo tỉ lệ số câu tích cực và tiêu cực được dùng trong quá trình kiểm nghiệm (tỉ lệ trong tập dữ liệu đã chuẩn bị là khơng bằng nhau giữa số câu tích cực và tiêu cực).

Đối với phương pháp cĩ giám sát Nạve Bayes và SVM, một vấn đề được nhận thấy trong suốt quá trình kiểm nghiệm đĩ là việc loại bỏ các từ stopword. Thật rõ ràng để thấy rằng các từ này xuất hiện một cách thường xuyên trong đặc trưng n- gram và chiếm lĩnh mơ hình phân loại. Việc lựa chọn các từ stopword phải thật cẩn thận để tránh việc loại bỏ đi những từ khĩa quan trọng, hay làm cho bộ phân loại bị ảnh hưởng bởi tư duy cá nhân của người kiểm nghiệm. Ở đây, bộ từ stopword gồm 570 từ tiếng Việt được sử dụng trong giai đoạn tiền xử lý dữ liệu.

Theo bảng kết quả ở trên, ta thấy trên cùng một loại đặc trưng (unigram hoặc bigram), hầu hết các trường hợp bộ phân loại SVM cho kết quả tốt hơn bộ phân loại Nạve Bayes về độ chính xác. Đối với cả unigram và bigram, hai phương pháp này chênh lệch nhau khoảng 7-8% về độ chính xác. Điều này khá hợp lý vì nhiều cơng trình nghiên cứu trước đĩ cũng đưa ra kết luận rằng SVM cho kết quả tốt hơn Nạve Bayes. Trong đĩ, ở đây độ chính xác của bộ phân loại SVM khá tốt, lên tới xấp xỉ 86% với unigram, độ bao phủ của SVM cũng cao hơn Nạve Bayes

Với hai thuật tốn phân loại này, độ chính xác và độ bao phủ của chúng đều khơng chênh lệch đáng kể.

Đặc trưng unigram ở cả hai phương pháp Nạve Bayes và SVM đều cho kết quả (độ chính xác và độ bao phủ) tốt hơn so với đặc trưng bigram.

So với LingPipe, phân loại bằng SVM cho độ chính xác cao hơn. Tuy nhiên, LingPipe cho kết quả với bigram tốt hơn là unigram.

Hình 3. 2: So sánh độ chính xác và độ bao phủ giữa các phƣơng pháp

Đối với phương pháp sử dụng bộ từ vựng (khơng giám sát), kết quả thu được cũng rất khả quan, độ chính xác và bao phủ đều cao hơn 80%. Theo quan sát ta thấy độ chính xác cho các câu nhận xét tích cực cao hơn hẳn so với những câu nhận xét tiêu cực, phân loại câu tiêu cực cĩ độ chính xác 63.8% trong khi phân loại câu tích cực độ chính xác lên đến 93.2%. Điều này cĩ thể là do phân bố các từ tích cực, tiêu cực trong bộ từ vựng. Kết quả phân loại dựa trên bộ từ vựng này vẫn thấp hơn so với phân loại cĩ giám sát dùng SVM.

Như vậy, các phương pháp phân loại ý kiến đều cho kết quả rất khả quan. Chúng ta cĩ thể sử dụng chúng để xây dựng ứng dụng cho biết một ý kiến của người dùng về đối tượng nào đĩ là tích cực hay tiêu cực với độ chính xác chấp nhận được.

Tuy nhiên, các phương pháp này cũng vẫn cịn những điểm hạn chế. Hiệu năng của phương pháp phân loại ý kiến cĩ giám sát (Nạve Bayes và SVM) phụ thuộc nhiều vào quá trình trích chọn đặc trưng. Rõ ràng việc đơn thuần áp dụng mơ hình ngram vào kỹ thuật phân loại cĩ thể chưa cho kết quả tốt nhất với phân loại ý kiến – kiểu dữ liệu ý kiến cĩ đặc trưng riêng rõ rệt. Chúng ta cĩ thể cải thiện bộ phân loại bằng cách trích chọn đặc trưng một cách cẩn thận hơn bằng cách sử dụng các mẫu ý kiến đặc thù, hay dùng gán nhãn từ loại (POS tagger) cũng là một lựa

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Unigram Bigram Unigram Bigram Unigram Bigram

Nạve Bayes SVM LingPipe

Precision Recall

chọn để kết hợp với ngram. Nhờ cách này chúng ta cĩ thể lợi dụng được tối đa ưu điểm của phương pháp học máy cĩ giám sát vào quá trình phân loại ý kiến.

Trong khi đĩ tính chính xác của phương pháp phân loại dựa trên bộ từ vựng phụ thuộc vào bộ từ vựng ý kiến đã chuẩn bị, cũng như hiệu năng của các cơng cụ sử dụng như vnTokenizer và JvnTagger. Bộ từ vựng được xây dựng thủ cơng nên khơng thể tránh khỏi những cảm nhận thiếu tính khách quan. Với mỗi chủ đề, hay lĩnh vực khác nhau các từ thể hiện ý kiến khen, chê cũng rất khác nhau. Bởi vậy, việc áp dụng một tập từ vựng được xây dựng chung vào một miền lĩnh vực nào đĩ cĩ thể đưa lại kết quả khơng như ý. Bởi một từ ý kiến cĩ thể là tích cực khi nĩi đến trong một lĩnh vực này nhưng lại trở thành tiêu cực ở lĩnh vực khác. Nhược điểm này chỉ cĩ thể cải thiện bằng cách xây dựng một bộ từ vựng cẩn thận, phong phú và chính xác hơn, và cĩ thể kết hợp bổ sung với việc phân tích dựa trên miền lĩnh vực. Vấn đề xác định miền lĩnh vực và đưa ra xu hướng ý kiến chính xác cho một từ hiện vẫn cịn là vấn đề chưa được giải quyết triệt để, cần tiến hành nghiên cứu chuyên sâu thêm. Một điểm nữa mà phương pháp dựa trên bộ từ vựng trong luận văn chưa xử lý đĩ là thơng tin trích dẫn. Cụ thể, một người cĩ thể trích dẫn ý kiến của người khác, và thể hiện ý kiến đồng tình hay khơng đồng tình với ý kiến được trích dẫn đĩ. Nếu xác định được ý kiến được trích dẫn là tiêu cực hay tích cực, và ý kiến của người trích dẫn là đồng tình/khơng đồng tình với nĩ thì ta cĩ thể phân loại ý kiến của người đĩ là tích cực hay tiêu cực. Việc phân loại đơn thuần chỉ dựa vào bộ từ ý kiến hay xu hướng của câu trước đĩ cĩ thể gây ra nhầm lẫn trong trường hợp trích dẫn này.

KẾT LUẬN

Trong luận văn, em đã trình bày một số kỹ thuật để khai phá và phân tích của người dùng về các đối tượng thuộc nhiều chủ đề khác nhau (thương hiệu, sản phẩm, người nổi tiếng) thơng qua những nhận xét của họ trên mạng. Mục đích chính là tạo ra được một phán đốn chính xác về xu hướng tích cực hay tiêu cực trong những câu nhận xét đĩ để hỗ trợ người sử dụng đưa ra những quyết định đúng đắn, hợp lý. Các phương pháp phân loại ý kiến cĩ giám sát (Naive Bayes, SVM), và khơng giám sát (sử dụng bộ từ vựng) em đã thử nghiệm trên bộ dữ liệu tiếng Việt cho độ chính xác khá khả quan, cĩ thể sử dụng để xây dựng một ứng dụng phân tích ý kiến cho kết quả chấp nhận được. So với các phương pháp đã được áp dụng cho tiếng Anh, độ chính xác này chênh lệch nhau khơng đáng kể. Cơng việc khai phá ý kiến này khơng chỉ phục vụ từng cá nhân, mà cịn rất cĩ ích đối với các cơng ty, tổ chức muốn nắm bắt được phản hồi của khách hàng về sản phẩm của mình. Và nĩ sẽ ngày càng trở nên quan trọng bởi cĩ ngày càng nhiều người biểu hiện ý kiến tình cảm của mình về sản phẩm, dịch vụ trên các diễn đàn, các mạng xã hội.

Hiện tại, luận văn thực hiện việc phán đốn xu hướng ý kiến trong nhận xét dựa trên bộ từ vựng tính từ tích cực, tiêu cực được xây dựng thủ cơng. Hiệu quả của việc phân tích phán đốn phụ thuộc vào bộ từ vựng này. Do được xây dựng thủ cơng, bộ từ vựng này cĩ thể khơng đầy đủ và mang nhiều quan điểm chủ quan của người xây dựng, khiến cho hiệu quả phán đốn ít nhiều bị ảnh hưởng. Để mở rộng và cải thiện hiệu quả cho nhiệm vụ mà luận văn thực hiện, trong lương lai em sẽ tìm hiểu về kỹ thuật xây dựng bộ từ vựng tính từ một cách tự động. Nhờ vậy bộ từ vựng sẽ trở nên phong phú, mang tính khách quan và hiệu quả của việc phân tích xu hướng ý kiến trong các câu nhận xét sẽ được tăng lên. Đồng thời, em cũng sẽ xem xét việc trích chọn đặc trưng kết hợp với ngram để bộ phân loại cĩ giám sát được chính xác hơn.

TÀI LIỆU THAM KHẢO Tiếng Anh

[1] Agrawal, R., Rajagopalan, S., Srikant, R., and Xu, Y. (2003), “Mining newsgroups using networks arising from social behavior”, inProceedings of WWW, pp. 529–535.

[2] Bansal, M., Cardie, C. and Lee, L. (2008), “The power of negative thinking: Exploiting label disagreement in the min-cut classification framework”, in Proceedings of the International Conference on Computational Linguistics (COLING).

[3] Breck, E., Choi, Y., and Cardie, C. (2007), “Identifying expressions of opinion in context”, Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI).

[4] comScore/the Kelsey group (2007), “Online consumer-generated reviews have significant impact on offline purchase behavior”, Press Release, November 2007. http://www.comscore.com/press/release.asp?press=1928. [5] Chih-Chung Chang and Chih-Jen Lin, “LibSVM – A library for Support

Vector Machines”. Địa chỉ: http://www.csie.ntu.edu.tw/~cjlin/libsvm/ [Truy cập: 10/11/2012].

[6] Dave, D., Lawrence, A., and Pennock, D. (2003), “Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews”. Proceedings of International World Wide Web Conference(WWW‟03).

[7] Ding, X., Liu, B. and Yu, P. (2008), “A Holistic Lexicon-Based Approach to Opinion Mining”. Proceedings of the first ACM International Conference on Web search and Data Mining(WSDM‟08).

[8] Fellbaum, C. (1998), “Wordnet: An Electronic Lexical Database”. MIT Press. [9] Ganapathibhotla, G. and Liu, B. (2008), “Identifying Preferred Entities in Comparative Sentences”, To appear in Proceedings of the 22nd International Conference on Computational Linguistics (COLING‟08).

[10] Hatzivassiloglou, V. and McKeown, K. (1997), “Predicting the Semantic Orientation of Adjectives”, ACL-EACL‟97.

[11] Hatzivassiloglou, V. and Wiebe, J. (2000), “Effects of adjective orientation and grad-ability on sentence subjectivity”, in Proceedings of the International Confer-ence on Computational Linguistics (COLING).

[12] Hu, M and Liu, B. (2004), “Mining and Summarizing Customer Reviews”, Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(KDD‟04).

[13] Jindal, N. and Liu, B. (2006), “Mining Comparative Sentences and Relations”, Proceedings of National Conference on Artificial Intelligence(AAAI‟06).

[14] John A. Horrigan (2008), “Online shopping”, Pew Internet & American Life Project Report.

[15] Kanayama, H. and Nasukawa, T. (2006), “Fully Automatic Lexicon Expansion for Domain-Oriented Sentiment Analysis”, Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing(EMNLP‟06).

[16] Kaji, N. and Kitsuregawa, M. (2006), “Automatic construction of polarity- tagged cor-pus from HTML documents”, in Proceedings of the COLING/ACL Main Con-ference Poster Sessions.

[17] Kim, S. and Hovy, E. (2004), “Determining the Sentiment of Opinions”, Proceedings of the 20th International Conference on Computational

Linguistics (COLING‟04).

[18] Lafferty, J., McCallum, A., and Pereira, F. (2001), “Conditional random fields: Probabilistic models for segmenting and labeling sequence data”, Proceedings of ICML, pp. 282–289.

[19] LingPipe – Sentiment analysis tool. Địa chỉ:

http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.html

[Truy cập: 10/11/2012]

[20] Liu, B., Hu, M. and Cheng, J. (2005), “Opinion Observer: Analyzing and Comparing Opinions on the Web”, Proceedings of International World Wide Web Conference(WWW‟05).

[21] Mullen, T. and Malouf, R. (2006), “A preliminary investigation into sentiment analysis of informal political discourse”, in AAAI Symposium on Compu-tational Approaches to Analysing Weblogs (AAAI-CAAW), pp. 159– 162.

[22] Pang, B., Lee, L. and Vaithyanathan, S. (2002), “Thumbs up? Sentiment Classification Using Machine Learning Techniques”, Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing (EMNLP‟02).

[23] Pang, B., Lee, L. (2004), “A sentimental education: Sentiment analysis using sub-jectivity summarization based on minimum cuts”, in Proceedings of the Asso-ciation for Computational Linguistics (ACL), pp. 271–278.

[24] Pang, B., Lee, L. (2008), “Using very simple statistics for review search: An exploration”, in Proceedings of the International Conference on Computational Lin-guistics (COLING). (Poster paper).

[25] Pang, B., Lee, L. (2008), “Foundations and Trends in Information Retrieval” 2(1-2), pp. 1–135.

[26] Popescu, A.-M. and Etzioni, O. (2005), “Extracting Product Features and Opinions from Reviews”, Proceedings of the 2005 Conference on Empirical Methods in Natural Language Processing (EMNLP‟05).

[27] Le Hong Phuong, “Vietnamese word segmentation”. Địa chỉ:

http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer

[Truy cập: 10/11/2012]

[28] Qiu, G., Liu, B., Bu, J. and Chen, C. (2009), “Expanding Domain Sentiment Lexicon through Double Propagation”, International Joint Conference on Artificial Intelligence (IJCAI-09).

[29] Somasundaran, S., Ruppenhofer, J., and Wiebe, J. (2007), “Detecting arguing and sentiment in meetings”, in Proceedings of the SIGdial Workshop on Discourse and Dialogue.

[30] Riloff, E., Wiebe, J., and Phillips, W. (2005), “Exploiting subjectivity classification to improve information extraction”, in Proceedings of AAAI, pp. 1106–1111.

[31] Takamura, H., Inui, T., and Okumura, M. (2007), “Extracting semantic orientations of phrases from dictionary”, Proceedings of the Joint Human Language Technology/North American Chapter of the ACL Conference (HLT-NAACL).

[32] Tokuhisa, R. and Terashima, R. (2006), “Relationship between utterances and „enthusiasm‟ in non-task-oriented conversational dialogue,” in Proceedings of the SIGdial Workshop on Discourse and Dialogue, pp. 161–167, Sydney, Australia: Association for Computational Linguistics.

[33] Turney, P. (2002), “Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews”. ACL‟02.

[34] Turney, P. D. and Littman, M. L. (2003), “Measuring praise and criticism: Inference of semantic orientation from association”, ACM Transactions on Information Systems (TOIS), vol. 21, pp. 315–346.

[35] Cam-Tu Nguyen, Xuan-Hieu Phan and Thu-Trang Nguyen (2010), "JVnTextPro: A Java-based Vietnamese Text Processing Tool", http://jvntextpro.sourceforge.net/.

[36] Weka. Địa chỉ: http://www.cs.waikato.ac.nz/ml/weka/, [Truy cập: 10/11/2012]

[37] Wiebe, J. and Riloff, E. (2005), “Creating Subjective and Objective Sentence Classifiers from Unannotated Texts”, Proceedings of International Conference on Intelligent Text Processing and Computational Linguistics (CICLing‟05).

[38] Wiebe, J. M., Wilson, T., and Bell, M. (2001), “Identifying collocations for recognizing opinions”, in Proceedings of the ACL/EACL Workshop on Collocation: Computational Extraction, Analysis, and Exploitation.

[39] Wilson, T., Wiebe, J. and Hwa, R. (2004), “Just How Mad Are You? Finding Strong and Weak Opinion Clauses”, in AAAI 2004.

Phân loại dựa trên học cĩ giám sát

Phân loại dựa trên học khơng giám sát