Luận văn đã thực hiện phân loại cảm xúc người dùng dựa trên 04 bài tốn
thực nghiệm với các phương pháp xây dựng vec-tơ đặc trưng khác nhau là Unigram
và VSM, với các bộ phân loại khác nhau như Nạve bayes và SVM và trên 03 miền
dữ liệu nhạc trẻ, nhạc cách mạng, tất cả. Luận văn đã thực hiện thử nghiệm với 02 phương pháp kiểm thử k-folds=5 và k-folds=10. Tổng cộng tất cả là 4x3x2=24 thử
nghiệm các loại. Từ các kết quả của các bài tốn thực nghiệm, luận văn cĩ thể đưa ra đươc các kết luận như sau:
• Bộ phân lớp SVM thì tốt hơn Nạve Bayes. Trong việc phân loại dữ liệu văn bản nĩi chung, và phân loại cảm xúc nĩi riêng, bộ phân lớp SVM thì tốt hơn Nạve Bayes một chút. Tất nhiên, kết quả này cịn phụ thuộc vào nhiều yếu tố, cụ thể là tại bước trích chọn đặc trưng ta xây dựng vec- tơ đặc trưng như thế nào, hoặc các tùy chọn khi thực hiện giải thuật với từng bộ phân loại trong Weka (với k-folds=5, k-folds=10, v.v.). Trong
bài tốn thực nghiệm “So sánh tính hiệu quả của 2 bộ phân loại SVM và
Nạve Bayes với phương pháp xây dựng vec-tơ đặc trưng Unigram” ở trên đã chỉ ra rằng, bộ phân loại SVM tốt hơn Nạve Bayes từ 1-3%.
• Phương pháp xây dựng vec-tơ đặc trưng theo mơ hình khơng gian vec-tơ (Vector Space Model) cĩ kết quả tốt hơn hẳn so với Unigram. Độ chính xác của phương pháp này cĩ thể lên tới 95% (từ 91% - 95%) khi được áp dụng với hai bộ phân loại là Nạve Bayes và SVM (so với Unigram chỉ đạt được kết quả khoảng 85% - 86%). Kết quả này được thể
hiện rõ ở hai bài tốn thực nghiệm là “So sánh mơ hình Unigram và VSM
trong bộ phân loại Nạve Bayes” và “So sánh mơ hình Unigram và VSM trong bộ phân loại Support Vector Machine”. Phương pháp VSM này đã tận dụng được ưu điểm của mình là tính điểm số (score) dựa vào đặc trưng các từ vựng xuất hiện ở mỗi nhãn cảm xúc, từ đĩ đánh giá được từ vựng nào thì đặc trưng cho cảm xúc nào và loại bỏ được những từ vựng khơng mang tính đặc trưng, chất xuất hiện ở tất cả các nhãn cảm xúc.
• Đề xuất mơ hình tối ưu cho phân loại cảm xúc người dùng trong mạng xã hội. Từ các kết luận trên, luận văn cĩ thể xây dựng được một mơ hình tương đối tốt và tối ưu cho việc phân loại cảm xúc người dùng trong mạng xã hội đĩ là áp dụng mơ hình trích chọn đặc trưng Vector Space Model với bộ phân lớp Support Vector Machine.
Trong chương này, luận văn đã chi tiết các thơng tin thử nghiệm và đánh giá các phương pháp xây dựng vec-tơ đặc trưng, đánh giá các bộ phân lớp dựa trên 04 bài tốn thực nghiệm. Đầu vào của chương 3 này là kết quả của chương 2 sau khi chạy thử nghiệm với ứng dụng Weka. Luận văn cũng đã đưa ra các nhận xét, đánh giá và so sánh các mơ hình, các bộ phân lớp, từ đĩ đưa ra được một mơ hình tốt nhất trong việc giải quyết bài tốn phân loại cảm xúc người dùng trong mạng xã hội đã nêu.
KẾT LUẬN
Để giải quyết được bài tốn phân loại cảm xúc người dùng trong mạng xã hội, luận văn đã thu thập dữ liệu bình luận của người dùng khi đang nghe nhạc và tiến hành khảo sát, áp dụng một số mơ hình xây dựng vec-tơ đặc trưng và các bộ phân lớp khác nhau để xây dựng nên một mơ hình tốt nhất giải quyết bài tốn. Cụ thể luận văn đã đạt được một số kết quả sau:
• Khảo sát các hướng tiếp cận bài tốn phân loại cảm xúc người dùng trong mạng xã hội. Đây là một trong những bài tốn khá hay trong lĩnh vực khai phá quan điểm người dùng. Trong các hướng tiếp cận này, luận văn nhận thấy cĩ nhiều cách để xây dựng vec-tơ đặc trưng, cũng như cĩ nhiều bộ phân lớp tốt được nhiều nghiên cứu trước đĩ sử dụng. Vì thế luận văn đã tập trung tiến hành thử nghiệm các hướng tiếp cận khác nhau để đưa ra mơ hình tốt nhất cho việc phân loại cảm xúc người dùng.
• Xây dựng ứng dụng và áp dụng các mơ hình trích chọn đặc trưng và phân loại. Luận văn xây dựng ứng dụng thu thập các bình luận của người dùng khi đang nghe nhạc, cụ thể trên trang mp3.zing.vn đã thu thập được 13645 bình luận thuộc các thể loại nhạc trẻ và nhạc cách mạng. Tuy nhiên sau pha tiền xử lý dữ liệu, luận văn đã tiến hành loại bỏ và chỉ giữ lại 1034 bình luận và gán nhãn cho mỗi bình luận thuộc cảm xúc tích cực hay cảm xúc tiêu cực. Bước này thực hiện thủ cơng nên chiếm khá nhiều thời gian, địi hỏi sự kiên trì và tỉ mỉ. Sau đĩ luận văn đã thực hiện code 2 phương pháp xây dựng vec-tơ đặc trưng là unigram và mơ hình khơng gian vec-tơ (Vector Space Model). Kết quả của bước này là file cĩ định dạng .arff để áp dụng hai bộ phân loại phổ viến là Nạve Bayes và Support Vector Machine sử dụng Weka.
• Phân tích, đánh giá, so sánh các kết quả của việc áp dụng các mơ hình trích chọn đặc trưng khác nhau và các bộ phân loại khác nhau.
Luận văn đã tập trung tiến hành thử nghiệm các hướng tiếp cận khác nhau với mục đích tìm ra mơ hình tốt nhất cho việc phân loại cảm xúc người dùng. Luận văn đã tiến hành phân tích, đánh giá, thử nghiệm nhiều
lần để so sánh hai mơ hình trích chọn đặc trưng Unigram và VSM, cũng
như hai bộ phân loại Nạve Bayes và SVM. Đề xuất ra mơ hình ưu việt
nhất là trích chọn đặc trưng sử dụng Vector Space Model kết hợp với bộ phân lớp Support Vector Machine là một trong những kết quả đạt
được của luận văn.
Tuy nhiên, bên cạnh những vấn đề đã đạt được, luận văn cịn một số vấn đề chưa giải quyết được, hoặc chưa tối ưu trong quá trình nghiên cứu. Cụ thể như sau:
• Tính khách quan trong thực hiện gán nhãn cảm xúc thủ cơng. Cơng việc gán nhãn cảm xúc tích cực hay tiêu cực cho 1034 bình luận được thực hiện thủ cơng, do đĩ bước này cĩ thể dẫn tới tình trạng thiếu tính khách quan do cĩ thể phụ thuộc một phần về cảm xúc của người làm thủ cơng lúc đĩ.
• Chưa áp dụng các giải thuật tách từ trong tiếng Việt. Trong bước tiền xử lý, luận văn mới chỉ tập trung tách từ vựng theo từng từ một chứ chưa tách thành từ ghép cĩ ý nghĩa. VD: “Bài hát rất cảm động” thì bị tách ra thành 5 từ “bài”, “hát”, “rất”, “cảm”, “động” riêng lẻ thay vì 3 từ “bài hát”, “rất”, “cảm động”.
• Số lượng nhãn cảm xúc hạn chế. Luận văn mới chỉ tập trung phân loại được theo 02 nhãn là “cảm xúc tích cực” và “cảm xúc tiêu cực”, chưa
phân loại được 06 nhãn vui, buồn, giận dữ, ngạc nhiên, ghét, sợ hãi hoặc
nhiều hơn.
Luận văn cũng đề xuất các hướng phát triển tiếp theo
• Kiểm thử độ chính xác của mơ hình Vector Space Model + Support
Vector Machine với tập dữ liệu bình luận nhiều hơn và nhiều lĩnh vực hơn (Hiện mới kiểm thử ở 1034 bình luận và trên miền nhạc trẻ và nhạc cách mạng tại website mp3.zing.vn)
• Phân loại cảm xúc theo 06 nhãn cơ bản là vui, buồn, giận dữ, ngạc nhiên,
ghét, sợ hãi.
• Phát triển bộ từ điển đặc trưng cho cảm xúc dựa trên mơ hình Vector
mỗi nhãn cảm xúc, từ đĩ đánh giá được từ vựng nào thì đặc trưng cho cảm xúc nào và loại bỏ được những từ vựng mang tính chất xuất hiện ở tất cả các nhãn cảm xúc.
• Phát triển ứng dụng cho phép phát hiện cảm xúc người dùng thơng qua
DANH MỤC CÁC TÀI LIỆU THAM KHẢO
[1] W. Gerrod Parrot. “Emotions In Social Psychology”, 2001
[2] H. Yujin, Z. Xiaoling, L. L. Wang, and Xuelin. “A bayes text
classification method based on vec-tơspace model”. Computer and Digital Engineering, 32:28–30, feb 2004
[3] Pham Huyen-Trang, et al (2011) "A solution for grouping Vietnamese
synonym feature words in product reviews." Services Computing Conference (APSCC), 2011 IEEE Asia-Pacific. IEEE
[4] Vu, Tien-Thanh, et al. "A feature-based opinion mining model on
product reviews in Vietnamese." Semantic Methods for Knowledge Management and Communication. Springer Berlin Heidelberg, 2011. 23-33
[10] Taner Danisman, Adil Alpkocak “Feeler: Emotion Classification of
Text Using Vector Space Model”. In AISB 2008 Convention, Communication, Interaction and Social Intelligence, Vol. vol. 2 (April 2008)
[12] Jason D. M. Rennie “Improving Multi-class Text Classification with
Naive Bayes”, Massachusetts Institute of Technology, (2001)
[14] Johan Hovold “Naive Bayes Spam Filtering Using Word-Position-Based Attributes”, Proceedings of the Second Conference on Email and Anti-Spam, (2004)
[15] Bo Pang, Lillian Lee “A Sentimental Education: Sentiment Analysis
Using Subjectivity Summarization Based on Minimum Cuts”, Proc. of 42nd ACL, pp. 271-278. (2004)
[16] Yustinus Eko Soelistio and Martinus Raditia Sigit Surendra, “Simple
text mining for sentiment analysis of political figure using Nạve Bayes classifier”, The Proceedings of The 7th ICTS, Bali, pp. 99-104, (2013)
[17] CORTES, C. and V. VAPNIK, 1995. Support-vec-tơ networks.
Machine Learning. [Cited by 2683] (213.94/year)
[18] Singh, Pravesh Kumar, and Mohd Shahid Husain.
"METHODOLOGICAL STUDY OF OPINION MINING AND SENTIMENT ANALYSIS TECHNIQUES."International Journal on Soft Computing 5.1, 2014.
WEBSITE
[5] http://en.wikipedia.org/wiki/Emotion, Truy cập ngày 20/03/2015
[6] http://sentiwordnet.isti.cnr.it/, Truy cập ngày 20/03/2015
[7] http://www.affective-sciences.org/researchmaterial, Truy cập ngày 20/03/2015
[8] http://www.affective-
sciences.org/system/files/webpage/CodeAppB_0.pdf, Truy cập ngày 20/03/2015 [9] http://stackoverflow.com/questions/3656762/n-gram-generation-from- a-sentence, Truy cập ngày 20/03/2015
[11] http://en.wikipedia.org/wiki/Emotion_classification, Truy cập ngày 20/03/2015
[13] http://www.cs.ucla.edu/~miodrag/cs259- security/sahami98bayesian.pdf, Truy cập ngày 20/03/2015
[19] http://m.mp3.zing.vn/top-100/bai-hat-Nhac-Tre/IWZ9Z088.html, Truy cập ngày 20/03/2015
[20] http://m.mp3.zing.vn/top-100/bai-hat-Nhac-Cach- Mang/IWZ9Z08C.html, Truy cập ngày 20/03/2015
PHỤ LỤC
Phụ lục 01: Code project EmotionClassifications. Trong đĩa CD gửi kèm luận văn.
Phụ lục 02: Kết quả dữ liệu chạy chương trình với WEKA. Trong đĩa CD gửi kèm luận văn.