Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 61 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
61
Dung lượng
866,96 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN —————————— Ngô Thế Quyền NGHIÊN CỨU MỘT PHƯƠNG PHÁP PHI GIÁM SÁT PHÁT HIỆN CẢM XÚC TRONG VĂN BẢN LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN —————————— Ngô Thế Quyền NGHIÊN CỨU MỘT PHƯƠNG PHÁP PHI GIÁM SÁT PHÁT HIỆN CẢM XÚC TRONG VĂN BẢN Chuyên ngành: Cơ sở toán cho tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Lê Hồng Phương Hà Nội - 2015 LỜI CẢM ƠN Trong trình học tập nghiên cứu, em nhận hướng dẫn tận tình thầy Lê Hồng Phương cô Nguyễn Thị Minh Huyền Em xin chân thành cảm ơn Thầy, Cô giúp đỡ em nhiều học tập công việc Em xin gửi lời cảm ơn tới Thầy, Cô nhiệt tình giảng dạy chuyên đề Cao học cho chúng em Em xin cảm ơn gia đình, bạn bè, đồng nghiệp, người quan tâm, động viên em trình học tập làm luận văn Hà Nội, ngày 19 tháng 05 năm 2015 Học viên Ngô Thế Quyền i Mục lục Giới thiệu 1 Tổng quan toán phát cảm xúc văn 1.1.Lý thuyết cảm xúc 1.2.Mô hình cảm xúc 1.2.1 Mô hình cảm xúc theo loại 1.2.2 Mô hình cảm xúc theo chiều 1.3.Các phương pháp phát cảm xúc 1.3.1 Hướng tiếp cận dựa vào từ vựng 1.3.2 Hướng tiếp cận dựa vào học máy 1.4.Đánh giá 12 1.4.1 Độ đo F 12 1.4.2 SemEval 13 1.5.Tổng kết 15 Phương pháp phi giám sát cho toán phát cảm xúc văn 17 2.1.Phương pháp sử dụng mô hình không gian véc-tơ 17 2.1.1 Term by Document Matrix 18 2.1.2 Chỉ số tf-idf 20 2.1.3 Phương pháp giảm số chiều cho Term by Document Matrix 23 2.1.4 Đánh giá tương đồng ngữ nghĩa văn 24 ii 2.2.Phương pháp sử dụng quan hệ ngữ nghĩa ngữ pháp 26 2.2.1 Tổng quan mô hình 26 2.2.2 Trích chọn từ ảnh hưởng 28 2.2.3 Phân tích ngữ cảnh sử dụng cú pháp phụ thuộc 28 2.2.4 Biểu diễn cảm xúc theo véc-tơ 29 2.2.5 Phân tích quan hệ ngữ nghĩa 30 2.2.6 Xác định véc-tơ cảm xúc cho từ NAVA 31 2.2.7 Tính véc-tơ cảm xúc cho câu 32 2.3.Tổng kết Thực nghiệm 33 34 3.1.Ứng dụng phương pháp phi giám sát phát cảm xúc văn tiếng Việt 34 3.2.Một số kết thử nghiệm 38 Kết luận 45 Tài liệu tham khảo 46 Phụ lục 50 iii Danh sách bảng 1.1 Tập loại cảm xúc đưa nhà nghiên cứu 1.2 Một số hướng tiếp cận 11 1.3 Mục tiêu SemEval qua hội thảo 15 2.1 Ví dụ Term by Document Matrix (TDM) 19 2.2 Term by Documnet Matrix 22 2.3 Bảng số tf-idf 22 2.4 Tập từ đại diện 29 3.1 Tập từ đại diện cho khái niệm cảm xúc 37 3.2 Kết thử nghiệm 938 câu VietTreeBank 39 3.3 Kết thử nghiệm 1141 câu trích từ truyện 39 3.4 kết thử nghiệm 1141 câu trích từ truyện, kho ngữ liệu 40.000 câu 40 3.5 Kết thử nghiệm liệu ISEAR 3.6 Kết theo số F phương pháp phi giám sát 41 3.7 Tổng hợp ý kiến học sinh 42 3.8 Kết đánh giá ý kiến học sinh 42 3.9 Kết phương pháp bán giám sát Desmond C Ong 43 41 3.10 Kết thử nghiệm sử dụng phương pháp lai (Hybird) 43 3.11 Tập nhãn từ loại VietTreeBank 50 3.12 Tập nhãn cụm từ VietTreeBank 51 3.13 Các nhãn chức nang cú pháp VietTreeBank 52 iv Danh sách hình vẽ 1.1 Mô hình Watson Tellegen (1985) 1.2 Phân bố thuật ngữ theo chiều cảm xúc (Russell, 1980) 1.3 Độ xác, độ hồi tưởng 12 1.4 SemEval Workshop framework 14 2.1 Tổng quan mô hình 27 v Giới thiệu Sự phát triển nhanh chóng mạng toàn cầu (World Wide Web) tạo điều kiện cho việc giao tiếp trực tuyến mạng xã hội hay hệ thống bán hàng trực tuyến, nhờ mở đường cho thành viên cộng đồng mạng trực tiếp đăng tải ý kiến cá nhân Điều tạo lượng lớn nội dung trực tuyến phong phú bao gồm quan điểm, ý kiến người dùng, chứa đựng thông tin tình cảm, cảm xúc đánh giá kiện hay đối tượng Từ đó, vấn đề đặt việc tự động xác định cảm xúc nội dung mà người dùng đăng tải Thực vậy, thời gian gần đây, lĩnh vực khai phá quan điểm phân tích tình cảm ngày quan tâm, nhằm đáp ứng nhu cầu tìm kiếm, khai thác thông tin người Vấn đề xác định cảm xúc văn ứng dụng hệ thống như: đánh giá thái độ khách hàng (hài lòng/không hài lòng) hệ thống bán hàng trực tuyến, đánh giá thái độ người dùng mạng xã hội cá nhân hay vấn đề đó, Đối với tiếng Việt, có số nhóm quan tâm nghiên cứu liên quan đến vấn đề phân tích quan điểm nhóm PST.TS Hà Quang Thụy nhóm PGS.TS Lê Anh Cường Nhiều phương pháp đưa để áp dụng cho toán xác định cảm xúc văn như: phương pháp dựa từ điển, phương pháp dựa quy tắc ngôn ngữ, phương pháp học máy Phương pháp dựa từ điển phương pháp dựa quy tắc ngôn ngữ sử dụng từ điển định nghĩa trước từ mang cảm xúc luật ngôn ngữ để xác định cảm xúc, phương pháp không cho kết tốt liệu có từ luật từ điển định nghĩa trước Phương pháp học máy chia hai hướng phương pháp học máy có giám sát phương pháp học máy phi giám sát Phương pháp học máy có giám sát cho toán phát cảm xúc văn thường cho kết tốt phương pháp yêu cầu cần có tập liệu (dữ liệu gán nhãn cảm xúc) đủ lớn Phương pháp học máy phi giám sát thường cho kết thấp phương pháp học máy có giám sát phương pháp không đòi hỏi cần có tập liệu lớn gán nhãn, kết phương pháp nguồn liệu tốt cho phương pháp học máy có giám sát Mục tiêu luận văn tìm hiểu số phương pháp phi giám sát ứng dụng phương pháp việc xác định cảm xúc văn áp dụng cho văn tiếng Việt Cách tiếp cận phi giám sát ứng dụng luận văn phương pháp sử dụng quan hệ ngữ nghĩa phụ thuộc cú pháp Nội dung luận văn trình bày chương: • Chương trình bày tổng quan toán phát cảm xúc văn bản, cách tiếp cận giải vấn đề phát cảm xúc văn • Chương trình bày kỹ thuật phi giám sát cho toán xác định cảm xúc văn • Chương trình bày ứng dụng phương pháp phi giám sát xác định cảm xúc văn tiếng Việt, bao gồm việc xây dựng liệu, cài đặt mô hình đánh giá kết Chương Tổng quan toán phát cảm xúc văn Chương trình bày tổng quan phát cảm xúc văn bản, khái niệm liên quan hướng tiếp cận có 1.1 Lý thuyết cảm xúc Cảm xúc vấn đề liên quan đến nhiều lĩnh vực nghiên cứu tâm lý học, ngôn ngữ học, khoa học xã hội, giao tiếp, Cảm xúc người biểu lộ thông qua nét mặt, lời nói, cử hành động, ghi chép, Gần nhà nghiên cứu xem xét số khía cạnh cảm xúc người đưa tập loại cảm xúc khác (Tomkins, 1962), (Izard, 1977), (Plutchick, 1980), (Ekman, 1992), Bảng 1.1 liệt kê trạng thái cảm xúc đề xuất Một số nhà tâm lý học nghiên cứu nét mặt biểu thị cảm xúc để phân biệt khác chúng, từ phân cảm xúc người Ekman (1992)[10] đưa sáu cảm xúc vui (happiness), buồn (sadness), sợ hãi (fear), tức giận (anger), ghê tởm (disgust), ngạc nhiên (surprise) Các loại cảm xúc Ekman đưa sử dụng nhiều nghiên cứu liên quan đến vấn đề phát cảm xúc, ví dụ công trình Liu cộng (2003)[16], Alm cộng (2005)[4] Prec Rec F-Score Vui 71,11% 47,06% 56,64% Buồn 38,60% 29,53% 33,46% Giận 50% 2,99% 5,64% Sợ hãi 40% 25% 30,77% Bảng 3.4: kết thử nghiệm 1141 câu trích từ truyện, kho ngữ liệu 40.000 câu kho ngữ liệu giàu cảm xúc thu kết tốt Tỷ lệ loại cảm xúc phần ảnh hưởng tới kết mô hình • Tác giả tiến hành thực nghiệm theo phương pháp không sử dụng cú pháp phụ thuộc thấy kết không tốt việc có sử dụng cú pháp phụ thuộc Kết thực nghiệm báo cáo Hội thảo quốc gia lần thứ XVII: Một số vấn đề chọn lọc Công nghệ thông tin Truyền thông[1] Phần sau chương trình bày số kết tác giả khác công bố vấn đề phát cảm xúc văn Các tác giả (Agrawal, Ameeta and An, Aijun 2012)[2] áp dụng phương pháp phi giám sát sử dụng quan hệ ngữ nghĩa phụ thuộc cú pháp để phát cảm xúc văn Thuật toán đề xuất đặt tên UnSED (Unsupervised Seman-tic Emotion Detection) Thực nghiệm thực kho liệu: Dữ liệu từ Wikimedia1 Kho ngữ liệu Gutenberg2 bao gồm 36.000 ebook Wiki-Guten, kết hợp liệu Kết thử nghiệm theo số F-score trình bày Bảng 3.5 Dữ liệu dùng để kiểm thử kho liệu ISEAR (International Survey on Emotion Antecedents and Reactions) Tác giả đưa kết so sánh với phương pháp phi giám sát khác bảng 3.6 http://download.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 http://www.gutenberg.org/ 40 UnSED Context- Joy Sadness Anger Fear Disgust Shame Guilt Avg Wikipedia 0.514 0.396 0.413 0.517 0.430 0.400 0.338 0.430 Gutenberg 0.500 0.248 0.415 0.439 0.432 0.397 0.374 0.401 Wiki-Guten 0.500 0.290 0.414 0.483 0.470 0.400 0.329 0.412 based Bảng 3.5: Kết thử nghiệm liệu ISEAR Algorithm Alm ISEAR Average LSA 0.629 0.227 0.428 PLSA 0.279 0.269 0.274 NMF 0.733 0.165 0.449 DIM 0.419 0.372 0.396 UnSEDUnSED Context-based Wikipedia 0.606 0.548 0.577 UnSED Context-based Gutenberg 0.544 0.486 0.503 UnSED Context-based Wiki-Guten 0.62 0.52 0.57 Bảng 3.6: Kết theo số F phương pháp phi giám sát Trong công bố Kim cộng [13], tác giả đưa mô hình phân loại cảm xúc theo chiều để đánh giá quan điểm học sinh dựa vào bình luận học sinh Bảng 3.7 tổng hợp số ý kiến học sinh thu thập theo chiều cảm xúc Tác giả sử dụng số phương pháp sau để thực nghiệm: Majority Class Baseline (MCB), Keyword Spotting (KWS), LSA-based categorical classification (CLSA), NMF-based categorical classification (CNMF), Dimension-based estimation (DIM) Kết trình bày bảng 3.8 41 Rating Number Sentiment Number Comments tagged with each sentiment Strongly Agree 381 Positive Agree 1,455 1,074 lecturer and tutor was helpful and explained concepts well It is a bit clear about Neutral 611 Neutral 611 staff response but need more examples in there answer Disagree 571 Negative Strongly Disagree 874 303 Not enough computers to accommodate all the students Bảng 3.7: Tổng hợp ý kiến học sinh Tác giả Desmond C Ong Wen Hao Lui [8] sử dụng phương pháp học bán giám sát cho toán phát cảm xúc văn bản, mô hình sử dụng phương pháp máy véc-tơ hỗ trợ (support vector machine - SVM) để huấn luyện, liệu bao gồm 1700 mẫu liệu gán nhãn 2302 mẫu chưa gán nhãn Kết trình bày Bảng 3.9 Kết cuối trình bày Sonja Gievska cộng [11] Trong công bố này, tác giả sử dụng phương pháp lai phương pháp học máy Sentiment Positive Negative Neutral Prec Rec F1 Prec Rec F1 Prec Rec F1 MCB 0.495 0.662 0 - 0 - KWS 0.527 0.22 0.31 0.27 0.061 0.099 0.212 0.743 0.33 CLSA 0.575 0.362 0.445 0.388 0.203 0.266 0.218 0.56 0.314 CNMF 0.505 0.897 0.646 0.378 0.12 0.182 0.421 0.052 0.093 DIM 0.591 0.329 0.423 0.398 0.317 0.353 0.223 0.522 0.312 Bảng 3.8: Kết đánh giá ý kiến học sinh 42 Predicted Positive Predicted Negative Total Actual Positive 103 76 179 Actual Negative 866 7739 8605 Total 969 7815 8784 Bảng 3.9: Kết phương pháp bán giám sát Desmond C Ong phương pháp sử dụng từ vựng cho toán phát cảm xúc văn Kết thực nghiệm phương pháp trình bày Bảng 3.10 Baseline Lexical method Machine learn- Hybrid method ing method Emotion P R F1 P R F1 P R F1 P R F1 anger 46.8 97 63.1 88.3 80.1 84 63.6 70.6 66.9 92.5 87.4 89.9 fear 53.1 26.3 35.1 92.2 80.5 85.9 77.3 71.4 74.2 94.9 86.1 90.3 sadness 52.2 24.9 33.7 86.8 83.5 85.1 74.7 65.2 69.6 89 86.3 87.7 disgust - - - 97.5 58.6 73.2 79 60.6 68.6 98.1 71.1 82.5 joy 34.9 98 51.5 69.5 81.3 74.9 67.3 73.3 70.2 71.9 91 80.3 surprise - - - 79.8 91 85 63.5 54 58.4 83.8 98 90.3 neutral - - - 31.6 87 46.3 38.2 70.2 49.5 56.4 82.3 66.9 average - - - 78 80.3 76.4 66.2 66.5 65.3 83.8 86 84 Bảng 3.10: Kết thử nghiệm sử dụng phương pháp lai (Hybird) 43 Khó so sánh kết với nhau, tác giả không sử dụng liệu tiến hành thực nghiệm, số lượng khái niệm cảm xúc, Tuy nhiên, nhận thấy phương pháp phi giám sát cho kết chưa thực cao Đối với tiếng Việt, chưa có nguồn liệu hỗ trợ cho toán phát cảm xúc văn công bố nên khó tiếp cận theo phương pháp học máy có giám sát hay phương pháp sử dụng từ vựng Việc tìm hiểu phương pháp khác, áp dụng cho toán phát cảm xúc văn tiếng Việt nâng cao độ xác kết hướng nghiên cứu tương lai tác giả Có thể thấy kết phương pháp lai phương pháp học máy phương pháp sử dụng từ vựng cho độ xác cao Đây hướng nghiên cứu phát triển tiếp luận văn nhằm tìm phương pháp cho toán phát cảm xúc văn tiếng Việt đạt độ xác cao 44 Kết luận Luận văn trình bày tổng quát vấn đề phát cảm xúc văn bản, sâu vào phương pháp phi giám sát cho toán phát cảm xúc văn Hai phương pháp phi giám sát trình bày là: phương pháp sử dụng mô hình không gian véc-tơ phương pháp sử dụng ngữ nghĩa cú pháp phụ thuộc cho toán phát cảm xúc văn Thực nghiệm phát cảm xúc văn tiếng Việt Việc tiến hành thử nghiệm gặp nhiều vấn đề chưa có liệu tiếng Việt gán nhãn cảm xúc hay từ điển cảm xúc cho tiếng Việt tác giả cộng xây dựng liệu để tiến hành thử nghiệm Trong tương lai, tác giả tiếp tục tìm hiểu phương pháp phi giám sát phương pháp lai phương pháp học máy phương pháp sử dụng từ vựng để tìm mô hình với độ xác cao Thêm vào đó, tác giả tìm hiểu độ đo khác Word2Vec, đồng thời sử dụng thêm số cú pháp phụ thuộc, với mục đích nâng cao độ xác cho mô hình, từ có công cụ xây dựng kho ngữ liệu cảm xúc cho tiếng Việt 45 Tài liệu tham khảo Tài liệu tiếng Việt [1] Hứa Thị An, Nguyễn Thị Minh Huyền, Ngô Thế Quyền Ứng dụng phương pháp phi giám sát xác định cảm xúc văn tiếng Việt Kỷ yếu Hội thảo quốc gia lần thứ XVII: Một số vấn đề chọn lọc Công nghệ thông tin Truyền thông 2014 Tây Nguyên Trang 390 - 395 Tài liệu tiếng Anh [2] Ameeta Agrawal and Aijun An 2012 Unsupervised Emotion Detection from Text Using Semantic and Syntactic Relations In Proceedings of the The 2012 IEEE/WIC/ACM International Joint Conferences on Web Intelligence and Intelligent Agent Technology - Volume 01 (WI-IAT ’12), Vol IEEE Computer Society, Washington, DC, USA, 346-353 [3] Alexandra Balahur, Jesús M Hermida, and AndrésMontoyo 2011 Detecting Implicit Expressions ofSentiment in Text Based on Commonsense Knowledge In 2nd Workshop on Computational Approaches to Subjectivity and Sentiment Analysis, ACL-HLT 2011, pages 53–60 [4] Alm, C O., Roth, D., & Sproat, R (2005) Emotions from text: Machine learning for text-based emotion prediction Paper presented at the Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing, Vancouver [5] Clore, G.L., Ortony, A., and Foss, M.A (1987) “The psychological foundations of the affective lexicon” Journal of Personality and Social Psychology, Vol 53, pages 751–766 46 [6] C Strapparava, R Mihalcea Learning to identify emotions in text Proceedings of the 2008 ACM symposium on Applied computing, 1556-1560 [7] Dave, K., Lawrence, S., & Pennock, D M (2003) Mining the peanut gallery: Opinion extraction and semantic classification of product reviews Paper presented at the Proceedings of the 12th international conference on World Wide Web [8] Desmond C Ong, Wen Hao Lui Building an Emotional Relation Extraction Tool CS 224N Project Stanford [9] D’Mello, S., Picard, R W., & Graesser, A (2007) Toward an AffectSensitive AutoTutor IEEE Intelligent Systems, 22(4), 53-61 [10] Ekman, P (1992) An argument for basic emotions Cognition Emotion, 6(3), 169-200 [11] Gievska, S.; Koroveshovski, K.; Chavdarova, T., A Hybrid Approach for Emotion Detection in Support of Affective Interaction, in Data Mining Workshop (ICDMW), 2014 IEEE International Conference on 14-14 Dec 2014 pp.352-359 [12] Kao, E.C.-C.; Chun-Chieh Liu; Ting-Hao Yang; Chang-Tai Hsieh; VonWun Soo, Towards Text-based Emotion Detection A Survey and Possible Improvements, in Information Management and Engineering, 2009 ICIME ’09 International Conference on , vol., no., pp.70-74, 3-5 April 2009 [13] Kim, S M., & Calvo, R A (2010) Sentiment Analysis in Student Experiences of Learning Paper presented at the the 3rd International Conference on Educational Data Mining, Pittsburgh, USA [14] Kim, S.-M., & Hovy, E (2004) Determining the sentiment of opinions Paper presented at the Proceedings of the 20th international conference on Computational Linguistics, Geneva, Switzerland [15] Li, Y., Bontcheva, K., & Cunningham, H (2007) Experiments of Opinion Analysis on the Corpora MPQA and NTCIR-6 Paper presented at the 47 Proceedings of the 6th NTCIR Workshop Meeting on Evaluation of Information Access Technologies: Information Retrieval, Question Answering, and Cross-Lingual Information Access, Tokyo, Japan [16] Liu, H., Lieberman, H., & Selker, T (2003b) A model of textual affect sensing using real-world knowledge Paper presented at the the 8th international conference on Intelligent user interfaces, Miami, Florida, USA [17] Mehrabian, A (1995) Framework for a comprehensive description and measurement of emotional states Genetic, Social, and General Psychology Monographs, 121, pages 339-361 [18] Russell, J A (1979) “Affective space is bipolar” Journal of Personality and Social Psychology, 37(3), 345-356 [19] Russell, J A (1980) “A circumplex model of affect” Journal of Personality and Social Psychology, 39(6), 1161-1178 [20] Russell, J A., Lewicka, M., & Niit, T (1989) “A Cross-Cultural Study of a Circumplex Model of Affect” Journal of Personality and Social Psychology, 57(5), 848-856 [21] Strapparava, C., Valitutti, A and Stock, O (2006) The affective weight of lexicon In Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC 2006), pages 423–426, Genoa, Italy [22] Schlosberg, H (1952) “The description of facial expressions in terms of two dimensions” Journal of Experimental Psychology, 44, pages 229-237 [23] Watson, D and Tellegen, A (1985) “Towards a consensual structure of mood” Psychological Bulletin, 98, pages 219-235 [24] Valentina Sintsova, Claudiu Musat, Pearl Pu Semi-Supervised Method for Multi-Category Emotion Recognition in Tweets IEEE International Conference on Data Mining Workshop 2014 48 [25] Xuren Wang and Qiuhui Zheng 2013 Text Emotion Classification Research Based on Improved Latent Semantic Analysis Algorithm In Proceedings of the 2nd International Conference on Computer Science and Electronics Engineering (ICCSEE 2013), number Iccsee, pages 210–213, Paris, France Atlantis Press 49 Phụ lục Vietnamese treebank VietTreeBank kho liệu tiếng Việt xây dựng từ đề tài nhà nước “Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt”, mã số KC01.01/06-10 VietTreeBank có 10.000 câu tiếng Việt tách từ, gán nhãn từ loại, gán nhãn cú pháp định dạng cấu trúc sử dụng ngoặc Ví dụ câu VietTreeBank: (S (NP-SUB (N-H Dịch_vụ) (PP (E-H của) (NP (P-H họ)))) (VP (T chính) (V-H là) (NP-DOB (N-H khâu) (A trung_gian) (VP (V-H đảm_bảo) (PP (E-H cho) (NP (L những) (N-H niềm) (A vui) (P ấy)) (VP (V-H được) (AP (A-H trọn_vẹn))))))) ( .)) Bảng 3.11 liệt kê nhãn từ loại VietTreeBank STT Tên Chú thích STT Tên Chú thích N Danh từ 10 R Phụ từ Np Danh từ riêng 11 E Giới từ Nc Danh từ loại 12 C Liên từ Nu Danh từ đơn vị 13 I Thán từ V Động từ 14 T Trợ từ, tiểu từ, từ tình thái A Tính từ 15 U Từ đơn lẻ P Đại từ 16 Y Từ viết tắt L Định từ 17 X Các từ không phân loại M Số từ Bảng 3.11: Tập nhãn từ loại VietTreeBank 50 Bảng 3.12 liệt kê tập nhãn cụm từ Bảng 3.12 liệt kê nhãn chức cú STT Tên Tên NP Cụm từ VP Cụm từ AP Cụm từ RP Cụm từ PP Cụm từ QP Cụm số lượng MDP WHNP Cụm từ nghi vấn (ai, gì, gì, v.v.) WHAP Cụm từ nghi vấn (lạnh nào, đẹp sao, v.v.) 10 WHRP Cụm nghi vấn dùng hỏi thời gian, nơi chốn, v.v 11 WHPP Cụm từ nghi vấn (với ai, cách nào, v.v.) Cụm tình thái Bảng 3.12: Tập nhãn cụm từ VietTreeBank pháp Một số quan hệ phụ thuộc cho tiếng Việt acomp: bổ ngữ tính từ Bổ ngữ tính từ động từ (V) tính từ (A) hay cụm tính từ (AP) có chức bổ ngữ bắt buộc, tương tự bổ ngữ động từ • Cô nhìn đẹp root nsubj acomp pmod Cô punct advmodb nhìn 51 đẹp STT Tên Chú thích SUB Nhãn chức chủ ngữ DOB Nhãn chức tân ngữ trực tiếp IOB Nhãn chức tân ngữ gián tiếp TPC Nhãn chức chủ đề PRD Nhãn chức vị ngữ cụm động từ LGS Nhãn chức chủ ngữ logic câu thể bị động EXT Nhãn chức bổ ngữ phạm vi hay tần suất hành động H 9-12 TC, EXC, CMD, SPL 13 TTL Tít báo hay tiêu đề 14 VOC Thành phần than gọi Nhãn phần tử trung tâm (của cụm từ mệnh đề) Nhãn phân loại câu: đề-thuyết, mệnh lệnh, cảm thán, đặc biệt Bảng 3.13: Các nhãn chức nang cú pháp VietTreeBank Chú ý tính từ làm bổ ngữ không bắt buộc dùng quan hệ amod Ví dụ: “Nó chạy nhanh” có phụ thuộc amod(chạy, nhanh) bổ nghĩa tính từ danh từ Bổ nghĩa tính từ tính từ cụm tính từ bổ nghĩa cho danh từ • Nam ăn cá sống → amod(cá, sống) root nsubj Nam punct dobj ăn cá amod sống • FPT công ty uy tín → amod(công ty, uy tín) 52 punct root dobj nsubj FPT amod num advmodb công_ty uy_tín apredmod: bổ nghĩa tính từ vị từ Bổ nghĩa tính từ tính từ cụm tính từ bổ nghĩa cho vị từ Vị từ tiếng Việt thường động từ tính từ • Nam nhanh → apredmod(đi, nhanh) root punct nsubj Nam apredmod nhanh advmoda: bổ nghĩa phó từ đứng sau Bổ ngữ phó từ phó từ (R) hay cụm phó từ (RP) có chức thay đổi nghĩa từ Từ bổ trợ thường tính từ, cụm tính từ động từ, cụm động từ Bổ ngữ đứng sau cụm mà bổ trợ • Cô đẹp → advmoda(đẹp, quá) root nsubj punct pmod Cô advmoda đẹp advmodb: bổ nghĩa phó từ đứng trước Bổ ngữ phó từ phó từ (R) hay cụm phó từ (RP) có chức thay đổi nghĩa từ Từ bổ trợ thường tính từ, cụm tính từ động từ, cụm động từ Bổ ngữ đứng trước cụm mà bổ trợ 53 • Cô đẹp → advmodb(đẹp, rất) root nsubj pmod Cô advmodb punct đẹp advmodt: bổ nghĩa phó từ thời gian Bổ ngữ phó từ phó từ (R) hay cụm phó từ (RP) có chức bổ nghĩa thời giạn cho động từ Các từ thường gặp như: “đã”, “sẽ”, “đang” Từ bổ trợ thường động từ cụm động từ • Nó → advmodt(đi, đã) root psubj advmodt punct Nó Quan hệ phủ định Mô tả mối quan hệ phủ định từ (động từ tính từ) từ diễn đạt ý nghĩa phủ định Trong tiếng Việt, hai từ hay dùng để diễn đạt ý phủ định “không” “chẳng” • Anh không tới → neg(tới, không) root nsubj neg Anh không punct tới • Hoa không chăm → neg(chăm chỉ, không) • Nó chẳng thiết → neg(thiết, chẳng) 54 [...]... phát hiện cảm xúc trong văn bản đối với những ngôn ngữ chưa có nguồn tài nguyên liên quan đến cảm xúc, ví dụ trong tiếng Việt Chương tiếp theo sẽ trình bày chi tiết về hai phương pháp phi giám sát cho bài toán phát hiện cảm xúc trong văn bản 16 Chương 2 Phương pháp phi giám sát cho bài toán phát hiện cảm xúc trong văn bản Chương này trình bày về hai phương pháp phi giám sát cho bài toán phát hiện cảm. .. cảm xúc trong văn bản Một số phương pháp học phi giám sát tận dụng được lợi thế từ tập các từ hay cụm từ cảm xúc được định nghĩa trước (từ điển từ cảm xúc) , các đối tượng văn bản cần xác định cảm xúc sẽ được tính toán mức độ cảm xúc thông qua từ điển cảm xúc Việc lựa chọn tập từ, cụm từ cảm xúc được định nghĩa trước có vai trò quan trọng trong các phương pháp này, việc lựa chọn tập từ cảm xúc phù hợp... thuộc vào kinh nghiệm 2.2 Phương pháp sử dụng quan hệ ngữ nghĩa và ngữ pháp Trong phần này, luận văn trình bày về phương pháp phi giám sát cho bài toán phát hiện cảm xúc trong văn bản sử dụng quan hệ ngữ nghĩa và ngữ pháp Phương pháp này được đề xuất bởi (Agrawal, Ameeta và An, Aijun 2012)[2], trong mô hình của họ, đối tượng cần gán nhãn cảm xúc là các câu trong văn bản Cảm xúc của câu được tính toán... toán phát hiện cảm xúc trong văn bản Thứ nhất là phương pháp sử dụng mô hình không gian véc tơ, đây là phương pháp thường được sử dụng trong việc biểu diễn văn bản cũng như tính toán ngữ nghĩa trong văn bản Thứ hai là phương pháp sử dụng quan hệ ngữ nghĩa và ngữ pháp, phương pháp này khai thác thông tin ngữ nghĩa và sử dụng cú pháp phụ thuộc để tính toán cảm xúc trong văn bản 2.1 Phương pháp sử dụng mô... (supervised) và học phi giám sát (unsupervised) Trong phương pháp học có giám sát, dữ liệu để học mô hình cần được gán nhãn và có số lượng đủ lớn để đảm bảo chất lượng của mô hình Trong phương pháp học phi giám sát không yêu cầu có dữ liệu đã được gán nhãn, phương pháp này dựa vào việc phân tích và tìm ra các đặc trưng có tính phân loại của dữ liệu Hai phương pháp học có giám sát và học phi giám sát 8 đều có... để biểu diễn văn bản, trong đó, đối tượng văn bản có thể được biểu diễn bằng một véc-tơ trên không gian m chiều VSM được áp dụng cho bài toán phát hiện cảm xúc trong văn bản bằng cách xây dựng véc-tơ biểu diễn văn bản và véc-tơ biểu diễn các khái niệm cảm xúc, cảm xúc của tài liệu được tính toán thông qua khoảng cách giữa véc-tơ biểu diễn tài liệu và véc-tơ biểu diễn cảm xúc Phương 17 pháp sử dụng... theo phương pháp này Phương pháp học phi giám sát không yêu cầu tập dữ liệu đã được gán nhãn, phương pháp này khai thác các thông tin dựa trên tập dữ liệu thô và đưa ra các dự báo cho dữ liệu kiểm tra Trong thực tế, việc hiểu các văn bản có chứa cảm xúc phụ thuộc vào yếu tố chủ quan của người đọc, vì vậy việc sử dụng phương pháp học máy phi giám sát là thích hợp và tự nhiên cho bài toán phát hiện cảm xúc. .. học có giám sát và học phi giám sát, tăng hiệu quả của mô hình và chỉ cần lượng nhỏ dữ liệu đã được gán nhãn để huấn luyện mô hình 1.4 Đánh giá 1.4.1 Độ đo F Bài toán phát hiện cảm xúc trong văn bản có thể được xem như bài toán phân lớp, đầu vào là một đối tượng văn bản, đầu ra là nhãn cảm xúc cho đối tượng văn bản đó Giả sử tập nhãn cảm xúc e = {e1 , e2 , , ek }, độ đo thường được sử dụng trong việc... với phương pháp này là tập dữ liệu huấn luyện, tập dữ liệu này cần được gán nhãn và có kích thước đủ lớn Đối với vấn đề phát hiện cảm xúc trong văn bản, việc gán nhãn cảm xúc bằng tay cho văn bản tốn rất nhiều thời gian, kém thống nhất do yếu tố chủ quan của từng người khi gán nhãn Đối với tiếng Việt, hiện chưa có tập dữ liệu nào đã được gán nhãn cảm xúc Một vấn đề nữa của phương pháp học có giám sát. .. hình đạt kết quả tốt hơn Phương pháp học phi giám sát thường sử dụng một số độ đo như độ đo thông tin tương hỗ (Pointwise Mutual Information - PMI) hay tf-idf (term frequency – inverse document frequency) để tính toán cảm xúc cho các đối tượng văn bản Bảng 1.2 thống kê một số bài báo về vấn đề phát hiện cảm xúc trong văn bản dựa vào học máy và dựa vào từ vựng Tác giả Loại cảm xúc Mô hình (Strapparava ... phi giám sát cho toán phát cảm xúc văn 16 Chương Phương pháp phi giám sát cho toán phát cảm xúc văn Chương trình bày hai phương pháp phi giám sát cho toán phát cảm xúc văn Thứ phương pháp sử dụng... toán phát cảm xúc văn bản, cách tiếp cận giải vấn đề phát cảm xúc văn • Chương trình bày kỹ thuật phi giám sát cho toán xác định cảm xúc văn • Chương trình bày ứng dụng phương pháp phi giám sát. .. Quyền NGHIÊN CỨU MỘT PHƯƠNG PHÁP PHI GIÁM SÁT PHÁT HIỆN CẢM XÚC TRONG VĂN BẢN Chuyên ngành: Cơ sở toán cho tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Lê Hồng Phương