Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 90 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
90
Dung lượng
1,57 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN THANH TÙNG PHÂN LOẠI CẢM XÖC VĂN BẢN TIẾNG VIỆT THEO ĐỐI TƢỢNG Chuyên ngành : Khoa học máy tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 06 năm 2014 CƠNG TRÌNH ĐƢỢC HỒN THÀNH TẠI TRƢỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG - HCM Cán hƣớng dẫn khoa học: PGS TS Quản Thành Thơ Cán chấm nhận xét 1: GS TS Phan Thị Tƣơi Cán chấm nhận xét 2: TS Nguyễn Chánh Thành Luận văn thạc sĩ đƣợc bảo vệ Trƣờng Đại học Bách Khoa, ĐHQG Tp HCM ngày 17 tháng 07 năm 2014 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: GS TS Phan Thị Tƣơi PGS TS Quản Thành Thơ TS Nguyễn Chánh Thành TS Huỳnh Trung Hiếu TS Bùi Hoài Thắng Xác nhận Chủ tịch Hội đồng đánh giá LV Trƣởng Khoa quản lý chuyên ngành sau luận văn đƣợc sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƢỞNG KHOA ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÕA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƢỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Thanh Tùng MSHV: 12070555 Ngày, tháng, năm sinh: 20/22/1986 Nơi sinh: Bình Định Chuyên ngành: Khoa học Máy tính Mã số : 60 48 01 I TÊN ĐỀ TÀI: PHÂN LOẠI CẢM XÚC VĂN BẢN TIẾNG VIỆT THEO ĐỐI TƢỢNG II NHIỆM VỤ VÀ NỘI DUNG: - Nghiên cứu phƣơng pháp phân loại cảm xúc văn - Lựa chọn giải pháp phù hợp áp dụng cho văn tiếng Việt - Phát triển hệ thống phân loại cảm xúc văn tiếng Việt - Phân tích kết thực nghiệm đánh giá hệ thống III NGÀY GIAO NHIỆM VỤ: 02/01/2014 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 21/11/2014 V CÁN BỘ HƢỚNG DẪN: PGS TS Quản Thành Thơ Tp HCM, ngày … tháng 08 năm 2014 CÁN BỘ HƢỚNG DẪN PGS TS Quản Thành Thơ TRƢỞNG KHOA LỜI CẢM ƠN Xin đặc biệt gửi lời cảm ơn đến thầy giáo PGS.TS Quản Thành Thơ, ngƣời truyền đạt nhiều kiến thức, kinh nghiệm quý báu tận tình hƣớng dẫn suốt thời gian tìm hiểu hồn thành luận văn Cảm ơn thầy cô trƣờng đại học Bách Khoa thành phố Hồ Chí Minh tận tình dạy thời gian học tập trƣờng Chân thành cảm ơn công ty cổ phần YouNet Media hỗ trợ môi trƣờng, công nghệ, liệu tạo điều kiện thuận lợi suốt trình học tập làm đề cƣơng luận văn Gửi lời cảm ơn sâu sắc tới hai em Nguyễn Thị Kim Anh, Nguyễn Phạm Mỹ Trang thành viên nhóm phân tích cảm xúc văn cơng ty YouNet Media hỗ trợ suốt thời gian thực luận văn cơng ty Xin cảm ơn gia đình bạn bè hỗ trợ động viên tiếp thêm nghị lực suốt trình học tập vừa qua Mặc dù cố gắng nhiều việc thực đề cƣơng luận văn, song với thời gian có hạn, nên khơng thể tránh khỏi thiếu sót, mong nhận đƣợc đóng góp ý kiến quý Thầy Cơ Học viên Nguyễn Thanh Tùng TĨM TẮT Sự phát triển mạng xã hội diễn đàn điện tử tạo lƣợng lớn viết ngƣời dùng việc đánh giá so sánh sản phẩm, dịch vụ mà họ sử dụng Thông tin viết giá trị khách hàng lẫn nhà sản xuất việc đƣa định mua sắm hay định hƣớng chiến lƣợt phát triển sản phẩm Việc rút trích phân loại hƣớng cảm xúc bình luận toán thiết thực nhƣng phức tạp, đặc biệt phân tích cảm xúc theo đối tƣợng đƣợc đề cập viết Có hai phƣơng pháp đƣợc sử dụng để giải tốn phân tích cảm xúc: phƣơng pháp học máy (Support Vector Machine, Naive Bayes, Maximal Entropy) phƣơng pháp phân tích hƣớng ngữ nghĩa (mức độ văn bản, mức độ câu, mức khía cạnh) Trong khn khổ tốn phân tích cảm xúc văn tiếng Việt theo đối tƣợng, đề tài sử dụng phƣơng pháp phân tích hƣớng ngữ nghĩa cách sử dụng kết hợp ontology, đồ thị khái niệm luật phân tích cảm xúc để phân tích cảm xúc theo cấu trúc câu Ở đây, đồ thị khái niệm ontology giúp tự động phân tích cấu trúc câu luật phân tích cảm xúc đƣợc sử dụng để phân tích cảm xúc dựa sở tri thức đƣợc tạo chuyên gia đƣợc tích hợp vào hệ thống Việc sử dụng kết hợp đồ thị khái niệm, ontology luật phân tích cảm xúc giúp hệ thống đạt độ xác cao việc phân tích viết tiếng Việt có chứa nhiều đối tƣợng ABSTRACT The growth of social networks and forums generated a huge number of user reviews about products and services they used The information of these reviews is very valued for shopping decision of customers and also for product development strategy of producers Sentiment analysis is a pratical problem but it is also very complecated Especially, target-dependent sentiment analysis is more difficute There are two main approachs to solve this problem: machine learning (Support Vector Machine, Naive Bayes, Maximal Entropy) and semantics analysis (document level, sentence level and aspect level) This thesis use a novel semantics analysis approach which combines domain ontology, conceptual graph and operational sentiment rules to solve the target-dependent sentiment problem for Vietnamese text Ontology and conceptual graph will be used to parse structure of natural sentences automatically and operational sentiment rules allow the sentiment system captures the linguistic knowledge provided by experts and integrates this knowledge seamlessly into the sentiment analysis process The combination of domain ontology, conceptual graph and operational sentiment rules helped the system get a high accuracy when analyse multi objects Vietnamese texts LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu tơi Các số liệu, kết nêu luận văn trung thực, khách quan chƣa đƣợc công bố cơng trình khác Học viên Nguyễn Thanh Tùng MỤC LỤC TÓM TẮT LỜI CAM ĐOAN .7 I MỞ ĐẦU 1 Lý chọn đề tài Mục đích nghiên cứu .3 Đối tƣợng phạm vi nghiên cứu Phƣơng pháp nghiên cứu .4 II NỘI DUNG Chƣơng 1: TỔNG QUAN .5 1.1 Bài tốn phân tích cảm xúc văn .5 1.1.1 Phân tích cảm xúc mức độ văn 1.1.2 Phân tích cảm xúc mức độ câu 10 1.1.3 Phân tích cảm xúc mức độ khía cạnh 11 1.2 Những khó khăn phân tích cảm xúc văn tiếng Việt .12 Chƣơng 2: PHÂN TÍCH CẢM XÚC VĂN BẢN THEO ĐỐI TƢỢNG 15 2.1 Các cơng trình nghiên cứu liên quan 15 2.2 Tổng kết 17 Chƣơng 3: CƠ SỞ LÝ THUYẾT 19 3.1 Hệ thống dựa tri thức .19 3.2 Đồ thị khái niệm 19 3.2.1 Những kí hiệu .19 3.2.2 Ngữ nghĩa hình thức .20 3.2.3 Đồ thị khái niệm 22 3.2.4 Đồ thị khái niệm lồng 25 3.2.5 Đồ thị khái niệm phép toán phủ định 26 3.2.6 Luật dựa đồ thị khái niệm .27 3.2.7 Ứng dụng đồ thị khái niệm cải tiến hệ thống .29 3.3 Ontology .31 3.4 Từ điển cảm xúc 33 3.4.2 Trƣờng hợp sử dụng từ cảm xúc 34 3.4.3 Hƣớng cảm xúc 35 3.5 Xây dựng đồ thị khái niệm từ văn 35 3.6 Trình tự xây dựng đồ thị khái niệm .36 3.7 Hệ thống chuyển đổi luật phân tích cảm xúc 38 3.7.1 Hệ thống chuyển đổi 38 3.7.2 Luật phân tích cảm xúc 38 Chƣơng 4: MƠ HÌNH PHÂN TÍCH CẢM XÚC THEO ĐỐI TƢỢNG 40 4.1 Tiền xử lý văn tiếng Việt .40 4.2 Xử lý ngữ cảm xúc tiếng Việt .40 4.2.1 Luật rút trích ngữ cảm xúc .41 4.2.2 Tính điểm cho ngữ cảm xúc 44 4.3 Mô hình phân tích cảm xúc 45 4.4 Mơ hình hệ thống phân tích cảm xúc 46 4.4.1 Mơ hình tìm kiếm ngữ nghĩa chung .46 4.4.2 Mơ hình tìm kiếm cảm xúc đa miền 48 Chƣơng 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ 50 5.1 Thực nghiệm 50 5.2 Đánh giá 51 Chƣơng 6: KẾT LUẬN .59 III 6.1 Kết luận 59 6.2 Hƣớng phát triển 61 DANH MỤC CÁC TÀI LIỆU THAM KHẢO: .63 DANH MỤC HÌNH Hình 1.1: Minh hoạ phƣơng pháp SVM ( [16] .7 Hình 3.1: Một đồ thị khái niệm ([38] ) 20 Hình 3.2: Một đồ thị khái niệm ([38] ) 24 Hình 3.3: Hai cách vẽ khác luật ([38] ) 27 Hình 3.4: Luật mở rộng ([38] ) 28 Hình 3.5: Một đồ thị khái niệm câu “Tơi thích điện thoại A” .30 Hình 3.6: Đồ thị khái niệm phân cực câu “Công ty A đánh bại công ty B” .30 Hình 3.7: Một đồ thị khái niệm lồng câu “Z2 đẹp nhƣng tơi thích S5” 30 Hình 3.8: Mơ tả tổng qt ontology 32 Hình 3.9: Ví dụ ontology .33 Hình 3.10: Đồ thị khái niệm câu “Z2 khơng thua Galaxy S5” .36 Hình 3.11: Trình tự xây dựng đồ thị khái niệm 37 Hình 4.1: Đồ thị khái niệm câu “Tơi thích điện thoại A nhƣng mua điện thoại C công ty B” 46 Hình 4.2: Mơ hình chung kĩ thuật tìm kiếm ngữ nghĩa 48 Hình 4.3: Mơ hình hệ thống phân tích cảm xúc 49 Hình 5.1: Độ xác chiến lƣợc phân tích cảm xúc .51 DANH MỤC BẢNG Bảng 1.1: Bảng 2.1: Bảng 3.1: Bảng 3.2: Bảng 5.1: Bảng 5.2: Bảng 5.3: Bảng 5.4: Các cách tính Delta idf [19] .9 Luật kết hợp ngữ cảm xúc cơng trình Turney [24] .15 Cấu trúc từ điển cảm xúc 34 Minh họa số luật phân tích cảm xúc 39 Sự phân bố lớp tập mẫu 52 Kết phân loại lớp positive .54 Kết phân loại lớp negative 56 Kết phân loại lớp neutral 57 [24] Peter D Turney (2002), “Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews”, Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, pages 417-424 [25] Maite Taboada, Julian Brooke , Milan Tofiloski , Kimberly Voll , Manfred Stede (2011), “Lexicon-Based Methods for Sentiment Analysis”, MIT Press Journals Vol 37 No 2, Pages 267-307 [26] Bing Liu (2010), “Sentiment Analysis: A Multi-Faceted Problem”, IEEE Intelligent Systems [27] Basant Agarwal, Vijay Kumar Sharma, and Namita Mittal (2013), “Sentiment Classification of Review Documents using Phrase Patterns”, Advances in Computing, Communications and Informatics (ICACCI), 2013 International Conference, pages 1577 – 1580 [28] Ana-Maria Popescu and Oren Etzioni (2005), “Extracting Product Features and Opinions from Reviews”, Natural Language Processing and Text Mining, pages 9-28 [29] Long Jiang, Mo Yu, Ming Zhou, Xiaohua Liu, Tiejun Zhao (2011), “Targetdependent Twitter Sentiment Classification”, Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, pages 151–160 [30] Guang Qiu, Bing Liu, Jiajun Bu, Chun Chen (2011), “Opinion Word Expansion and Target: Extraction through Double Propagation”, Computational Linguistics Vol 37, No 1, Pages 9-27 [31] Yan Dang, Yulei Zhang, Hsinchun Chen (2010), “A Lexicon Enhanced Method for Sentiment Classification: An Experiment on Online Product Reviews”, Intelligent Systems, pages 46 – 53 [32] Kieu Binh Thanh, Pham Son Bao (2010), “Sentiment Analysis for Vietnamese”, Knowledge and Systems Engineering, 2010 Second International Conference, pages 152 – 157 [33] Ha Quang Thuy, Vu Tien Thanh, Pham Huyen Trang, and Luu Cong To (2011), “An Upgrading Feature-Based Opinion Mining Model on Vietnamese Product Reviews”, Proceedings of 7th International Conference - AMT 2011 – Lanzhou - China, pages 173-185 [34] T R Gruber (1993) A translation approach to portable ontologies Knowledge Acquisition, 5(2), pages199-220 [35] Tho Thanh Quan, Siu Cheung Hui, (2008), “Ontology-based Natural Query Retrieval using Conceptual Graphs,” 10th Pacific Rim International Conference on Artificial Intelligence proceedings, pages 15-19 [36] Peter D Turney, (2002), “Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews”, Proceedings of the 40th Annual Meeting on Association for Computational Linguistics,pages 417-424 [37] Basant Agarwal, Vijay Kumar Sharma, and Namita Mittal, “Sentiment Classification of Review Documents using Phrase Patterns”, Advances in Computing, Communications and Informatics (ICACCI), pages 1577 – 1580, 2013 [38] Michel Chein and Marie-Laure Mugnier, (2009), “Graph-based Knowledge Representation - Computational Foundations of Conceptual Graphs”, Springer [39] G Plotkin, (1981), "A Structural Approach to Operational Semantics", Lecture Notes, Aarhus University [40] Sowa, (1976), “Conceptual Graphs for a Data Base Interface” IBM Journal of Research and Development 20 (4), pages 336 – 357 [41] Jin Cheon Na, Haiyang Sui, Christopher Khoo, Syin Chan, and Yunyun Zhou (2004), “Effectiveness of simple linguistic processing in automatic sentiment classification of product reviews” Conference of the International Society for Knowledge Organization, pages 49–54 LÝ LỊCH TRÍCH NGANG Họ tên: Nguyễn Thanh Tùng Ngày, tháng, năm sinh: 20/11/1986 Nơi sinh: Bình Định Địa liên lạc: 211/8 Thống Nhất, Phƣờng 11, Quận Gò Vấp, TP Hồ Chí Minh Q TRÌNH ĐÀO TẠO - 09/2005 - 04/2010: Sinh viên, ngành Công Nghệ Thông Tin, Học Viện Cơng Nghệ Bƣu Chính Viễn Thơng sở Thành phố Hồ Chí Minh - 09/2012 - nay: Học viên cao học, ngành Khoa học Máy tính, Trƣờng Đại học Bách Khoa, ĐHQG Tp HCM Q TRÌNH CƠNG TÁC - 05/2010 – 07/2012: Làm việc Viện Cơ học Tin học Ứng dụng - 08/2012 – nay: Làm việc công ty cổ phần YouNet PHỤ LỤC A: LUẬT PHÂN TÍCH CẢM XƯC Luật Tập từ V_ right_positive(A, B) B: positive u, thích, trung thành, bình chọn, chọn, chung thủy, quay về, nóng lịng, like, vote, lời khen V_ right_negative(A, B) B: negative kiện, chê bai, chia tay, giã từ, từ bỏ, tiếc nuối, thu hồi, đau lòng, khiếu nại, khởi tố, tẩy chay V_ left_positive(A, B) A: positive chiều chuộng, mê hoặc, hot V_ left_negative(A, B) A: negative ảo tƣởng, xúc phạm, ăn cắp, ăn hiếp, ăn theo, bắt chƣớc V_ left_positive_right_negative(A, B) A: positive, B: negative hơn, áp đảo, đánh bại, đập, áp đảo, ăn đứt, đánh gục, đè bẹp, hạ bệ, hạ gục, tố cáo, bỏ xa, địch lại, vƣợt mặt, vƣợt xa, đập chết, đớp chết V_ left_negative_right_positive(A, B) A: negative, B: positive thua kém, bại trận, nhái, tố cáo, ăn cắp, copy, lép vế, theo đuôi, chậm chân, hít khói, khó so sánh đƣợc, theo đi, xách dép, chiếu dƣới, yếu thế, cạnh Hy vọng(A) A: neutral hi vọng, hy vọng, giả sử, mong sao, mong cho Nếu(A) A: ¬ (positive/negative) nếu, khơng, nhƣ, mà, ƣớc gì, ƣớc chi, ƣớc mà, ƣớc nhƣ, phải chi, phải mà, phải nhƣ, giá chi, giá mà, giá gì, giá nhƣ Loại trừ(A) A: ¬ (positive/negative) trừ, ngoại trừ, khơng tính, khơng phải, khơng kể, khơng đếm, khơng nói, khơng nhƣ, nhƣ, khác hẳn, bên cạnh, đƣợc, loại, Nhƣ là:(A, B) B: positive/negative nhƣ là, gồm có, là, dành cho Hơn(A, B) A: positive/negative, B: ¬A ăn đứt, so với, so sánh với, Kém(A, B) A: positive/negative, B: ¬A thua, kém, thua_kém Khơng kém(A, B) A: postive/negative, B: positive/negative không thua, không thua_kém, không_thể thua, không thua, không hẳn thua, không hẵn thua, không thua, không kém, không_thể kém, không kém, không hẵn kém, không kém, không hẵn kém, chƣa kém, chƣa hẵn kém, chƣa Bằng(A, B) A: postive/negative, B: positive/negative bằng, giống nhƣ, cũng_nhƣ, tƣơng tự, tƣơng đƣơng, ngang, ngang ngửa, y nhƣ Không bằng(A, B) A: positive/negative, B: ¬A khơng nhƣ, khơng bằng, khơng_thể bằng, khơng hẳn bằng, không bằng, không bằng, chƣa bằng, chƣa_thể bằng, chƣa bằng, chƣa bằng, không sánh với, không_thể sánh với, không giống, không giống nhƣ, không giông với, không đƣợc nhƣ, không sánh, Nhƣng(A, B) B: positive/negative, A: ¬B nhƣng, thật, thực tế, thực Tập luật phân tích cảm xúc đƣợc định nghĩa nhóm nghiên cứu phân tích cảm xúc văn tiếng Việt công ty YouNet Media PHỤ LỤC A: LUẬT PHÂN TÍCH NGỮ CẢM XƯC #"ngon/A" double_quote: pattern: '"/"\s+(\S+/[av]\s+)+"/"' sent_parts: [v, a] core_part: all neg: #'cuốn_hút/V' single_quote: pattern: "'/'\s+(\S+/[av]\s+)+'/'" sent_parts: [v, a] core_part: all neg: #khơng/R hài_lịng/V và/CC đồng_tình/V lắm/R neg_verb_&_verb_adv+: pattern: '#negative\S+/v\s+((và)|&|(hay)|(hoặc))/[a-z]{1,2}\s+\S+/v#post_adv' sent_parts: [v] core_part: v core_word: last neg: #không/R quá/R hấp_dẫn/V và/CC thuyết_phục/V neg_adv+_verb_&_verb: pattern: '#negative#pre_adv\S+/v\s+((và)|&|(hay)|(hoặc))/[a-z]{1,2}\s+\S+/v' sent_parts: [v] core_part: v core_word: last neg: #khơng/R tin_tƣởng/V và/CC hài_lịng/V neg_verb_&_verb: pattern: '#negative\S+/v\s+((và)|&|(hay)|(hoặc))/[a-z]{1,2}\s+\S+/v' sent_parts: [v] core_part: v core_word: last neg: #ám_ảnh/V và/CC thất_vọng/V quá/R verb_&_verb_adv+: pattern: '\S+/v\s+((và)|&|(hay)|(hoặc))/[a-z]{1,2}\s+\S+/v#post_adv' sent_parts: [v] core_part: v core_word: last neg: #rất/R thích/V và/CC tin_dùng/V adv+_verb_&_verb: pattern: '#pre_adv\S+/v\s+((và)|&|(hay)|(hoặc))/[a-z]{1,2}\s+\S+/v' sent_parts: [v] core_part: v core_word: last neg: #hài_lòng/V và/CC đồng_tình/V verb_&_verb: pattern: '\S+/v\s+((và)|&|(hay)|(hoặc))/[a-z]{1,2}\s+\S+/v' sent_parts: [v] core_part: v core_word: last neg: Tập luật phân tích ngữ cảm xúc đƣợc định nghĩa nhóm nghiên cứu phân tích cảm xúc văn tiếng Việt công ty YouNet Media #không/R sang_trọng/A và/CC tinh_tế/A lắm/R neg_adj_&_adj_adv+: pattern: '#negative\S+/a\s+((và)|&|(hay)|(hoặc))/[a-z]{1,2}\s+\S+/a#post_adv' sent_parts: [a] core_part: a core_word: first neg: #không/R quá/R cầu_kỳ/A bất_tiện/A neg_adv+_adj_&_adj: pattern: '#negative#pre_adv\S+/a\s+((và)|&|(hay)|(hoặc))/[a-z]{1,2}\s+\S+/a' sent_parts: [a] core_part: a core_word: first neg: #chẳng/R chu_đáo/A và/CC tử_tế/A neg_adj_&_adj: pattern: '#negative\S+/a\s+((và)|&|(hay)|(hoặc))/[a-z]{1,2}\s+\S+/a' sent_parts: [a] core_part: a core_word: first neg: #thơm/A và/CC đậm_đà/A lắm/R adj_&_adj_adv+: pattern: '\S+/a\s+((và)|&|(hay)|(hoặc))/[a-z]{1,2}\s+\S+/a#post_adv' sent_parts: [a] core_part: a core_word: first neg: #rất/R khó_chịu/A bức_xúc/A adv+_adj_&_adj: pattern: '#pre_adv\S+/a\s+((và)|&|(hay)|(hoặc))/[a-z]{1,2}\s+\S+/a' sent_parts: [a] core_part: a core_word: first neg: #nhỏ_gọn/A và/CC xinh_xắn/A adj_&_adj: pattern: '\S+/a\s+((và)|&|(hay)|(hoặc))/[a-z]{1,2}\s+\S+/a' sent_parts: [a] core_part: a core_word: first neg: #không/R thấy/V thiết_kế/N nào/P độc_đáo/A lắm/R neg_verb+_n_p_adj+_adv: pattern: '#negative(\S+/v\s+)+(\S+/n\s+)+(\S+/p\s+)+(\S+/a\s+)+#post_adv' sent_parts: [v, a] core_part: a core_word: first neg: #chẳng/R thấy/V điểm/N gì/P đẹp/A neg_verb+_n_p_adj+: pattern: '#negative(\S+/v\s+)+(\S+/n\s+)+(\S+/p\s+)+(\S+/a\s*)+' sent_parts: [v, a] core_part: a core_word: first neg: Tập luật phân tích ngữ cảm xúc đƣợc định nghĩa nhóm nghiên cứu phân tích cảm xúc văn tiếng Việt cơng ty YouNet Media #thấy/V chất_lƣợng/N nó/P cùi/A q/R verb+_n_p_adj+_adv: pattern: '(\S+/v\s+)+(\S+/n\s+)+(\S+/p\s+)+(\S+/a\s+)+#post_adv' sent_parts: [v, a] core_part: a core_word: first neg: #thấy/V sóng/N nó/P yếu/A verb+_n_p_adj+: pattern: '(\S+/v\s+)+(\S+/n\s+)+(\S+/p\s+)+(\S+/a\s*)+' sent_parts: [v, a] core_part: a core_word: first neg: #chẳng/R thấy/V có/V tác_dụng/N tốt/A lắm/R neg_verb+_n_adj+_adv: pattern: '#negative(\S+/v\s+)+(\S+/n\s+)+(\S+/a\s+)+#post_adv' sent_parts: [v, a] core_part: v core_word: last neg: #không/R bị/V trừ/V tiền/N nhanh_chóng/A neg_verb+_n_adj+: pattern: '#negative(\S+/v\s+)+(\S+/n\s+)+(\S+/a\s*)+' sent_parts: [v, a] core_part: v core_word: last neg: #bị/V trừ/V tiền/N khiếp/A quá/R verb+_n_adj+_adv: pattern: '(\S+/v\s+)+(\S+/n\s+)+(\S+/a\s+)+#post_adv' sent_parts: [v, a] core_part: v core_word: last neg: #dính/V lỗi/N nghiêm_trọng/A verb+_n_adj+: pattern: '(\S+/v\s+)+(\S+/n\s+)+(\S+/a\s*)+' sent_parts: [v, a] core_part: v core_word: last neg: #mất/V điểm/N quá/R verb+_n_adv: pattern: '(\S+/v\s+)+(\S+/n\s+)+#post_adv' sent_parts: [v] core_part: v core_word: last neg: #chƣa/R đúng/A tiêu_chuẩn/N neg_adj+_n: pattern: '#negative(\S+/a\s+)+\S+/n' sent_parts: [a, 'n'] core_part: a core_word: first neg: Tập luật phân tích ngữ cảm xúc đƣợc định nghĩa nhóm nghiên cứu phân tích cảm xúc văn tiếng Việt công ty YouNet Media #không/R quá/R ấn_tƣợng/N neg_adv_n: pattern: '#negative#pre_adv\S+/n\s' sent_parts: ['n'] core_part: 'n' core_word: first neg: #chẳng/R thời_trang/N lắm/R neg_n_adv: pattern: '#negative\S+/n#post_adv' sent_parts: ['n'] core_part: 'n' core_word: first neg: #hơi/R bị/V nhạy/A '[hơi]_[bị|đƣợc]_adj+': pattern: 'hơi/[a-z]\s+((bị)|(đƣợc))/[a-z]/s+(\S+/a\s*)+' sent_parts: [a] core_part: a core_word: first neg: #ít/A đƣợc/V sắc_nét/A '[ít]_[đƣợc]_adj+': pattern: 'ít/[a-z]\s+đƣợc/[a-z]\s+(\S+/a\s*)+' sent_parts: [a] core_part: a core_word: first neg: #hơi/R bị/V tốn_kém/V '[hơi]_[bị|đƣợc]_verb+': pattern: 'hơi/[a-z]\s+((bị)|(đƣợc))/[a-z]/s+(\S+/v\s*)+' sent_parts: [v] core_part: v core_word: last neg: #ít/A đƣợc/V ƣng_ý/V '[ít]_[đƣợc]_verb+': pattern: 'ít/[a-z]\s+đƣợc/[a-z]\s+(\S+/v\s*)+' sent_parts: [v] core_part: v core_word: last neg: #không/R dễ/A bị/V liệt/A lắm/R neg_adj+_verb+_adj+_adv: pattern: '#negative(\S+/a\s+)+(\S+/v\s+)+(\S+/a\s+)+#post_adv' sent_parts: [v, a] core_part: v core_word: last neg: #không/R quá/R dễ/A bị/V liệt/A neg_adv_adj+_verb_adj+: pattern: '#negative#pre_adv(\S+/a\s+)+(\S+/v\s+)+(\S+/a\s*)+' sent_parts: [v, a] core_part: v core_word: last neg: Tập luật phân tích ngữ cảm xúc đƣợc định nghĩa nhóm nghiên cứu phân tích cảm xúc văn tiếng Việt công ty YouNet Media #nhanh/A bị/V hƣ/A lắm/R adj+_verb+_adj+_adv: pattern: '(\S+/a\s+)+(\S+/v\s+)+(\S+/a\s+)+#post_adv' sent_parts: [v, a] core_part: v core_word: last neg: #rất/R nhanh/A bị/V lỗi_thời/A adv_adj+_verb+_adj+: pattern: '#pre_adv(\S+/a\s+)+(\S+/v\s+)+(\S+/a\s*)+' sent_parts: [v, a] core_part: v core_word: last neg: #khó/A bị/V bẩn/A adj+_verb+_adj+: pattern: '(\S+/a\s+)+(\S+/v\s+)+(\S+/a\s*)+' sent_parts: [v, a] core_part: v core_word: last neg: #không/R quá/R đạt/V đƣợc/V nhiều/A kỳ_vọng/v neg_adv_verb+_adj+_verb+: pattern: '#negative#pre_adv(\S+/v\s+)+(\S+/a\s+)+(\S+/v\s*)+' sent_parts: [v, a] core_part: v core_word: last neg: #khơng/R có/V nhiều/A tin_tƣởng/V lắm/R neg_verb+_adj+_verb+_adv: pattern: '#negative(\S+/v\s+)+(\S+/a\s+)+(\S+/v\s+)+#post_adv' sent_parts: [v, a] core_part: v core_word: last neg: #không/R đạt/V nhiều/A kỳ_vọng/V neg_verb+_adj+_verb+: pattern: '#negative(\S+/v\s+)+(\S+/a\s+)+(\S+/v\s*)+' sent_parts: [v, a] core_part: v core_word: last neg: adv_verb+_adj+_verb+: pattern: '#pre_adv(\S+/v\s+)+(\S+/a\s+)+(\S+/v\s*)+' sent_parts: [v, a] core_part: v core_word: last neg: verb+_adj+_verb+_adv: pattern: '(\S+/v\s+)+(\S+/a\s+)+(\S+/v\s+)+#post_adv' sent_parts: [v, a] core_part: v core_word: last neg: #chạy/V chậm/A thấy/V sợ/V verb+_adj+_verb+: Tập luật phân tích ngữ cảm xúc đƣợc định nghĩa nhóm nghiên cứu phân tích cảm xúc văn tiếng Việt cơng ty YouNet Media pattern: '(\S+/v\s+)+(\S+/a\s+)+(\S+/v\s*)+' sent_parts: [v, a] core_part: v core_word: last neg: #không/R nhanh/A hết/V lắm/R neg_adj+_verb+_adv+: pattern: '#negative(\S+/a\s+)+(\S+/v\s+)+#post_adv' sent_parts: [v, a] core_part: v core_word: last neg: #không/R quá/R nhanh/A hết/V neg_adv+_adj+_verb+: pattern: '#negative#pre_adv(\S+/a\s+)+(\S+/v\s*)+' sent_parts: [v, a] core_part: v core_word: last neg: #không/R dễ/A xƣớc/V neg_adj+_verb+: pattern: '#negative(\S+/a\s+)+(\S+/v\s*)+' sent_parts: [v, a] core_part: v core_word: last neg: #rất/R dễ/A xƣớc/V lắm/R adv+_adj+_verb+_adv+: pattern: '#pre_adv(\S+/a\s+)+(\S+/v\s+)+#post_adv' sent_parts: [v, a] core_part: v core_word: last neg: #quá/R nhanh/A hết/V adv+_adj+_verb+: pattern: '#pre_adv(\S+/a\s+)+(\S+/v\s*)+' sent_parts: [v, a] core_part: v core_word: last neg: #khó/A gỉ/V lắm/R adj+_verb+_adv+: pattern: '(\S+/a\s+)+(\S+/v\s+)+#post_adv' sent_parts: [v, a] core_part: v core_word: last neg: #mau/A mòn/V adj+_verb+: pattern: '(\S+/a\s+)+(\S+/v\s*)' sent_parts: [v, a] core_part: v core_word: last neg: #khơng/R q/R hết/V nhanh/A neg_adv_verb+_adj+: Tập luật phân tích ngữ cảm xúc đƣợc định nghĩa nhóm nghiên cứu phân tích cảm xúc văn tiếng Việt cơng ty YouNet Media pattern: '#negative#pre_adv(\S+/v\s+)+(\S+/a\s*)+' sent_parts: [v, a] core_part: v core_word: last neg: #không/R hết/V quá/A nhanh/A neg_verb+_adv+_adj+: pattern: '#negative(\S+/v\s+)+#pre_adv(\S+/a\s*)+' sent_parts: [v, a] core_part: v core_word: last neg: #chẳng/R tin_tƣởng/V nhiều/A lắm/R neg_verb+_adj+_adv+: pattern: '#negative(\S+/v\s+)+(\S+/a\s+)+#post_adv' sent_parts: [v, a] core_part: v core_word: last neg: #không/R hết/V nhanh/A neg_verb+_adj+: pattern: '#negative(\S+/v\s+)+(\S+/a\s*)+' sent_parts: [v, a] core_part: v core_word: last neg: verb+_adv+_adj+_adv+: pattern: '(\S+/v\s+)+#pre_adv(\S+/a\s+)+#post_adv' sent_parts: [v, a] core_part: v core_word: last neg: #hết/V quá/R nhanh/A verb+_adv+_adj+: pattern: '(\S+/v\s+)+#pre_adv(\S+/a\s*)+' sent_parts: [v, a] core_part: v core_word: last neg: #hết/V nhanh/A lắm/R verb+_adj+_adv+: pattern: '(\S+/v\s+)+(\S+/a\s+)+#post_adv' sent_parts: [v, a] core_part: v core_word: last neg: #hơi/R hết/V nhanh/A adv+_verb+_adj+: pattern: '#pre_adv(\S+/v\s+)+(\S+/a\s*)+' sent_parts: [v, a] core_part: v core_word: last neg: #xuống_cấp/V nhanh_chóng/A verb+_adj+: pattern: '(\S+/v\s+)+(\S+/a\s*)+' Tập luật phân tích ngữ cảm xúc đƣợc định nghĩa nhóm nghiên cứu phân tích cảm xúc văn tiếng Việt công ty YouNet Media sent_parts: [v, a] core_part: v core_word: last neg: #không_thể/R nạp/V tiền/N điện_thoại/N đƣợc/V neg_verb+_n+_đƣợc: pattern: '#negative(\S+/v\s+)+(\S+/np?\s+)+đƣợc/[a-z]' sent_parts: [v, a, pre_adv] core_part: all neg: #không/R download/V đƣợc/V neg_verb+_đƣợc: pattern: '#negative(\S+/v\s+)+đƣợc/[a-z]' sent_parts: [v, a, pre_adv] core_part: all neg: #không/R đẹp/A hơn/R nhiều/A neg_adj_adv_nhiều: pattern: '#negative(\S+/a\s+)+#pre_advnhiều/[a-z]' sent_parts: [a] core_part: a core_word: first neg: #tồi_tệ/A hơn/R nhiều/A adj+_adv+_nhiều: pattern: '(\S+/a\s+)+#pre_advnhiều/[a-z]' sent_parts: [a] core_part: a core_word: first neg: #khơng/R hài_lịng/V q/R nhiều/A neg_verb+_adv+_nhiều: pattern: '#negative(\S+/v\s+)+#pre_advnhiều/[a-z]' sent_parts: [v, a] core_part: v core_word: last neg: #thích/V hơn/R nhiều/A verb+_adv+_nhiều: pattern: '(\S+/v\s+)+#pre_advnhiều/[a-z]' sent_parts: [v, a] core_part: v core_word: last neg: #chẳng_thể/R tốt/A hơn/R đƣợc/V nữa/R neg_adj+_[hơn]_[đƣợc]*_[nữa]*: pattern: '#negative(\S+/a\s+)+hơn/[a-z]\s+(đƣợc/[a-z]\s*)?(nữa/[a-z]\s*)?' sent_parts: [a] core_part: a core_word: first neg: #chƣa/R lôi_cuốn/A cho/V lắm/R neg_adj+_[cho]*_adv+: pattern: '#negative(\S+/a\s+)+#post_adv' sent_parts: [a] core_part: a Tập luật phân tích ngữ cảm xúc đƣợc định nghĩa nhóm nghiên cứu phân tích cảm xúc văn tiếng Việt công ty YouNet Media core_word: first neg: #không/R quá/R xấu/A neg_adv+_adj+: pattern: '#negative#pre_adv(\S+/a\s*)+' sent_parts: [a] core_part: a core_word: first neg: #chƣa/R sắc_sảo/A lắm/R neg_adj+_adv+: pattern: '#negative(\S+/a\s+)+#post_adv' sent_parts: [a] core_part: a core_word: first neg: #chẳng/R bền/A neg_adj+: pattern: '#negative(\S+/a\s*)+' sent_parts: [a] core_part: a core_word: first neg: adv_adj+_adv+: pattern: '#pre_adv(\S+/a\s+)+#post_adv' sent_parts: [a] core_part: a core_word: first neg: #rất/R chuyên_nghiệp/A adv_adj+: pattern: '#pre_adv(\S+/a\s*)+' sent_parts: [a] core_part: a core_word: first neg: #chuẩn/A quá/R adj+_adv: pattern: '(\S+/a\s+)+#post_adv' sent_parts: [a] core_part: a core_word: first neg: #không/R phải/V nói/V khen/V chứ/C neg_[phải]_verb+_[chứ]: pattern: '#negativephải/[a-z]\s+(\S+/v\s+)+chứ/[a-z]' sent_parts: [v] core_part: v core_word: last neg: #không/R thiện_cảm/V cho/V lắm/R neg_verb+_[cho]*_adv+: pattern: '#negative(\S+/v\s+)+#post_adv' sent_parts: [v] core_part: v core_word: last Tập luật phân tích ngữ cảm xúc đƣợc định nghĩa nhóm nghiên cứu phân tích cảm xúc văn tiếng Việt công ty YouNet Media neg: #không/R quá/R thua_kém/V neg_adv+_verb+: pattern: '#negative#pre_adv(\S+/v\s*)+' sent_parts: [v] core_part: v core_word: last neg: #chẳng/R ƣng_ý/V neg_verb+: pattern: '#negative(\S+/v\s*)+' sent_parts: [v] core_part: v core_word: last neg: adv+_verb+_adv+: pattern: '#pre_adv(\S+/v\s*)+#post_adv' sent_parts: [v, a] core_part: v core_word: last neg: #quá/R sáng_tạo/V adv+_verb+: pattern: '#pre_adv(\S+/v\s*)+' sent_parts: [v] core_part: v core_word: last neg: #bực_mình/V quá/R verb+_adv+: pattern: '(\S+/v\s+)+#post_adv' sent_parts: [v] core_part: v core_word: last neg: #rất/R phong_cách/N adv_n: pattern: '#pre_adv\S+/n\s' sent_parts: ['n'] core_part: 'n' core_word: first neg: #đẳng_cấp/N quá/R n_adv: pattern: '\S+/n#post_adv' sent_parts: ['n'] core_part: 'n' core_word: first neg: #bắt_mắt/V verb+: pattern: '(\S+/v\s*)+' sent_parts: [v] core_part: v core_word: last neg: Tập luật phân tích ngữ cảm xúc đƣợc định nghĩa nhóm nghiên cứu phân tích cảm xúc văn tiếng Việt công ty YouNet Media #tuyệt_vời/A adj+: pattern: '(\S+/a\s*)+' sent_parts: [a] core_part: a core_word: first neg: #quá/R đƣợc/R adv+: pattern: '(\S+/r\s*){2,}' sent_parts: [pre_adv, post_adv] core_part: all neg: Tập luật phân tích ngữ cảm xúc đƣợc định nghĩa nhóm nghiên cứu phân tích cảm xúc văn tiếng Việt công ty YouNet Media ... ĐỀ TÀI: PHÂN LOẠI CẢM XÚC VĂN BẢN TIẾNG VIỆT THEO ĐỐI TƢỢNG II NHIỆM VỤ VÀ NỘI DUNG: - Nghiên cứu phƣơng pháp phân loại cảm xúc văn - Lựa chọn giải pháp phù hợp áp dụng cho văn tiếng Việt - Phát... xúc mức độ văn 1.1.2 Phân tích cảm xúc mức độ câu 10 1.1.3 Phân tích cảm xúc mức độ khía cạnh 11 1.2 Những khó khăn phân tích cảm xúc văn tiếng Việt .12 Chƣơng 2: PHÂN TÍCH CẢM... cập văn 4.2 Xử lý ngữ cảm xúc tiếng Việt Đối với hệ thống phân tích cảm xúc tự động phƣơng pháp hƣớng ngữ nghĩa theo đối tƣợng gồm hai khâu rút trích tính điểm ngữ cảm xúc sau gán ngữ cảm xúc theo