Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 13 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
13
Dung lượng
80,05 KB
Nội dung
TRƯỜNG ĐẠ I HỌC THỦ DẦ U MỘT KHOA KỸ THUẬT CƠNG NGHỆ Tên đề tài: NGHIÊN CỨU RÚT TRÍCH THƠNG TIN DỰA TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC Mã số: Chun đề: Phát biểu tốn rút trích thơng tin sở phân tích cảm xúc Chủ nhiệm đề tài : ThS.Nguyễn Tấn Lộc Người chủ trì thực chuyên đề : ThS.Nguyễn Tấn Lộc Bình Dương, 08/01/2018 Mục lục Danh mục chữ viết tắt TF: term frequency IDF: inverse document frequency TF.IDF: term frequency inverse document frequency DTM: document term matrix Logistic: hồi quy logistic P(A): Xác xuất kiện A 10 NER: Named Entity Recognition 11 SoA: Sentiment analysis - Phân tích cảm xúc 12 PHÁT BIỂU BÀI TỐN RÚT TRÍCH THƠNG TIN 13 TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC Đặt vấn đề 14 1.1 Phân tích cảm xúc gì? 15 Phân tích cảm xúc ứng dụng nhiều ngành để trích xuất tri thức, cảm xúc quan điểm khách hàng Rút trích cảm xúc khách hàng có vai trị quan trọng trình quyết, đưa chiến lược kinh doanh hợp lý Những định từ việc mua sản phẩm trực tuyến dịch vụ ăn uống, tất cảm xúc, quan điểm ảnh hưởng lớn đến sống hàng ngày Rút trích thơng tin quan điểm cảm xúc lĩnh vực nghiên cứu xử lý ngôn ngữ tự nhiên Nhiệm vụ trích xuất thơng tin từ dịng tin bình luận, trích dẫn để xác định ý kiến, cảm xúc người dùng một chủ đề cụ thể, thường cố gắng trích cảm xúc có tồn tài liệu tích cực hay tiêu cực Do đó, nghiên cứu phân tích cảm xúc khơng tác động quan trọng lĩnh vực xử lý ngôn ngữ tự nhiên, mà tác động sâu sắc khoa học quản lý, khoa học trị, kinh tế khoa học xã hội tất lĩnh vực bị ảnh hưởng ý kiến chủ thể 16 Ngôn ngữ người phức tạp Vì vậy, diễn giải ngơn ngữ cho máy tính hiểu phân tích ngữ pháp, vùng miền ứng dụng hay ngữ cảnh, tiếng lóng lỗi q trình khó khăn 17 Ngữ điệu ngơn ngữ kết hợp với ngữ cảnh ảnh hưởng đến ngữ cảnh chí mơ tả cịn khó khăn 18 19 20 Hình 1.các trạng thái cảm xúc 21 Ví dụ: “My flight was delayed Brilliant!” 22 Con người trực quan giải thích giai điệu viết Hầu hết người giải thích người bình luận cảm xúc mỉa mai, châm biếm Chúng ta biết hầu hết người có chuyến bay trễ trải nghiệm tốt Bằng cách áp dụng ngữ cảnh cho câu này, dễ dàng xác định cảm xúc tiêu cực 23 Nếu không áp dụng ngữ cảnh, máy tính phân tích câu thấy từ "Brilliant" phân loại tích cực 24 Giả sử bạn muốn biết người Yelp nghĩ thực phẩm nhà hàng Việt Nam tốt hay xấu, ăn phổ biến 25 Phân tích cảm xúc liệu nhà hàng Yelp giúp trả lời câu hỏi Doanh nghiệp chí tìm hiểu lý người nghĩ thực phẩm tốt hay xấu, cách trích xuất từ xác cho thấy lý người ta khơng thích thức ăn Trích xuất ăn phổ biến chủ đề xuất nhiều Doanh nghiệp có ý tưởng tốt lý người tiêu dùng khơng hài lịng 26 Doanh nghiệp muốn đạt tầm nhìn sâu sắc khảo sát tìm kiếm thơng qua nghiên cứu thị trường, thay phải dành nhiều ngân sách thời gian để tiến hành điều tra gọi điện thoại khách hàng? Thông qua cáccông cụ khai thác văn bản, bạn nhận câu trả lời vài giây kết khách quan từ mạng xã hội 27 Phân tích cảm xúc xác định nhiều cấp độ Cấp mức tài liệu (Một cách nhìn tổng thể tiêu cực tích cực chung) cảm xúc từ cụm từ tài liệu Tuning J Candidate PoS Patterns it Text Text Prep 28 Syntax Matrix Weighted Sentiment Phrases Patterns Extract candidate sentiment bearing phrases Hình Mơ hình Algorithm Get prelim, scores from dictionary Algorithm Apply intensification Machine Learning Syntax affect on sentiment phrase tính tốn trọng số từ, cụm từ 29 1.2 Các vấn đề khó khăn 30 31 32 - Đảo ngược cảm xúc: vấn đề quan trọng cần giải phân tích cảm xúc Vấn đề phát sinh dịch chuyển trạng thái phân cực phủ định (ví dụ: "Tơi khơng thích phở") tương phản (ví dụ "phở ngon, khơng phải sở thích tơi") Câu “Tơi khơng thích phở” giống với 33 câu “Tơi thích phở” Vì phát đảo ngược phân cực có ý nghĩa quan trọng cho trích xuất quan điểm cảm xúc 34 - Phân loại cảm xúc: thuật toán học máy chưa phân loại độ mạnh cảm xúc, dừng lại tích cực hay tiêu cực Trong đó, cảm xúc từ bình luận phản ánh đa dạng mức độ ảnh hưởng cảm xúc khác "Tích cực", "tích cực hơn", "Tiêu cực", “ tiêu cực " "trung tính" Bằng cách tăng hạng phân loại xác cải thiện độ xác làm sở cho trích xuất cảm xúc 35 - Dữ liệu thưa: liệu phát sinh từ số nguồn giới hạn ký tự giới hạn vi blog / trang web truyền thông xã hội Chẳn hạn, giới hạn bình luận twitter 140 ký tự Chủ thể không diễn đạt ý kiến họ cách rõ ràng 36 - Tóm lại, Tất ba vấn đề liên quan chặt chẽ đến tính xác cảm xúc viết thường tồn phát biểu mâu thuẫn nhau, câu văn nói ngắn gọn khơng theo quy tắc, người nói thường lồng nhiều ý kiến vào câu 1.3 Tóm tắt lược sử nghiên cứu 37 Trong phần này, khảo sát phương pháp hướng tiếp cận phân tích cảm xúc Dữ liệu văn tiềm ẩn nhiều tri thức có giá trị người tạo nhằm chia sẻ với cộng đồng chẳn hạn kinh nghiệm,ý kiến cảm xúc trải qua Mỗi cần đưa định gì, thường tham khảo đến ý kiến cộng đồng cách tìm kiếm Internet Các cơng cụ khai phá quan điểm thực cách tự động hệ thống trích xuất khía cạnh liên quan cho vấn đề cụ thể, sở phân tích ý kiến, đưa định hành động hợp lý 38 39 Hình Các hướng tiếp cận phân tích cảm xúc 40 Nhiệm vụ phân tích cảm xúc xác định quan điểm, đặc trưng khía cạnh, thực thể xác định chủ thể Công việc khai thác tri thức giúp họ hiểu rõ khách hàng, sản phẩm, dịch vụ đề (B Agarwal et al.,2013)[1] Mục tiêu tự động hóa trích xuất đặc trưng đối tượng phân loại cảm xúc (Basant et al., 2015)[2] dựa xử lý ngôn ngữ tự nhiên từ nguồn bình luận 41 Mục tiêu thực phân loại cảm xúc xếp hạng số đánh giá cảm xúc diễn giải văn Nó xem xét 03 mức độ : Tài liệu (RuiXia et.al.,2016)[3] (Ainur et al.,2010)[4], câu từ (Noura et al., 2010)[5], mức khía cạnh đặc trưng đối tượng (Haochen et.al.,2015)[6] 42 Trong nghiên cứu này, phân tích cảm xúc dựa vào nguồn liệu thu thập từ dịch vụ Yelp Yelp tập đoàn đa quốc gia Hoa Kỳ thành lập vào 2004 nhằm giúp người định vị doanh nghiệp dựa rên mạng xã hội chức đánh giá xếp hạng dịch vụ Hàng triệu người sử dụng dịch vụ Yelp cung cấp khối liệu khổng lồ ảnh hưởng đến định lựa chọn thực phẩm người tiêu dùng Do đó, bình luận từ Yelp trở thành số đánh giá cho chất lượng ngành dịch vụ ẩm thực Những năm gần đây, nhiều cơng trình nghiên cứu tiếp cận khai thác liệu nhằm rút trích cảm xúc diễn giải ý nghĩa 43 Hướng tiếp cận phương pháp học máy sử dụng rộng rãi cho lĩnh vực xử lý ngôn ngữ tự nhiên chẳn hạn như: (RuiXia et al.,2016) đề xuất mơ hình PSDEE để phát cảm xúc khơng qn văn Nghiên cứu trình bày mơ hình ba giai đoạn để phân loại cảm xúc:(1) phát chuyển đổi phân cực, (2) loại bỏ phân cực phủ định, (3) chuyển đổi phân cực theo mơ hình tổ hợp (Haochen Zhou et al.,2015)[6] xây dựng mơ hình POSLDA lựa chọn đặc trưng văn Nó thực tách lớp ngữ nghĩa (danh từ, động từ, tính từ trạng từ) lớp cú pháp ( giới từ, từ liên kết), xác định từ có ý nghĩa bổ sung thông tin thực thể cụ thể (James Huang et al,.2014.) Nhóm tác giả áp dụng Latent Dirichlet Allocation (LDA) khám phá chủ đề ẩn , dự đoán xếp hạng chủ đề ẩn đồng thời liên hệ thông tin thời gian cao điểm nhà hàng, rút trích thơng tin chi tiết thú vị chắn hữu ích cho chủ nhà hàng 44 (Ruhui Shen, et al,2016) xây dựng mơ hình hồi quy tuyến tính, hồi quy LASSO , hồi quy học máy vector (SVM) thước đo RMSLE để tiên lượng trích lọc bình luận hữu ích dựa sở túi từ BOW (Bag of word), ngôn ngữ, địa lý, thống kê, phổ biến khác tính định tính trích từ người dùng, doanh nghiệp 45 Trong nghiên cứu này, tiến hành thực nghiệm gồm 02 gai đoạn: (1) xây dựng mơ hình hồi quy logistic phân loại cảm xúc.(2) trích xuất thơng tin bình luận quan trọng chứa cảm xúc tốt tệ ẩm thực theo quốc gia 48 46 T 47 60 A 51 Giải 49 50 Tiê u 61.đề Rui Xia, chuyển phân nn* * -> * 62 63 52 r Dịch X Fen cực cảm xúc Sin 64 Các quy tắc 65 Bộ Độ 59 58 67 xác 87 68 Độ liệu Movie Reivew 66 Dịch 1% chuyển phân điển cảm 76 xác 69 PSDE pháp thống 75 Từ Hạn chế 57 chưa E phương (2016) V.K 74 72 73 56 ng pháp gXu et al 71 Phươ 55 Movie Reivew 77 xúc 78 SW cao Khó 70 79 N(AC C) mở rộng từ =77.6% điển, không gh, cực cảm xúc R.Piryani độ SWN(AA xác định et al xác AVC)- ngữ 78.7% cảnh Alchemy= 77.4% 80 81 Y 82 Kết hợp 83 SVM 84 Movie 85 Review 86 92 2% Khơ 87 Ainur, Y trích xuất ng phản Yisong et câu hữu ích al (2010) làm sở phân cảm xúc loại cảm xúc có tích mức tài liệu cực tiêu s ánh mức độ cực 88 A Basant, 89 90 M Namit 91 a dựa 93 ogy, thông tin 92 phổ biến 94 Ontol 95 nt Conce 96 restaura 97 1% 80 Khó 98 mở rộng review ontology pNet ngữ cảnh cho domain 99 100 Ha 106 o chen 101 Topic 102 DA, POSL 103 visor TripAd 104 % 95 105 Chỉ 107 108 Zh ou and 109 Fei Song 110 modelli 111 Maxi ng, Lựa chọn mum đặc trưng, 112 chia tách ngữ py classifier 113 114 115 thực cho Entro unigram nghĩa cú Hu ang, J., 116 117 118 Ro gers, 119 S., & Joo Ru 128 129 121 Latent 125 chủ đề 122 Dirich phụ - Topic modelling 130 Dự Yelp Kh 127 Chỉ ông đề cập thực let 123 126 unigram Alloc ation 131 Mô 132 Yelp 133 RM 134 Khô hui Shen, đốn trích hình tuyến SLE of ng phát Jialiang lọc bình tính Locally 0.47769 ngữ Shen, luận hữu ích Weighted cảnh bình Yuhong Li cho nhà Regression luận (2016) (LOESS) 135 136 pháp câu 120 Phát 137 hàng địa phươngCác vấn 139 Yan 138 Zha đề chuyển đổi o,Hon cú pháp câu Kỹ thuật cộng 140 blog Chinese 141 _comp hưởng cảm 142 glei, et al xúc trước c= (2015) thực 143 phân tích 78% cảm xúc 144 147 No 145 Kỹ thuật cộng _ss hưởng cảm xúc chưa 88 đạt độ xác Ma 146 cao nual_c 148 Bảng So sánh hướng tiếp cận phân tích cảm xúc 149 Trong nước, Nhóm tác giả Huong Nguyen Thi Xuan, Anh Cuong Le, (2012) [15] thực phân loại câu văn chứa xúc cảm hay không chứa cảm xúc dựa 22 mẫu phân tích mẫu sở cú pháp (syntax-based patterns) Phương pháp phân tích tác giả [15] dựa vào phân tích từ vựng để xác định từ loại từ câu văn sử dụng mẫu cú pháp để nhận dạng tính từ, cụm tính từ tương ứng; trợ động từ, động từ cụm động từ; danh từ cụm danh sở cú pháp mà tác giả đề xuất để thực trích xuất Phương pháp nghiên cứu, cách tiếp cận 150 - Thu thập tài liệu tác giả trong, ngồi nước có liên quan đến đề tài 10 151 - Nghiên cứu phát triển lý thuyết phục vụ đề tài 152 - Xây dựng mơ hình dựa thuật toán học máy đánh giá hiệu suất 153 - Nghiên cứu thực nghiệm ,đánh giá kết dựa vào phương pháp thống kê Nội dung nghiên cứu kết đạt 154 - Nghiên cứu tổng quát lĩnh vực phân tích cảm xúc ứng dụng lĩnh vực đời sống 155 - Thực nghiện phân tích cảm xúc dựa mơ hình học máy 156 - Trích xuất bình luận tích cực tiêu cực 157 - Trên sở phân tích cảm xúc, chúng tơi tiến hành rút trích tri thức đặc trừng khía cạnh thực thể quan tâm nhằm nắm bắt khuynh hướng cảm xúc khách hàng nhà hàng Yelps chất lượng thái độ dịch vụ, tóm tắt ẩm thực quốc gia, ăn phổ biến 158 - Hỗ trợ định dựa sở phân tích quan điểm, cảm xúc cơng chúng vấn đề cần quan tâm Kết luận kiến nghị 159 - Trong nghiên cứu này, Tôi thực khảo sát so sánh hướng tiếp cận phân loại cảm xúc dựa vào thuật toán học máy, từ điển ontology đánh giá kỹ thuật rút trích thơng tin dựa sở phân loại cảm xúc Cụ thể đề tài đạt số cột mốc quan sau 160 - Nghiên cứu tổng quan phân tích cảm xúc ứng dụng thực tế sống 161 - Nghiên cứu phương pháp rút trích thơng tin phương pháp phân tích cảm xúc 162 - Xây dựng mơ hình thử nghiệm rút trích thơng tin theo truy vấn từ liệu 163 - Đánh giá thử nghiệm liệu thuật toán hồi quy logistic lựa chọn tham số tối ưu để nâng cao độ xác thuật toán Tài liệu tham khảo [1] B Agarwal and N Mittal, “Optimal feature selection for sentiment analysis,” in Proceedings of the 14th International Conference on Intelligent Text Processing and Computational Linguistics (CICLing 13), vol 7817, pp 13-24, 2013 [2] A Basant, M Namita, B Pooja, Sonal Garg “Sentiment Analysis Using Common-Sense and Context Information” Hindawi Publishing Corporation Computational Intelligence and Neuroscience (2015) 11 [3] RuiXia, FengXu, JianfeiYu,” Polarity shift detection, elimination and ensemble: A three stage model for document-level sentiment analysis” Information Processing and Management 52 (2016) 36- 45 [4] Y Ainur, Y Yisong, C Claire “Multi-level structured models for document-level sentiment classification”.Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, MIT, Massachusetts, Association for Computational Linguistics, USA (2010), pp 1046-1056 [5] F Noura, C Elie, A.A Rawad, H Hazem “Sentence-level and document-level sentiment mining for arabic texts”.Proceeding IEEE International Conference on Data Mining Workshops (2010) [6] Hao chen Zhou and Fei Song.(2015) “Aspect-level sentiment analysis based on a generalized probabilistic topic and syntax model” Proceedings of the Twenty-Eighth International Florida Artificial Intelligence Research Society Conference, Association for the Advancement of Artificial Intelligence (2015) [7] Ariyasriwatana, W., Buente, W., Oshiro, M., & Streveler, D (2014) Categorizing health-related cues to action: using Yelp reviews of restaurants in Hawaii New Review of Hypermedia and Multimedia, 20(4), 317-340 [8] Hicks, A., Comp, S., Horovitz, J., Hovarter, M., Miki, M., & Bevan, J L (2012) Why people use Yelp com: An exploration of uses and gratifications Computers in Human Behavior, 28(6), 2274-2279 [9] Huang, J., Rogers, S., & Joo, E (2014) “Improving restaurants by extracting subtopics from yelp reviews” iConference 2014 (Social Media Expo) [10] Ruhui Shen, Jialiang Shen, Yuhong Li & Haohan Wang (2016), ” Predicting usefulness of Yelp reviews with localized linear regression models”, 2016 7th IEEE International Conference on Software Engineering and Service Science (ICSESS) [11] Solov'ev A N., Antonova A Ju., Pazel'skaia A G., (2012), Using sentimentanalysis for text information extraction I-Teco (Moscow) [12] Wanxiang Che, Yanyan Zhao, Honglei Guo, Zhong Su, and Ting Liu,” Sentence Compression for spect-Based Sentiment Analysis” IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL 23, NO 12, DECEMBER 2015 [13] P.D Turney,(2000), “Learning algorithms for keyphrase extraction” Information Retrieval vol 2, no 4, pp 303 - 336 [14] I.H Witten, G.W Paynter, E Frank, C Gutwin and C.G Nevill-Manning.(1999) “KEA: Practical automatic Keyphrase Extraction.” The proceedings of Digital Libraries '99: The Fourth ACM Conference on Digital Libraries, pp 254-255 12 [15] Huong Nguyen Thi Xuan, Anh Cuong Le ; Le Minh Nguyen, (2012) ”Linguistic Features for Subjectivity classification“ Asian Language Processing (IALP), 2012 International Conference 164 Xác nhận thực chuyên đề Chủ nhiệm đề tài 13 ... analysis - Phân tích cảm xúc 12 PHÁT BIỂU BÀI TỐN RÚT TRÍCH THƠNG TIN 13 TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC Đặt vấn đề 14 1.1 Phân tích cảm xúc gì? 15 Phân tích cảm xúc ứng dụng nhiều ngành để trích xuất... đời sống 155 - Thực nghiện phân tích cảm xúc dựa mơ hình học máy 156 - Trích xuất bình luận tích cực tiêu cực 157 - Trên sở phân tích cảm xúc, chúng tơi tiến hành rút trích tri thức đặc trừng khía... cứu tổng quan phân tích cảm xúc ứng dụng thực tế sống 161 - Nghiên cứu phương pháp rút trích thơng tin phương pháp phân tích cảm xúc 162 - Xây dựng mơ hình thử nghiệm rút trích thơng tin theo truy