Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 12 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
12
Dung lượng
830,38 KB
Nội dung
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT CÔNG NGHỆ Tên đề tài: NGHIÊN CỨU RÚT TRÍCH THƠNG TIN DỰA TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC Mã số: Chun đề: Phát biểu tốn rút trích thơng tin sở phân tích cảm xúc Chủ nhiệm đề tài : ThS.Nguyễn Tấn Lộc Người chủ trì thực chuyên đề : ThS.Nguyễn Tấn Lộc Bình Dương, 08/01/2018 Mục lục Đặt vấn đề 1.1 Phân tích cảm xúc gì? 1.2 Các vấn đề khó khăn 1.3 Tóm tắt lược sử nghiên cứu Phương pháp nghiên cứu, cách tiếp cận Nội dung nghiên cứu kết đạt Kết luận kiến nghị Tài liệu tham khảo Danh mục chữ viết tắt TF: term frequency IDF: inverse document frequency TF.IDF: term frequency inverse document frequency DTM: document term matrix Logistic: hồi quy logistic P(A): Xác xuất kiện A NER: Named Entity Recognition SoA: Sentiment analysis – Phân tích cảm xúc PHÁT BIỂU BÀI TỐN RÚT TRÍCH THƠNG TIN TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC Đặt vấn đề 1.1 Phân tích cảm xúc gì? Phân tích cảm xúc ứng dụng nhiều ngành để trích xuất tri thức, cảm xúc quan điểm khách hàng Rút trích cảm xúc khách hàng có vai trị quan trọng trình quyết, đưa chiến lược kinh doanh hợp lý Những định từ việc mua sản phẩm trực tuyến dịch vụ ăn uống, tất cảm xúc, quan điểm ảnh hưởng lớn đến sống hàng ngày Rút trích thơng tin quan điểm cảm xúc lĩnh vực nghiên cứu xử lý ngôn ngữ tự nhiên Nhiệm vụ trích xuất thơng tin từ dịng tin bình luận, trích dẫn để xác định ý kiến, cảm xúc người dùng một chủ đề cụ thể, thường cố gắng trích cảm xúc có tồn tài liệu tích cực hay tiêu cực Do đó, nghiên cứu phân tích cảm xúc khơng tác động quan trọng lĩnh vực xử lý ngôn ngữ tự nhiên, mà tác động sâu sắc khoa học quản lý, khoa học trị, kinh tế khoa học xã hội tất lĩnh vực bị ảnh hưởng ý kiến chủ thể Ngôn ngữ người phức tạp Vì vậy, diễn giải ngơn ngữ cho máy tính hiểu phân tích ngữ pháp, vùng miền ứng dụng hay ngữ cảnh, tiếng lóng lỗi q trình khó khăn Ngữ điệu ngôn ngữ kết hợp với ngữ cảnh ảnh hưởng đến ngữ cảnh chí mơ tả cịn khó khăn Hình 1.các trạng thái cảm xúc Ví dụ: “My flight was delayed Brilliant!” Con người trực quan giải thích giai điệu viết Hầu hết người giải thích người bình luận cảm xúc mỉa mai, châm biếm Chúng ta biết hầu hết người có chuyến bay trễ khơng phải trải nghiệm tốt Bằng cách áp dụng ngữ cảnh cho câu này, dễ dàng xác định cảm xúc tiêu cực Nếu không áp dụng ngữ cảnh, máy tính phân tích câu thấy từ "Brilliant" phân loại tích cực Giả sử bạn muốn biết người Yelp nghĩ thực phẩm nhà hàng Việt Nam tốt hay xấu, ăn phổ biến Phân tích cảm xúc liệu nhà hàng Yelp giúp trả lời câu hỏi Doanh nghiệp chí tìm hiểu lý người nghĩ thực phẩm tốt hay xấu, cách trích xuất từ xác cho thấy lý người ta khơng thích thức ăn Trích xuất ăn phổ biến chủ đề xuất nhiều Doanh nghiệp có ý tưởng tốt lý người tiêu dùng khơng hài lịng Doanh nghiệp muốn đạt tầm nhìn sâu sắc khảo sát tìm kiếm thơng qua nghiên cứu thị trường, thay phải dành nhiều ngân sách thời gian để tiến hành điều tra gọi điện thoại khách hàng? Thông qua công cụ khai thác văn bản, bạn nhận câu trả lời vài giây kết khách quan từ mạng xã hội Phân tích cảm xúc xác định nhiều cấp độ Cấp mức tài liệu (Một cách nhìn tổng thể tiêu cực tích cực chung) cảm xúc từ cụm từ tài liệu Hình Mơ hình tính tốn trọng số từ, cụm từ 1.2 Các vấn đề khó khăn Hình vấn đề thách thức - Đảo ngược cảm xúc: vấn đề quan trọng cần giải phân tích cảm xúc Vấn đề phát sinh dịch chuyển trạng thái phân cực phủ định (ví dụ: "Tơi khơng thích phở") tương phản (ví dụ "phở ngon, khơng phải sở thích tơi") Câu “Tơi khơng thích phở” giống với câu “Tơi thích phở” Vì phát đảo ngược phân cực có ý nghĩa quan trọng cho trích xuất quan điểm cảm xúc - Phân loại cảm xúc: thuật toán học máy chưa phân loại độ mạnh cảm xúc, dừng lại tích cực hay tiêu cực Trong đó, cảm xúc từ bình luận phản ánh đa dạng mức độ ảnh hưởng cảm xúc khác "Tích cực", "tích cực hơn", "Tiêu cực", “ tiêu cực " "trung tính" Bằng cách tăng hạng phân loại xác cải thiện độ xác làm sở cho trích xuất cảm xúc - Dữ liệu thưa: liệu phát sinh từ số nguồn giới hạn ký tự giới hạn vi blog / trang web truyền thông xã hội Chẳn hạn, giới hạn bình luận twitter 140 ký tự Chủ thể không diễn đạt ý kiến họ cách rõ ràng - Tóm lại, Tất ba vấn đề liên quan chặt chẽ đến tính xác cảm xúc viết thường tồn phát biểu mâu thuẫn nhau, câu văn nói ngắn gọn khơng theo quy tắc, người nói thường lồng nhiều ý kiến vào câu 1.3 Tóm tắt lược sử nghiên cứu Trong phần này, khảo sát phương pháp hướng tiếp cận phân tích cảm xúc Dữ liệu văn tiềm ẩn nhiều tri thức có giá trị người tạo nhằm chia sẻ với cộng đồng chẳn hạn kinh nghiệm,ý kiến cảm xúc trải qua Mỗi cần đưa định gì, thường tham khảo đến ý kiến cộng đồng cách tìm kiếm Internet Các công cụ khai phá quan điểm thực cách tự động hệ thống trích xuất khía cạnh liên quan cho vấn đề cụ thể, sở phân tích ý kiến, đưa định hành động hợp lý Hình Các hướng tiếp cận phân tích cảm xúc Nhiệm vụ phân tích cảm xúc xác định quan điểm, đặc trưng khía cạnh, thực thể xác định chủ thể Công việc khai thác tri thức giúp họ hiểu rõ khách hàng, sản phẩm, dịch vụ đề (B Agarwal et al.,2013)[1] Mục tiêu tự động hóa trích xuất đặc trưng đối tượng phân loại cảm xúc (Basant et al., 2015)[2] dựa xử lý ngơn ngữ tự nhiên từ nguồn bình luận Mục tiêu thực phân loại cảm xúc xếp hạng số đánh giá cảm xúc diễn giải văn Nó xem xét 03 mức độ : Tài liệu (RuiXia et.al.,2016)[3].(Ainur et al.,2010)[4], câu từ (Noura et al., 2010)[5], mức khía cạnh đặc trưng đối tượng (Haochen et.al.,2015)[6] Trong nghiên cứu này, phân tích cảm xúc dựa vào nguồn liệu thu thập từ dịch vụ Yelp Yelp tập đoàn đa quốc gia Hoa Kỳ thành lập vào 2004 nhằm giúp người định vị doanh nghiệp dựa rên mạng xã hội chức đánh giá xếp hạng dịch vụ Hàng triệu người sử dụng dịch vụ Yelp cung cấp khối liệu khổng lồ ảnh hưởng đến định lựa chọn thực phẩm người tiêu dùng Do đó, bình luận từ Yelp trở thành số đánh giá cho chất lượng ngành dịch vụ ẩm thực Những năm gần đây, nhiều cơng trình nghiên cứu tiếp cận khai thác liệu nhằm rút trích cảm xúc diễn giải ý nghĩa Hướng tiếp cận phương pháp học máy sử dụng rộng rãi cho lĩnh vực xử lý ngôn ngữ tự nhiên chẳn hạn như: (RuiXia et al.,2016) đề xuất mô hình PSDEE để phát cảm xúc khơng qn văn Nghiên cứu trình bày mơ hình ba giai đoạn để phân loại cảm xúc:(1) phát chuyển đổi phân cực, (2) loại bỏ phân cực phủ định, (3) chuyển đổi phân cực theo mơ hình tổ hợp (Haochen Zhou et al.,2015)[6] xây dựng mơ hình POSLDA lựa chọn đặc trưng văn Nó thực tách lớp ngữ nghĩa (danh từ, động từ, tính từ trạng từ) lớp cú pháp ( giới từ, từ liên kết), xác định từ có ý nghĩa bổ sung thơng tin thực thể cụ thể (James Huang et al,.2014.) Nhóm tác giả áp dụng Latent Dirichlet Allocation (LDA) khám phá chủ đề ẩn , dự đoán xếp hạng chủ đề ẩn đồng thời liên hệ thông tin thời gian cao điểm nhà hàng, rút trích thông tin chi tiết thú vị chắn hữu ích cho chủ nhà hàng (Ruhui Shen, et al,2016) xây dựng mơ hình hồi quy tuyến tính, hồi quy LASSO , hồi quy học máy vector (SVM) thước đo RMSLE để tiên lượng trích lọc bình luận hữu ích dựa sở túi từ BOW (Bag of word), ngôn ngữ, địa lý, thống kê, phổ biến khác tính định tính trích từ người dùng, doanh nghiệp Trong nghiên cứu này, tiến hành thực nghiệm gồm 02 gai đoạn: (1) xây dựng mơ hình hồi quy logistic phân loại cảm xúc.(2) trích xuất thơng tin bình luận quan trọng chứa cảm xúc tốt tệ ẩm thực theo quốc gia Tiêu đề T Giải Phương Bộ Độ vấn đề pháp liệu xác T Movie Reivew 87.1% Hạn chế Độ RuiXia, Dịch chuyển Các quy tắc FengXu et phân cực cảm PSDEE xác chưa al (2016) xúc phương pháp cao thống kê V.K Dịch chuyển Từ điển cảm Singh, phân cực cảm xúc R.Piryani et al Movie Reivew SWN(AC Khó mở C) rộng từ xúc độ =77.6% điển, không xác SWN(AA xác định AVC)- ngữ 78.7% cảnh Alchemy= 77.4% Y Ainur, Kết hợp trích SVM Movie 92.2% Y Yisong xuất câu et al hữu ích làm mức độ (2010) sở phân loại cảm xúc cảm xúc có tích mức tài liệu cực tiêu Reviews Không phản ánh cực A Basant, dựa Ontology, restaurant 80.1% Khó mở M Namit thông tin phổ ConcepNet review a biến ngữ ontology cảnh cho rộng domain Hao chen Topic POSLDA, TripAdvisor 95% Chỉ Zhou and modelling, Maximum thực Fei Song Lựa chọn Entropy cho đặc trưng, chia classifier unigram tách ngữ nghĩa cú pháp câu Huang, J., Phát chủ Latent Rogers, đề phụ - Topic Dirichlet S., & Joo modelling Allocation Yelp Không đề Chỉ thực cập unigram (LDA) Ruhui Dự đốn Mơ hình Shen, trích lọc tuyến tính Jialiang bình luận hữu Locally cảnh bình Shen, ích cho Weighted luận Yuhong Li nhà hàng địa RMSLE Không phát of 0.47769 ngữ Regression (2016) phương (LOESS) Yan Các vấn đề Kỹ thuật Zhao,Hon chuyển đổi cú glei, et al pháp câu (2015) Yelp Chinese blog No_comp Kỹ thuật cộng hưởng _ssc= cộng hưởng cảm xúc 88.78% cảm xúc trước Manual_c chưa đạt độ thực omp_ssc= xác phân tích 88.5% cao cảm xúc Bảng So sánh hướng tiếp cận phân tích cảm xúc Trong nước, Nhóm tác giả Huong Nguyen Thi Xuan, Anh Cuong Le, (2012) [15] thực phân loại câu văn chứa xúc cảm hay không chứa cảm xúc dựa 22 mẫu phân tích mẫu sở cú pháp (syntax-based patterns) Phương pháp phân tích tác giả [15] dựa vào phân tích từ vựng để xác định từ loại từ câu văn sử dụng mẫu cú pháp để nhận dạng tính từ, cụm tính từ tương ứng; trợ động từ, động từ cụm động từ; danh từ cụm danh sở cú pháp mà tác giả đề xuất để thực trích xuất Phương pháp nghiên cứu, cách tiếp cận - Thu thập tài liệu tác giả trong, ngồi nước có liên quan đến đề tài - Nghiên cứu phát triển lý thuyết phục vụ đề tài - Xây dựng mơ hình dựa thuật toán học máy đánh giá hiệu suất - Nghiên cứu thực nghiệm ,đánh giá kết dựa vào phương pháp thống kê Nội dung nghiên cứu kết đạt - Nghiên cứu tổng quát lĩnh vực phân tích cảm xúc ứng dụng lĩnh vực đời sống - Thực nghiện phân tích cảm xúc dựa mơ hình học máy - Trích xuất bình luận tích cực tiêu cực - Trên sở phân tích cảm xúc, chúng tơi tiến hành rút trích tri thức đặc trừng khía cạnh thực thể quan tâm nhằm nắm bắt khuynh hướng cảm xúc khách hàng nhà hàng Yelps chất lượng thái độ dịch vụ, tóm tắt ẩm thực quốc gia, ăn phổ biến - Hỗ trợ định dựa sở phân tích quan điểm, cảm xúc cơng chúng vấn đề cần quan tâm Kết luận kiến nghị - Trong nghiên cứu này, Tôi thực khảo sát so sánh hướng tiếp cận phân loại cảm xúc dựa vào thuật toán học máy, từ điển ontology đánh giá kỹ thuật rút trích thơng tin dựa sở phân loại cảm xúc Cụ thể đề tài đạt số cột mốc quan sau - Nghiên cứu tổng quan phân tích cảm xúc ứng dụng thực tế sống - Nghiên cứu phương pháp rút trích thơng tin phương pháp phân tích cảm xúc - Xây dựng mơ hình thử nghiệm rút trích thơng tin theo truy vấn từ liệu - Đánh giá thử nghiệm liệu thuật toán hồi quy logistic lựa chọn tham số tối ưu để nâng cao độ xác thuật tốn Tài liệu tham khảo [1] B Agarwal and N Mittal, “Optimal feature selection for sentiment analysis,” in Proceedings of the 14th International Conference on Intelligent Text Processing and Computational Linguistics (CICLing 13), vol 7817, pp 13–24, 2013 [2] A Basant, M Namita, B Pooja, Sonal Common-Sense and Context Garg Information” “Sentiment Hindawi Analysis Publishing Using Corporation Computational Intelligence and Neuroscience (2015) [3] RuiXia, FengXu, JianfeiYu,” Polarity shift detection, elimination and ensemble: A three stage model for document-level sentiment analysis” Information Processing and Management 52 (2016) 36– 45 [4] Y Ainur, Y Yisong, C Claire “Multi-level structured models for document-level sentiment classification”.Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, MIT, Massachusetts, Association for Computational Linguistics, USA (2010), pp 1046-1056 [5] F Noura, C Elie, A.A Rawad, H Hazem “Sentence-level and document-level sentiment mining for arabic texts”.Proceeding IEEE International Conference on Data Mining Workshops (2010) [6] Hao chen Zhou and Fei Song.(2015) “Aspect-level sentiment analysis based on a generalized probabilistic topic and syntax model” Proceedings of the Twenty-Eighth International Florida Artificial Intelligence Research Society Conference, Association for the Advancement of Artificial Intelligence (2015) [7] Ariyasriwatana, W., Buente, W., Oshiro, M., & Streveler, D (2014) Categorizing health-related cues to action: using Yelp reviews of restaurants in Hawaii New Review of Hypermedia and Multimedia, 20(4), 317-340 [8] Hicks, A., Comp, S., Horovitz, J., Hovarter, M., Miki, M., & Bevan, J L (2012) Why people use Yelp com: An exploration of uses and gratifications Computers in Human Behavior, 28(6), 2274-2279 [9] Huang, J., Rogers, S., & Joo, E (2014) “Improving restaurants by extracting subtopics from yelp reviews” iConference 2014 (Social Media Expo) [10] Ruhui Shen, Jialiang Shen, Yuhong Li & Haohan Wang (2016), ” Predicting usefulness of Yelp reviews with localized linear regression models”, 2016 7th IEEE International Conference on Software Engineering and Service Science (ICSESS) [11] Solov'ev A N., Antonova A Ju., Pazel'skaia A G., (2012), Using sentiment- analysis for text information extraction I-Teco (Moscow) [12] Wanxiang Che, Yanyan Zhao, Honglei Guo, Zhong Su, and Ting Liu,” Sentence Compression for spect-Based Sentiment Analysis” IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL 23, NO 12, DECEMBER 2015 [13] P.D Turney,(2000), “Learning algorithms for keyphrase extraction” Information Retrieval vol 2, no 4, pp 303 - 336 [14] I.H Witten, G.W Paynter, E Frank, C Gutwin and C.G Nevill-Manning.(1999) “KEA: Practical automatic Keyphrase Extraction.” The proceedings of Digital Libraries '99: The Fourth ACM Conference on Digital Libraries, pp 254-255 [15] Huong Nguyen Thi Xuan, Anh Cuong Le ; Le Minh Nguyen, (2012) ”Linguistic Features for Subjectivity classification“ Asian Language Processing (IALP), 2012 International Conference Xác nhận thực chuyên đề Chủ nhiệm đề tài 10 ... – Phân tích cảm xúc PHÁT BIỂU BÀI TỐN RÚT TRÍCH THƠNG TIN TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC Đặt vấn đề 1.1 Phân tích cảm xúc gì? Phân tích cảm xúc ứng dụng nhiều ngành để trích xuất tri thức, cảm xúc. .. lĩnh vực đời sống - Thực nghiện phân tích cảm xúc dựa mơ hình học máy - Trích xuất bình luận tích cực tiêu cực - Trên sở phân tích cảm xúc, chúng tơi tiến hành rút trích tri thức đặc trừng khía... ý nghĩa quan trọng cho trích xuất quan điểm cảm xúc - Phân loại cảm xúc: thuật toán học máy chưa phân loại độ mạnh cảm xúc, dừng lại tích cực hay tiêu cực Trong đó, cảm xúc từ bình luận phản ánh