Nghiên cứu rút trích thông tin dựa trên cơ sở phân tích cảm xúc

47 4 0
Nghiên cứu rút trích thông tin dựa trên cơ sở phân tích cảm xúc

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT CÔNG NGHỆ BÁO CÁO KHOA HỌC TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CƠNG NGHỆ CẤP TRƢỜNG NGHIÊN CỨU RÚT TRÍCH THƠNG TIN DỰA TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC Mã số: Chủ nhiệm đề tài: ThS.Nguyễn Tấn Lộc Bình Dƣơng, 08/01/2018 TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT CÔNG NGHỆ BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CƠNG NGHỆ CẤP TRƢỜNG NGHIÊN CỨU RÚT TRÍCH THƠNG TIN TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC Mã số: Xác nhận đơn vị chủ trì đề tài (chữ ký, họ tên) Chủ nhiệm đề tài (chữ ký, họ tên) Bình Dƣơng, 08/01/2018 Danh sách thành viên Chủ nhiệm: ThS.Nguyễn Tấn Lộc Email: locnt@tdmu.edu.vn ĐTDD: 0914290456 Đơn vị chủ trì: Khoa Kỹ thuật Cơng nghệ Địa chỉ: 06 Trần văn Ơn, P.Phú Hòa, tp.Thủ Dầu Một, Bình Dƣơng Mục lục Danh mục hình Danh mục bảng Danh mục chữ viết tắt Thông tin kết nghiên cứu Chƣơng Mở đầu Chƣơng 1: Tổng quan phân tích cảm xúc 1.1 Phân tích cảm xúc gì? 1.2 Mục tiêu nghiên cứu 10 1.3 Các mức độ phân tích cảm xúc 11 1.4 Các vấn đề thách thức khó khăn 13 Chƣơng : Lƣợc sử nghiên cứu 15 2.1 Các phƣơng pháp phân tích cảm xúc 15 2.2 Các Phƣơng pháp rút trích thơng tin 19 2.2.1 Rút trích cụm từ 20 2.2.2 Rút trích dựa nhận dạng thực thể 20 2.3 Các phƣơng pháp phân loại cảm xúc dựa máy học 21 2.3.1 Học có giám sát (Supervised Learning) 21 2.3.2 Học không giám sát 22 Chƣơng 3: Xây dựng mơ hình phân tích cảm xúc 24 3.1 Kiến trúc hệ thống 24 3.2 Thu thập liệu 25 3.3 Tiền xử lý liệu 25 3.4 Phƣơng pháp phân tích văn 26 3.4.1 Mơ hình N-gram 27 3.4.2 Phƣơng pháp thống kê TF-IDF 28 3.4.3 Xây dựng mơ hình huấn luyện với hồi quy logistic 29 3.4.4 Phƣơng pháp đánh giá hiệu suất phân loại cảm xúc 30 3.4.5 Tối ƣu tham số cho mơ hình 31 3.5 Rút trích thơng tin 32 Chƣơng 4: Đánh giá thực nghiệm 34 4.1 Kết thực nghiệm phân loại cảm xúc 34 4.2 Kết thực nghiệm rút trích thơng tin 35 Kết luận 37 Tài liệu tham khảo 38 Phụ lục 40 Danh mục hình Hình Các trạng thái cảm xúc Hình Mơ hình tính tốn trọng số từ, cụm từ 10 Hình Các vấn đề thách thức 13 Hình Các hƣớng tiếp cận phân tích cảm xúc 15 Hình Kiến trúc hệ thống 24 Hình Thống kê nhà hàng quốc gia 25 Hình Mơ hình hồi quy logistic 30 Hình Đánh giá mơ hỉnh huấn luyện kiểm thử liệu 34 Hình Phân phối từ có tần suất cao ẩm thực Việt Nam 35 Hình 10.Các từ ảnh hƣởng mạnh ẩm thực Việt 36 Hình 11.Phân phối từ có tần suất cao ẩm thực Nhật 36 Hình 12.Các từ ảnh hƣởng mạnh ẩm thực Nhật 36 Hình 13.Các từ khóa có tần suất cao ẩm thực Pháp 40 Hình 14.Các từ khóa có tần suất cao ẩm thực Trung Quốc 41 Hình 15.Các từ khóa có tần suất cao ẩm thực Ấn độ 42 Danh mục bảng Bảng 1.So sánh hƣớng tiếp cận phân tích cảm xúc 18 Bảng 2.Tài liệu văn 26 Bảng Ma trận tần số từ, cụm từ document term word 26 Bảng 4.Ma trân đánh giá hệ thống phân loại 30 Bảng Các bình luận tích cực cho doanh nghiệp 32 Bảng 6.Các bình luận cảm xúc tích cực cho doanh nghiệp Việt Nam 33 Bảng 7.Nhóm bình luận cảm xúc tiêu cực cho doanh nghiệp Việt Nam 33 Bảng Ma trân đánh giá phân loại cảm xúc 34 Bảng Nhóm 10 từ quan trọng cảm xúc rút từ kết phân tích 35 Bảng 10.Nhóm bình luận tích cực ẩm thực Pháp 40 Bảng 11.Nhóm bình luận tích cực ẩm thực Trung Quốc 41 Bảng 12.Nhóm bình luận tích cực ẩm thực Ấn độ 42 Danh mục chữ viết tắt TF: term frequency IDF: inverse document frequency TF.IDF: term frequency inverse document frequency DTM: document term matrix Logistic: hồi quy logistic P(A): Xác xuất kiện A NER: Named Entity Recognition SoA: Sentiment analysis – Phân tích cảm xúc TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT Đơn vị: Khoa Kỹ thuật Cơng nghệ THƠNG TIN KẾT QUẢ NGHIÊN CỨU Thơng tin chung: - Tên đề tài: Nghiên cứu rút trích thơng tin sở phân tích cảm xúc - Mã số: - Chủ nhiệm: Ths.Nguyễn Tấn Lộc - Đơn vị chủ trì: Khoa Kỹ thuật Cơng nghệ - Thời gian thực hiện: 11/2016-11/2017 Mục tiêu: - Nghiên cứu tổng quát lĩnh vực phân tích cảm xúc ứng dụng lĩnh vực đời sống thực nghiện phân tích cảm xúc với mơ hình học máy - Trích xuất nhóm cụm từ quan trọng để hỗ trợ định dựa sở cảm xúc công chúng vấn đề cần quan tâm Tính sáng tạo: - Đề xuất xây dựng mơ hình học máy tự động phân loại cảm xúc dựa vào nội dung bình luận phi cấu trúc nhằm tăng tốc hiểu biết liệu - Tiếp cận phƣơng pháp rút trích thơng tin nhằm trích xuất nhóm bình luận tích cực, tiêu cực nắm bắt quan điểm, cảm xúc dựa kết phân loại cảm xúc nhằm định chiến lƣợc kinh doanh phù hợp cho doanh nghiệp Kết nghiên cứu: - Kết thực nghiệm liệu với mơ hình logistic cho độ xác 90%, recall=89.8%, precision=96.9% hệ số tối ƣu chuẩn hóa cho mơ hình C=0.2154 - Trích xuất cụm tử quan trọng cho doanh nghiệp nhà hàng Việt Nam, Trung Quốc, Nhật Bản… - Trích xuất doanh nghiệp nhà hàng đƣợc bình luận tốt tiêu cực Sản phẩm: báo khoa học Hiệu quả, phƣơng thức chuyển giao kết nghiên cứu khả áp dụng: Ứng dụng kết nghiên cứu để phát triển mơ hình phân tích liệu nắm bắt quan điểm, cảm xúc cho trang website Việt Nam: Tripadvisor, Lazada… Ngày Đơn vị chủ trì (chữ ký, họ tên) tháng 11 năm 2017 Chủ nhiệm đề tài (chữ ký, họ tên) XÁC NHẬN CỦA CƠ QUAN Với công thức này, ta xây dựng mơ hình ngơn ngữ dựa việc thống kê cụm có n+1 từ Mơ hình ngơn ngữ gọi mơ hình ngơn ngữ Ngram Một cụm N-gram dãy gồm n phần tử liên tiếp dãy phần tử cho trƣớc 3.4.2 Phƣơng pháp thống kê TF-IDF Phƣơng pháp cịn gọi mơ hình túi từ (bag-of-words), sử dụng mơ hình trọng số TF.IDF (term frequency inverse document frequence) TF.IDF trọng số từ văn thu đƣợc qua thống kê thể mức độ quan trọng từ văn bản, mà thân văn xét nằm tập hợp văn TF-term frequency : dùng để ƣớc lƣợng tần xuất xuất từ văn Tuy nhiên với văn có độ dài khác nhau, số lần xuất từ nhiều Vì số lần xuất từ đƣợc chia độ dài văn (tổng số từ văn đó) TF(t, d) = ( số lần từ t xuất văn d) / (tổng số từ văn d) 28 IDF- Inverse Document Frequency: ƣớc tính mức độ ảnh hƣởng từ Khi tính tần số xuất tf từ đƣợc coi quan trọng nhƣ Tuy nhiên có số từ thƣờng đƣợc đƣợc sử dụng nhiều nhƣng không quan trọng để thể ý nghĩa đoạn văn , ví dụ :  Từ nối: và, nhƣng, nhiên, thế, vậy, …  Giới từ: ở, trong, trên, …  Từ định: ấy, đó, nhỉ, … Vì vậy, IDF tìm cách co lại trọng số tƣơng ứng với từ khóa xuất nhiều văn IDF(t,D)=log(N/|D(t)|) (3.4) Với N tổng số tài liệu văn bản, D(w): số văn chứa từ t Trọng số từ (TF.IDF) tích tần suất từ khóa TF nghịch đảo số văn chứa từ khóa đƣợc xác định cơng thức: TF.IDF = f(t).log(N/|D(t)|) (3.5) Trong f(t) hàm tính tần số cụm từ t 3.4.3 Xây dựng mơ hình huấn luyện với hồi quy logistic Mơ hình hồi qui logistic tổng quát với k yếu tố nguy x1,x2,…xk đƣợc mơ tả phƣơng trình sau ( ) (3.6) Trong đó, z đƣợc định nghĩa nhƣ sau: z= + z= : hệ số chặn (intercept) Giá trị z tất biến độc lập 29 β1, β2, …βk: hệ số hồi qui cho từ x1, x2,…, xk Hệ số hồi qui cho biết hƣớng mức độ ảnh hƣởng yếu tố đến xác suất Nếu hệ số hồ qui dƣơng yếu tố nguy làm tăng xác suất xảy kiện ngƣợc lại Đồ thị hồi qui logistic có trục hồnh giá trị z trục tung giá trị f(z) tƣơng ứng xác suất xảy kiện) z nhận giá trị âm dƣơng nhƣng f(z) nhận giá trị khoảng p(y=1|x p(y= -1|x )=f( )=f(z) )=1-f( )=1-f(z) Hình Mơ hình hồi quy logistic 3.4.4 Phƣơng pháp đánh giá hiệu suất phân loại cảm xúc Để đánh giá chất lƣợng hệ thống, báo sử dụng hai độ đo: độ xác (precision) độ bao phủ (recall) 02 độ đo đƣợc tính tốn theo cơng thức sau: Giá trị thực tế Bảng a b c d Ma trân đánh giá hệ thống phân loại 30 (3.7) (3.8) Trong đó: a: số lƣợng bình luận có nhãn tích cực đƣợc phân loại tích cực b: số lƣợng bình luận có nhãn tích cực đƣợc phân loại tiêu cực c: số lƣợng bình luận có nhãn tiêu cực đƣợc phân loại tích cực d: số lƣợng bình luận có nhãn tiêu cực đƣợc phân loại tiêu cực 3.4.5 Tối ƣu tham số cho mơ hình Hàm Loss function gọi hàm mát Chúng ta mong muốn sai số nhỏ nhất, đồng nghĩa với việc tìm vector hệ số cho giá trị hàm mát nhỏ tốt giảm thiểu vấn đề overfitting ( ) = ( ) J( )= [∑ [∑ () () ( ( () ) (3.9) () ( ) ( ) ( ) ( ) ( ( () ))] )] Vấn đề chọn tối ƣu tham số lamda để tối thiểu hàm loss function với L2 Norm ∑ ( ) ∑ (3.10) Trong trình thực nghiệm, đánh giá hiệu suất lần lƣợt với giá trị C=[0.01,100] với C=1/ , C nhận giá trị lớn mức độ chuẩn hóa thấp (overfitting), ngƣợc lại C có giá trị nhỏ độ chuẩn hóa cao chọn giá trị tối ƣu cho mơ hình hồi quy logistic C=0.2154 31 3.5 Rút trích thơng tin Dựa vào kết phân loại cảm xúc mơ hình logistic, chúng tơi xếp hạng bình luận trích xuất bình luận nằm nhóm 20 đầu 20 bình luận nhóm có thứ hạng thấp Sau thực phân tích đánh giá mức độ ảnh hƣởng từ cho loại ẩm thực quốc gia kết phân tích ẩm thực quốc gia phản ánh thực tiễn : Món ăn phổ biến Việt Nam phở, Nhật Bản với ẩm thực sushi tƣơi sống, số ăn Thái có hƣơng vị cay, nhà hàng Ý tiếng với bánh pizza - Trong phần thực nghiệm này, chúng tơi rút trích thơng tin hữu ích bình luận nằm nhóm đầu 10 đƣợc bình luận tốt nhất, nhóm 10 bình luận hàng đầu theo quốc gia: Bảng 5.Các bình luận tích cực cho doanh nghiệp 32 Bảng Các bình luận cảm xúc tích cực cho doanh nghiệp Việt Nam - Nhóm 10 bình luận cảm xúc tiêu cực cho nhà hàng Việt Nam, liệu phản ánh hợp lý với xếp hạng đến Bảng 7.Nhóm bình luận cảm xúc tiêu cực cho doanh nghiệp Việt Nam 33 Chƣơng 4: Thực nghiệm 4.1 Kết thực nghiệm phân loại cảm xúc Kết phân loại cảm xúc tích cực tiêu cực ảnh hƣởng mạnh đến kết rút trích thơng tin Nếu kết phân loại xác, truy vấn rút trích thơng tin có độ xác cao Kết thực nghiệm liệu với mơ hình logistic cho kết với độ xác cao accuracy=90%, recall=89.8%, precision=96.9% hệ số chuẩn hóa cho mơ hình tối ưu với hệ số chuẩn hóa C=0.2154 Hình Đánh giá mơ hỉnh huấn luyện kiểm thử liệu tích cực 3276 356 tiêu cực 1262 11171 Bảng 8.Ma trân đánh giá phân loại cảm xúc Trích xuất xác cảm xúc giúp doanh nghiệp định hình xu hƣớng phát triển, đồng thời nắm bắt đƣợc quan điểm cảm xúc khách hàng ăn, chất lƣợng dịch vụ khách hàng 34 4.2 Kết thực nghiệm rút trích thơng tin Nhóm 10 từ cảm xúc mạnh tích cực tiêu cực Tích cực - hệ số Tiêu cực-hệ số excellent: 1.14614924052 delicious: 1.1119727885 amazing: 1.03514286548 awesome: 0.872256805683 perfect: 0.838463244404 great: 0.806499315192 best: 0.744851346902 fantastic: 0.734042587596 love: 0.731300119008 reasonable: 0.72016372024 worst: -1.13781905968 horrible: -1.0873361229 terrible: -1.04677190115 mediocre: -1.04432799702 bland: -0.874645601756 awful: -0.836073920222 tasteless: -0.821659220617 rude: -0.820886331069 disgusting: -0.805035172104 overpriced: -0.803561081306 Bảng Nhóm 10 từ cảm xúc rút từ kết phân tích - Nhóm 20 từ phổ biến trích từ bình luận hàng đầu thể cảm xúc tích Các từ có tần số xuất cao phù hợp với thực tế Món ăn phổ biến Việt Nam phở phối suất cao ẩm Hình Phân từ có tần thực Việt Nam 35 Hình 10.Các - từ ảnh hưởng mạnh ẩm thực Việt Kết phân loại rút trích cảm xúc xác cho nhà hàng Nhật bản, ăn phổ biến Sushi tƣơi sống Hình 11.Phân phối từ có tần suất cao ẩm thực Nhật Hình 12.Các từ ảnh hưởng mạnh ẩm thực Nhật 36 KẾT LUẬN Trong nghiên cứu này, Tôi thực khảo sát so sánh hƣớng tiếp cận phân loại cảm xúc dựa vào thuật toán học máy, từ điển ontology đánh giá kỹ thuật rút trích thơng tin dựa sở phân loại cảm xúc Trên tảng lý thuyết đó, Tơi tiến hành xây dựng mơ hình thực nghiệm với phƣơng pháp hồi quy logistic để phân loại cảm xúc sau tiến hành rút trích thơng tin Và thử nghiệm thuật tốn rút trích thơng tin có cảm xúc cho câu truy vấn Cụ thể đề tài đạt đƣợc số cột mốc quan nhƣ sau - Nghiên cứu tổng quan phân tích cảm xúc ứng dụng thực tế sống - Nghiên cứu phƣơng pháp rút trích thơng tin phƣơng pháp phân tích cảm xúc - Xây dựng mơ hình thử nghiệm rút trích thơng tin theo câu truy vấn từ liệu - Đánh giá thử nghiệm liệu thuật toán hồi quy logistic lựa chọn tham số tối ƣu để nâng cao độ xác thuật toán Thời gian tới đề tài tiếp tục phát triển : - Xây dựng nhiều mơ hình phân loại cảm xúc với nhiều thuật toán mở rộng hƣớng tiếp cận ngữ nghĩa ontology, phƣơng pháp từ điển, học máy từ so sánh kết thực nghiệm để so sánh đánh giá ƣu khuyết phƣơng pháp cho trƣờng hợp cụ thể - Xây dựng mơ hình rút trích thơng tin sở phân tích cảm xúc trang tiếng việt dịch vụ du lịch tripadvisor, Lazada 37 Tài liệu tham khảo [1] B Agarwal and N Mittal, “Optimal feature selection for sentiment analysis,” in Proceedings of the 14th International Conference on Intelligent Text Processing and Computational Linguistics (CICLing 13), vol 7817, pp 13–24, 2013 [2] A Basant, M Namita, B Pooja, Sonal Garg “Sentiment Analysis Using Common-Sense and Context Information” Hindawi Publishing Corporation Computational Intelligence and Neuroscience (2015) [3] RuiXia, FengXu, JianfeiYu,” Polarity shift detection, elimination and ensemble: A three stage model for document-level sentiment analysis” Information Processing and Management 52 (2016) 36– 45 [4] Y Ainur, Y Yisong, C Claire “Multi-level structured models for documentlevel sentiment classification”.Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, MIT, Massachusetts, Association for Computational Linguistics, USA (2010), pp 1046-1056 [5] F Noura, C Elie, A.A Rawad, H Hazem “Sentence-level and document-level sentiment mining for arabic texts”.Proceeding IEEE International Conference on Data Mining Workshops (2010) [6] Hao chen Zhou and Fei Song.(2015) “Aspect-level sentiment analysis based on a generalized probabilistic topic and syntax model” Proceedings of the TwentyEighth International Florida Artificial Intelligence Research Society Conference, Association for the Advancement of Artificial Intelligence (2015) [7] Ariyasriwatana, W., Buente, W., Oshiro, M., & Streveler, D (2014) Categorizing health-related cues to action: using Yelp reviews of restaurants in Hawaii New Review of Hypermedia and Multimedia, 20(4), 317-340 [8] Hicks, A., Comp, S., Horovitz, J., Hovarter, M., Miki, M., & Bevan, J L (2012) Why people use Yelp com: An exploration of uses and gratifications Computers in Human Behavior, 28(6), 2274-2279 38 [9] Huang, J., Rogers, S., & Joo, E (2014) “Improving restaurants by extracting subtopics from yelp reviews” iConference 2014 (Social Media Expo) [10] Ruhui Shen, Jialiang Shen, Yuhong Li & Haohan Wang (2016), ” Predicting usefulness of Yelp reviews with localized linear regression models”, 2016 7th IEEE International Conference on Software Engineering and Service Science (ICSESS) [11] Solov'ev A N., Antonova A Ju., Pazel'skaia A G., (2012), Using sentiment-analysis for text information extraction I-Teco (Moscow) [12] Wanxiang Che, Yanyan Zhao, Honglei Guo, Zhong Su, and Ting Liu,” Sentence Compression for spect-Based Sentiment Analysis” IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL 23, NO 12, DECEMBER 2015 [13] P.D Turney,(2000), “Learning algorithms for keyphrase extraction” Information Retrieval vol 2, no 4, pp 303 - 336 [14] I.H Witten, G.W Paynter, E Frank, C Gutwin and C.G Nevill- Manning.(1999) “KEA: Practical automatic Keyphrase Extraction.” The proceedings of Digital Libraries '99: The Fourth ACM Conference on Digital Libraries, pp 254-255 [15] Huong Nguyen Thi Xuan, Anh Cuong Le ; Le Minh Nguyen, (2012) ”Linguistic Features for Subjectivity classification“ Asian Language Processing (IALP), 2012 International Conference 39 Phụ lục I Kết phân tích liệu quốc gia Ẩm thực Pháp Bảng 10.Nhóm Hình 13.Các bình luận tích cực ẩm thực Pháp từ khóa có tần suất cao ẩm thực Pháp 40 Ẩm thực Trung Quốc Bảng 11.Nhóm Hình 14.Các bình luận tích cực ẩm thực Trung Quốc từ khóa có tần suất cao ẩm thực Trung Quốc 41 Ẩm thực Ấn độ Bảng 12.Nhóm Hình 15.Các bình luận tích cực ẩm thực Ấn độ từ khóa có tần suất cao ẩm thực Ấn độ 42 ... analysis – Phân tích cảm xúc TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT Đơn vị: Khoa Kỹ thuật Cơng nghệ THƠNG TIN KẾT QUẢ NGHIÊN CỨU Thông tin chung: - Tên đề tài: Nghiên cứu rút trích thơng tin sở phân tích cảm xúc. .. phân loại cảm xúc 4.2 Kết thực nghiệm rút trích thơng tin Chƣơng 1: Tổng quan phân tích cảm xúc 1.1 Phân tích cảm xúc gì? Phân tích cảm xúc đƣợc ứng dụng nhiều ngành để trích xuất tri thức, cảm. .. trợ định dựa sở phân tích quan điểm, cảm xúc cơng chúng vấn đề cần quan tâm 1.3 Các mức độ phân tích cảm xúc Phân tích cảm xúc lĩnh vực nghiên cứu xử lý ngôn ngữ tự nhiện đƣợc nghiên cứu mức độ:

Ngày đăng: 21/06/2021, 22:01

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan