Khảo sát, phân tích hiện trạng các công trình đã nghiên cứu và đề xuất hƣớng nghiên cứu mới

TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT CÔNG NGHỆ Tên đề tài: NGHIÊN CỨU RÚT TRÍCH THƠNG TIN DỰA TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC Mã số: Chun đề: Khảo sát, phân tích trạng cơng trình nghiên cứu đề xuất hƣớng nghiên cứu Chủ nhiệm đề tài : ThS.Nguyễn Tấn Lộc Ngƣời chủ trì thực chuyên đề : ThS.Nguyễn Tấn Lộc Bình Dƣơng, 08/01/2018 Mụ c lụ c Đặt vấn đề Phương pháp nghiên cứu Nội dung nghiên cứu 3.1 Phương pháp rút trích thơng tin 3.1.1 Trích rút cụm từ 3.1.2 Rút trích dựa nhận dạng thực thể 3.2 Phương pháp phân loại cảm xúc dựa học máy 3.2.1 Học có giám sát (Supervised Learning) 3.2.2 Học không giám sát Kết luận kiến nghị Tài liệu tham khảo Danh mục chữ viết tắt TF: term frequency IDF: inverse document frequency TF.IDF: term frequency inverse document frequency DTM: document term matrix Logistic: hồi quy logistic P(A): Xác xuất kiện A NER: Named Entity Recognition SoA: Sentiment analysis – Phân tích cảm xúc Đặt vấn đề Trong phần này, khảo sát phương pháp hướng tiếp cận phân tích cảm xúc Dữ liệu văn tiềm ẩn nhiều tri thức có giá trị người tạo nhằm chia sẻ với cộng đồng chẳn hạn kinh nghiệm,ý kiến cảm xúc trải qua Mỗi cần đưa định gì, thường tham khảo đến ý kiến cộng đồng cách tìm kiếm Internet Các cơng cụ khai phá quan điểm thực cách tự động hệ thống trích xuất khía cạnh liên quan cho vấn đề cụ thể, sở phân tích ý kiến, đưa định hợp lý Phƣơng pháp nghiên cứu  Thu thập tài liệu tác giả trong, nước liên quan đến đề tài  Nghiên cứu báo phát triển lý thuyết phục vụ đề tài  Nghiên cứu thực nghiệm đánh giá kết dựa vào phương pháp thống kê Nội dung nghiên cứu Hình Các hướng tiếp cận phân tích cảm xúc Nhiệm vụ phân tích cảm xúc xác định quan điểm, đặc trưng khía cạnh, thực thể xác định chủ thể Công việc khai thác tri thức giúp họ hiểu rõ khách hàng, sản phẩm, dịch vụ đề (B Agarwal et al.,2013)[1] Mục tiêu tự động hóa trích xuất đặc trưng đối tượng phân loại cảm xúc (Basant et al., 2015)[2] dựa xử lý ngơn ngữ tự nhiên từ nguồn bình luận Mục tiêu thực phân loại cảm xúc xếp hạng số đánh giá cảm xúc diễn giải văn Nó xem xét 03 mức độ : Tài liệu (RuiXia et.al.,2016)[3].(Ainur et al.,2010)[4], câu từ (Noura et al., 2010)[5], mức khía cạnh đặc trưng đối tượng (Haochen et.al.,2015)[6] Trong nghiên cứu này, chúng tơi phân tích cảm xúc dựa vào nguồn liệu thu thập từ dịch vụ Yelp Yelp tập đoàn đa quốc gia Hoa Kỳ thành lập vào 2004 nhằm giúp người định vị doanh nghiệp dựa rên mạng xã hội chức đánh giá xếp hạng dịch vụ Hàng triệu người sử dụng dịch vụ Yelp cung cấp khối liệu khổng lồ ảnh hưởng đến định lựa chọn thực phẩm người tiêu dùng Do đó, bình luận từ Yelp trở thành số đánh giá cho chất lượng ngành dịch vụ ẩm thực Những năm gần đây, nhiều cơng trình nghiên cứu tiếp cận khai thác liệu nhằm rút trích cảm xúc diễn giải ý nghĩa Hướng tiếp cận phương pháp học máy sử dụng rộng rãi cho lĩnh vực xử lý ngôn ngữ tự nhiên chẳn hạn như: (RuiXia et al.,2016) đề xuất mơ hình PSDEE để phát cảm xúc khơng qn văn Nghiên cứu trình bày mơ hình ba giai đoạn để phân loại cảm xúc:(1) phát chuyển đổi phân cực, (2) loại bỏ phân cực phủ định, (3) chuyển đổi phân cực theo mơ hình tổ hợp (Haochen Zhou et al.,2015)[6] xây dựng mơ hình POSLDA lựa chọn đặc trưng văn Nó thực tách lớp ngữ nghĩa (danh từ, động từ, tính từ trạng từ) lớp cú pháp ( giới từ, từ liên kết), xác định từ có ý nghĩa bổ sung thông tin thực thể cụ thể (James Huang et al,.2014.) Nhóm tác giả áp dụng Latent Dirichlet Allocation (LDA) khám phá chủ đề ẩn , dự đoán xếp hạng chủ đề ẩn đồng thời liên hệ thông tin thời gian cao điểm nhà hàng, rút trích thơng tin chi tiết thú vị chắn hữu ích cho chủ nhà hàng (Ruhui Shen, et al,2016) xây dựng mơ hình hồi quy tuyến tính, hồi quy LASSO , hồi quy học máy vector (SVM) thước đo RMSLE để tiên lượng trích lọc bình luận hữu ích dựa sở túi từ BOW (Bag of word), ngôn ngữ, địa lý, thống kê, phổ biến khác tính định tính trích từ người dùng, doanh nghiệp Trong nghiên cứu này, tiến hành thực nghiệm gồm 02 gai đoạn: (1) xây dựng mơ hình hồi quy logistic phân loại cảm xúc.(2) trích xuất thơng tin bình luận quan trọng chứa cảm xúc tốt tệ ẩm thực theo quốc gia TT Tiêu đề Giải vấn Phƣơng pháp đề RuiXia, Dịch chuyển Các quy tắc FengXu et phân cực cảm PSDEE al (2016) xúc phương pháp Bộ Độ liệu xác Movie Reivew 87.1% Hạn chế Độ xác chưa cao thống kê V.K Dịch chuyển Từ điển cảm SWN(AC Khó mở rộng Singh, phân cực cảm xúc C) từ điển, R.Piryani xúc độ =77.6% không xác et al xác SWN(AA định AVC)- ngữ cảnh Movie Reivew 78.7% Alchemy= 77.4% Y Ainur, Kết hợp trích Y Yisong xuất câu ánh mức độ et al (2010) hữu ích làm cảm xúc sở phân loại có tích cực cảm xúc tiêu cực SVM Movie Reviews 92.2% Không phản mức tài liệu A Basant, dựa Ontology, restaurant M Namita thông tin phổ ConcepNet review 80.1% Khó mở rộng ontology cho biến ngữ domain cảnh TripAdvisor Chỉ thực Hao chen Topic POSLDA, Zhou and modelling, Maximum cho Fei Song Lựa chọn Entropy unigram 95% đặc trưng, chia classifier tách ngữ nghĩa cú pháp câu Huang, J., Phát chủ Latent Rogers, S., đề phụ - Topic Dirichlet Yelp Không đề Chỉ thực cập unigram & Joo modelling Allocation (LDA) Ruhui Dự đốn Mơ hình Shen, trích lọc tuyến tính Jialiang bình luận hữu Locally cảnh bình Shen, ích cho Weighted luận Yuhong Li nhà hàng địa Regression phương (LOESS) Yan Các vấn đề Kỹ thuật Zhao,Hong chuyển đổi cú lei, et al pháp câu (2016) (2015) Yelp RMSLE of Không phát 0.47769 ngữ No_comp Kỹ thuật cộng hưởng _ssc= cộng hưởng cảm xúc 88.78% cảm xúc trước Manual_c chưa đạt độ thực omp_ssc= xác phân tích 88.5% cao Chinese blog cảm xúc Bảng So sánh hướng tiếp cận phân tích cảm xúc Trong nước, Nhóm tác giả Huong Nguyen Thi Xuan, Anh Cuong Le, (2012) [15] thực phân loại câu văn chứa xúc cảm hay không chứa cảm xúc dựa 22 mẫu phân tích mẫu sở cú pháp (syntax-based patterns) Phương pháp phân tích tác giả [15] dựa vào phân tích từ vựng để xác định từ loại từ câu văn sử dụng mẫu cú pháp để nhận dạng tính từ, cụm tính từ tương ứng; trợ động từ, động từ cụm động từ; danh từ cụm danh sở cú pháp mà tác giả đề xuất để thực trích xuất 3.1 Phƣơng pháp rút trích thơng tin Trích xuất thơng tin tìm thông tin cấu trúc, thông tin cần thiết từ tài liệu, truy vấn thơng tin tìm tài liệu liên quan, phần tài liệu liên quan từ kho liệu thư viện số nguồn tài liệu online để phản hồi cho người dùng tùy vào truy vấn cụ thể Các cơng trình nghiên cứu truy vấn rút trích thơng tin hướng tới phương pháp tối ưu nhằm cho kết phản hồi tốt hơn, gần với nhu cầu người dùng tập trung vào hướng sau Rút trích thuật ngữ (Terminology extraction): tìm kiếm thuật ngữ có liên quan, thể ngữ nghĩa, nội dung, chủ đề tài liệu hay tập tài liệu Rút trích thực thể (named entity recognition): việc rút trích thực thể tập trung vào phương pháp nhận diện đối tượng, thực thể như: tên người, tên công ty, tên tổ chức, địa danh, nơi chốn Rút trích quan hệ (Relationship Extraction): cần xác định mối quan hệ thực thể nhận biết từ tài liệu 3.1.1 Trích rút cụm từ Turney (2000) xem người giải tốn rút trích keyphrase dựa phương pháp học giám sát [13], nghiên cứu khác dùng heuristic, kỹ thuật phân tích n-gram, phương pháp mạng Neural KEA [14] thuật tốn trích xuất cụm từ khóa (keyphrases) từ liệu văn KEA xác định danh sách cụm ứng viên dùng phương pháp từ vựng học, sau tiến hành tính tốn giá trị đặc trưng cho ứng viên, tiếp đến dùng thuật toán học máy để tiên đoán xem cụm ứng viên cụm từ khóa Hiện KEA xem thuật toán đơn giản hiệu để rút keyphrases KEA dùng phương pháp học máy Nạve Bayes để huấn luyện rút trích keyphrase 3.1.2 Rút trích dựa nhận dạng thực thể Nhận diện thực thể có tên (NER-Named Entity Recognition) cơng việc thuộc lĩnh vực trích xuất thơng tin nhằm tìm kiếm, xác định phân lớp thành tố văn không cấu trúc thuộc vào nhóm thực thể xác định trước tên người, tổ chức, vị trí, biểu thức thời gian, số, giá trị tiền tệ, tỉ lệ phần trăm, v.v Thực thể có tên (Named Entity) có nhiều ứng dụng, đặc biệt lĩnh vực hiểu văn bản, dịch máy, truy vấn thông tin, hỏi đáp tự động Nhận diện thực thể có tên gồm tác vụ sau  Nhận diện thực thể có tên văn đầu vào  Gán nhãn cho thực thể có tên nhận diện Nhận diện thực thể đơn ngữ Nhận diện thực thể có tên đơn ngữ hướng tiếp cận đa dạng tính đến Sự đa dạng nằm việc phát triển nhiều ngôn ngữ đặc biệt ngôn ngữ khan tài nguyên tiếng Việt, Hoa Trong đó, với ngơn ngữ tiếng Anh, việc nhận diện thực thể có tên đạt độ xác cao Một số ứng dụng nhận diện thực thể công bố như: Standford NER, OpenNLP, NETTagger, GATE Gán nhãn thực thể Sau nhận dạng thực thể có tên, ta tiến hành gán nhãn cho thực thể loại nhãn, số lượng nhãn đa dạng, phụ thuộc vào mục đích ứng dụng Nhãn thực thể gồm loại :  Con người : tên người họ, bí danh, nghệ danh,  Tổ chức: tên tổ chức, quan, phủ, cơng ty, thực thể mang tính tổ chức  Địa điểm: tỉnh, thành phố, vùng lãnh thổ, vùng nước, núi, quỹ đạo, cấu trúc địa điểm, loại cơng trình  Thời gian: biểu thức thời gian ngày  Tiền tệ: biểu thức tiền tệ  Phần trăm: phần trăm Tuy nhiên, số cơng trình nghiên cứu tập trung vào việc xác định gán nhãn loại nhãn: người, tổ chức, địa điểm nhãn cịn lại tương đối dễ nhận dạng dựa vào từ điển, đặc trưng ngôn ngữ 3.2 Phƣơng pháp phân loại cảm xúc dựa học máy 3.2.1 Học có giám sát (Supervised Learning) Phương pháp học có giám sát kỹ thuật ngành Khoa học máy tính để xây dựng hàm từ liệu huấn luyện Dữ liệu huấn luyện bao gồm cặp gồm đối tượng đầu vào (thường dạng vec-tơ), đầu mong muốn Đầu hàm dự đoán nhãn cho đối tượng Các bước thực toán: - Để thực phân lớp, phải chuẩn bị tập liệu huấn luyện, để có tập liệu huấn luyện gán nhãn cho liệu ban đầu, gọi bước thu thập tập liệu huấn luyện - Lựa chọn thuật toán phân lớp, xây dựng mơ hình để học tập liệu huấn luyện Hay nói cách khác, dùng tập liệu huấn luyện để huấn luyện chương trình phân lớp Thuật ngữ học có giám sát hiểu học với liệu gán nhãn trước (các liệu kèm theo nhãn tương ứng coi giám sát) - Sử dụng tập liệu kiểm tra gán nhãn trước, để kiểm tra tính đắn mơ hình Sau đó, dùng mơ hình để phân lớp cho liệu Một vài thuật toán học giám sát:  Thuật tốn hồi quy logistic, Nạve Bayes  Thuật toán Máy vector hỗ trợ (Support Vector Machine)  Phương pháp K láng giềng gần (K Nearest Neighbours – KNN) 3.2.2 Học không giám sát - Học khơng có giám sát phương pháp ngành học máy tìm mơ hình phù hợp với quan sát Trong học khơng có giám sát, tập liệu đầu vào thu thập Học khơng có giám sát thường xử lý với đối tượng đầu vào tập biến ngẫu nhiên Sau đó, mơ hình kết hợp xây dựng cho tập liệu Có thể hiểu đơn giản sau Học không giám sát học với tập liệu huấn luyện ban đầu hoàn toàn chưa gán nhãn thường sử dụng cho lớp toán gom cụm, phân cụm (Clustering) Các bước để giải tốn học khơng giám sát: - Để thực phân cụm, trước tiên cần tập liệu huấn luyện (training dataset) – tập ví dụ học (training examples/instances) Trong đó, ví dụ học chứa thơng tin biểu diễn (ví dụ: vector giá trị thuộc tính), mà khơng có thơng tin nhãn lớp giá trị đầu mong muốn (expected output) - Áp dụng thuật tốn học khơng có giám sát (ví dụ k-Means) để học hàm/mơ hình mục tiêu (trong trường hợp hàm phân cụm ứng với thuật toán chọn) - Sử dụng phương pháp thử nghiệm (có thể kết hợp với tập liệu có gán nhãn) để đánh giá hiệu năng, chất lượng hàm mục tiêu học Một số thuật tốn học khơng giám sát: Có nhiều thuật tốn học khơng giám sát đời phát triển nhằm khai thác hiệu nguồn liệu chưa gán nhãn nhiều đa dạng Việc lựa chọn sử dụng thuật toán mục đích tốn K-means, HAC (Hierarchical Agglomerative Clustering), SOM (Self-Organizing Map)… Kết luận kiến nghị Trong chuyên đề này, thực khảo sát lược sử hướng tiếp cận cho tốn rút trích thơng tin - Nghiên cứu tổng qt lĩnh vực phân tích cảm xúc ứng dụng lĩnh vực đời sống thực nghiện phân tích cảm xúc với mơ hình học máy - Trích xuất nhóm cụm từ quan trọng để hỗ trợ định dựa sở cảm xúc cơng chúng vấn đề cần quan tâm - Khảo sát thuật toán học máy giám sát không giám sát, hướng tiếp cận ontology từ điển phục vụ cho công việc xây dựng mơ hình Tài liệu tham khảo [1] B Agarwal and N Mittal, “Optimal feature selection for sentiment analysis,” in Proceedings of the 14th International Conference on Intelligent Text Processing and Computational Linguistics (CICLing 13), vol 7817, pp 13–24, 2013 [2] A Basant, M Namita, B Pooja, Sonal Garg “Sentiment Analysis Using Common-Sense and Context Information” Hindawi Publishing Corporation Computational Intelligence and Neuroscience (2015) [3] RuiXia, FengXu, JianfeiYu,” Polarity shift detection, elimination and ensemble: A three stage model for document-level sentiment analysis” Information Processing and Management 52 (2016) 36– 45 [4] Y Ainur, Y Yisong, C Claire “Multi-level structured models for document-level sentiment classification”.Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, MIT, Massachusetts, Association for Computational Linguistics, USA (2010), pp 1046-1056 [5] F Noura, C Elie, A.A Rawad, H Hazem “Sentence-level and documentlevel sentiment mining for arabic texts”.Proceeding IEEE International Conference on Data Mining Workshops (2010) [6] Hao chen Zhou and Fei Song.(2015) “Aspect-level sentiment analysis based on a generalized probabilistic topic and syntax model” Proceedings of the Twenty-Eighth International Florida Artificial Intelligence Research Society Conference, Association for the Advancement of Artificial Intelligence (2015) [7] Ariyasriwatana, W., Buente, W., Oshiro, M., & Streveler, D (2014) Categorizing health-related cues to action: using Yelp reviews of restaurants in Hawaii New Review of Hypermedia and Multimedia, 20(4), 317-340 [8] Hicks, A., Comp, S., Horovitz, J., Hovarter, M., Miki, M., & Bevan, J L (2012) Why people use Yelp com: An exploration of uses and gratifications Computers in Human Behavior, 28(6), 2274-2279 [9] Huang, J., Rogers, S., & Joo, E (2014) “Improving restaurants by extracting subtopics from yelp reviews” iConference 2014 (Social Media Expo) [10] Ruhui Shen, Jialiang Shen, Yuhong Li & Haohan Wang (2016), ” Predicting usefulness of Yelp reviews with localized linear regression models”, 2016 7th IEEE International Conference on Software Engineering and Service Science (ICSESS) [11] Solov'ev A N., Antonova A Ju., Pazel'skaia A G., (2012), Using sentiment-analysis for text information extraction I-Teco (Moscow) [12] Wanxiang Che, Yanyan Zhao, Honglei Guo, Zhong Su, and Ting Liu,” Sentence Compression for spect-Based Sentiment Analysis” IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL 23, NO 12, DECEMBER 2015 [13] P.D Turney,(2000), “Learning algorithms for keyphrase extraction” Information Retrieval vol 2, no 4, pp 303 - 336 [14] I.H Witten, G.W Paynter, E Frank, C Gutwin and C.G Nevill- Manning.(1999) “KEA: Practical automatic Keyphrase Extraction.” The proceedings of Digital Libraries '99: The Fourth ACM Conference on Digital Libraries, pp 254-255 [15] Huong Nguyen Thi Xuan, Anh Cuong Le ; Le Minh Nguyen, (2012) ”Linguistic Features for Subjectivity classification“ Asian Language Processing (IALP), 2012 International Conference Xác nhận thực chuyên đề Chủ nhiệm đề tài 10 ... Phƣơng pháp nghiên cứu  Thu thập tài liệu tác giả trong, nước liên quan đến đề tài  Nghiên cứu báo phát triển lý thuyết phục vụ đề tài  Nghiên cứu thực nghiệm đánh giá kết dựa vào phương pháp... đề xuất mô hình PSDEE để phát cảm xúc khơng qn văn Nghiên cứu trình bày mơ hình ba giai đoạn để phân loại cảm xúc:(1) phát chuyển đổi phân cực, (2) loại bỏ phân cực phủ định, (3) chuyển đổi phân. .. Trong chuyên đề này, thực khảo sát lược sử hướng tiếp cận cho tốn rút trích thông tin - Nghiên cứu tổng quát lĩnh vực phân tích cảm xúc ứng dụng lĩnh vực đời sống thực nghiện phân tích cảm xúc

Định dạng
Số trang	12
Dung lượng	849,87 KB