Xây dựng mô hình thuật toán rút dữ liệu trực tuyến từ mạng xã hội theo thời gian thực real time

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT CÔNG NGHỆ Tên đề tài: NGHIÊN CỨU RÚT TRÍCH THƠNG TIN DỰA TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC Mã số: Chun đề: Xây dựng mơ hình thuật tốn rút liệu trực tuyến từ mạng xã hội theo thời gian thực real-time Chủ nhiệm đề tài : ThS.Nguyễn Tấn Lộc Người chủ trì thực chuyên đề : ThS.Nguyễn Tấn Lộc Bình Dương, 08/01/2018 Mục lục Đặt vấn đề Phương pháp xây dựng mơ hình Nội dung nghiên cứu 3.1 Thu thập liệu Yelp 3.2 Tiền xử lý liệu 3.3 Phương pháp phân tích văn 3.3.1 Mơ hình N-gram 3.3.2 Phương pháp thống kê TF-IDF 3.3.3 Xây dựng mơ hình huấn luyện với hồi quy logistic 3.3.4 Phương pháp đánh giá mơ hình 3.3.5 Tối ưu tham số cho mơ hình Kết luận kiến nghị Tài liệu tham khảo Danh mục chữ viết tắt TF: term frequency IDF: inverse document frequency TF.IDF: term frequency inverse document frequency DTM: document term matrix Logistic: hồi quy logistic P(A): Xác xuất kiện A NER: Named Entity Recognition SoA: Sentiment analysis – Phân tích cảm xúc Đặt vấn đề Trong phần này, khảo sát phương pháp hướng tiếp cận xây dựng mơ hình phân tích cảm xúc Kiến trúc hệ thống rút trích thơng tin đề xuất hình gồm 02 giai đoạn - Giai đoạn 1: thực phân loại mức độ cảm xúc tích cực hay tiêu cực - Giai đoạn 2: Cơng việc trích xuất thông tin thực sau phân loại cảm xúc Các bình luận khơng chứa quan điểm cảm xúc trung tính loại bỏ Phương pháp xây dựng mơ hình Hình Kiến trúc hệ thống Nội dung nghiên cứu 3.1 Thu thập liệu Yelp gồm có 05 phần Cung cấp 566.000 thông tin kinh doanh 2,2 triệu đánh giá bình luận khách hàng với kích thước 2GB Đối với phân tích này, chúng tơi tập trung vào đánh giá khía cạnh ẩm thực cho nhà hàng từ bình luận.Sau trích lọc theo danh mục quốc gia, chúng tơi thu 80.266 dịng bình luận Hình Thống kê nhà hàng quốc gia 3.2 Tiền xử lý liệu Tập liệu doanh nghiệp kết hợp với tập liệu bình luận xếp tổ chức theo quốc gia Các từ dịng bình luận tách gỡ bỏ ký hiệu chấm câu, ký hiệu đặc biệt, từ stop word, chuẩn hóa chữ thường xây dựng ma trận mô tả tần suất từ tài liệu (document term matrix) Trong thực nghiệm này, liệu chia thành 02 phần: liệu huấn luyện mơ hình với tỉ lệ 70% liệu kiểm tra mơ hình 30% 3.3 Phương pháp phân tích văn Dữ liệu bình luận thu thập dạng văn không cấu trúc, để áp dụng giải thuật học máy giai đoạn xử lý liệu dạng bảng Để giải vấn đề này, mơ hình túi từ (Harris, 1954), (Salton et al., 1975) cho phép tổ chức tập văn dạng cấu trúc bảng - vector tài liệu (Term Document Matrix) STT Nôi dung Phân loại The Pho is so good The Services was bad -1 I like Pho … n Bảng1.Tài liệu văn STT 1- 2- The Pho 1 … 3-Serviecs m-Good Phân loại 0 1 -1 0 … n Bảng 2.Ma trận tần số từ, cụm từ Văn biểu diễn dạng véc tơ (có n dịng văn bả , m cột chiều- thuộc tính) mà giá trị thành phần thứ j tần số xuất từ thứ j văn Nếu xét tập D gồm n văn tự điển có m từ vựng, D biểu diễn thành bảng kích thước n×m, dịng thứ i bảng véctơ biểu diễn văn thứ i tương ứng 3.3.1 Mơ hình N-gram N-gram tần suất xuất từ kho ngữ liệu (corpus) Mơ hình áp dụng nhiều lĩnh vực xử lý ngơn ngữ tự nhiên như: kiểm lỗi tả, dịch máy hay phân đoạn từ N-gram với độ dài gọi unigram, độ dài gọi bigram, độ dài gọi trigram, độ dài n gọi chung N-gram Ví dụ :  Unigram: : 1000 có nghĩa tần số xuất từ 1000 lần corpus  Bigram: viet :10 có nghĩa tần số xuất cụm từ viet 10 lần corpus Nhiệm vụ mơ hình ngơn ngữ cho biết xác suất từ cụm từ W = w1w2 wm Theo cơng thức Bayes: P(AB) = P(B|A) * P(A), thì: P(w1w2…wm) = P(w1) * P(w2|w1) * P(w3|w1w2) *…* P(wm|w1w2…wm-1) (3.1) Theo cơng thức này, mơ hình ngơn ngữ cần phải có lượng nhớ vơ lớn để lưu hết xác suất tất chuỗi từ có độ dài nhỏ m Rõ ràng, điều m độ dài văn ngơn ngữ tự nhiên (m tiến tới vơ cùng) Để tính xác suất văn với lượng nhớ chấp nhận được, ta sử dụng xấp xỉ Markov bậc n: P(wm|w1,w2,…, wm-1) = P(wm|wm-n,wm-n+1, …,wm-1) (3.2) Nếu áp dụng xấp xỉ Markov, xác suất xuất từ (wm) coi phụ thuộc vào n từ đứng liền trước (wm-nwm-n+1…wm-1) khơng phải phụ thuộc vào tồn dãy từ đứng trước (w1w2…wm-1) Như vậy, cơng thức tính xác suất văn tính lại theo cơng thức: P(w1w2…wm) = P(w1) * P(w2|w1) * P(w3|w1w2) *…* P(wm-1|wm-n-1wm-n …wm-2)* P(wm|wm-nwm-n+1…wm-1) (3.3) Với cơng thức này, ta xây dựng mơ hình ngơn ngữ dựa việc thống kê cụm có n+1 từ Mơ hình ngơn ngữ gọi mơ hình ngơn ngữ Ngram Một cụm N-gram dãy gồm n phần tử liên tiếp dãy phần tử cho trước 3.3.2 Phương pháp thống kê TF-IDF Phương pháp cịn gọi mơ hình túi từ (bag-of-words), sử dụng mơ hình trọng số TF.IDF (term frequency inverse document frequence) TF.IDF trọng số từ văn thu qua thống kê thể mức độ quan trọng từ văn bản, mà thân văn xét nằm tập hợp văn Hình Phương pháp TF-IDF TF-term frequency : dùng để ước lượng tần xuất xuất từ văn Tuy nhiên với văn có độ dài khác nhau, số lần xuất từ nhiều Vì số lần xuất từ chia độ dài văn (tổng số từ văn đó) TF(t, d) = ( số lần từ t xuất văn d) / (tổng số từ văn d) IDF- Inverse Document Frequency: ước tính mức độ ảnh hưởng từ Khi tính tần số xuất tf từ coi quan trọng Tuy nhiên có số từ thường được sử dụng nhiều không quan trọng để thể ý nghĩa đoạn văn , ví dụ :  Từ nối: và, nhưng, nhiên, thế, vậy, …  Giới từ: ở, trong, trên, …  Từ định: ấy, đó, nhỉ, … Vì vậy, IDF tìm cách co lại trọng số tương ứng với từ khóa xuất nhiều văn IDF(t,D)=log(N/|D(t)|) (3.4) Với N tổng số tài liệu văn bản, D(w): số văn chứa từ t Trọng số từ (TF.IDF) tích tần suất từ khóa TF nghịch đảo số văn chứa từ khóa xác định cơng thức: TF.IDF = f(t).log(N/|D(t)|) (3.5) Trong f(t) hàm tính tần số cụm từ t 3.3.3 Xây dựng mơ hình huấn luyện với hồi quy logistic Mơ hình hồi qui logistic tổng quát với k yếu tố nguy x1,x2,…xk mơ tả phương trình sau (3.6) Trong đó, z định nghĩa sau: z= + z= : hệ số chặn (intercept) Giá trị z tất biến độc lập β1, β2, …βk: hệ số hồi qui cho từ x1, x2,…, xk Hệ số hồi qui cho biết hướng mức độ ảnh hưởng yếu tố đến xác suất Nếu hệ số hồ qui dương yếu tố nguy làm tăng xác suất xảy kiện ngược lại Đồ thị hồi qui logistic có trục hồnh giá trị z trục tung giá trị f(z) tương ứng xác suất xảy kiện) z nhận giá trị âm dương f(z) nhận giá trị khoảng p(y=1|x p(y= -1|x =f( =1-f( )=f(z) )=1-f(z) Hình Mơ hình hồi quy logistic 3.3.4 Phương pháp đánh giá hiệu suất phân loại cảm xúc Để đánh giá chất lượng hệ thống, báo sử dụng hai độ đo: độ xác (precision) độ bao phủ (recall) 02 độ đo tính tốn theo cơng thức sau: Giá trị thực tế Bảng a b c d Ma trân đánh giá hệ thống phân loại (3.7) (3.8) Trong đó: a: số lượng bình luận có nhãn tích cực phân loại tích cực b: số lượng bình luận có nhãn tích cực phân loại tiêu cực c: số lượng bình luận có nhãn tiêu cực phân loại tích cực d: số lượng bình luận có nhãn tiêu cực phân loại tiêu cực 3.3.5 Tối ưu tham số cho mơ hình Hàm Loss function gọi hàm mát Chúng ta mong muốn sai số nhỏ nhất, đồng nghĩa với việc tìm vector hệ số cho giá trị hàm mát nhỏ tốt giảm thiểu vấn đề overfitting = (3.9) J( )= Vấn đề chọn tối ưu tham số lamda để tối thiểu hàm loss function với L2 Norm (3.10) Trong trình thực nghiệm, đánh giá hiệu suất với giá trị C=[0.01,100] với C=1/ , C nhận giá trị lớn mức độ chuẩn hóa thấp (overfitting), ngược lại C có giá trị nhỏ độ chuẩn hóa cao chọn giá trị tối ưu cho mơ hình hồi quy logistic C=0.2154 Kết luận kiến nghị Trong chuyên đề này, thực khảo sát lược sử hướng tiếp cận xây dựng mơ hình cho tốn rút trích thơng tin - Nghiên cứuvề phương pháp TF-IDF, N-Gram cho mức độ từ (word) phân tích cảm xúc - Nghiên cứu phương pháp đánh giá phân loại sử dụng confusion matrix - Tối ưu hóa hàm mát (Loss function) - Chuẩn hóa mơ hình tránh overfitting L2-norm Tài liệu tham khảo [1] B Agarwal and N Mittal, “Optimal feature selection for sentiment analysis,” in Proceedings of the 14th International Conference on Intelligent Text Processing and Computational Linguistics (CICLing 13), vol 7817, pp 13–24, 2013 [2] A Basant, M Namita, B Pooja, Sonal Garg “Sentiment Analysis Using Common-Sense and Context Information” Hindawi Publishing Corporation Computational Intelligence and Neuroscience (2015) [3] RuiXia, FengXu, JianfeiYu,” Polarity shift detection, elimination and ensemble: A three stage model for document-level sentiment analysis” Information Processing and Management 52 (2016) 36– 45 [4] Y Ainur, Y Yisong, C Claire “Multi-level structured models for document-level sentiment classification”.Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, MIT, Massachusetts, Association for Computational Linguistics, USA (2010), pp 1046-1056 [5] F Noura, C Elie, A.A Rawad, H Hazem “Sentence-level and documentlevel sentiment mining for arabic texts”.Proceeding IEEE International Conference on Data Mining Workshops (2010) [6] Hao chen Zhou and Fei Song.(2015) “Aspect-level sentiment analysis based on a generalized probabilistic topic and syntax model” Proceedings of the Twenty-Eighth International Florida Artificial Intelligence Research Society Conference, Association for the Advancement of Artificial Intelligence (2015) [7] Ariyasriwatana, W., Buente, W., Oshiro, M., & Streveler, D (2014) Categorizing health-related cues to action: using Yelp reviews of restaurants in Hawaii New Review of Hypermedia and Multimedia, 20(4), 317-340 [8] Hicks, A., Comp, S., Horovitz, J., Hovarter, M., Miki, M., & Bevan, J L (2012) Why people use Yelp com: An exploration of uses and gratifications Computers in Human Behavior, 28(6), 2274-2279 [9] Huang, J., Rogers, S., & Joo, E (2014) “Improving restaurants by extracting subtopics from yelp reviews” iConference 2014 (Social Media Expo) [10] Ruhui Shen, Jialiang Shen, Yuhong Li & Haohan Wang (2016), ” Predicting usefulness of Yelp reviews with localized linear regression models”, 2016 7th IEEE International Conference on Software Engineering and Service Science (ICSESS) [11] Solov'ev A N., Antonova A Ju., Pazel'skaia A G., (2012), Using sentiment-analysis for text information extraction I-Teco (Moscow) [12] P.D Turney,(2000), “Learning algorithms for keyphrase extraction” Information Retrieval vol 2, no 4, pp 303 - 336 [13] I.H Witten, G.W Paynter, E Frank, C Gutwin and C.G Nevill- Manning.(1999) “KEA: Practical automatic Keyphrase Extraction.” The proceedings of Digital Libraries '99: The Fourth ACM Conference on Digital Libraries, pp 254-255 [14] Huong Nguyen Thi Xuan, Anh Cuong Le ; Le Minh Nguyen, (2012) ”Linguistic Features for Subjectivity classification“ Asian Language Processing (IALP), 2012 International Conference Xác nhận thực chuyên đề Chủ nhiệm đề tài ... tập liệu bình luận xếp tổ chức theo quốc gia Các từ dịng bình luận tách gỡ bỏ ký hiệu chấm câu, ký hiệu đặc biệt, từ stop word, chuẩn hóa chữ thường xây dựng ma trận mô tả tần suất từ tài liệu. .. (document term matrix) Trong thực nghiệm này, liệu chia thành 02 phần: liệu huấn luyện mơ hình với tỉ lệ 70% liệu kiểm tra mơ hình 30% 3.3 Phương pháp phân tích văn Dữ liệu bình luận thu thập dạng... SoA: Sentiment analysis – Phân tích cảm xúc Đặt vấn đề Trong phần này, khảo sát phương pháp hướng tiếp cận xây dựng mơ hình phân tích cảm xúc Kiến trúc hệ thống rút trích thơng tin đề xuất hình

Định dạng
Số trang	11
Dung lượng	873,51 KB