Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 64 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
64
Dung lượng
338,66 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Đỗ Thị Thu Hà XÁC ĐỊNH BÀI VIẾT CHỨA Ý ĐỊNH NGƯỜI DÙNG TRÊN DIỄN ĐÀN LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2016 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Đỗ Thị Thu Hà XÁC ĐỊNH BÀI VIẾT CHỨA Ý ĐỊNH NGƯỜI DÙNG TRÊN DIỄN ĐÀN Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGÔ XUÂN BÁCH HÀ NỘI - 2016 i LỜI CAM ĐOAN Tơi xin cam đoan, luận văn cơng trình nghiên cứu khoa học thực thụ cá nhân, thực hướng dẫn khoa học TS Ngô Xuân Bách Các số liệu, kết nghiên cứu kết luận trình bày luận văn trung thực chưa công bố hình thức Tơi xin chịu trách nhiệm cơng trình nghiên cứu HỌC VIÊN Đỗ Thị Thu Hà ii LỜI CẢM ƠN Lời đầu tiên, xin chân thành cảm ơn TS Ngô Xuân Bách – Học viện Cơng nghệ Bưu Viễn Thơng, người trực tiếp hướng dẫn thực luận văn Với hướng dẫn, cung cấp tài liệu, động viên Thầy giúp tơi vượt qua nhiều khó khăn chun mơn suốt q trình thực luận văn Tôi xin chân thành cảm ơn, Ban Giám đốc, Ban chủ nhiệm Khoa Sau Đại học Khoa Công nghệ Thông tin, Thầy, Cô giảng dạy quản lý đào tạo suốt hai năm theo học Học viện Cơng nghệ Bưu Viễn thơng Tơi xin chân thành cảm ơn, Hội đồng chấm đề cương đưa góp ý cho đề cương luận văn, giúp tơi xác định rõ hồn thiện mục đích nội dung cho luận văn Cuối cùng, tơi xin cảm ơn gia đình, bạn bè, đồng nghiệp động viên, tạo điều kiện cho suốt thời gian học tập nghiên cứu Một lần nữa, xin chân thành cảm ơn ! iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC .iii DANH MỤC KÝ HIỆU, VIẾT TẮT vi DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH VẼ viii MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN BÀI TOÁN PHÁT HIỆN Ý ĐỊNH NGƯỜI DÙNG 1.1 Xử lý ngôn ngữ tự nhiên 1.2 Khái niệm phân loại văn 1.2.1 Bài toán phân loại văn 1.3 Bài toán phát ý định người dùng diễn đàn 1.4 Các nghiên cứu liên quan 1.5 Kết chương 10 CHƯƠNG 2: CÁC PHƯƠNG PHÁP PHÁT HIỆN Ý ĐỊNH NGƯỜI DÙNG DỰA TRÊN HỌC MÁY 11 2.1 Phương pháp giải toán 11 2.2 Các phương pháp biểu diễn đặc trưng văn 12 2.2.1 Phương pháp TF-IDF 12 a Giới thiệu phương pháp 12 2.2.2 Phương pháp N-Gram 16 a Giới thiệu phương pháp 16 b Cơng thức tính “xác suất thô” 17 2.3 Các phương pháp học máy xây dựng mô hình phân lớp liệu 18 iv 2.3.1 Phương pháp Naïve Bayes 18 a Định lý Bayes 18 b Mạng Bayes (Bayesian Network) 19 c Khái niệm mạng Bayes 19 d Tính độc lập xác suất mạng Bayes 20 e Cách xây dựng mạng Bayes 21 f Phân lớp Naive Bayes 22 2.3.2 Phương pháp SVM (Support Vector Machine) .22 a Giới thiệu phương pháp 22 b Thuật toán SVM 23 c Huấn luyện SVM 25 d Các ưu SVM phân lớp văn 26 2.4 Xây dựng chương trình giải tốn 27 2.4.1 Thuật toán EM 27 2.4.2 Thuật toán FS-EM 29 2.4.3 Thuật toán Co-Class 30 2.5 Kết chương 32 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 33 3.1 Dữ liệu thực nghiệm 33 3.2 Thiết lập thực nghiệm 34 3.3 Công cụ thực nghiệm 34 3.3.1 Thực nghiệm miền liệu 35 3.3.2 Thực nghiệm miền liệu 36 a Kịch 36 b Kịch 37 3.4 Kết thực nghiệm 37 v 3.4.1 Thực nghiệm miền liệu 37 3.4.2 Thực nghiệm miền liệu 38 a Kịch 38 b Kịch 39 3.4.3 So sánh kết thực nghiệm Co-Class với thuật toán khác 42 3.5 Nhận xét thực nghiệm kết luận 44 KẾT LUẬN VÀ KIẾN NGHỊ 46 PHỤ LỤC 47 TÀI LIỆU THAM KHẢO 49 vi DANH MỤC KÝ HIỆU, VIẾT TẮT EM Expectation NPL Natural lan OCI Online com SVM Support Ve vii DANH MỤC CÁC BẢNG Bảng 3.1: Danh sách trang web thu thập liệu 33 Bảng 3.2: Danh sách tập liệu thu nhãn liệu 33 Bảng 3.3: Độ xác trung bình thực nghiệm liệu miền .38 Bảng 3.4: Độ xác thực nghiệm liệu khác miền kịch .39 Bảng 3.5: Độ xác thực nghiệm chủ đề “Điện thoại”, “Điện tử” 40 Bảng 3.6: Độ xác thực nghiệm chủ đề “Camera”, “TV” 41 viii DANH MỤC CÁC HÌNH VẼ Hình 1.1: Bài toán phân lớp văn Hình 1.2: Bài tốn phát ý định người dùng Hình 2.1: Phương pháp xây dựng chương trình cho tốn .11 Hình 2.2: Mơ tả mơ hình vector văn 14 Hình 3.1: So sánh độ xác thực nghiệm miền thuật tốn 42 Hình 3.2: So sánh độ xác thực nghiệm chéo miền thuật tốn 43 Hình 3.3: So sánh độ xác thực nghiệm chéo miền thuật toán 43 Sau thực thực nghiệm miền liệu với kịch 1, lấy liệu miền làm liệu học liệu miền lại làm liệu chưa gán nhãn ta thu kết thống kê lại bảng đây: 39 Bảng 3.4: Độ xác thực nghiệm liệu khác miền kịch Chủ đề Điện thoại Điện tử TV Camera Khi thực nghiệm với miền liệu với kịch nêu phần trước, với kết thu bảng, ta nhận thấy: - Độ xác áp dụng thuật toán gán nhãn liệu rơi vào khoảng c61-76%, mức tương đối xác - Trong đó, thực nghiệm liệu học từ chủ đề “Điện thoại”, “TV”, “Camera” để áp dụng cho liệu kiểm tra chủ đề “Điện tử” đem lại kết xác thấp - Kết thực nghiệm với thuật toán phân lớp SVM đưa độ xác trung bình cao so với thuật tốn Nạve Bayes, áp dụng thuật tốn trích chọn đặc trưng N3-Gram kết hợp với thuật toán phân lớp SVM có kết xác cao b Kịch Sau thực thực nghiệm miền liệu với kịch 2, lấy liệu miền làm liệu học liệu miền lại làm liệu chưa gán nhãn ta thu kết thống kê lại bảng đây: 40 Bảng 3.5: Độ xác thực nghiệm chủ đề “Điện thoại”, “Điện tử” Dữ liệu Dữ NẠVE BAYES SVM 41 Bảng 3.6: Độ xác thực nghiệm chủ đề “Camera”, “TV” Dữ liệu kiểm thử Dữ liệu học TFIDF NAÏVE BAYES N1Gram N2Gram N3Gram TFIDF N1Gram SVM N2Gram N3Gram Khi thực nghiệm với miền liệu với kịch nêu phần trước, với kết thu bảng, ta nhận thấy: - Độ xác áp dụng thuật toán gán nhãn liệu rơi vào khoảng 59-71%, mức xác - Trong áp dụng từng chủ đề chủ đề “Điện thoại”, “TV”, “Camera” làm liệu học, sử dụng liệu chủ đề “Điện tử” làm liệu kiểm thử, độ xác áp dụng với chủ đề “Điện tử” đem lại kết xác thấp - Thuật tốn phân lớp liệu SVM đem lại độ xác gán nhãn cao so với thuật tốn Nạve Bayes áp dụng với kịch liệu chéo miền 42 - Khi áp dụng thực nghiệm miền liệu khác nhau, với thuật tốn trích chọn đặc trưng thuật tốn N3-Gram kết hợp với thuật toán phân lớp văn SVM đưa lại kết gán nhãn cao 3.4.3 So sánh kết thực nghiệm Co-Class với thuật toán khác Thực nghiệm liệu miền Khi thực nghiệm so sánh kịch phân loại với thuật toán EM, FS-EM Co-Class ta thu đồ thị phân loại đây: So sánh thuật toán trường hợp liệu miền 71.0 70.0 69.0 68.0 67.8 67.3 67.0 66.5 66.0 65.0 64.0 63.0 62.0 Co-Class 61.0 Hình 3.1: So sánh độ xác thực nghiệm miền thuật toán Ta nhận thấy, thực nghiệm miền liệu, kết xác định ý định văn không chênh lệch nhiều áp dụng thuật toán EM, FS-EM, CoClass, thuật toán Co-Class chưa hẳn vượt trội độ xác so với thuật tốn trước Ngay số trường hợp thực nghiệm áp dụng thuật tốn FS-EM đưa kết xác so với Co-Class Thực nghiệm liệu chéo miền 43 Tiếp theo, ta thực nghiệm với liệu trái miền, với kịch bản, ta thu kết dồ thị So sánh thuật toán trường hợp liệu chéo miền kịch 80.0 70.0 66.1 62.8 60.0 50.0 46.5 40.0 30.0 20.0 10.0 0.0 Co-Class Hình 3.2: So sánh độ xác thực nghiệm chéo miền thuật toán So sánh thuật toán trường hợp liệu chéo miền kịch 80.0 70.0 60.0 50.0 40.0 30.0 20.0 10.0 0.0 Hình 3.3: So sánh độ xác thực nghiệm chéo miền thuật toán 44 Nhận thấy, thực nghiệm miền liệu khác nhau, kết xác định ý định văn cho thấy chênh lệch rõ ràng áp dụng thuật toán EM, FS-EM, Co-Class Thuật toán Co-Class thể điểm mạnh áp dụng trường hợp liệu chéo miền Trong - Thuật tốn EM thể khả phân loại yếu thuật tốn Độ xác thuật tốn thấp, khoảng 39-54% - Thuật tốn FS-EM có độ xác mức tương đối xác 5366% - Và Thuật toán Co-Class đưa lại kết gán nhãn hiệu thực nghiệm xác định ý định văn bản, trường hợp áp dụng kết hợp thuật tốn trích chọn đặc trưng N3-Gram thuật toán phân lớp SVM, thuật tốn Co-Class đưa kết phân loại xác đến 71% 3.5 Nhận xét thực nghiệm kết luận Khi áp dụng thuật toán Co-Class vào toán xác định ý định người dùng, ta nhận thấy: - Khi áp dụng gán nhãn chủ đề định, thuật tốn phân lớp Nạve Bayes đem lại kết cao so với thuật toán SVM Có thể nói, thuật tốn Nạve Bayes phù hợp với toán phân loại liệu miền so với thuật toán SVM Và ngược lại, thuật toán SVM đem lại kết cao áp dụng thử nghiệm với trường hợp liệu chéo miền - Thuật tốn SVM đưa kết xác với văn ngắn 5070 từ, xác định với văn dài lớn 150 từ bị ảnh hưởng liệu nhiễu dẫn đến thuật toán SVM xác định thiếu xác - Khi thực nghiệm xác định tập liệu, với thuật toán EM, cho kết xác định ý định xác so với thuật tốn cịn lại thuật toán FS-EM thuật toán Co-Class - Khi thực nghiệm miền liệu khác nhau, thuật toán EM đưa kết xác thấp, thuật tốn FS-EM đưa kết 45 xác so với Co-Class Việc để xác định ý định người dùng ta chưa thể thu thập liệu tập học riêng chủ đề vấn đề hay xảy ra, thuật toán Co-Class thể ưu điểm tình liệu để học máy không thuộc chủ đề định (kịch gộp chủ đề làm liệu học) hay áp dụng liệu học máy chủ đề khác, không liên quan với chủ đề kiểm tra (kịch lấy liệu chủ đề khác không miền liệu làm liệu học) - Kết thực nghiệm Co-Class với liệu trái miền đem lại kết cao xấp xỉ bằng với kết xác định ý định văn liệu miền Như vậy, từ kết thực nghiệm thu cho thấy Co-Class giúp cho việc xác định ý định văn đạt độ xác cao sẽ khơng gặp khó khăn lớn áp dụng chủ đề việc chưa có liệu học máy chủ đề sẽ khơng cịn trở ngại lớn xác định ý định người dùng 46 KẾT LUẬN VÀ KIẾN NGHỊ Luận văn tập trung nghiên cứu phát xác ý định người viết diễn đàn thảo luận Trong luận văn tập trung nghiên cứu sâu phương pháp biểu diễn đặc trưng văn (N-grams, TF-IDF), phương pháp học máy để xây dựng mơ hình phân lớp liệu (Nạve Bayes, SVM) đưa toán phát ý định người dùng áp dụng miền liệu miền chéo miền Cụ thể, luận văn đạt số kết sau: - Nghiên cứu mơ hình biểu diễn đặc trưng văn bản, mơ hình phân lớp liệu áp dụng tốn xác định ý định người viết - Đề xuất số cải tiến nhằm nâng cao độ xác việc phát ý định người dùng thông qua viết - Áp dụng thuật toán nâng cao độ xác, thực nghiệm đánh giá kết Trong tương lai, luận văn phát triển theo hướng: - Nghiên cứu phương pháp nâng cao độ xác cải thiện tốc độ xử lý việc phát văn chứa ý định người dùng - Nghiên cứu phương pháp thu thập liệu tự động, từ kết hợp với hệ thống tư vấn, quảng cáo để đưa quảng cáo phù hợp, với lượng người quan tâm cao 47 PHỤ LỤC Xây dựng ứng dụng Ứng dụng hỗ trợ người dùng sẽ xây dựng bằng ngôn ngữ Java sử dụng mơi trường máy tính, u cầu cấu hình máy tính cài đặt mơi trường: Java JDK7 Chi tiết chức năng, kiến trúc giao diện mô tả Chức ứng dụng bao gồm: - Dựa vào văn người dùng đưa ra, ứng dụng xử lý đưa ý định văn có muốn mua sản phẩm hay không - Ứng dụng xử lý liệu đưa chủ đề sản phẩm mà người dùng muốn mua muốn tìm hiểu thêm Từ tích hợp với hệ thống quảng cáo để đưa quảng cáo phù hợp với văn Giao diện ứng dụng sau: Hình 1: Giao diện ứng dụng 48 Hình 2: Mô tả ứng dụng Ứng dụng gồm vùng liệu chính: - Vùng 1: Nhập liệu, văn cần xác định ý định - Vùng 2: Kết xác định ý định người dùng (Có ý định khơng có ý định) - Vùng 3: Đưa chủ đề, sản phẩm văn nói đến VD: Chủ đề điện thoại, TV… Để sử dụng ứng dụng ta thực bước sau: - Bước 1: Nhập văn vào vùng liệu - Bước 2: Nhấn vào nút xác định ý định người dùng để kiểm tra kết kết sẽ ta vùng liệu hình 49 TÀI LIỆU THAM KHẢO [1] Ngo Xuan Bach, Tu Minh Phuong, “Leveraging User Ratings for ResourcePoor Sentiment Classification”, In Proceedings of the 19th International Conference on Knowledge-Based and Intelligent Information & Engineering Systems (KES), Procedia Computer Science, pp 322–331, 2015 [2] Nguyen Thi Duyen, Ngo Xuan Bach, Tu Minh Phuong, “An Empirical Study on Sentiment Analysis for Vietnamese” In Proceedings of the International Conference on Advanced Technologies for Communications (ATC), Special session on Computational Science and Computational Intelligence (CSCI), pp 309-314, 2014 [3] Zhiyuan Chen, Bing Liu, Meichun Hsu, Malu Castellanos, and Riddhiman Ghosh, “Identifying Intention Posts in Discussion Forums”, 2013 [4] Honghua (Kathy) Dai, Lingzhi Zhao, Zaiqing Nie, Ji-Rong Wen, Lee Wang, Ying Li, “Detecting online commercial intention (OCI)”, 2006 [5] Steve R Gunn, “Support Vector Machines for Classification and Regression”, 1998 [6] R A S C Jayasanka, M D T Madhushani, E R Marcus, I A A U Aberathne, S C Premaratne “Sentiment Analysis for Social Media”, 2014 [7] Hiroshi Kanayama, Tetsuya Nasukawa , “Textual demand analysis: detection of users' wants and needs from opinions”, 2008 [8] Fariba Sadri, Weikun Wang, Afroditi Xafi, “Intention Recognition with Clustering”, 2012 [9] P Hiroshi Shimodaira, “Text Classification using Naive Bayes”, 2015 ... giải toán xác định ý định người dùng sau: - Xác định viết có chứa ý định rõ ràng - Giữa thông tin gây nhiễu, xác định xác ý định viết thể - Nghiên cứu áp dụng toán xác định ý định người dùng trường... xác định ý định người dùng sẽ làm rõ vấn đề sau: - Xác định viết có chứa ý định viết khơng có ý định - Việc xử lý tập liệu để trích xuất đâu liệu nhiễu không liên quan tới ý định người dùng để... để xác định ý định cho liệu miền liệu khác mà đạt kết xác cao quan trọng Như chương trình bày, phần đề tài trình bày rõ phương pháp xác định ý định người dùng diễn đàn Phương pháp áp dụng xác định