Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
1,66 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Đỗ Thị Thu Hà XÁC ĐỊNH BÀI VIẾT CHỨA Ý ĐỊNH NGƯỜI DÙNG TRÊN DIỄN ĐÀN LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2016 Luan van HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Đỗ Thị Thu Hà XÁC ĐỊNH BÀI VIẾT CHỨA Ý ĐỊNH NGƯỜI DÙNG TRÊN DIỄN ĐÀN Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGÔ XUÂN BÁCH HÀ NỘI - 2016 Luan van i LỜI CAM ĐOAN Tôi xin cam đoan, luận văn cơng trình nghiên cứu khoa học thực thụ cá nhân, thực hướng dẫn khoa học TS Ngô Xuân Bách Các số liệu, kết nghiên cứu kết luận trình bày luận văn trung thực chưa công bố hình thức Tơi xin chịu trách nhiệm cơng trình nghiên cứu HỌC VIÊN Đỗ Thị Thu Hà Luan van ii LỜI CẢM ƠN Lời đầu tiên, xin chân thành cảm ơn TS Ngô Xuân Bách – Học viện Công nghệ Bưu Viễn Thơng, người trực tiếp hướng dẫn tơi thực luận văn Với hướng dẫn, cung cấp tài liệu, động viên Thầy giúp vượt qua nhiều khó khăn chun mơn suốt q trình thực luận văn Tơi xin chân thành cảm ơn, Ban Giám đốc, Ban chủ nhiệm Khoa Sau Đại học Khoa Công nghệ Thông tin, Thầy, Cô giảng dạy quản lý đào tạo suốt hai năm theo học Học viện Công nghệ Bưu Viễn thơng Tơi xin chân thành cảm ơn, Hội đồng chấm đề cương đưa góp ý cho đề cương luận văn, giúp xác định rõ hồn thiện mục đích nội dung cho luận văn Cuối cùng, xin cảm ơn gia đình, bạn bè, đồng nghiệp động viên, tạo điều kiện cho suốt thời gian học tập nghiên cứu Một lần nữa, xin chân thành cảm ơn ! Luan van iii MỤC LỤC LỜI CAM ĐOAN .i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC KÝ HIỆU, VIẾT TẮT vi DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH VẼ viii MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN BÀI TOÁN PHÁT HIỆN Ý ĐỊNH NGƯỜI DÙNG 1.1 Xử lý ngôn ngữ tự nhiên 1.2 Khái niệm phân loại văn 1.2.1 Bài toán phân loại văn 1.3 Bài toán phát ý định người dùng diễn đàn 1.4 Các nghiên cứu liên quan 1.5 Kết chương 10 CHƯƠNG 2: CÁC PHƯƠNG PHÁP PHÁT HIỆN Ý ĐỊNH NGƯỜI DÙNG DỰA TRÊN HỌC MÁY 11 2.1 Phương pháp giải toán 11 2.2 Các phương pháp biểu diễn đặc trưng văn 12 2.2.1 Phương pháp TF-IDF 12 a Giới thiệu phương pháp 12 2.2.2 Phương pháp N-Gram 16 a Giới thiệu phương pháp 16 b Cơng thức tính “xác suất thơ” 17 2.3 Các phương pháp học máy xây dựng mơ hình phân lớp liệu 18 Luan van iv 2.3.1 Phương pháp Naïve Bayes 18 a Định lý Bayes 18 b Mạng Bayes (Bayesian Network) 19 c Khái niệm mạng Bayes 19 d Tính độc lập xác suất mạng Bayes 20 e Cách xây dựng mạng Bayes 21 f Phân lớp Naive Bayes 22 2.3.2 Phương pháp SVM (Support Vector Machine) 22 a Giới thiệu phương pháp 22 b Thuật toán SVM 23 c Huấn luyện SVM 25 d Các ưu SVM phân lớp văn 26 2.4 Xây dựng chương trình giải tốn 27 2.4.1 Thuật toán EM 27 2.4.2 Thuật toán FS-EM 29 2.4.3 Thuật toán Co-Class 30 2.5 Kết chương 32 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 33 3.1 Dữ liệu thực nghiệm 33 3.2 Thiết lập thực nghiệm 34 3.3 Công cụ thực nghiệm 34 3.3.1 Thực nghiệm miền liệu 35 3.3.2 Thực nghiệm miền liệu 36 a Kịch 36 b Kịch 37 3.4 Kết thực nghiệm 37 Luan van v 3.4.1 Thực nghiệm miền liệu 37 3.4.2 Thực nghiệm miền liệu 38 a Kịch 38 b Kịch 39 3.4.3 So sánh kết thực nghiệm Co-Class với thuật toán khác 42 3.5 Nhận xét thực nghiệm kết luận 44 KẾT LUẬN VÀ KIẾN NGHỊ 46 PHỤ LỤC 47 TÀI LIỆU THAM KHẢO 49 Luan van vi DANH MỤC KÝ HIỆU, VIẾT TẮT EM Expectation - Maximization Cực đại hóa kỳ vọng NPL Natural language processing Xử lý ngôn ngữ tự nhiên OCI Online commercial intention Ý định thương mại trực tuyến SVM Support Vector Machine Máy véc-tơ hỗ trợ Luan van vii DANH MỤC CÁC BẢNG Bảng 3.1: Danh sách trang web thu thập liệu 33 Bảng 3.2: Danh sách tập liệu thu nhãn liệu 33 Bảng 3.3: Độ xác trung bình thực nghiệm liệu miền 38 Bảng 3.4: Độ xác thực nghiệm liệu khác miền kịch 39 Bảng 3.5: Độ xác thực nghiệm chủ đề “Điện thoại”, “Điện tử” 40 Bảng 3.6: Độ xác thực nghiệm chủ đề “Camera”, “TV” 41 Luan van viii DANH MỤC CÁC HÌNH VẼ Hình 1.1: Bài tốn phân lớp văn Hình 1.2: Bài toán phát ý định người dùng Hình 2.1: Phương pháp xây dựng chương trình cho tốn 11 Hình 2.2: Mơ tả mơ hình vector văn 14 Hình 3.1: So sánh độ xác thực nghiệm miền thuật tốn 42 Hình 3.2: So sánh độ xác thực nghiệm chéo miền thuật tốn 43 Hình 3.3: So sánh độ xác thực nghiệm chéo miền thuật toán 43 Luan van 35 Từ kết thu sau thực nghiệm, ta sẽ kết luận mơ hình gán nhãn cho liệu phù hợp cho đề tài xác định ý định văn Các độ đo cho toán xác định ý định người dùng: - Precision: tỷ lệ tài liệu trả thực có liên quan đến tài liệu truy vấn Precission = - |{𝑟𝑒𝑡𝑟𝑖𝑒𝑣𝑎𝑙}| (3.1) Recall: tỷ lệ tài liệu có liên quan đến tài liệu truy vấn thực tế trích xuất trả Recall = - |{𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡}∩{𝑟𝑒𝑡𝑟𝑖𝑒𝑣𝑎𝑙}| |{𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡}∩{𝑟𝑒𝑡𝑟𝑖𝑒𝑣𝑎𝑙}| |{𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡}| (3.2) Fscore: Một hệ thống IR cần phải cân đối recall precision, độ đo khác thường sử dụng Fscore xây dựng dựa recall precision: Fscore = 2×recall×precission recall+precisstion (3.3) Trong đó: - {relevant} số tài liệu liên quan tới câu truy vấn - {retrieval} số tài liệu liên quan mà phân lớp trả 3.3.1 Thực nghiệm miền liệu Ta sẽ đưa kịch thực nghiệm miền liệu, liệu gán nhãn liệu chưa gán nhãn lấy forum thảo luận chủ đề Với từng chủ đề, gần 1000 mẫu liệu, ta chia liệu thành 10 phần ngẫu nhiên, với tỉ lệ nhãn tương đương nhau, ta lấy ngẫu nhiên phần liệu để làm liệu chưa gán nhãn để kiểm tra, phần lại để làm liệu học Như ta cần thực thực nghiệm 10 lần với từng chủ đề chủ đề ta sẽ có 40 liệu cần thực nghiệm Luan van 36 Việc thực nghiệm thực với thuật toán trích chọn đặc trưng phân lớp nêu trước đó, sau chạy thực nghiệm xong sẽ tính giá trị trung bình tham số Precission, Recall, Fscore để đưa nhận xét thuật toán phù hợp với toán xác định ý định người dùng cho liệu miền 3.3.2 Thực nghiệm miền liệu Ta sẽ đưa kịch thực nghiệm miền liệu, liệu gán nhãn liệu chưa gán nhãn lấy forum khác thảo luận chủ đề khác a Kịch Áp dụng theo phương pháp 3TR-1TE: sử dụng liệu lấy forum gán nhãn tương ứng với miền liệu làm liệu học liệu miền lại làm liệu kiểm tra Như ta cần làm thực nghiệm sau: Dữ liệu học Dữ liệu kiểm tra TV, Điện tử, Camera Điện thoại TV, Điện tử, Điện thoại Camera TV, Camera, Điện thoại Điện tử Điện tử, Camera, Điện thoại TV Việc thực nghiệm thực với thuật tốn trích chọn đặc trưng phân lớp nêu phần trên, sau chạy thực nghiệm xong sẽ tính giá trị trung bình tham số Precission, Recall, Fscore đưa đánh giá kết thực nghiệm Luan van 37 b Kịch Sử dụng liệu gán nhãn miền liệu lấy forum thảo luận chủ đề làm liệu học liệu forum khác thảo luận chủ đề khác làm liệu kiểm tra Như ta cần làm 12 thực nghiệm sau: Dữ liệu học Dữ liệu kiểm tra Dữ liệu học Dữ liệu kiểm tra TV Điện thoại Điện tử TV TV Điện tử Điện tử Điện thoại TV Camera Điện tử Camera Camera Điện thoại Điện thoại TV Camera Điện tử Điện thoại Điện tử Camera TV Điện thoại Camera Việc thực nghiệm thực với thuật toán trích chọn đặc trưng phân lớp nêu phần trên, sau chạy thực nghiệm xong sẽ tính giá trị trung bình tham số Precission, Recall, Fscore đưa đánh giá kết thực nghiệm 3.4 Kết thực nghiệm 3.4.1 Thực nghiệm miền liệu Sau thực thực nghiệm miền liệu ta thu kết gán nhãn xác thống kê lại bảng đây: Luan van 38 Bảng 3.3: Độ xác trung bình thực nghiệm liệu miền NAÏVE BAYES SVM Chủ đề TFIDF N1Gram N2Gram N3Gram TFIDF N1Gram N2Gram N3Gram 67.8 68.7 72.1 69.9 70.1 63.7 65.5 66.4 64.3 66.5 68.1 68.5 68.8 66.5 63.5 66.6 69.1 66.7 68.3 66.4 67.3 67.8 65.6 69.6 67.8 68.5 70.3 70.2 69.6 65.9 69.9 65.4 Điện thoại Điện tử TV Camera Khi thực nghiệm với miền liệu, với kết thu bảng, ta nhận thấy: - Độ xác áp dụng thuật tốn gán nhãn liệu rơi vào khoảng 63-72%, mức tương đối xác miền liệu - Trong với chủ đề “Điện tử” thuật tốn có độ xác trung bình thấp nhất, chủ đề “TV” có độ xác cao - Dựa vào bảng liệu thu được, ta nhận thấy sử dụng thuật toán SVM để phân lớp liệu sẽ đưa kết xác so với thuật toán phân lớp đó, thuật tốn trích chọn đặc trưng N2Gram kết hợp với thuật tốn Nạve Bayes đưa lại kết xác cao 3.4.2 Thực nghiệm miền liệu a Kịch Sau thực thực nghiệm miền liệu với kịch 1, lấy liệu miền làm liệu học liệu miền lại làm liệu chưa gán nhãn ta thu kết thống kê lại bảng đây: Luan van 39 Bảng 3.4: Độ xác thực nghiệm liệu khác miền kịch NAÏVE BAYES SVM Chủ đề TFIDF N1Gram N2Gram N3Gram TFIDF N1Gram N2Gram N3Gram Điện thoại 64.32 69.95 71.94 68.33 65.36 72.24 71.51 72.54 Điện tử 64.23 65.24 64.68 65.82 67.17 66.32 66.52 69.02 TV 66.04 68.83 70.75 70.75 65.98 67.74 65.23 74.73 Camera 68.66 69.48 67.52 67.74 70.49 70.59 68.90 75.73 Khi thực nghiệm với miền liệu với kịch nêu phần trước, với kết thu bảng, ta nhận thấy: - Độ xác áp dụng thuật toán gán nhãn liệu rơi vào khoảng c61-76%, mức tương đối xác - Trong đó, thực nghiệm liệu học từ chủ đề “Điện thoại”, “TV”, “Camera” để áp dụng cho liệu kiểm tra chủ đề “Điện tử” đem lại kết xác thấp - Kết thực nghiệm với thuật toán phân lớp SVM đưa độ xác trung bình cao so với thuật tốn Nạve Bayes, áp dụng thuật tốn trích chọn đặc trưng N3-Gram kết hợp với thuật toán phân lớp SVM có kết xác cao b Kịch Sau thực thực nghiệm miền liệu với kịch 2, lấy liệu miền làm liệu học liệu miền lại làm liệu chưa gán nhãn ta thu kết thống kê lại bảng đây: Luan van 40 Bảng 3.5: Độ xác thực nghiệm chủ đề “Điện thoại”, “Điện tử” Dữ liệu kiểm thử Dữ liệu học TFIDF NAÏVE BAYES N1Gram N2Gram N3Gram TFIDF N1Gram SVM N2Gram N3Gram ĐIỆN THOẠI ĐIỆN TỬ Điện tử Camera TV Điện thoại Camera TV 67.36 71.63 70.06 63.84 64.36 61.65 65.27 70.54 65.86 62.64 64.07 62.67 70.43 69.14 67.59 63.86 62.98 64.38 66.94 69.22 68.83 62.57 63.70 64.19 71.41 71.26 66.15 62.48 63.76 61.72 70.73 66.18 69.48 64.74 62.43 64.99 69.68 66.99 65.69 64.52 64.95 62.40 72.39 73.02 68.30 64.19 64.27 65.20 Luan van 41 Bảng 3.6: Độ xác thực nghiệm chủ đề “Camera”, “TV” Dữ liệu kiểm thử Dữ liệu học NAÏVE BAYES CAMERA TV Điện tử Điện thoại TV Điện thoại Camera Điện tử TFIDF 71.65 69.34 67.02 69.54 68.03 70.35 N1Gram 71.95 66.96 70.15 70.05 70.24 66.28 N2Gram 71.58 71.74 65.87 71.96 70.45 69.32 N3Gram 70.61 67.03 71.88 65.47 68.16 66.03 TFIDF 68.83 69.18 71.99 65.31 68.97 67.27 N1Gram 66.19 68.21 69.02 65.66 70.28 65.44 N2Gram 66.82 71.98 66.04 69.08 66.42 68.86 N3Gram 70.14 67.24 71.35 70.99 69.83 72.43 SVM Khi thực nghiệm với miền liệu với kịch nêu phần trước, với kết thu bảng, ta nhận thấy: - Độ xác áp dụng thuật tốn gán nhãn liệu rơi vào khoảng 59-71%, mức xác - Trong áp dụng từng chủ đề chủ đề “Điện thoại”, “TV”, “Camera” làm liệu học, sử dụng liệu chủ đề “Điện tử” làm liệu kiểm thử, độ xác áp dụng với chủ đề “Điện tử” đem lại kết xác thấp - Thuật toán phân lớp liệu SVM đem lại độ xác gán nhãn cao so với thuật tốn Nạve Bayes áp dụng với kịch liệu chéo miền Luan van 42 - Khi áp dụng thực nghiệm miền liệu khác nhau, với thuật tốn trích chọn đặc trưng thuật toán N3-Gram kết hợp với thuật toán phân lớp văn SVM đưa lại kết gán nhãn cao 3.4.3 So sánh kết thực nghiệm Co-Class với thuật toán khác Thực nghiệm liệu miền Khi thực nghiệm so sánh kịch phân loại với thuật toán EM, FS-EM Co-Class ta thu đồ thị phân loại đây: So sánh thuật toán trường hợp liệu miền 71.0 70.0 69.7 69.0 68.9 68.0 67.8 67.0 67.3 66.5 66.0 67.6 66.9 68.7 68.9 66.4 67.4 66.6 67.9 65.0 64.2 64.0 64.3 69.3 67.1 67.0 66.0 65.5 66.1 65.8 64.5 64.8 EM FS-EM 63.0 Co-Class 62.0 61.0 Hình 3.1: So sánh độ xác thực nghiệm miền thuật toán Ta nhận thấy, thực nghiệm miền liệu, kết xác định ý định văn không chênh lệch nhiều áp dụng thuật toán EM, FS-EM, CoClass, thuật toán Co-Class chưa hẳn vượt trội độ xác so với thuật tốn trước Ngay số trường hợp thực nghiệm áp dụng thuật tốn FS-EM đưa kết xác so với Co-Class Thực nghiệm liệu chéo miền Luan van 43 Tiếp theo, ta thực nghiệm với liệu trái miền, với kịch bản, ta thu kết dồ thị So sánh thuật toán trường hợp liệu chéo miền kịch 80.0 70.0 66.1 60.0 62.8 50.0 46.5 40.0 30.0 20.0 10.0 0.0 66.1 64.9 48.2 70.7 62.2 66.4 65.2 67.4 64.8 66.8 65.1 68.5 63.6 72.6 66.0 42.4 44.4 42.5 44.4 44.6 44.0 EM FS-EM Co-Class Hình 3.2: So sánh độ xác thực nghiệm chéo miền thuật toán So sánh thuật toán trường hợp liệu chéo miền kịch 80.0 70.0 67.9 59.4 60.0 50.0 41.6 67.2 68.2 56.3 49.2 57.1 45.1 67.0 63.0 67.3 64.1 66.9 65.4 48.2 48.2 45.7 66.9 69.6 67.7 55.6 45.7 44.9 40.0 30.0 EM 20.0 FS-EM 10.0 0.0 Co-Class Hình 3.3: So sánh độ xác thực nghiệm chéo miền thuật toán Luan van 44 Nhận thấy, thực nghiệm miền liệu khác nhau, kết xác định ý định văn cho thấy chênh lệch rõ ràng áp dụng thuật toán EM, FS-EM, Co-Class Thuật toán Co-Class thể điểm mạnh áp dụng trường hợp liệu chéo miền Trong - Thuật toán EM thể khả phân loại yếu thuật tốn Độ xác thuật toán thấp, khoảng 39-54% - Thuật toán FS-EM có độ xác mức tương đối xác 5366% - Và Thuật toán Co-Class đưa lại kết gán nhãn hiệu thực nghiệm xác định ý định văn bản, trường hợp áp dụng kết hợp thuật tốn trích chọn đặc trưng N3-Gram thuật toán phân lớp SVM, thuật toán Co-Class đưa kết phân loại xác đến 71% 3.5 Nhận xét thực nghiệm kết luận Khi áp dụng thuật toán Co-Class vào toán xác định ý định người dùng, ta nhận thấy: - Khi áp dụng gán nhãn chủ đề định, thuật tốn phân lớp Naïve Bayes đem lại kết cao so với thuật tốn SVM Có thể nói, thuật tốn Nạve Bayes phù hợp với toán phân loại liệu miền so với thuật toán SVM Và ngược lại, thuật toán SVM đem lại kết cao áp dụng thử nghiệm với trường hợp liệu chéo miền - Thuật toán SVM đưa kết xác với văn ngắn 5070 từ, xác định với văn dài lớn 150 từ bị ảnh hưởng liệu nhiễu dẫn đến thuật tốn SVM xác định thiếu xác - Khi thực nghiệm xác định tập liệu, với thuật toán EM, cho kết xác định ý định xác so với thuật tốn cịn lại thuật tốn FS-EM thuật tốn Co-Class - Khi thực nghiệm miền liệu khác nhau, thuật tốn EM đưa kết xác thấp, thuật toán FS-EM đưa kết Luan van 45 xác so với Co-Class Việc để xác định ý định người dùng ta chưa thể thu thập liệu tập học riêng chủ đề vấn đề hay xảy ra, thuật toán Co-Class thể ưu điểm tình liệu để học máy khơng thuộc chủ đề định (kịch gộp chủ đề làm liệu học) hay áp dụng liệu học máy chủ đề khác, không liên quan với chủ đề kiểm tra (kịch lấy liệu chủ đề khác không miền liệu làm liệu học) - Kết thực nghiệm Co-Class với liệu trái miền đem lại kết cao xấp xỉ bằng với kết xác định ý định văn liệu miền Như vậy, từ kết thực nghiệm thu cho thấy Co-Class giúp cho việc xác định ý định văn đạt độ xác cao sẽ khơng gặp khó khăn lớn áp dụng chủ đề việc chưa có liệu học máy chủ đề sẽ khơng trở ngại lớn xác định ý định người dùng Luan van 46 KẾT LUẬN VÀ KIẾN NGHỊ Luận văn tập trung nghiên cứu phát xác ý định người viết diễn đàn thảo luận Trong luận văn tập trung nghiên cứu sâu phương pháp biểu diễn đặc trưng văn (N-grams, TF-IDF), phương pháp học máy để xây dựng mô hình phân lớp liệu (Nạve Bayes, SVM) đưa toán phát ý định người dùng áp dụng miền liệu miền chéo miền Cụ thể, luận văn đạt số kết sau: - Nghiên cứu mơ hình biểu diễn đặc trưng văn bản, mơ hình phân lớp liệu áp dụng toán xác định ý định người viết - Đề xuất số cải tiến nhằm nâng cao độ xác việc phát ý định người dùng thông qua viết - Áp dụng thuật tốn nâng cao độ xác, thực nghiệm đánh giá kết Trong tương lai, luận văn phát triển theo hướng: - Nghiên cứu phương pháp nâng cao độ xác cải thiện tốc độ xử lý việc phát văn chứa ý định người dùng - Nghiên cứu phương pháp thu thập liệu tự động, từ kết hợp với hệ thống tư vấn, quảng cáo để đưa quảng cáo phù hợp, với lượng người quan tâm cao Luan van 47 PHỤ LỤC Xây dựng ứng dụng Ứng dụng hỗ trợ người dùng sẽ xây dựng bằng ngôn ngữ Java sử dụng mơi trường máy tính, u cầu cấu hình máy tính cài đặt mơi trường: Java JDK7 Chi tiết chức năng, kiến trúc giao diện mô tả Chức ứng dụng bao gồm: - Dựa vào văn người dùng đưa ra, ứng dụng xử lý đưa ý định văn có muốn mua sản phẩm hay khơng - Ứng dụng xử lý liệu đưa chủ đề sản phẩm mà người dùng muốn mua muốn tìm hiểu thêm Từ tích hợp với hệ thống quảng cáo để đưa quảng cáo phù hợp với văn Giao diện ứng dụng sau: Hình 1: Giao diện ứng dụng Luan van 48 Hình 2: Mô tả ứng dụng Ứng dụng gồm vùng liệu chính: - Vùng 1: Nhập liệu, văn cần xác định ý định - Vùng 2: Kết xác định ý định người dùng (Có ý định khơng có ý định) - Vùng 3: Đưa chủ đề, sản phẩm văn nói đến VD: Chủ đề điện thoại, TV… Để sử dụng ứng dụng ta thực bước sau: - Bước 1: Nhập văn vào vùng liệu - Bước 2: Nhấn vào nút xác định ý định người dùng để kiểm tra kết kết sẽ ta vùng liệu hình Luan van 49 TÀI LIỆU THAM KHẢO [1] Ngo Xuan Bach, Tu Minh Phuong, “Leveraging User Ratings for ResourcePoor Sentiment Classification”, In Proceedings of the 19th International Conference on Knowledge-Based and Intelligent Information & Engineering Systems (KES), Procedia Computer Science, pp 322–331, 2015 [2] Nguyen Thi Duyen, Ngo Xuan Bach, Tu Minh Phuong, “An Empirical Study on Sentiment Analysis for Vietnamese” In Proceedings of the International Conference on Advanced Technologies for Communications (ATC), Special session on Computational Science and Computational Intelligence (CSCI), pp 309-314, 2014 [3] Zhiyuan Chen, Bing Liu, Meichun Hsu, Malu Castellanos, and Riddhiman Ghosh, “Identifying Intention Posts in Discussion Forums”, 2013 [4] Honghua (Kathy) Dai, Lingzhi Zhao, Zaiqing Nie, Ji-Rong Wen, Lee Wang, Ying Li, “Detecting online commercial intention (OCI)”, 2006 [5] Steve R Gunn, “Support Vector Machines for Classification and Regression”, 1998 [6] R A S C Jayasanka, M D T Madhushani, E R Marcus, I A A U Aberathne, S C Premaratne “Sentiment Analysis for Social Media”, 2014 [7] Hiroshi Kanayama, Tetsuya Nasukawa , “Textual demand analysis: detection of users' wants and needs from opinions”, 2008 [8] Fariba Sadri, Weikun Wang, Afroditi Xafi, “Intention Recognition with Clustering”, 2012 [9] P Hiroshi Shimodaira, “Text Classification using Naive Bayes”, 2015 Luan van ... giải toán xác định ý định người dùng sau: - Xác định viết có chứa ý định rõ ràng - Giữa thơng tin gây nhiễu, xác định xác ý định viết thể - Nghiên cứu áp dụng toán xác định ý định người dùng trường... xác định ý định người dùng sẽ làm rõ vấn đề sau: - Xác định viết có chứa ý định viết khơng có ý định - Việc xử lý tập liệu để trích xuất đâu liệu nhiễu khơng liên quan tới ý định người dùng để... để xác định ý định cho liệu miền liệu khác mà đạt kết xác cao quan trọng Như chương trình bày, phần đề tài trình bày rõ phương pháp xác định ý định người dùng diễn đàn Phương pháp áp dụng xác định