ĐỒ án dự đoán KHÍA CẠNH và cảm xúc dựa TRÊN bộ dữ LIỆU TIẾNG VIỆT THÔNG QUA PHƯƠNG THỨC học đa tác vụ

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN KHOA KHOA HỌC MÁY TÍNH LÊ SI LẮC ĐỒ ÁN DỰ ĐỐN KHÍA CẠNH VÀ CẢM XÚC DỰA TRÊN BỘ DỮ LIỆU TIẾNG VIỆT THÔNG QUA PHƯƠNG THỨC HỌC ĐA TÁC VỤ TP HỒ CHÍ MINH, 2020 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC MÁY TÍNH LÊ SI LẮC – 172520669 DỰ ĐOÁN KHÍ A CẠNH VÀ CẢM XÚ C DỰA TRÊN BỘ DỮ LIỆU TIẾNG VIỆT THÔNG QUA PHƯ ƠNG THỨC HỌC ĐA TÁC VỤ GIẢNG VIÊN HƯỚNG DẪN TS NGUYỄN LƯU THÙY NGÂN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN LỜI CẢM ƠN Lời đầu tiên, xin chân thành cảm ơn sâu sắc đến TS Nguyễn Lưu Thùy Ngân, cô quan tâm, lo lắng, nhắc nhỡ hỗ trợ tơi suốt q trình thực Cơ người truyền cảm hứng giúp định hướng đường học thuật nghiên cứu khoa học Đồng thời, tôi xin gửi lời cảm ơn đế n các thầ y cô, anh chi ̣ ta ̣i Phò ng thí nghiệm Truyề n thông Đa phương tiện, Trường đa ̣i ho ̣c Công nghệ Thô ng tin đã luôn đồ ng hành và góp ý tận tình cho tôi từ nhữ ng bước đầ u thực hiện đồ án Bên cạnh đó, tơi xin gửi lời cảm ơn chân thành đến anh Đặng Văn Thìn Người ln đồng hành, giúp đỡ động viên tơi q trình thực NCKH Đồng thời, xin gửi lời cảm ơn đến anh Nguyễn Minh Hảo, chị Tôn Nữ Thị Sáu cho phép sử dụng liệu để thực phần NCK Trong trình thực nghiên cứu, dù có hồn chỉnh đến đâu giới hạn kiến thức khơng tránh khỏi sai sót đồ án Tơi mong nhận ý kiến đóng góp từ quý thầy cô Một lần nữa, xin chân thành cảm ơn! Tp Hồ Chí Minh, ngày 18 tháng năm 2020 Sinh viên Lê Si Lắc MỤC LỤC LỜI CẢM ƠN DANH MỤC HÌNH ẢNH DANH MỤC TỪ VIẾT TẮT Chương MỞ ĐẦU 1.1 ĐẶT VẤN ĐỀ 1.2 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 1.3 MỤC TIÊU CỦA ĐỒ ÁN 1.4 KẾT QUẢ CỦA NGHIÊN 1.5 CẤU TRÚC KHÓA LUẬN Chương TỔNG QUAN 1.1 PHÂN TÍCH Ý KIẾN 2.2 PHÂN TÍCH Ý KIẾN THEO KHÍA CẠNH 3.3 TÌNH HÌNH NGHIÊN CỨU 10 2.3.1 TÌNH HÌNH NGHIÊN CỨU TRÊN THẾ GIỚI 10 2.3.2 TÌNH HÌNH NGHIÊN CỨU TRONG NƯỚC 11 2.3.3 NHẬN XÉT 13 4.4 PHÁT BIỂU BÀI TOÁN 14 Chương TỔNG QUAN VỀ BỘ NGỮ LIỆU PHÂN TÍCH Ý KIẾN THEO KHÍA CẠNH 16 1.1 TỔNG QUAN THU THẬP VÀ TIỀN XỬ LÝ NGỮ LIỆU 17 3.1.1 THU THẬP NGỮ LIỆU 17 3.1.2 TIỀN XỬ LÝ NGỮ LIỆU 17 2.2 QUY TẮC GÁN NHÃN NGỮ LIỆU 19 3.3 PHÂN TÍCH NGỮ LIỆU 24 Chương MƠ HÌNH PHÂN TÍCH Ý KIẾN THEO KHÍA CẠNH 29 4.1 MƠ HÌNH HỌC SÂU 32 1.1.1 MẠNG NƠ-RON NHÂN TẠO 32 2.1.2 CONVOLUTIONAL NEURAL NETWORK 33 4.1.2.1 TỔNG QUAN 33 4.1.2.2 DROPOUT CHO OVERFITTING 37 4.1.2.3 CNN TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN 39 3.1.3 4.2 BiGRU 40 ĐẶC TRƯNG CHO MƠ HÌNH PHÂN LỚP 40 1.2.1 ĐẶC TRƯNG TỪ LOẠI (PART-OF-SPEECH) 41 2.2.2 ĐẶC TRƯNG N-GRAMS 42 3.2.3 WORD EMBEDDING 43 4.2.4 MÔ HÌNH ĐA TÁC VỤ BiGRU-CNN 43 Chương THỬ NGHIỆM VÀ KẾT QUẢ THỬ NGHIỆM 47 5.1 TIỀN XỬ LÝ NGỮ LIỆU 48 5.2 RÚT TRÍCH ĐẶC TRƯNG 48 5.3 CÀI ĐẶT VÀ THIẾT LẬP THÔNG SỐ THỬ NGHIỆM 48 5.3.1 MƠ HÌNH HỌC SÂU 48 5.4 CHỈ SỐ ĐÁNH GIÁ MÔ HÌNH 49 5.5 KẾT QUẢ THỬ NGHIỆM 51 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 55 6.1 KẾT LUẬN 55 6.2 HẠN CHẾ 56 6.3 HƯỚNG PHÁT TRIỂN 56 TÀI LIỆU THAM KHẢO 57 DANH MỤC BẢNG Bảng 2.1 Cặp thực thể thuộc tính miền liệu nhà hàng, quán ăn 13 Bảng 3.1 Độ đồng thuận thành viên gán nhãn 25 Bảng 3.2 Phân bố số lượng tỉ lệ thể loại khía cạnh 27 Bảng 3.3 Số lượng nhãn khía cạnh cảm xúc khía cạnh ngữ liệu .28 Bảng 3.4 Thống kê số lượng câu tỉ lệ phần trăm theo độ dài câu 29 Bảng 3.5 Thống kê số lượng câu tỉ lệ phần trăm theo số lượng nhãn 29 Bảng 4.1 Đặc trưng uni-grams, bi-ggrams tri-grams cho câu "mấy anh_chị nhân_viên dễ_thương nữa" .45 Bảng 5.1 Kết cho tốn phát thể loại khía cạnh tính theo đơn vị % 51 Bảng 5.2 Kết cho toán phát thể loại khía cạnh kết hợp với xác định trạng thái cảm xúc tính theo đơn vị % .52 Bảng 5.3 Kết mơ hình SVM kết hợp với đặc trưng khác theo toán phát thể loại khía cạnh 56 Bảng 5.4 Kết hướng tiếp cận khác để giải hai tốn phát thể loại khía cạnh xác định trạng thái cảm xúc 58 DANH MỤC HÌNH ẢNH Hình 3.1 Tỉ lệ thời gian dành cho giai đoạn để xây dựng hệ thống khoa học ngữ liệu Nguồn: báo cáo học ngữ liệu 2016 [21] 15 Hình 3.2 Định dạng xml cho đoạn bình luận với câu văn bình luận 18 Hình 3.3 Quy trình đánh giá độ đồng thuận việc gán nhãn ngữ liệu .24 Hình 3.4 Chi tiết số lượng nhãn thể loại khía cạnh tập huấn luyện, tập phát triển tập kiểm tra 30 Hình 4.1 Các mặc phẳng phân tách hai lớp .34 Hình 4.2 Margin phân chia hai lớp 34 Hình 4.3 Kiến trúc mạng nơ-ron nhân tạo .36 Hình 4.4 Cấu trúc nốt mạng nơ-ron nhân tạo Nguồn: [28] 37 Hình 4.5 Ý tưởng Local receptive fields mơ hình CNN Nguồn: [29] 38 Hình 4.6 Kiến trúc tổng quan mơ hình CNN Nguồn: [30] 39 Hình 4.7 Ví dụ tích chập đầu vào 5x5 lọc 3x3 với bước trượt .39 Hình 4.8 Ví dụ phép tổng hợp lớn (maxpooling) cho đầu vào 5x5 lọc 3x3 với hai dạng bước trượt 40 Hình 4.9 Ví dụ phép gộp trung bình (averagepooling) cho đầu vào 5x5 lọc 3x3 với hai dạng bước trượt 41 Hình 4.10 Kỹ thuật dropout xử lý overfitting 42 Hình 4.11 Mơ hình Convolutional neural network đề xuất 43 Hình 5.1 Sơ đồ tổng quan hệ thống phân tích ý kiến khía cạnh 47 Hình 5.2 Tổng quan tham số sử dụng mơ hình CNN .50 Hình 5.3 Kết chi tiết thể loại khía cạnh cho tốn phát thể loại khía cạnh theo điểm số F1 hai mơ hình SVM CNN .53 Hình 5.4 Kết chi tiết khía cạnh cho tốn phát thể loại khía cạnh kết hợp với xác định trạng thái cảm xúc theo điểm số F1 hai mơ hình SVM CNN 54 Hình 5.5 Kết nhãn khía cạnh tốn phát thể loại khía cạnh theo tiền xử lý khơng có tiền xử lý ngữ liệu tính theo điểm F1 55 Hình 5.6 So sánh ảnh hưởng số lượng câu ngữ liệu đến mơ hình huấn luyện 57 DANH MỤC TỪ VIẾT TẮT STT Từ viết tắt ABSA CNN NLP SA Ý nghĩa Phân tích ý kiến theo khía cạnh – Aspect-based sentiment analysis Mơ hình mạng tích chập – Convolutional Neural Network Xử lý ngôn ngữ tự nhiên – Natural language processing Phân tích cảm xúc – Sentiment analysis TĨM TẮT Phân tích ý kiến theo khía cạnh (aspect-based sentiment analysis) toán mở rộng từ tốn phân tích cảm xúc (sentiment analysis) Bài tốn phân tích ý kiến theo khía cạnh có nhiệm vụ xác định trạng thái cảm xúc đánh giá liên quan đến thể loại khía cạnh cụ thể miền liệu cụ thể Trong đồ án này, tiến hành nghiên cứu thử nghiệm mơ hình học sâu với liệu [31], bao gồm 10302 câu ngữ liệu giải hai tốn phát thể loại khía cạnh xác định trạng thái cảm xúc Mơ hình chúng tơi sử dụng thử nghiệm mơ hình máy học truyền thống support vector machine mơ hình học sâu convolutional neural network Kết thử nghiệm tốn phát thể loại khía cạnh: mơ hình đề xuất đạt kết 93.08% Cịn kết hai tốn phát thể loại khía cạnh kết hợp với xác định trạng thái cảm xúc, thử nghiệm đạt kết 69.13% Kết thử nghiệm cho thấy mơ hình học sâu cho kết tốt so với mơ hình máy học truyền thống, đồng thời mơ hình chúng tơi đưa có cải thiện vượt bậc so với nghiên cứu sử dụng liệu thời điểm Chương THỬ NGHIỆM VÀ KẾT QUẢ THỬ NGHIỆM Trong chương này, tiến hành cài đặt mơ hình thử nghiệm để đánh giá ngữ liệu chúng tơi trình bày Chương Quá trình huấn luyện trải qua bước tiền xử lý ngữ liệu, rút trích đặc trưng xây dựng mơ hình phân lớp cho hai toán phát thể loại khía cạnh xác định trạng thái cảm xúc theo hướng tiếp cận trình bày chương Trong phần thử nghiệm, thuật toán BiGRU-CNN cài đặt để giải hai toán phát loại khía cạnh xác định trạng thái cảm xúc ứng với khía cạnh phát Trong q trình thử nghiệm, tiến hành so sánh kết với mơ hình sử dụng liệu để thực nghiên cứu trước Đồng thời, tiến hành thử nghiệm so sánh đánh giá mức độ ảnh hưởng công tác tiền xử lý ngữ liệu 47 5.1 TIỀN XỬ LÝ NGỮ LIỆU Với ngữ liệu, tiến hành xử lý sơ lúc đầu giữ nguyên văn câu bình luận người dùng Tuy nhiên, câu bình luận người dùng trang mạng thơng thường người viết bình luận khơng ý đến tả, ngữ pháp, sử dụng ký tự viết tắt, ngôn ngữ giới trẻ (teen code) sử dụng icon cảm xúc Tiền xử lý ngữ liệu thực sau:  Xử lý hashtag đính kèm câu bình luận, chuyển tồn tất hash tag có ngữ liệu thành từ “hash_tag”  Trong ngữ liệu, chúng tơi nhận thấy có nhiều cách biểu diễn giá tiền khác (nghìn, đồng, triệu, trăm, k, đ,…v.v) nên tiến hành chuyển toàn biển diễn thành biểu diễn “giá_tiền” Đồng thời, chuyển đổi số bình luận thành từ “số”  Xóa tồn ký tự đặc biệt (-, $, &, @, +,…), icon ý nghĩa ('😤', '😤', '😤', '😤', '😤', '😤', '😤',…)  Thay đổi từ kéo dài thành từ Ví dụ từ “ngooooon” chuyển thành từ “ngon”, từ “bá cháyyyyyy” thành từ “bá cháy”  Xử lý từ viết tắt thành từ từ “k”, “ko”, “khog”, “kg” chuyển thành từ “không”, từ “nv”, “nhvien” thành “nhân_viên” 5.2 RÚT TRÍCH ĐẶC TRƯNG Đối với mơ hình học sâu, đặc trưng sử dụng word embedding Bộ word embedding sử dụng [19] 5.3 CÀI ĐẶT VÀ THIẾT LẬP THÔNG SỐ THỬ NGHIỆM Toàn thử nghiệm chúng cài đặt sử dụng ngơn ngữ lập trình python phiên 3.8.0 5.3.1 MƠ HÌNH HỌC SÂU Đối với mơ hình học chúng tơi đề xuất trình bày phía trên, tiến hành thử nghiện sử dụng thư viện keras6 để tiến hành cài đặt Tốc độ học (learning rate) thử nghiệm {0.1, 0.01, 0.001}, batch_size sử dụng 32 với số vòng huấn luyện 100 vịng  Đối với tầng tích chập, chúng tơi tạo ba lớp tích chập với lọc có 48 kernel_size {2, 3, 4} sử dụng 128 256 lọc để thử nghiệm, bước trượt lớp tích chập thực  Trong tầng tổng hợp, nhận thấy đặc điểm đặc biệt văn sử dụng phương pháp GlobalAveragePooling1D để tính tốn cho phép gộp  Tại tầng liên kết đầy đủ (fully-connected layer ), sử dụng lớp liên kết sử dụng kỹ thuật dropout với tỉ lệ 0.2 cho hai lớp liên kết trước lớp đầu https://pypi.org/project/pyvi/0.0.8.1/ https://www.python.org/ https://scikit-learn.org/stable/ https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html https://keras.io 5.4 CHỈ SỐ ĐÁNH GIÁ MƠ HÌNH Để tính tốn kết đánh giá, chúng tơi sử dụng ba độ đo: độ xác (precision), độ phủ (recall) điểm F1 (F1 -score)  Độ đo precision (P) tính theo cơng thức sau: 49 P= |S ∩ G| |S| (5.1)  Độ đo recall (R) tính theo cơng thức sau: R=  |S ∩ G| |G| (5.2) Độ đo F1-score (F1) tính theo cơng thức sau: 𝐹S = ∗ 𝐹 ∗𝐹 𝐹+𝐹 (5.3) Trong đó,  S: phân lớp hệ thống dự đốn  G: phân lớp đích (phân lớp người dùng gán nhãn) 50 5.5 KẾT QUẢ THỬ NGHIỆM Kết chi tiết cho toán chúng tơi trình bày bảng 5.1 bảng 5.2 Bảng 5.1 Kết cho toán phát thể loại khía cạnh (%) Methods SVM [35] DCNN [36] BiLSTM-CNN [37] Ours Precision 92.02 92.04 94.19 83.43 Recall 82.73 93.71 89.90 81.23 F1 87.13 92.87 91.94 93.08 Bảng 5.1, thể chi tiết kết tốn phát thể loại khía cạnh Đối với mơ hình SVM, DCNN, BiLSTM-CNN, ng tơ i sử d ụng thô ng số th iết đặt dựa trê n lầ n lượt cô ng bố sa u c [35] , [36], [37] [38] Đối với mơ hình đề xuất, chúng tơi sử dụng đặc trưng word embedding với hai cách tạo ngẫu nhiên sử dụng word embedding [19] Kết cho thấy rằng, nghiên cứu lựa chọn phương pháp học sâu để tiếp cận trường hợp gồm DCNN, BiLSTMCNN, BERT mang lại kết tốt với tỉ lệ tăng cao 5.95% (thuộc mơ hình đề xuất chúng tơi) thâp 4.81% dựa tỉ lệ F1 Nhìn chung, kết hợp với word embedding huấn luyện từ trước mang đến nhiều cải thiện so với tiếp cận truyền thống Cụ thể, phương pháp phân lớp truyền thống SVM, việc kết hợp đặc trưng unigram, bigram, trigram từ vựng cho kết cao 87.13% (xét theo điểm số F1) Bảng 5.2 Kết cho tốn phát thể loại khía cạnh kết hợp với xác định trạng thái cảm xúc tính theo đơn vị % Methods SVM [27] DCNN [28] BiLSTM-CNN [26] Ours Precision 62.52 68.93 69.15 Recall 56.21 65.72 69.11 F1 59.20 67.29 69.13 Trong bảng 5.2, thể chi tiết kết thử nghiệm cho toán phát thể loại khía cạnh kết hợp với xác định trạng thái cảm xúc Mơ hình đề xuất kết hợp với word embedding huấn luyện từ trước có kết cao 69.13% Đối với phương pháp phân lớp truyền thống SVM, kết sử dụng đặc trưng 51 unigram, bigram, trigram từ loại đạt kết cao 59.20% Khi tồn dần trở nên phức tạp khó khăn hơn, lẫn kết phương án tiếp cận dùng mạng học sâu truyền thống chưa đạt F1 70% Tuy nhiên, tín hiệu khả quan, mơ hình kết xấp xỉ 70%, cụ thể 69.13% Hình 5.3 Kết chi tiết thể loại khía cạnh cho tốn phát loại khía cạnh tốn xác định loại khía cạnh với cảm xúc Theo hình 5.3, dễ dàng quan sát hầu hết thể loại khía cạnh mơ hình chúng tơi đề xuất mang lại kết 80% loại khía cạnh việc giải tốn xác định khía cạnh, đó, cao khía cánh SERVICE thấp MISCELLANEOUS Đối với toán – xác định khía cạnh lẫn cảm xúc, trung bình mơ hình chúng tơi dự đốn 68%, thấp với trường hợp khía cạnh MISCELLANEOUS Vì tốn xác định trạng thái cảm xúc thực có kết từ tốn phát thể loại khía cạnh Thế nên, kết phát thể loại khía cạnh ảnh hưởng đến kết xác định trạng thái cảm xúc 52 Để thấy ảnh hưởng việc thử nghiệm giá trị dropout khác đến kết mơ hình Chúng tơi thử nghiệm mơ hình tập hợp giá trị dropout gồm [None, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9] Kết chi tiết hai thử nghiệm trình bày hình 5.4 Hình 5.4 Chi tiết kết mơ hình đạt với thơng số dropout khác tốn Theo hình 5.4, thấy cải thiện mơ hình chúng tơi đề xuất tuyến tính thay đổi tăng dần thay đổi giá trị dropout cao Nhìn chung, tốn, mơ hình đạt giá trị cao giá trị dropout nằm đoạn từ 0.7-0.8 sau giai đoạn giá trị mơ hình đề xuất có xu hướng giảm mạnh Điều dễ hiểu, lượng thơng tin mát gần 0.8-0.9 (tương đương với 80-90%) việc ghi nhớ thơng số học trước hồn tồn trở nên vô nghĩa, vậy, kết giảm mạnh điều mà chúng tơi giải thích Đồng thời, với việc tìm thơng số dropout thích hợp này, chúng tơi sử dụng thơng số để tiến hành thử nghiệm thứ Đó là, thay đổi chiều vector embedding, chi tiết thử nghiệm trình bày hình 5.5 53 Hình 5.4 Chi tiết kết mơ hình đạt với thông số chiều vector embedding khác toán Từ bảng 5.4, nhìn chung, thơng số chiều vector embedding khơng làm ảnh hưởng nhiều đến tính hiệu mơ hình đề xuất Tuy nhiên, 2-3% kết F1-score phần góp phần tăng tính hiệu suất mơ hình Do vậy, chúng tơi đánh giá vô quan trọng việc chọn hợp lý số Kết cuối mà chúng tơi đạt – 69.13% (bài tốn xác định khía cạnh cảm xúc), 93.08% (bài toán xác định loại khía cạnh), dựa kết hợp việc chọn thông số dropout rate số chiều cho vector embedding cách phù hợp bên cạnh việc thiết đặt mơ hình xử lý liệu 54 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 6.1 KẾT LUẬN Trong đồ án này, chúng tơi hồn thành hai mục tiêu mà chúng tơi đặt  Chúng tơi xây dựng thành công ngữ liệu cho tốn phân tích cảm xúc theo khía cạnh cho liệu phản hồi nhà hàng người dùng với kích thước 10302 câu văn Bộ ngữ liệu thực ba thành viên có kết nhiều so với mong đợt 4000 câu văn mục tiêu ban đầu đề Đồng thời, ngữ liệu xây dựng giải hai tốn phát thể loại khía cạnh xác định trạng thái cảm xúc Bên cạnh đó, chúng tơi kế thừa xây dựng quy tắc hướng dẫn gán nhãn ngữ liệu cho hai toán để thuận tiện cho công tác mở rộng ngữ liệu sau  Chúng tiến hành nghiên cứu, cài đặt thử nghiệm mơ hình phân lớp truyền thống SVM mơ hình học sâu CNN cho hai toán Trong kết thử nghiệm cho chúng tơi thấy mơ hình học sâu CNN cho kết tốt so với mơ hình phân lớp truyền thống SVM Kết điểm F1 mơ hình CNN 76.19% cho toán phát thể loại khía cạnh 59.85% cho tốn phát thể loại khía cạnh kết hợp với xác định trạng thái cảm xúc Kết mơ hình SVM 74.39% cho tốn phát thể loại khía cạnh 59.39% cho tốn phát thể loại khía cạnh kết hợp với xác định trạng thái cảm xúc  Đồng thời, tiến hành thử nghiệm với bước tiền xử lý ngữ liệu sử dụng đặc trưng khác lĩnh vực xử lý ngôn ngữ tự nhiên để đánh giá ảnh hưởng công tác tiền xử lý ngữ liệu đặc trưng đến kết mơ hình  Ngồi ra, chúng tơi cịn tiến hành thử nghiệm với bốn hướng tiếp cận khác để giải hai toán phát thể loại khía cạnh xác định trạng thái cảm xúc 55 6.2 HẠN CHẾ Bên cạnh kết đạt cịn số hạn chế đồ án Bộ ngữ liệu xây dựng không cần nhãn thể loại khía cạnh khơng cần trạng thái cảm xúc thể loại khía cạnh nên ảnh hướng đến kết thử nghiệm Hạn chế gây ảnh hưởng lớn đưa ứng dụng vào thực tế 6.3 HƯỚNG PHÁT TRIỂN Hướng phát triển tương lai chúng tôi, đầu tiên, phải nghiên cứu cách xử lý việc cân ngữ liệu hay xây dựng thêm vào ngữ liệu để tránh trường hợp cân ngữ liệu Khi ngữ liệu cân làm cho mô hình có kết tốt xây dựng ứng dụng thực tế giải nhiều trường hợp Ngoài ra, đồ án này, chưa tiến hành xây dựng ứng dụng thực tế Thế nhưng, với nhu cầu ngày lớn tốn chúng tơi cần phát triển ứng dụng thực tế đời sống 56 TÀI LIỆU THAM KHẢO [1] Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan, "Thumbs up?: sentiment classification using machine learning techniques.," in In Proceedings of the ACL-02 conference on Empirical methods in natural language processing, Stroudsburg, PA, USA, 2002 [2] Bing Liu, "Sentiment Analysis and Opinion Mining", Morgan & Claypool, 2012 [3] Maria Pontiki, Dimitris Galanis, Haris Papageorgiou, Ion Androutsopoulos, Suresh Manandhar, Mohammad AL-Smadi, Mahmoud Al-Ayyoub, Yanyan Zhao, Bing Qin, Orphée De Clercq, Véronique Hoste, Marianna Apidianaki, Xavier Tannier, Natalia Loukachevitch, Evgeniy, "SemEval-2016 Task 5: Aspect Based Sentiment Analysis", in Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval-2016), San Diego, California, 2016 [4] Tetsuya Nasukawa and Jeonghee Yi, "Sentiment analysis: capturing favorability using natural language processing", in In Proceedings of the 2nd international conference on Knowledge capture (K-CAP '03), ACM, New York, NY, USA, 2003 [5] Kushal Dave, Steve Lawrence, and David M Pennock, "Mining the peanut gallery: opinion extraction and semantic classification of product reviews", in In Proceedings of the 12th international conference on World Wide Web (WWW '03), ACM, New York, NY, USA, 2003 [6] Tun Thura Thet, Jin-Cheon Na and Christopher S.G Khoo, "Aspect-based sentiment analysis of movie reviews on discussion boards," Journal of Information Science, vol 36, no 6, pp 823-848, 2010 57 [7] Kim Schouten and Flavius Frasincar, "Survey on Aspect-Level Sentiment Analysis," IEEE Transactions on Knowledge and Data Engineering, vol 28, no 3, pp 813-830 , 2016 [8] Marianna Apidianaki, Xavier Tannier, Cécile Richart, "Datasets for Aspect Based Sentiment Analysis in French", in Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), Portorož, Slovenia, 2016 [9] Maria Pontiki, Dimitris Galanis, John Pavlopoulos, Harris Papageorgiou, Ion Androutsopoulos, Suresh Manandhar, "SemEval-2014 Task 4: Aspect Based Sentiment Analysis", in Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval 2014), Dublin, Ireland, 2014 [10] Gayatree Ganu, Noemie Elhadad, Amelie Marian, "Beyond the Stars: Improving Rating Predictions using Review Text Content", in Twelfth International Workshop on the Web and Databases (WebDB 2009), Providence, Rhode Island, USA, 2009 [11] Maria Pontiki, Dimitris Galanis, Haris Papageorgiou, Suresh Manandhar, Ion Androutsopoulos, "SemEval-2015 Task 12: Aspect Based Sentiment Analysis", in Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015), Denver, Colorado, 2015 [12] Binh Thanh Kieu and Son Bao Pham, "Sentiment Analysis for Vietnamese", in In Proceedings of the 2010 Second International Conference on Knowledge and Systems Engineering (KSE '10), IEEE Computer Society, Washington, DC, USA, 2010 [13] Vu TT., Pham HT., Luu CT., Ha QT., "A Feature-Based Opinion Mining Model on Product Reviews in Vietnamese", Springer, Berlin, Heidelberg, 2011 [14] Hai Son Le, Thanh Van Le, and Tran Vu Pham, "Aspect Analysis for Opinion Mining of Vietnamese Text", In Proceedings of the 2015 International 58 Conference on Advanced Computing and Applications (ACOMP) (ACOMP '15): IEEE Computer Society, Washington, DC, USA, 2015 [15] Long Mai, Bac Le, "Aspect-Based Sentiment Analysis of Vietnamese Texts with Deep Learning", in In Intelligent In- formation and Database Systems 10th Asian Conference, ACIIDS 2018, Dong Hoi City, Vietnam, 2018 [16] Nguyen Thi Thanh Thuy, Ngo Xuan Bach, Tu Minh Phuong, "Cross-Language Aspect Extraction for Opinion Mining", in 10th International Conference on Knowledge and Systems Engineering (KSE), Ho Chi Minh City, Vietnam, 2018 [17] Huyen T M Nguyen, Hung V Nguyen, Quyen T Ngo, Luong X Vu, Vu Mai Tran, Bach X Ngo, Cuong A Le, "VLSP SHARED TASK: SENTIMENT ANALYSIS", Journal of Computer Science and Cybernetics, vol 34, no 4, p 295–310, 2018 [18] Thin Van Dang, Vu Duc Nguyen, Nguyen Van Kiet, Nguyen Luu Thuy Ngan, "A TRANSFORMATION METHOD FOR ASPECT-BASED SENTIMENT ANALYSIS", Journal of Computer Science and Cybernetics, vol 34, no 4, p 323–333, 2018 [19] Dang Van Thin, Vu Duc Nguye, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen, "Deep Learning for Aspect Detection on Vietnamese Reviews", in 2018 5th NAFOSTED Conference on Information and Computer Science (NICS), Ho Chi Minh City, Vietnam, 2018 [20] Ethem Alpaydin, "Supervised Learning," in Introduction to Machine Learning 2nd, The MIT Press, 2010, pp 21-46 [21] "2016 DATA SCIENCE REPORT", CrowdFlower, 2016 [22] P K Bhowmick, P Mitra, A Basu, "An Agreement Measure for Determining Inter-annotator Reliability of Human Judgements on Affective Text", in in Proceedings of the Workshop on Human Judgements in Computational Linguistics, ser HumanJudge ’08, Association for Computational Linguistics, 2008 59 [23] Ethem Alpaydin, "Unsupervised Learning," in Introduction to Machine Learning 2nd, The MIT Press, 2010, pp 11-13 [24] O Chapelle, B Scholkopf, and A Zien, "Semi-Supervised Learning (Chapelle, O et al., Eds.; 2006) [Book reviews]," IEEE Transactions on Neural Networks, vol 20, no 3, pp 542-542, 2009 [25] Richard S Sutton and Andrew G Barto, "Introduction to Reinforcement Learning", The MIT Press, 1998 [26] Y LeCun, Y Bengio, and G Hinton, "Deep learning," NATURE, vol 521, no 7553, pp 436-444, 2015 [27] Christopher J C Burges, "A Tutorial on Support Vector Machines for Pattern Recognition", Journal Data Mining and Knowledge Discovery, vol 2, no 2, pp 121-167 , 1998 [28] Arden Dertat, "Applied Deep Learning - Part 1: Artificial Neural Networks," 08 08 2017 [Online] Available: https://towardsdatascience.com [29] M A Nielsen, “Neural Networks and Deep Learning.”, Determination Press, 2018 [30] Holger R Roth, Le Lu, Amal Farag, Hoo-Chang Shin, Jiamin Liu, Evrim Turkbey, Ronald M Summers, "DeepOrgan: Multi-level Deep Convolutional Networks for Automated Pancreas Segmentation," in 18th International Conference on Medical Computing and Computer Assisted Interventions, Munich, Germany, 2015 [31] Yoon Kim, "Convolutional Neural Networks for Sentence Classification", in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Doha, Qatar, 2014 [32] Charu C Aggarwal, "Convolutional Neural Networks", in Neural Networks and Deep Learning, Springer, Cham, 2018, pp 315-371 [33] Nguyen, Minh-Hao, et al "A corpus for aspect-based sentiment analysis in Vietnamese." 2019 11th International Conference on Knowledge and Systems Engineering (KSE) IEEE, 2019 60 [34] Nguyen, Huyen TM, et al "VLSP shared task: sentiment analysis." Journal of Computer Science and Cybernetics 34.4 (2018): 295-310 [35] Dang Van Thin, Vu Nguyen, Nguyen Kiet, and Nguyen Ngan 2019 A TRANSFORMATION METHOD FOR ASPECT-BASED SENTIMENT ANALYSIS Journal of Computer Science and Cybernetics 34, (2019), 323– 333 https://doi.org/10.15625/1813-9663/34/4/13162 [36] D V Thin, V D Nguyen, K V Nguyen, and N L Nguyen 2018 Deep Learning for Aspect Detection on Vietnamese Reviews In 2018 5th NAFOSTED Conference on Information and Computer Science (NICS) 104– 109 [37] Dang Van Thin, Kiet Van Nguyen Duc-Vu Nguyen, and Ngan Luu-Thuy Nguyen 2019 Multi-task Learning for Aspect and Polarity Recognition on Vietnamese Datasets In The 16th International Conference of the Pacific Association for Computational Linguistics (PACLING 2019) [38] N C Le, N The Lam, S H Nguyen, and D Thanh Nguyen 2020 On Vietnamese Sentiment Analysis: A Transfer Learning Method In 2020 RIVF International Conference on Computing and Communication Technologies (RIVF) 1–5 61 ... hiện, chúng tơi có đóng góp vào báo khoa học: o Tham gia đề tài NCKH trường, ? ?Dự Đốn Khía Cạnh Vảm Xúc Dựa Trên Bộ Dữ Liệu Tiếng Việt Thông Qua Phương Thức Học Đa Tác Vụ? ?? o Xuất tạp chí, Transactions... sát thuật tốn dự đoán kết đầu cho ngữ liệu dựa danh sách cặp đầu vào đầu đưa vào huấn luyện trước Học khơng giám sát, thuật toán tiến hành dự đoán đầu dựa vào cấu trúc, đặc trưng ngữ liệu mà khơng... Thuy cộng [16] xây dựng ngữ liệu tiếng Việt miền liệu nhà hàng cấp độ câu giải nhiệm vụ phát khía cạnh việc kết hợp ngữ liệu gán nhãn tay ngữ liệu tiếng Anh dịch sang tiếng Việt Cùng với đề xuất

Định dạng
Số trang	70
Dung lượng	2,7 MB