Bài báo đề xuất phương pháp cải tiến cách xác định trọng số cảm xúc của các từ và cụm từ tiếng Việt dựa trên mối quan hệ ngữ nghĩa và các yếu tố đặc trưng của tiếng Việt trong một miền dữ liệu cụ thể là chủ đề đánh giá xe ô tô. Bài báo có đánh giá kết quả của phương pháp đề xuất bằng thử nghiệm phân loại ý kiến đánh giá xe ô tô trên các trang báo mạng tiếng Việt với phương pháp học máy Support Vector Machine, và đối sánh kết quả với phương pháp học sâu – Deep learning – không dựa vào từ điển cảm xúc. Mời các bạn cùng tham khảo!
Một Cải Tiến Từ Điển Cảm Xúc Tiếng Việt Theo Chủ Đề Nguyễn Ngọc Duy, Lê Minh Hóa Khoa Cơng nghệ Thơng tin II, Học Viện Cơng Nghệ Bưu Chính Viễn Thông Email:duynn, hoasac@ptithcm.edu.vn hạn chế, dẫn đến hạn chế khả nhận diện cảm xúc văn tiếng Việt Do đó, tốn liên quan đến phân tích cảm xúc tiếng Việt bị hạn chế Vì thế, nhu cầu từ điển cảm xúc tiếng Việt xây dựng dựa đặc trưng ngôn ngữ tiếng Việt lớn Bài báo đề xuất cải tiến phương pháp xác định trọng số cảm xúc cho mục từ tiếng Việt dùng lĩnh vực hẹp văn tiếng Việt đánh giá xe ô tô đề xuất công trình [2] Để đánh giá hiệu phương pháp đề xuất, thử nghiệm phân loại cảm xúc phương pháp học máy Support Vector Machine – SVM dựa từ điển cảm xúc xây dựng phương pháp Để có sở so sánh, báo thử nghiệm phân loại cảm xúc phương pháp học sâu (Deep Learning) không dựa từ điển cảm xúc Để đánh giá hiệu từ điển đề xuất, báo dùng phương pháp học máy Support Vector Machine – SVM phương pháp học sâu (Deep Learning) Mơ hình học sâu biết đến từ lâu mang lại cho lĩnh vực xử lý ảnh xử lý tín hiệu kết tốt Đối với lĩnh vực xử lý ngơn ngữ tự nhiên học sâu quan tâm thời gian gần Yoon Kim [17] tiên phong ứng dụng học sâu vào lĩnh vực xử lý ngơn ngữ tự nhiên với mơ hình mạng nơron tích chập (Convolution Neural Network) dùng cho phân loại cảm xúc hình Mơ hình chia thành tầng độc lập Tầng Word Embedding ma trận trọng số của từ kho ngữ liệu Abstract —Môi trường internet mang lại nguồn tài nguyên phong phú ý kiến vấn đề xã hội đánh giá sản phẩm người dùng Vấn đề khai thác cảm xúc cá nhân, thăm dò ý kiến cộng đồng vấn đề bật sống, sản phẩm kinh doanh từ nguồn tài nguyên trọng Cảm xúc thường thể tinh tế liên quan đến ngơn ngữ văn hóa Để khai thác nguồn tài ngun khía cạnh cảm xúc từ điển cảm xúc thành phần quan trọng Bài báo đề xuất phương pháp cải tiến cách xác định trọng số cảm xúc từ cụm từ tiếng Việt dựa mối quan hệ ngữ nghĩa yếu tố đặc trưng tiếng Việt miền liệu cụ thể chủ đề đánh giá xe tơ Bài báo có đánh giá kết phương pháp đề xuất thử nghiệm phân loại ý kiến đánh giá xe ô tô trang báo mạng tiếng Việt với phương pháp học máy Support Vector Machine, đối sánh kết với phương pháp học sâu – Deep learning – không dựa vào từ điển cảm xúc Keywords- Từ điển, ý kiến, cảm xúc, từ điển cảm xúc, phân loại cảm xúc, phân tích cảm xúc I GIỚI THIỆU Ngày internet trở nên phổ biến Việt Nam giới Thông tin internet gia tăng nhanh Trong môi trường này, người thể suy nghĩ vấn đề sống văn hóa, kinh tế mà không bị ràng buộc chuẩn mực ngôn ngữ Mỗi ý kiến ngồi ý nghĩ thơng tin chứa cảm xúc người viết Đây nguồn tài nguyên giá trị Vì nhu cầu khai thác nguồn tài nguyên lớn Khi phân tích cảm xúc, vấn đề quan trọng nhận diện thực thể cảm xúc, xác định mức độ cảm xúc mà thể lên văn Đã có nhiều từ điển cảm xúc thực nhiều phương pháp xác định trọng số cảm xúc đề xuất Là ngôn ngữ phổ biến, tiếng Anh có từ điển cảm xúc tốt SentiWordNet [13], SenticNet [4] Vì vậy, tiếng Anh có nhiều cơng trình nghiên cứu phân tích cảm xúc có chất lượng cao Với tiếng Việt, việc nghiên cứu xây dựng từ điển cảm xúc giai đoạn ban đầu Các cơng trình giới thiệu [8], [11], [14], từ điển biết đến rộng rãi VietSentiWordNet, xây dựng sở chuyển ngữ từ từ điển SentiWordNet tiếng Anh Nhiều phương pháp chọn mục từ tiếng Việt xem phù hợp với từ tiếng Anh đề xuất Tuy vậy, điều nhiều Word Embedding Layer Convolutional Layer Pooling Layer Fully connected layer Hình 1: Mơ hình Convolutional Neural Network Ma trận xây dựng sở thống kê từ vựng kho ngữ liệu [18], từ xác định mối tương quan từ có kho ngữ liệu Phương pháp địi hỏi kho ngữ liệu thật phong phú để biểu diễn hết từ ngôn ngữ 83 II theo phương pháp thủ công kết hợp với cơng cụ có sẵn giai đoạn phân đoạn từ gán nhãn từ loại [16] CƠNG TRÌNH LIÊN QUAN Do từ điển cảm xúc có ý nghĩa lớn tốn phân tích cảm xúc để khai thác nguồn nguyên ý kiến mạng internet Đã có nhiều phương pháp xây dựng từ điển cảm xúc giới thiệu Tiếng Anh ngôn ngữ phổ biến nên ngơn ngữ có nhiều từ điển biết đến nhiều Các ngơn ngữ phổ biến nhà khoa học quan tâm xây dựng từ điển cảm xúc cho ngôn ngữ cần thiết Bộ từ điển SentiWordNet [13] từ điển cảm xúc tiếng Anh sử dụng rộng rãi Stefano Baccianella cộng dựa quan hệ ngữ nghĩa từ điển WordNet để tính tốn giá trị cảm xúc cho mục từ SentiWordNet có gần 120 ngàn mục từ gán trị cảm xúc Bên cạnh SentiWordNet, từ điển cảm xúc khác cho tiếng Anh biết đến rộng rãi SenticNet [4] Erik Cambria cộng xây dựng SenticNet có khoảng 50 ngàn mục từ gán trị cảm xúc Điểm chung từ điển cảm xúc có q trình phát triển lâu dài, xây dựng dựa kho ngữ liệu phong phú từ điển chất lượng quan hệ ngữ nghĩa đặc trưng cho tiếng Anh WordNet Những ngôn ngữ phổ biến tiếng Tây Tạng [6], tiếng Việt [8, 11, 14] có cơng trình xây dựng từ điển cảm xúc Các từ điển thường lấy từ điển cảm xúc phổ biến tiếng Anh SentiWordNet để chuyển ngữ kết hợp với phương pháp dựa thông tin tương hỗ [6], tính tốn mờ [8] nhằm tăng độ phù hợp với đặc trưng ngôn ngữ xứ Vấn đế phức tạp dùng phương pháp chuyển ngữ có nhiều mục từ tiếng xứ ứng với mục từ tiếng Anh Các cơng trình phải đề xuất nhiều giải pháp để chọn mục từ tiếng xứ xem phù hợp với mục từ tiếng Anh Tuy vậy, điều rõ ràng có hạn chế khả nhận diện cảm xúc văn tiếng xứ III Kho ngữ liệu cảm xúc Từ điển cảm xúc Từ điển tiếng Việt Tập từ hạt giống Tính trọng số cảm xúc Hình 2: Mơ hình tính trọng số cảm xúc Quá trình tạo kho ngữ liệu thực sau: Bước 1: Thu thập liệu ý kiến đánh giá (review) trang báo trực tuyến có chun mục đánh giá xe tơ VNExpress.net, danhgiaxe.com, otosaigon.com … để tạo tập liệu thô Bước 2: Tách câu Loại bỏ câu dấu tiếng Việt Gán nhãn cảm xúc cho câu Bước 3: Loại bỏ câu chứa thông tin mang tính khách quan, khơng chứa cảm xúc Bước 4: Phân đoạn từ gán nhãn từ loại 3.2 Phương pháp tính trọng số cảm xúc 3.2.1 Xây dựng tập từ cảm xúc sở Đối tượng xe tơ có nhiều đặc tính kỹ thuật Các ý kiến đánh giá tập trung vào một vài khía cạnh đặc tính kỹ thuật Các khía cạnh kỹ thuật xe ô tô thường xem xét đánh giá, so sánh là: tổng thể, động cơ, nội ngoại thất, an toàn, giá cả, v.v… Các mục từ thường dùng đánh giá, khen/chê khía cạnh chọn làm từ hạt giống Ví dụ: – Giá: đắt/rẻ, chát/ngon … – Động cơ: mạnh/yếu, bốc/ì … – Nội thất: sang/tệ, chắn/ọp ẹp … – Tổng thể: hầm hố/ẻo lả … Mỗi từ/cụm từ gán trọng số cảm xúc -1 tương ứng với ý kiến khen chê Các từ hạt giống chọn gồm từ đơn (nhạy, độc, đẹp …) từ phức (hầm hố, ọp ẹp …) PHƯƠNG PHÁP TIẾP CẬN Mơ hình tính trọng số cảm xúc từ cụm từ báo khơng thay đổi so với [2] hình Kho ngữ liệu cảm xúc báo văn ý kiến đánh giá xe ô tô tiếng Việt Các câu chứa thông tin chủ quan (cảm xúc) người viết chọn vào kho ngữ liệu Tập từ hạt giống từ đơn từ ghép thường dùng để khen chê thành phần (khía cạnh) tổng thể xe Các từ hạt giống gán trọng số cảm xúc -1 tương ứng với ý khen chê Các mục từ Từ điển tiếng Việt tính trị cảm xúc theo tập từ hạt giống 3.2.2 Sơ lược đặc trưng từ cụm từ ngôn ngữ tiếng Việt Theo tác giả Nguyễn Tài Cẩn [1], tiếng Việt, khả kết hợp từ có đặc trưng quan trọng: Phó từ đứng trước động từ, tính từ: Thường bổ sung số ý nghĩa liên quan đến hành động, trạng thái, đặc điểm, tính chất nêu động từ tính từ như: quan hệ thời gian, mức độ, tiếp diễn tương tự, phủ định, cầu khiến Ví dụ: đã, rất, cũng, chưa Phó từ đứng sau động từ, tính từ: Thường bổ sung ý nghĩa đến hành động, trạng thái, đặc điểm, tính chất động từ tính từ mức độ, khả năng, kết hướng Ví dụ: lắm, 3.1 Kho ngữ liệu cảm xúc Kho ngữ liệu tập văn gán nhãn cảm xúc Quá trình thu thập liệu cần chi phí lớn thời gian công sức thực phương pháp thủ công Tuy nhiên, để đảm bảo chất lượng cho kho ngữ liệu báo xây dựng kho ngữ liệu phương pháp Kho ngữ liệu báo tập hợp gần 2500 văn với 4000 câu (xem chi tiết bảng 5) xác định cảm xúc 84 : hệ số độ mịn trọng số cảm xúc điểm chia thang, < < 0.25 Hệ số xác định dấu trị cảm xúc, = log (1 n ): độ chênh lệch trị cảm xúc các cụm từ so với từ hạt giống Những phó từ thường gặp: đã, đang, cũng, sẽ, vẫn, còn, đều, được, rất, thật, lắm, Dựa vào đặc trưng tiếng Việt, báo tính tốn trọng số cảm xúc cho từ ghép để mở rộng từ điển cảm xúc Bài báo tính trọng số cảm xúc cho cụm từ gồm phó từ cấp độ kết hợp với tính từ động từ Các phó từ chia thành mức cao, khá, thấp, mức không ghép chung với tính từ động từ Bảng liệt kê số phó từ cấp độ Bảng 2: Thang độ cụm tính từ n Bảng 1: Một số phó từ mức độ Cụm từ sang sang Cao Khá Thấp Kém Không 1.5 không sang cực tạm chẳng 0.5 sang vô thật tương đối chả Ví dụ: đẹp > thật đẹp > đẹp > đẹp > đẹp > không đẹp Khi phó từ đứng trước tính từ động từ làm tăng mức độ cảm xúc cụm tính từ cụm động từ tương ứng Ngược lại làm giảm mức cảm xúc cụm từ chúng đứng sau Ví dụ: thật đẹp > đẹp thật Trọng số cảm xúc từ, cụm từ thể mức độ cảm xúc mà người đọc cảm nhận Độ lớn, nhỏ trọng cảm xúc từ, cụm từ thể mối tương quan chúng khả giúp người đọc cảm nhận ý kiến, cảm xúc người viết thể văn Xét hai phát biểu sau: “Chiếc xe bốc” “Chiếc xe đẹp” Cụm động từ “rất bốc” câu cho người đọc nhận định người viết có cảm xúc tích cực xe, khía cạnh vận hành Với câu cụm tính từ “rất đẹp” cho nhận định người viết đánh giá cao phần thiết kế ngoại hình xe Tổng quan khen xe Tuy nhiên, nói cụm động từ “rất bốc” tính từ “rất đẹp” có mức độ tác động mặt cảm xúc đến người đọc khác Câu nhận xét khía cạnh tĩnh xe tơ với cụm tính từ “rất đẹp” Trong đó, câu nhận xét khía cạnh động xe với cụm động từ “rất bốc” Hiệu tác động cảm xúc câu với cụm động từ “rất bốc” đến người đọc lớn Tương tự, nói động xe “rất tiết kiệm” có hiệu cảm xúc khen xe chạy “rất êm” Do đó, báo chia thang độ cảm xúc cụm động từ lớn cụm tính từ Tính trọng số cảm xúc cho cụm tính từ Bài báo sử dụng cơng thức đề xuất [2] để tính trọng số cảm xúc T cho cụm tính từ có dạng công thức (1) sang -1 sang -2 sang khơng sang Trị cảm xúc cụm tính từ theo giá trị bảng Bảng 3: Trọng số cảm xúc từ ghép phó từ tính từ n Cụm từ T = 0.1 = 0.15 = 0.2 sang 1.263 1.379 1.485 1.5 sang 1.202 1.293 1.379 sang 1.138 1.202 1.263 0.5 sang 1.070 1.104 1.138 sang 1 -1 sang 0.848 0.766 0.678 -2 sang 0.678 0.485 0.263 không sang 0 Tính trọng số cảm xúc cho cụm động từ Như đề cập phần trên, cụm động từ có trị cảm xúc lớn cụm tính từ Bài báo đề xuất lớn cụm tính từ (một) thang độ so với cụm tính từ Trọng số cảm xúc T cụm động từ tính cơng thức (2) T = (1 log (1 (n 1) )) (2) Trị cảm xúc cụm động từ theo giá trị bảng Bảng 4: Trọng số cảm xúc từ ghép phó từ động từ T = (1 log (1 n )) (1) Trong đó: n: sở xác định độ chênh lệch cảm xúc cụm từ n: giá trị độ chia bảng 2, n [-2; 2] 85 n Cụm từ bốc T = 0.1 = 0.15 = 0.2 1.379 1.536 1.678 Bảng 5: Số liệu từ điển đề xuất 1.5 bốc 1.322 1.459 1.585 bốc 1.263 1.379 1.485 0.5 bốc 1.202 1.293 1.379 Từ hạt giống 76 bốc 1.138 1.202 1.263 Số từ có trọng số dương 551 -1 bốc 1 Số từ có trọng số âm 463 -2 bốc 0.848 0.766 678 Số từ gán trọng số cảm xúc 1014 không bốc 0 Thành phần Bảng 6: Số liệu kho ngữ liệu Thành phần Số mẫu xe đánh giá Số ý kiến Số câu tách thành câu đơn theo khía cạnh gán nhãn dùng cho huấn luyện Số câu gán nhãn dùng cho thử nghiệm 3.2.3 Tính trọng số cảm xúc theo phương pháp thơng tin tương hỗ (PMI) Từ hạt giống từ dẫn xuất, báo tiếp tục tính trọng số cảm xúc từ khác từ điển tiếng Việt sở quan hệ tương hỗ thông tin Mối quan hệ xác định theo thông tin tương hỗ điểm (pointwise mutual information - PMI) [9] Phương pháp giúp xác định độ phụ thuộc qua lại hai mục từ tập ngữ liệu Các bước tính sau: Bước 1: Tính PMI cơng thức (2): p ( w1 & w2 ) (2) PMI ( w1 , w2 ) log p ( w1 ) p ( w2 ) p(w1), p(w2): xác suất từ w1, w2 kho ngữ liệu, p(w1&w2): xác suất từ w1 từ w2 kho ngữ liệu Bước 2: Chuẩn hóa PMI [7] theo cơng thức (3) để có giá trị npmi(w1;w2) [-1;1] npmi(w1 , w2 ) pmi(w1 , w2 ) h(w1 , w2 ) Số loại nhãn cảm xúc Số câu nhãn “Khen” Số câu nhãn “Trung tính” Số câu nhãn “Chê” 441 (khen, trung tính, chê) 1.611 1.627 1.616 Các vector đặc trưng cảm xúc câu dùng cho phương pháp có số chiều số khía cạnh xe tơ mà nhà sản xuất thường dùng giới thiệu xe, gọi khía cạnh chuẩn Các khía cạnh chuẩn cụ thể báo dùng làm phần tử tạo nên vector thử nghiệm phương pháp SVM: động cơ, giá bán, vận hành, an toàn, ngoại thất, nội thất, tiện nghi, kích thước, trọng lượng, tổng thể (3) npmi(w1;w2) = w1 w2 xuất nhau, npmi(w1;w2) = -1 w1 w2 không xuất Bước 3: Tính trọng số cảm xúc theo mơ hình thông tin tương hỗ theo công thức (4): SO( w) npmi( w; w ) npmi( w; w ) (4) w+, w-: từ hạt giống có trọng số cảm xúc dương cảm xúc âm 4.2.2 Mơ hình học sâu (deep learning) Bài báo thử nghiệm phân loại cảm xúc mạng nơron tích chập (Convolution Neural Network – CNN) dùng thư viện TensorFlow Thơng số cấu hình CNN cho thử nghiệm trình bày bảng IV 4.413 4.2.1 Phương pháp học máy Support Vector Machine w1 , w2 Số lượng 81 2.125 4.2 Phương pháp thử nghiệm Trong đó: h( w1 , w2 ) p( w1 , w2 ) log ( p( w1 , w2 )) entropy cặp từ w1 w2 Số lượng Bảng 7: Các thơng số cấu hình cho CNN Word Embedding size Filter size THỬ NGHIỆM Dropout 4.1 Dữ liệu thử nghiệm Batch size Dùng từ điển với trọng số cảm xúc tính theo phương pháp đề xuất báo với số liệu trình bày bảng 5, báo thử nghiệm phân loại cảm xúc cho tập liệu văn ý kiến đánh giá xe tơ có số liệu bảng Số câu lớp ý kiến “khen”, “chê” “trung tính” tương đương nhau, độ chênh lệch không đáng kể L2 weight decay 300 3, 4, 0.5 64 0.0014 Hệ số L2 chọn thủ cơng qua q trình thử nghiệm Ma trận tầng Word Embedding xây dựng công cụ word2vec Thơng số cấu hình cơng cụ word2vec mô tả bảng 86 – Độ (Accuracy) đạt với phương pháp SVM tốt đạt 74.83% trường hợp = 0.2 (bảng 9) kết tốt Điều cho thấy từ điển xây dựng phương pháp báo đề xuất có chất lượng cao phương pháp học máy SVM – Độ xác (Precision) lớp khen ba trường hợp thử nghiệm với phương pháp SVM tốt hai lớp cịn lại Độ xác chênh lệch lớp cảm xúc lớn Trong ba trường hợp, độ đo lớp trung tính thấp Điều nó, từ điển chưa có hiệu với trường hợp ý kiến chưa thật rõ ràng – Độ đo truy hồi (Recall) tốt trường hợp từ điển xây dựng với = 0.2 (bảng 9) Hai trường hợp lại cho kết không tốt (bảng 10 bảng 11) – Phương pháp học sâu thu kết (bảng 12) tương đương phương pháp SVM trường hợp = 0.15 (bảng 10) Đây phương pháp không phụ thuộc từ điển cảm xúc, cần kho ngữ liệu dùng cho huấn luyện phong phú Vì vậy, với kho ngữ liệu chưa thật phong phú nguyên nhân phương pháp chưa thể hết khả Bảng 8: Thơng số cấu hình cơng cụ word2vec Kích thước vector từ (size) 300 Khoảng cách từ dự đoán lớn (window) 10 Tần suất từ tối thiểu (min_count) Thuật toán CBOW 4.3 Kết thử nghiệm Dùng cơng thức tính độ (Accuracy), độ xác (Precision) độ truy hồi (Recall) [15] Kết thử nghiệm đánh giá từ điền với số hệ số độ mịn , cơng thức (1), trình bày bảng 9, bảng 10, bảng 11 Bảng 12 trình bày kết thử nghiệm phương pháp học sâu Bảng 9: Kết thử nghiệm với SVM = 0,2 Độ xác (%) Độ truy hồi (%) Khen 80.04 59.20 Trung hòa 65.13 63.06 Chê 79.43 57.83 Lớp Độ (%) 74.83 V Bảng 10: Kết thử nghiệm với SVM = 0,15 Độ xác (%) Độ truy hồi (%) Khen 79.05 57.07 Trung hòa 62.50 60.51 Chê 78.01 55.56 Lớp Độ (%) 73.02 Bảng 11: Kết thử nghiệm với SVM = 0,1 Độ xác (%) Độ truy hồi (%) Khen 77.70 53.99 Trung hòa 59.21 56.60 Chê 74.47 52.50 Lớp Độ (%) TÀI LIỆU THAM KHẢO [1] [2] 70.29 [3] Bảng 12: Kết thử nghiệm với CNN Độ xác (%) Độ truy hồi (%) Khen 78.38 57.43 Trung hòa 63.16 60.76 Chê 78.72 55.78 Lớp KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Bài báo giới thiệu phương pháp tính tốn trọng số cảm xúc cho từ điển cảm xúc tiếng Việt phạm vi miền xác định lĩnh vực đánh giá xe ô tô Việc phân biệt trị cảm xúc từ loại tính từ động từ cải thiện hiệu phân loại ý kiến so với việc không phân biệt từ loại Do phương pháp tính trọng số cảm xúc dựa thơng tin tương hỗ nên việc có kho ngữ liệu phong phú nâng cao chất lượng cho từ điển Bên cạnh đó, việc thử nghiệm phương pháp xây dựng từ điển báo đề xuất cho miền liệu khác quan tâm nghiên cứu Độ (%) [4] [5] 73.24 [6] – Khi độ mịn trọng số cảm xúc cụm tính từ cụm động từ thấp ( lớn) điểm thang đo độ đo tăng Độ đo tốt từ điển trường hợp thử nghiệm ứng với = 0.2 (bảng 9) Như vậy, trọng số cảm xúc điểm thang đo không chênh lệch nhiều làm giảm khả phân loại cảm xúc phương pháp thử nghiệm SVM [7] [8] 87 Nguyễn Tài Cẩn, “Ngữ pháp tiếng Việt”, Đại học Quốc gia Hà Nội, Hà Nội, 1996 Nguyen Ngoc Duy, “Xây dựng từ điển cảm xúc tiếng Việt theo chủ đề”, Kỷ yếu hội thảo quốc gia Điện tử, Truyền thông Công nghệ Thông tin, 2017, pages 89-94 Nguyễn Ngọc Duy, Phan Thị Tươi, “Tóm tắt văn sở phân loại ý kiến độc giả báo mạng tiếng Việt”, Tạp chí Phát triển Khoa học Công nghệ, Đại học Quốc gia Thành phố Hồ Chí Minh, K5, 19, pp 5361, 2016 Erik Cambria, Daniel Olsher, Dheeraj Rajagopal, “SenticNet 3: a common and common-sense knowledge base for cognition-driven sentiment analysis”, Proceedings of the 28th AAAI Conference on Artificial Intelligence, pp 1515-1521, 2014 Peter D Turney, “Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews”, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, USA, pp 417-424, 2002 Zhen Zhang and Lirong Qiu, “A Sentiment Calculation Method Based on Tibetan Semantic Relations”, International Journal of Database Theory and Application Vol 9, No 9, pp 149-156, 2016 Bouma, Gerlof, “Normalized Pointwise Mutual Information in Collocation Extraction”, Proceedings of the Biennial GSCL Conference, pp 31-40, 2009 Thien Khai Tran, Tuoi Thi Phan, “Computing Sentiment Scores of Verb Phrases for Vietnamese”, Proceedings of the Conference on Computational Linguistics and Speech Processing ROCLING, pp 204213, 2016 [9] [10] [11] [12] [13] [14] Kenneth Ward Church, Patrick Hanks – Word association norms, mutual information, and lexicography, Journal Computational Linguistics 16 (1) (1990) 22-29 Yoon Kim, “Convolutional neural networks for sentence classification”, in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, EMNLP, 2014, pages 1746-1751 Thien Khai Tran, Tuoi Thi Phan, “Computing Sentiment Scores of Adjective Phrases for Vietnamese”, The 10th International Workshop, MIWAI, Chiang Mai, Thailand, pp 288-296, 2016 Ashequl Qadir, “Detecting oipnion sentences specific to product features in customer reviews using typed dependency relations”, Events in Emerging Text Types (eETTs) - Borovets, Bulgaria, University of Wolverhampton, UK, pp 38–43, 2009 Stefano Baccianella, Andrea Esuli, Fabrizio Sebastiani, “SentiWordNet 3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining”, in Proceedings of the International Conference on Language Resources and Evaluation, 2010, pages 17-23 Hong Nam Nguyen, Thanh Van Le, Hai Son Le, Tran Vu Pham, “Domain Specific Sentiment Dictionary for Opinion Mining of Vietnamese Text”, [15] [16] [17] [18] 88 Proceedings of the 8th International Workshop on Multi-disciplinary Trends in Artificial Intelligence, pp 136-148, 2014 Sotiris Kotsiantis, Dimitris Kanellopoulos, and Panayiotis Pintelas, “Handling imbalanced datasets: A review, GESTS International Transactions on Computer Science and Engineering Vol 30, No 1, pp 25-36, 2006 Dat Quoc Nguyen, Dai Quoc Nguyen, Son Bao Pham, Phuong-Thai Nguyen, Minh Le Nguyen, “From Treebank Conversion to Automatic Dependency Parsing for Vietnamese”, International Conference on Application of Natural Language to Information Systems, pp 196-207, 2014 Yoon Kim, “Convolutional neural networks for sentence classification”, in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, EMNLP, 2014, pages 1746-1751 Xin Rong, “word2vec parameter learning explained”, arXiv preprint arXiv:1411.2738, 2014 ... khả nhận diện cảm xúc văn tiếng xứ III Kho ngữ liệu cảm xúc Từ điển cảm xúc Từ điển tiếng Việt Tập từ hạt giống Tính trọng số cảm xúc Hình 2: Mơ hình tính trọng số cảm xúc Quá trình tạo kho ngữ... mục từ tiếng xứ ứng với mục từ tiếng Anh Các cơng trình phải đề xuất nhiều giải pháp để chọn mục từ tiếng xứ xem phù hợp với mục từ tiếng Anh Tuy vậy, điều rõ ràng có hạn chế khả nhận diện cảm xúc. .. Những ngôn ngữ phổ biến tiếng Tây Tạng [6], tiếng Việt [8, 11, 14] có cơng trình xây dựng từ điển cảm xúc Các từ điển thường lấy từ điển cảm xúc phổ biến tiếng Anh SentiWordNet để chuyển ngữ kết