Phân tích ý kiến theo khía cạnh trên bình luận phản hồi của sinh viên cho tiếng Việt

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	8
Dung lượng	751,78 KB

Nội dung

Bài viết giới thiệu một bộ dữ liệu trên phản hồi của sinh viên cho bài toán phát hiện khía cạnh và phân loại cảm xúc theo khía cạnh. Bộ dữ liệu của chúng tôi bao gồm 5010 câu được gán nhãn theo 11 khía cạnh khác nhau (hành vi, kỹ năng giảng dạy…) và theo ba cảm xúc (tích cực, tiêu cực và trung tính) với độ đồng thuận là 88,95% và 80,52% tương ứng hai bài toán.

TNU Journal of Science and Technology 226(18): 48 - 55 ASPECT-BASED SENTIMENT ANALYSIS ON STUDENT’S FEEDBACK IN VIETNAMESE Ton Nu Thi Sau*, Do Phuoc Sang, Pham Thi Thu Trang Hanoi University of Home Affairs Campus in HCM City ARTICLE INFO Received: 29/9/2021 Revised: 18/11/2021 Published: 18/11/2021 KEYWORDS Vietnamese dataset Machine learning Deep learning Aspect based sentiment analysis Ensemble architecture ABSTRACT In recent years, universities are interested in surveying and analyzing student’s feedbacks to improve teaching effectiveness as well as training quality However, the manual analysis will be costly in terms of effort and time-consuming with the large data Therefore, in this paper, we introduce a new dataset on student’s feedback of aspect categories detection and aspect-sentiment classification tasks Our data consists of 5,010 sentences which are annotated by 11 pre-defined aspect categories (teacher behavior, teaching skills…) and sentiment polarities (positive, negative, neutral) with annotation agreements of 88.95% and 80.52% according to two tasks In addition, we present a series of experiments on the dataset based on a combination model BiLSTM-CNN, compared with other machine learning approaches The experimental results show that our combination method achieves the best scores with the F1-score of 78.93% and 73.78% for the aspect category detection task and aspect-sentiment classification task, respectively Experimental results demonstrate the effectiveness of our ensemble architecture PHÂN TÍCH Ý KIẾN THEO KHÍA CẠNH TRÊN BÌNH LUẬN PHẢN HỒI CỦA SINH VIÊN CHO TIẾNG VIỆT Tôn Nữ Thị Sáu*, Đỗ Phước Sang, Phạm Thị Thu Trang Phân hiệu Trường Đại học Nội vụ Hà Nội Thành phố Hồ Chí Minh THƠNG TIN BÀI BÁO Ngày nhận bài: 29/9/2021 Ngày hồn thiện: 18/11/2021 Ngày đăng: 18/11/2021 TỪ KHÓA Dữ liệu tiếng Việt Máy học Học sâu Phân tích ý kiến theo khía cạnh Mơ hình kết hợp TĨM TẮT Trong vài năm gần đây, trường đại học thường khảo sát, thu thập ý kiến sinh viên để nâng cao hiệu giảng dạy cải thiện chất lượng đào tạo Tuy nhiên việc phân tích cách thủ cơng tốn nhiều chi phí cơng sức thời gian kích thước phản hồi lớn Do đó, báo này, giới thiệu liệu phản hồi sinh viên cho toán phát khía cạnh phân loại cảm xúc theo khía cạnh Bộ liệu chúng tơi bao gồm 5010 câu gán nhãn theo 11 khía cạnh khác (hành vi, kỹ giảng dạy…) theo ba cảm xúc (tích cực, tiêu cực trung tính) với độ đồng thuận 88,95% 80,52% tương ứng hai tốn Bên cạnh đó, chúng tơi trình bày chuỗi thí nghiệm dựa liệu dựa mơ hình kết hợp BiLSTM-CNN so sánh với mơ hình máy học khác Kết nghiên cứu cho thấy phương pháp kết hợp BiLSTM-CNN đạt kết tốt phương pháp khác với số F1 78,93% 73,78% tương ứng cho toán phát khía cạnh phân loại trạng thái cảm xúc theo khía cạnh Kết thử nghiệm chứng minh tính hiệu kiến trúc tổng thể DOI: https://doi.org/10.34238/tnu-jst.5101 * Corresponding author Email: sauvtc@gmail.com http://jst.tnu.edu.vn 48 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(18): 48 - 55 Giới thiệu Trong năm gần đây, ngành giáo dục Việt Nam có thay đổi đáng kể từ chương trình đào tạo, chất lượng đội ngũ giảng viên môi trường học tập với mục đích giúp sinh viên tiếp thu kiến thức hiệu Đặc biệt chương trình đào tạo, chất lượng đội ngũ giảng viên, sở vật chất,… trường đại học quan tâm cố gắng cải thiện cho phù hợp với nhu cầu người học, đáp ứng phát triển xã hội Để giải vấn đề này, trường đại học thường khảo sát để lấy ý kiến phản hồi người học liên quan đến chương trình học, nội dung môn học, hoạt động giảng dạy giảng viên Thông thường ý kiến phân tích cách thủ cơng nhân viên Tuy nhiên, việc phân tích ý kiến phản hồi theo cách thủ công làm nhiều thời gian không tổng hợp cách xác vấn đề mà sinh viên đề cập đến Bài tốn phân tích ý kiến phản hồi theo khía cạnh nhà nghiên cứu đặt với mục đích nghiên cứu thuật tốn, mơ hình phân tích ý kiến cách tự động với độ xác cao Trong năm trở lại đây, hầu hết nghiên cứu sử dụng liệu công bố hội thảo SemEval-2016 [1] Hội thảo công bố tổng cộng 19 liệu ngôn ngữ cho lĩnh vực khác Tuy nhiên, khơng có lĩnh vực giáo dục Chính thế, nhóm nghiên cứu [2]-[4] trình bày nghiên cứu tập trung vào lĩnh vực miền giáo dục Cụ thể, tác giả M Sivakumar cộng [2] sử dụng phương pháp phân lớp phân cụm truyền thống liệu phản hồi sinh viên thu thập trang Twitter Tác giả G S Chauhan cộng [3] trình bày nghiên cứu ảnh hưởng khía cạnh mơi trường dạy học cách sử dụng mơ hình máy học dựa từ vựng Tác giả Z Kastrati cộng [4] trình bày kiến trúc tận dụng chiến lược học giám sát (weak supervision) dựa mơ hình CNN để dự đốn khía cạnh ý kiến phản hồi sinh viên Kết đánh giá độ đo F1 đạt 86,13% cho toán phát khía cạnh 82,10% cho tốn phát cảm xúc cho khía cạnh Cịn tiếng Việt, toán nhận nhiều nghiên cứu từ năm 2018 sau thi shared-task VLSP [5] Tác giả Nguyễn Thị Minh Huyền cộng [5] tổ chức thi sử dụng liệu cho toán ABSA miền liệu nhà hàng khách sạn mức độ đoạn Dựa liệu này, tác giả Đặng Văn Thìn cộng [6] sử dụng phương pháp chuyển toán nhiều nhãn thành toán phân lớp nhị phân sử dụng đặc trưng rút trích từ ý kiến người dùng Sau đó, Đặng Văn Thìn cộng [7] đề xuất phương pháp học sâu Deep Convolutional Neural Network để giải tốn phát khía cạnh hai liệu Ngoài ra, tác giả Nguyễn Thị Thanh Thúy cộng [8] trình bày liệu cho toán ABSA miền nhà hàng tận dụng liệu bổ sung từ tiếng Anh để làm giàu liệu Kết thử nghiệm phương pháp SVM cho thấy hiệu cách tiếp cận Tác giả Trần Thiện Khải Phan Thị Tươi [9] trình bày kiến trúc kết hợp nhiều mơ hình máy học khác cho tốn phân tích cảm xúc liệu tiếng Việt Tuy nhiên phương pháp tác giả cần nhiều tài nguyên nhớ thời gian huấn luyện Gần đây, tác giả Đặng Văn Thìn cộng [10] công bố liệu chuẩn mức độ câu cho hai miền nhà hàng khách sạn với kích thước 10,000 câu ý kiến để phục vụ cho nghiên cứu Từ đó, thấy hầu hết liệu xây dựng phát triển cho miền nhà hàng khách sạn Từ việc nhận thấy tầm quan trọng nhu cầu toán cho lĩnh vực giáo dục, tiến hành thu thập xây dựng liệu ý kiến phản hồi sinh viên mức độ câu Mục tiêu nghiên cứu áp dụng phương pháp máy học để xây dựng cho việc hỗ trợ phân tích ý kiến phản hồi sinh viên cách tự động Các đóng góp chúng tơi báo trình bày sau: + Đầu tiên, tiến hành thu thập gán nhãn thủ công liệu mức độ câu cho ý kiến phản hồi sinh viên bao gồm 11 khía cạnh khác mức trạng thái cảm xúc (tích cực, tiêu cực, trung tính) + Thứ hai, nghiên cứu áp dụng phương pháp máy học khác nhau, bao gồm phương pháp máy học truyền thống mơ hình học sâu để giải toán liệu xây dựng http://jst.tnu.edu.vn 49 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(18): 48 - 55 Bố cục báo chúng tơi trình bày sau: Phần trình bày phương pháp nghiên cứu Sau kết bàn luận trình bày phần Cuối trình bày phần kết luận Phương pháp nghiên cứu Trong phần này, trình bày chi tiết quy trình xây dựng gán nhãn liệu cho hai toán toán ABSA bao gồm: (1) Bài tốn phát khía cạnh (2) Bài tốn phát cảm xúc theo khía cạnh cho miền liệu giáo dục Ngoài ra, chúng tơi trình bày chi tiết phương pháp thử nghiệm so sánh với phương pháp máy học truyền thống học sâu liệu xây dựng 2.1 Xây dựng gán nhãn liệu Qua tìm hiểu chúng tơi nhận thấy chưa có liệu chuẩn ý kiến phản hồi sinh viên theo khía cạnh Cho nên mục tiêu xây dựng liệu chuẩn mức độ câu phục vụ cho việc nghiên cứu toán sử dụng phương pháp học giám sát Để thu thập gán nhãn liệu ý kiến phản hồi sinh viên, kế thừa phát triển dựa ý kiến liệu UIT-VSFC [11] Chúng tận dụng ý kiến xử lý tiến hành xây dựng hướng dẫn gán nhãn theo 11 khía cạnh trạng thái cảm xúc khác dựa phân tích thực tế cho hai tốn khác nhau: (1) Bài tốn phát khía cạnh – khía cạnh khác đề cập ý kiến phản hồi sinh viên; (2) Bài toán phát cảm xúc theo khía cạnh – khía cạnh đề cập xác định trạng thái cảm xúc (tích cực, tiêu cực, trung tính) Ví dụ, cho ý kiến ―thầy nhiệt tình , dạy khó hiểu.‖, kết gán nhãn chúng tơi ―{Hành vi, positive}, {Kỹ giảng dạy, negative}‖ Trước gán nhãn, xây dựng tài liệu hướng dẫn gán nhãn để hỗ trợ người gán nhãn trình xây dựng liệu Sau đó, chúng tơi tiến hành giai đoạn gán thử đánh giá người gán nhãn liệu Kết gán nhãn cuối ba người gán nhãn đạt độ đồng thuận 88,95% cho tốn phát khía cạnh 80,52% cho tốn phát cảm xúc khía cạnh Kết độ đồng thuận cho phép tiến hành gán nhãn cách độc lập Danh sách khía cạnh số lượng tương ứng tồn bộ liệu trình bày Bảng Bảng Kết cuối cùng, xây dựng 5010 câu ý kiến phản hồi sinh viên gán nhãn theo 11 khía cạnh trạng thái cảm xúc khác Bộ liệu chia thành ba tập khác tập huấn luyện, tập phát triển tập kiểm tra theo tỷ lệ chia 7/1/2 Bảng Danh sách thống kê số lượng khía cạnh liệu Ký hiệu #aspect1 #aspect2 #aspect3 #aspect4 #aspect5 #aspect6 #aspect7 #aspect8 #aspect9 #aspect10 #aspect11 Khía cạnh Diễn giải Các ý kiến đề cập đến cách tổ chức dạy học, phương pháp dạy học lý thuyết, Kỹ giảng dạy thực hành giảng viên Các ý kiến đề cập đến kinh nghiệm thực tiễn việc đưa nội dung thực tiễn Kinh nghiệm lồng ghép vào giảng giảng viên Các ý kiến đề cập đến hành vi, thái độ giảng viên giảng dạy Hành vi giao tiếp với người học Bài tập Các ý kiến đề cập đến tập, số lượng tập loại tập giảng viên,… Chấm điểm Các ý kiến đề cấp đến hoạt động chấm điểm giảng viên Cung cấp tài liệu Các ý kiến đề cập đến việc cung cấp tài liệu, giáo trình, giáo án giảng viên Các ý kiến đề cập đến mức độ hiểu biết giảng viên nội dung giảng Kiến thức dạy, kiến thức cung cấp cho sinh viên Chương trình học Các ý kiến đề cập đến chương trình học, mơn học Thiết bị dạy học Các ý kiến đề cập đến trang thiết bị dạy học phòng học, máy chiếu, quạt, đèn Các ý kiến đề cập đến đề xuất, mong muốn sinh viên gửi đến giảng viên Đề xuất nhà trường Các ý kiến đề cập đến vấn đề chung giảng viên không thuộc Nói chung khía cạnh http://jst.tnu.edu.vn 50 Email: jst@tnu.edu.vn 226(18): 48 - 55 TNU Journal of Science and Technology Nhìn vào Bảng 1, dễ dàng nhận thấy cân khía cạnh với nhau, cụ thể khía cạnh liên quan đến nhận xét sinh viên giảng viên nhiều ―kỹ giảng dạy‖, ―hành vi‖ hay ―bài tập‖ Cịn khía cạnh khác sinh viên đề cập đến ―chấm điểm‖, ―thiết bị dạy học‖, ―đề xuất‖ Điều giải thích được, hầu hết khảo sát khảo sát sinh viên đánh giá chất lượng giảng dạy môn học, nên hầu kiến phản hồi sinh viên nhận xét đến giảng viên điều chấp nhận Đối với toán này, việc cân khía cạnh điều khơng thể tránh khỏi liệu thu thập từ ý kiến thực tế Vì vậy, chênh lệch khía cạnh thách thức liệu xây dựng Bảng Danh sách thống kê số lượng trạng thái cảm xúc Tương ứng với khía cạnh liệu chúng tơi Khía cạnh Kỹ giảng dạy Kinh nghiệm Hành vi Bài tập Chấm điểm Cung cấp tài liệu Kiến thức Chương trình học Thiết bị dạy học Đề xuất Nói chung Tích cực 1148 102 1530 151 24 66 155 17 59 121 232 Nhãn cảm xúc Tiêu cực 536 18 434 122 37 89 57 59 2 285 Trung tính 15 2 29 50 Tổng 1699 120 1970 277 62 155 214 78 64 152 567 2.2 Kiến trúc mơ hình Sau xây dựng tập liệu ý kiến phản hồi sinh viên, tiến hành cài đặt phương pháp dựa cách tiếp cận mơ hình máy học truyền thống mơ hình học sâu Kiến trúc mơ hình tổng qt thí nghiệm báo trình bày Hình Sau đó, báo trình bày mơ hình kết hợp hai mơ hình mạng hồi quy hai chiều Bidirectional Long short-term memory mơ hình mạng tích chập Convolutional Neural Network – viết tắt BiLSTM-CNN Hình Kiến trúc mơ hình kết hợp BiLSTM-CNN cho tốn tích ý kiến theo khía cạnh Mơ hình chúng tơi mơ tả Hình bao gồm thành phần sau: Lớp đầu vào (Input), lớp nhúng từ (Embedding), lớp mạng hồi quy LSTM hai chiều (BiLSTM), Lớp tích chập (Convolution), lớp gộp (Pooling), lớp phân loại (Fully connected) lớp đầu (Output) Trong đó, chi tiết thành phần trình bày sau: + Lớp đầu vào: Các phản hồi sau qua bước tiền xử lý biểu diễn thành véc tơ số với chiều dài cố định với chiều vectơ cố định bình luận dài Các bình luận khơng đủ độ dài tự động thêm giá trị + Lớp nhúng từ: Mỗi từ vựng chuyển thành vectơ đại diện thông tin biểu diễn chúng Các cơng trình nghiên cứu trước chứng minh việc sử dụng nhúng từ (pretrained word embedding) đem lại hiệu tốt so với việc khởi tạo vector cách http://jst.tnu.edu.vn 51 Email: jst@tnu.edu.vn 226(18): 48 - 55 TNU Journal of Science and Technology ngẫu nhiên Chính thế, báo này, sử dụng nhúng từ huấn luyện sẵn dành1 cho tiếng Việt huấn luyện miền liệu tin tức để rút trích vectơ từ vựng + Lớp BiLSTM: Tiếp theo, sử dụng mơ hình mạng hồi quy LSTM hai chiều để khai thác thông tin mối liên hệ từ vựng theo ngữ cảnh trước sau câu bình luận + Lớp tích chập: Dựa véc tơ biểu diễn từ lớp BiLSTM, sử dụng nhiều lọc (filter) với kích thước khác để rút trích đặc trưng cục bình luận Cụ thể, kích thước lọc sử dụng lớp có kích thước 2,3 Các giá trị cho phép mơ hình rút trích đặc trưng cục 2-gram, 3-gram 4-gram + Lớp gộp: Ở tầng kiến trúc này, sử dụng kỹ thuật Global Max Pooling cho lớp tích chập để rút trích đặc trưng quan trọng bình luận để làm véc tơ biểu diễn cho toàn đầu vào + Lớp phân loại: Sau rút trích đặc trưng quan trọng biểu diễn đầu vào, đưa đặc trưng qua lớp phân loại với hàm kích hoạt RELU để xác định xem nhãn khía cạnh trạng thái cảm xúc tương ứng đề cập bình luận đầu vào + Lớp đầu ra: Mỗi khía cạnh trạng thái cảm xúc tương ứng biểu diễn thành one-hot véc tơ có độ dài phần tử đại diện cho thông tin: None, positive, neutral, negative Chúng sử dụng phân lớp với hàm kích hoạt softmax tương ứng khía cạnh để tính tốn giá trị phân bố xác suất nhãn phân loại ( ) ∑ ∑ ̂ (2) Bộ liệu phản hồi sinh viên liệu không chứa nhiều lỗi ngữ pháp, từ vựng Tuy nhiên, để tăng độ xác cho mơ hình, chúng tơi tiến hành bước xử lý liệu trước huấn luyện Các bước tiền xử lý trình bày sau: + Bước 1: Xóa thơng tin dư thừa bình luận nhiều khoảng trắng, dấu chấm câu icon bình luận áp dụng biểu thức quy để thay liệu số thành ký từ ―num‖ + Bước 2: Sau đó, chúng tơi sử dụng thư viện Pyvi2 để tách đầu vào thành từ vựng từ vựng tiếng Việt cấu tạo từ nhiều âm tiết + Bước 3: Bước cuối chuyển tất từ vựng chuỗi đầu vào thành chữ thường để giảm kích thước từ vựng liệu nâng cao hiệu 2.2.1 Mơ hình so sánh Trong báo này, nghiên cứu cài đặt phương pháp máy học truyền thống Support Vector Machine, Naive Bayes hay Neural Network kết hợp với đặc trưng thủ cơng Bên cạnh đó, chúng tơi nghiên cứu mơ hình học sâu mạng hồi quy Long short-term Memory, mạng tích chập Convolution Neural Network liệu gán nhãn Chi tiết thơng số mơ hình so sánh chúng tơi trình bày sau: - Support Vector Machine (SVM) [6], [8]: SVM phương pháp máy học truyền thống đạt hiệu tốt tốn xử lý ngơn ngữ Chúng tơi sử dụng mơ hình Linear SVM với thơng số khởi tạo giá trị C=0,1 - Naive Bayes (NB): Đây phương pháp phân loại tốt cho liệu văn bản, nhiên véc tơ biểu diễn cho đặc trưng có xu hướng rời rạc, chúng tơi sử dụng mơ hình Naive Bayes đa thức để cài đặt thí nghiệm - Neural Network (NN): Mạng nhân tạo với lớp ẩn với 128 node sử dụng hàm kích hoạt ReLu, hàm tối ưu hóa Adam, giá trị α = 0,001 tối đa 300 lần lặp https://github.com/sonvx/word2vecVN https://github.com/trungtv/pyvi http://jst.tnu.edu.vn 52 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(18): 48 - 55 - CNN: Mạng tích chập CNN [12] mơ hình học sâu có hiệu tốn phân loại văn Chính thế, sử dụng mạng CNN mơ hình so sánh chuẩn để đánh giá hiệu - LSTM: Tương tự mơ hình CNN mơ hình mạng hồi quy LSTM mơ hình học sâu chuẩn, chúng tơi cài đặt mơ hình mạng hồi quy LSTM [13] với thơng số chuẩn Đối với mơ hình máy học truyền thống, chúng tơi tiến hành rút trích đặc trưng thủ công từ vựng áp dụng kỹ thuật TF-IDF để biểu diễn đặc trưng văn thành vectơ số để đưa vào mơ hình huấn luyện phân lớp 2.2.2 Chi tiết cài đặt Đối với mơ hình kết hợp BiLSTM-CNN, chúng tơi sử dụng mơ hình mạng hồi quy chiều LSTM với giá trị số chiều chiều ẩn 128 chiều Số lượng lọc lớp tích chập chúng tơi có 128 lọc với kích thước kernel tương ứng 2,3,4 từ vựng với hàm kích hoạt ReLU Giá trị tốc độ học hàm tối ưu Adam chọn với giá trị 0,001 Giá trị batch size để huấn luyện mơ hình gán 32 Đối với mơ hình học sâu CNN chúng tơi sử dụng lọc tích chập khác với kích thước tương tự mơ hình kết hợp lớp tích chập với kernel 2,3,4 Cịn đối mơ hình LSTM số số chiều chiều ẩn có giá trị 128 Cả hai mơ hình CNN LSTM sử dụng nhúng từ word2vec3 huấn luyện tập liệu báo tin tức với số chiều véc-tơ 300 chiều Các mơ hình máy học truyền thống Nạve Bayers, SVM, Neural Network chúng tơi áp dụng kỹ thuật Grid Search để lựa chọn tham số mơ hình tập phát triển liệu 2.2.3 Độ đo đánh giá Để đánh giá hiệu phương pháp khác nhau, sử dụng độ đo chuẩn cho toán độ xác, độ phủ số F1-score tính theo phương pháp micro tỷ lệ cân nhãn khía cạnh với Cơng thức tính độ xác, độ phủ số F1 micro trình bày sau: ∑ | ∑ ∑ ∑ | | | | | | | (3) (4) (5) Trong đó: A phân lớp hệ thống dự đốn ra, B phân lớp đích (phân lớp người dùng gán nhãn), C tổng số lượng nhãn khía cạnh (C=11 trường hợp liệu chúng tôi) Kết bàn luận Ở phần này, chúng tơi trình bày kết nghiên cứu phương pháp thử nghiệm so sánh kết với mơ hình máy học truyền thống mơ hình học sâu khác liệu xây dựng Bảng Bảng trình bày kết thực nghiệm mơ hình tập kiểm tra tương ứng với hai tốn là: Phát khía cạnh Phát khía cạnh với trạng thái cảm xúc tương ứng theo độ đo như: độ xác, độ phủ số F1 Nhìn cách tổng quan hai toán, dễ dàng nhận thấy hiệu phương pháp kết hợp BiLSTM-CNN liên quan đến số F1, cụ thể tốn phát khía cạnh, mơ hình chúng tơi đạt độ xác 78,78%, độ phủ 79,08%, độ đo F1 78,93% Còn tốn phát khía cạnh trạng thái cảm xúc tương ứng, mơ hình đạt kết độ xác 73,64%, độ phủ 73,93% độ đo F1 73,78% Ở đây, thấy kết toán thứ hai lúc thấp toán với mục tiêu toán thứ hai xác định khía cạnh trạng thái cảm xúc tương ứng, tính tốn độ đo, tính mẫu mơ hình vừa xác định xác hai nhãn khía cạnh trạng thái cảm xúc Đối với ba phương pháp máy học truyền thống SVM, NB NN, thấy hiệu mơ hình SVM so với hai https://github.com/sonvx/word2vecVN http://jst.tnu.edu.vn 53 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(18): 48 - 55 phương pháp lại Kết cho thấy SVM mơ hình hiệu phương pháp máy học cổ điển Cịn hai mơ hình học sâu CNN LSTM thấy có hiệu cao +0,61% +1,27% kiến trúc CNN Tuy nhiên chênh lệch không đáng kể hai mơ hình Dựa vào kết thấy vượt trội mô hình học sâu so với mơ hình máy học truyền thống Cụ thể mơ hình CNN cao mơ hình SVM +0,9% cho tốn phát khía cạnh, +3,48% cho tốn phát khía cạnh trạng thái cảm xúc Cịn mơ hình đề xuất thử nghiệm chúng tơi cao mơ hình CNN +2,82% + 1,26% tương ứng cho hai tốn Kết mơ hình kết hợp CNN BiLSTM cao hai mơ hình học sâu CNN LSTM chúng tơi sử dụng mơ hình BiLSTM để học biểu diễn theo ngữ cảnh hai chiều câu đầu vào, sau dùng kỹ thuật CNN để rút trích đặc trưng theo lọc biểu diễn BiLSTM Điều giúp mô hình có nhiều thơng tin tăng độ hiệu sử dụng hai mơ hình cách riêng lẻ Độ đo F1 Bảng Kết thí nghiệm phương pháp cho tốn phát khía cạnh tập kiểm tra Phương pháp Độ xác (%) Độ phủ (%) Chỉ số F1 (%) NB 57,75 61,75 59,69 NN 68,70 75,37 71,88 SVM 68,41 83,51 75,21 LSTM 73,25 77,90 75,50 CNN 72,60 79,98 76,11 BiLSTM-CNN 78,78 79,08 78,93 Bảng Kết thí nghiệm phương pháp cho tốn phát khía cạnh trạng thái cảm xúc tương ứng tập kiểm tra Phương pháp Độ xác (%) Độ phủ (%) Chỉ số F1 (%) NB 51,76 55,34 53,49 NN 61,18 67,12 64,01 SVM 62,80 69,04 76,66 LSTM 68,52 74,21 71,25 CNN 69,17 76,21 72,52 BiLSTM-CNN 73,93 73,64 73,78 100 80 60 40 20 Danh sách khía cạnh Hình Kết chi tiết khía cạnh trạng thái cảm xúc mơ hình kết hợp BiLSTM-CNN tập kiểm tra Hình mơ tả kết chi tiết độ đo F1 khía cạnh tập liệu kiểm tra mơ hình đề xuất cho tốn phát khía cạnh cảm xúc tương ứng Nhìn vào Hình 2, thấy hiệu mơ hình khí cạnh ―Hành vi‖, "Kỹ giảng dạy‖, ―Cung cấp tài liệu‖ với độ đo F1 84,10%, 78,99% 73,68% Trong đó, khía cạnh ―Chương trình học‖, ―Nói chung‖, ―Kiến thức‖ với độ đo F1 42,86%, 47,71% 54,76% Kết giải thích số lượng khía cạnh thường khía cạnh có số lượng ý kiến liệu Do đó, để nâng cao hiệu khía cạnh này, chúng tơi cố gắng bổ sung liệu cách gán nhãn thêm áp dụng phương pháp tăng cường liệu Do đó, nghiên cứu tương lai sử dụng liệu cần tập trung ý nâng cao hiệu khía cạnh để tăng hiệu tổng quan toàn hệ thống http://jst.tnu.edu.vn 54 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(18): 48 - 55 Kết luận Trong báo này, chúng tơi trình bày nghiên cứu tốn Phân tích cảm xúc theo khía cạnh ý kiến phản hồi sinh viên với mục tiêu đạt sau: (1) Thu thập, xây dựng gán nhãn thủ công liệu với kích thước 5010 câu ý kiến bao gồm 11 khía cạnh khía cạnh gán trạng thái cảm xúc khác nhau; (2) Chúng cài đặt phương pháp máy học, học sâu liệu xây dựng để làm tảng cho phát triển toán cơng trình Kết thực nghiệm minh chứng mơ hình kết hợp chúng tơi BiLSTM-CNN cho kết hiệu so với mô hình khác với số F1 78,93% cho tốn phát khía cạnh 73,78% cho tốn phát khía cạnh trạng thái cảm xúc tương ứng Trong phát triển tương lai nghiên cứu, tập trung gán nhãn bổ sung thêm để tăng số lượng liệu nghiên cứu phương pháp để nâng cao hiệu suất mơ hình Bên cạnh đó, liệu gán nhãn công bố cho cộng đồng nghiên cứu để thúc đẩy phát triển lĩnh vực tiếng Việt Lời cám ơn Bài báo sản phẩm nghiên cứu đề tài ―Xây dựng phần mềm phân tích tự động ý kiến phản hồi sinh viên chất lượng đào tạo Phân hiệu Trường Đại học Nội vụ Hà Nội Thành phố Hồ Chí Minh‖, mã số đề tài ĐTCT.2022.133 tài trợ Trường Đại học Nội vụ Hà Nội TÀI LIỆU THAM KHẢO/ REFERENCES [1] M Pontiki, D Galanis, H Papageorgiou, I Androutsopoulos, S Manandhar, M Al-Smadi, and G Eryiğit, ―SemEval-2016 task 5: Aspect based sentiment analysis,‖ In International workshop on semantic evaluation, 2016, pp 19-30 [2] M Sivakumar and U Srinivasulu Reddy, ―Aspect based sentiment analysis of students opinion using machine learning techniques,‖ In 2017 International Conference on Inventive Computing and Informatics (ICICI), IEEE, 2017, pp 726-731 [3] G S Chauhan, P Agrawal, and Y K Meena, ―Aspect-based sentiment analysis of students’ feedback to improve teaching–learning process,‖ In Information and Communication Technology for Intelligent Systems, Springer, Singapore, 2019, pp 259-266 [4] Z Kastrati, A S Imran, and A Kurti, ―Weakly supervised framework for aspect-based sentiment analysis on students’ reviews of MOOCs,‖ IEEE Access, vol 8, pp 106799-106810, 2020 [5] T M H Nguyen, V H Nguyen, T Q Ngo, X L Vu , M V Tran, X B Ngo, and A C Le, ―VLSP shared task: sentiment analysis,‖ Journal of Computer Science and Cybernetics, vol 34, no 4, pp 295-310, 2018 [6] V T Dang, D N Vu, V K Nguyen, and L T N Nguyen, ―A transformation method for aspect-based sentiment analysis,‖ Journal of Computer Science and Cybernetics, vol 34, no 4, pp 323-333, 2018 [7] V T Dang, D N Vu, V K Nguyen, and L T N Nguyen, ―Deep learning for aspect detection on vietnamese reviews,‖ In 5th NAFOSTED Conference on Information and Computer Science (NICS), IEEE, 2018, pp 104-109 [8] T T T Nguyen, X B Ngo, and M P Tu, ―Leveraging Foreign Language Labeled Data for AspectBased Opinion Mining,‖ 2020 RIVF International Conference on Computing and Communication Technologies (RIVF), IEEE, 2020 [9] K T Tran and T T Phan, ―Deep learning application to ensemble learning—the simple, but effective, approach to sentiment classifying,‖ Applied Sciences 9, no 13, p 2760, 2019 [10] V T Dang, L T N Nguyen, T M Truong, L S Le, and T D Vo, ―Two New Large Corpora for Vietnamese Aspect-based Sentiment Analysis at Sentence Level,‖ Transactions on Asian and LowResource Language Information Processing, vol 20, no 4, pp 1-22, 2021 [11] V K Nguyen, V D Nguyen, X V P Nguyen, T H T Truong, and L T N Nguyen, ―UIT-VSFC: Vietnamese students’ feedback corpus for sentiment analysis,‖ In 10th International Conference on Knowledge and Systems Engineering (KSE), IEEE, 2018, pp 19-24 [12] Y Kim, ―Convolutional neural networks for sentence classification,‖ Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014, pp 1746-1751 [13] S Hochreiter and J Schmidhuber, ―Long short-term memory,‖ Neural computation, vol 9, no 8, pp 1735-1780, 1997 http://jst.tnu.edu.vn 55 Email: jst@tnu.edu.vn ... tốn Phân tích cảm xúc theo khía cạnh ý kiến phản hồi sinh viên với mục tiêu đạt sau: (1) Thu thập, xây dựng gán nhãn thủ công liệu với kích thước 5010 câu ý kiến bao gồm 11 khía cạnh khía cạnh. .. dựa phân tích thực tế cho hai toán khác nhau: (1) Bài tốn phát khía cạnh – khía cạnh khác đề cập ý kiến phản hồi sinh viên; (2) Bài toán phát cảm xúc theo khía cạnh – khía cạnh đề cập xác định... chuẩn ý kiến phản hồi sinh viên theo khía cạnh Cho nên mục tiêu xây dựng liệu chuẩn mức độ câu phục vụ cho việc nghiên cứu toán sử dụng phương pháp học giám sát Để thu thập gán nhãn liệu ý kiến phản

Ngày đăng: 18/01/2022, 11:17