Xử lý ý kiến phản hồi của người học dựa trên phương pháp phân loại văn bản

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	15
Dung lượng	855,2 KB

Nội dung

Đảm bảo chất lượng đào tạo đang nhận được nhiều sự quan tâm của các cơ sở đào tạo đại học. Người học đóng vai trò quan trọng trong việc đảm bảo chất lượng đào tạo. Với mục tiêu hiểu được các phản hồi của người học về các hoạt động đào tạo tại trường Đại học Nha Trang (ĐHNT) nhằm góp phần nâng cao chất lượng đào tạo của Nhà trường, bài viết đề xuất xử lý các ý kiến phản hồi của người học thông qua việc tự động phân loại và gán nhãn các ý kiến phản hồi của người học.

TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT Tập 10, Số 3, 2020 52-66 XỬ LÝ Ý KIẾN PHẢN HỒI CỦA NGƯỜI HỌC DỰA TRÊN PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN Phạm Thị Kim Ngoana*, Nguyễn Hải Triềua Khoa Công nghệ Thơng tin, Trường Đại học Nha Trang, Khánh Hịa, Việt Nam * Tác giả liên hệ: Email: ngoanptk@ntu.edu.vn a Lịch sử báo Nhận ngày 27 tháng 02 năm 2020 Chỉnh sửa ngày 29 tháng năm 2020 | Chấp nhận đăng ngày 15 tháng năm 2020 Tóm tắt Đảm bảo chất lượng đào tạo nhận nhiều quan tâm sở đào tạo đại học Người học đóng vai trị quan trọng việc đảm bảo chất lượng đào tạo Với mục tiêu hiểu phản hồi người học hoạt động đào tạo trường Đại học Nha Trang (ĐHNT) nhằm góp phần nâng cao chất lượng đào tạo Nhà trường, đề xuất xử lý ý kiến phản hồi người học thông qua việc tự động phân loại gán nhãn ý kiến phản hồi người học Việc phân loại dự đoán nhãn thực dựa phương pháp Support Vector Machine (SVM) Naive Bayes Classifier (NBC) Thực nghiệm cho kết khả quan tập liệu ý kiến người học trường ĐHNT với phương pháp SVM NBC tương ứng 92.13% 90.10% Từ khóa: Learn's feedbacks; Naive Bayesian Classification (NBC); Phân loại văn bản; Support Vector Machine (SVM); Text Classification; Ý kiến người học DOI: http://dx.doi.org/10.37569/DalatUniversity.10.3.667(2020) Loại báo: Bài báo nghiên cứu gốc có bình duyệt Bản quyền © 2020 (Các) Tác giả Cấp phép: Bài báo cấp phép theo CC BY-NC 4.0 52 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỤ NHIÊN VÀ CÔNG NGHỆ] HANDLING OF STUDENT FEEDBACK BASED ON TEXT CLASSIFICATION Pham Thi Kim Ngoana*, Nguyen Hai Trieua a The Information Technology Faculty, Nha Trang University, Khanhhoa, Vietnam * Corresponding author: Email: ngoanptk@ntu.edu.vn Article history Received: February 27th, 2020 Received in revised form: April 29th, 2020 | Accepted: June 15th, 2020 Abstract Ensuring quality training has been receiving a lot of attention from university training establishments Learners play an important role in quality assurance in training and education To understand the meaning of student feedback on training activities at Nha Trang University (NTU) and to improve the university’s training, we propose to handle student feedback through automatic feedback classification and labeling The classification and prediction of labels are based on the Support Vector Machine (SVM) and Naive Bayes Classifier (NBC) methods Experiments with the SVM and NBC methods show positive results, 92.13% and 90.10%, respectively, for the data set of student reviews at Nha Trang University Keywords: Learner feedback; Naive Bayesian Classification; Support Vector Machine; Text Classification DOI: http://dx.doi.org/10.37569/DalatUniversity.10.3.667(2020) Article type: (peer-reviewed) Full-length research article Copyright © 2020 The author(s) Licensing: This article is licensed under a CC BY-NC 4.0 53 Phạm Thị Kim Ngoan Nguyễn Hải Triều GIỚI THIỆU Ở nước phát triển, việc lấy ý kiến phản hồi người học có từ lâu hoạt động phổ biến Tại Đại học Harvard, việc thu thập phản hồi sinh viên diễn thường xuyên vào đầu học kỳ, kỳ cuối học kỳ (Harvard University, n.d) Đại học Malta thiết kế mẫu đánh giá học, chương trình học để thu nhận ý kiến từ người học định kỳ cuối bài, cuối chương trình (L-Università ta’ Malta, 2020) Các trường đại học thông qua phản hồi từ người học nhằm thu nhận thông tin chất lượng giảng dạy học tập Trường Ở Việt Nam, người học đóng vai trị quan trọng việc đảm bảo chất lượng đào tạo Hầu hết trường đại học có kênh để lấy ý kiến phản hồi từ người học trình đào tạo, hoạt động giảng dạy giảng viên Tuy nhiên, trường có cách lấy ý kiến xử lý số liệu thu khác Trong nhiều năm qua, công tác lấy ý kiến phản hồi từ người học hoạt động đào tạo nhiệm vụ thường xuyên cuối học kỳ Trường ĐHNT Trong phiếu đánh giá Trường, ngồi tiêu chí định lượng cịn có câu hỏi mở Thông qua câu hỏi mở, Trường nhận nhiều ý kiến khác người học phản hồi dạng liệu văn Các ý kiến thường liên quan đến đề xuất người học để nâng cao chất lượng đào tạo Nhà trường, có nhiều ý hay chưa xử lý, việc xử lý thủ công gặp nhiều khó khăn nhiều thời gian Trong báo cáo này, đề xuất xử lý tự động ý kiến người học phiếu đánh giá trường ĐHNT phương pháp phân lớp gán nhãn Kết xử lý ý kiến người học hỗ trợ phòng chức đánh giá hoạt động đào tạo triển khai định hướng cho hoạt động đào tạo tương lai Thu thập ý kiến người học Xử lý liệu ý kiến người học tự động Các phòng ban tiếp nhận Đánh giá hoạt động đào tạo Hình Chu trình xử lý ý kiến người học Trường ĐHNT Các phần báo cáo gồm: Phương pháp thực hiện, kết thử nghiệm kết luận PHƯƠNG PHÁP THỰC HIỆN Phân loại văn (text) toán thuộc lĩnh vực học máy (Machine Learning) Do đó, để thực phân loại phải trải qua bước Hình 54 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỤ NHIÊN VÀ CÔNG NGHỆ] Hiệu chỉnh tham số thuật toán tập training Tiền xử lý xử lý liệu Tập training Các thuật tốn phân loại: NBC, SVM Đạt kì vọng Mơ hình Kết dự đốn + Áp dụng phân loại thực tế Được gắn nhãn Tiền xử lý xử lý liệu Tập test Hình Minh họa q trình phân loại văn 2.1 Mơ tả liệu Trong phiếu đánh giá hoạt động giảng dạy Trường ĐHNT có câu hỏi mở để người học góp ý cho Nhà trường giảng viên nhằm nâng cao chất lượng giảng dạy Hiện nay, việc lấy ý kiến người học thông qua hệ thống góp ý trực tuyến Trường Sau đó, liệu xuất tập tin bảng tính excel để gửi cho bên liên quan xử lý Tập liệu sử dụng báo cáo lấy ngẫu nhiên phần từ tập tin excel ý kiến người học trường Đại học Nha Trang học kỳ năm học 2018-2019 Tập liệu mô tả ý kiến người học đánh giá cho hoạt động giảng dạy học phần khác giảng viên thuộc nhiều khoa, viện Chúng thu tập liệu gồm 2953 ý kiến Dựa ý kiến chuyên gia, phân tập liệu thành bốn lớp ứng với nhãn số lượng ý kiến Bảng Tổng số văn cho tập training test 2,064,889 Bảng Tên nhãn số lượng văn tập liệu Tên nhãn Số lượng văn cho tập training Số lượng văn cho tập test Phương pháp giảng dạy giảng viên 1099 469 Thái độ giảng viên người học 518 222 Cơ sở vật chất 355 151 Ý kiến khác 92 47 Qua phân tích liệu, chúng tơi thu thống kê 10 từ thông dụng xuất nhiều tập liệu training Hình 55 Phạm Thị Kim Ngoan Nguyễn Hải Triều Hình 10 từ xuất nhiều tập training Ngoài ra, vectors đặc trưng từ tập liệu training có số chiều tương đối lớn (được đề cập Mục 2.2) Để quan sát phân bố, tương quan điểm liệu lựa chọn mơ hình phân lớp hiệu quả, áp dụng kỹ thuật giảm số chiều liệu PCA (Principal Component Analysis) t-SNE (t-distributed Stochastic Neighbor Embedding) machine learning (Maaten & Hinton, 2008; Vũ, 2020) Bằng cách giảm số chiều vectors đặc trưng xuống hai chiều mà giữ phần lớn thông tin quan trọng, vẽ điểm liệu Hình Dựa biểu đồ Hình 4, quan sát rằng, sử dụng kỹ thuật t-SNE cho kết phân lớp rõ ràng Hình Sự phân bố điểm liệu vẽ phương pháp PCA t-SNE 2.2 Tiền xử lý liệu Đối với tốn phân lớp ý kiến người học, chúng tơi áp dụng thuật toán phổ biến hỗ trợ xử lý ngơn ngữ tự nhiên Bag-of-words (BoW) BoW có nhiệm vụ phân tích phân nhóm dựa theo “Bag of Words” (corpus) tạo từ điển Dựa vào số lần từ xuất “bag”, thu vector đặc trưng văn Đầu vào 56 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỤ NHIÊN VÀ CÔNG NGHỆ] Bag-of-words đoạn văn tách từ (Words segmentation) Trong viết này, để thực tách từ, sử dụng công cụ ViTokenizer thư viện pyvi có sẵn Python tác giả Trần (2016) xây dựng Kết tách từ thu độ xác từ 96%-98% (xem Bảng 2) Bảng Ví dụ tách từ tiếng Việt công cụ ViTokenizer thư viện pyvi Câu gốc Câu tách từ ViTokenizer Đầu tư thêm trang thiết bị giảng dạy Đầu_tư thêm trang_thiết_bị giảng_dạy Cần phải vào chuyên sâu vấn đề giảng dạy Cần phải vào chuyên_sâu vấn_đề giảng_dạy hơn_nữa Giảng dạy tận tâm Giảng_dạy tận_tâm Giảng viên nên trọng vào lý thuyết Giảng viên nên chú_trọng vào lý_thuyết Tuy nhiên theo Hồ Đỗ (2014) Vũ (2020) BoW có số nhược điểm từ điển chứa lớn số lượng từ (từ điển tập liệu “Ý kiến người học trường Đại Học Nha Trang” sử dụng viết có kích thước 1366), dẫn đến vector đặc trưng thu có kích thước lớn, có nhiều từ từ điển không xuất văn dẫn đến trường hợp vector thưa (sparse vector) Để khắc phục nhược điểm này, áp dụng phương pháp Term Frequency-Inverse Document Frequency (TF-IDF) (Robertson, 2004) để đánh giá độ quan trọng từ dựa vào trọng số từ toàn văn Tần số xuất tf từ văn dựa toàn văn tập training tính theo Cơng thức 1: 𝑡𝑓(𝑡, 𝑑) = ∑ 𝑓𝑡,𝑑 (1) 𝑡′ ∈𝑑 𝑓𝑡′ ,𝑑 Trong đó, ft,d số lần từ t xuất văn d toàn tổng số từ văn d Bảng thể tần suất xuất số từ tập training Một vài từ có tần suất xuất nhiều thường khơng có giá trị đặc trưng phân loại Bảng Bảng tần suất xuất số từ toàn văn Từ cân_đối sinh_viên dễ dạy hiểu nhiệt_tình Tần suất 296 442 457 473 516 Để giảm giá trị đặc trưng từ thường xun Bảng 3, chúng tơi tính idf theo Công thức 2: |𝐷| 𝑖𝑑𝑓(𝑡, 𝐷) = log (1 + 1+|𝑑∈𝐷:𝑡∈𝑑|) + (2) Trong đó, |D| tổng số văn tập training Mẫu số số văn tập traning có chứa từ t Trong Cơng thức cộng thêm từ không xuất văn tập training mẫu số Bảng cho thấy từ thường xuất Bảng đánh lại trọng số quan trọng tồn văn Các từ có trọng số cao có giá trị phân loại 57 Phạm Thị Kim Ngoan Nguyễn Hải Triều Bảng Kết tính giá trị trọng số idf Từ nhiệt_tình hiểu dạy dễ sinh_viên cân_đối idf values 2.388719 2.497321 2.550667 2.573762 3.091622 7.939738 Sau tìm tf, idf, cơng thức tf − idf tính theo Cơng thức 3: 𝑡𝑓𝑖𝑑𝑓(𝑡, 𝑑, 𝐷) = 𝑡𝑓(𝑡, 𝑑) × 𝑖𝑑𝑓(𝑡, 𝐷) 2.3 (3) Các thuật toán phân loại Sau tiền xử lý liệu thô “ý kiến người học trường ĐHNT” trên, áp dụng thuật toán Machine Learning liệu vừa thu Trong Hồ Đỗ (2014) Vũ (2020) nêu có nhiều thuật tốn phân loại văn Naive Bayes Classifier, Decision Tree (Random Forest), Vector Support Machine (SVM), Boosting and Bagging algorithms, Convolution Neural Network (CNN), Recurrent Neural Network (RNN), Long Short-Term Memory (LSTM, Bi-LSTM), SLDA Việc lựa chọn mơ hình tốt phụ thuộc vào liệu văn đầu vào Trong khuôn khổ viết này, sử dụng phương pháp NBC SVM vào việc phân loại ý kiến người học trường ĐHNT đánh giá độ hiệu phương pháp 2.3.1 Naive Bayes Classifier (NBC) Naive Bayes Classification (NBC) thuật tốn phân loại thuộc nhóm Supervised Learning (học có giám sát) dựa tính tốn xác suất áp dụng Định lý Bayes Trong Han, Kamber, Pei (2011), Karthika Sairam (2015), Zhang (2004) đề cập kỹ thuật Naive Bayesian ban đầu dựa định nghĩa xác suất có điều kiện (conditional probability) “Maximum likelihood” Định lý Bayes dùng để tính xác suất ngẫu nhiên kiện y biết “feature vector” x = x1, ,xn ta dùng Công thức 4: 𝑃(𝑦|𝑥1 , … , 𝑥𝑛 ) = 𝑃(𝑦)𝑃(𝑥1 , … , 𝑥𝑛 |𝑦) 𝑃(𝑥1 ,…,𝑥𝑛 ) (4) Giả sử thành phần “feature vector” x độc lập với ta có Công thức 5: 𝑃(𝑥|𝑦) = 𝑃(𝑥1 ∩ 𝑥2 ∩ … ∩ 𝑥𝑛 |𝑦) = ∏𝑛𝑖=1 𝑃(𝑥𝑖 |𝑦) (5) Từ giả thiết định lý Bayes Công thức viết lại thành Công thức 6: 𝑃(𝑦|𝑥1 , … , 𝑥𝑛 ) = 𝑃(𝑦) ∏𝑛 𝑖=1 𝑃(𝑥𝑖 |𝑦) (6) 𝑃(𝑥1 ,…,𝑥𝑛) Ở phương trình trên, ta có mẫu số P(x1, ,xn) số đầu vào cho không phụ thuộc vào P(y | x1, ,xn) Do đó, áp dụng quy tắc phân loại sau (Công thức 7): 𝑃(𝑦|𝑥1 , … , 𝑥𝑛 ) ∝ 𝑃(𝑦) ∏𝑛𝑖=1 𝑃(𝑥𝑖 |𝑦) 58 (7) TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỤ NHIÊN VÀ CƠNG NGHỆ] Trong đó, ∝ phép tỉ lệ thuận Công thức viết lại sau (Công thức 8): 𝑦̂ = arg max 𝑃(𝑦) ∏𝑛𝑖=1 𝑃(𝑥𝑖 |𝑦) (8) 𝑦 Chúng ta sử dụng ước lượng Maximum A Posteriori (MAP) Maximum Likelihood để tính phân phối P(y) P(xi | y) dựa tần số tương đối lớp y training data Ước lượng Maximum Likelihood đưa giả sử feature vector x tuân theo phân phối mơ tả tham số θ Trong Vũ (2020), ý tưởng Maximum Likelihood việc tìm tham số θ để xác suất 𝜃 = max 𝑃(𝑥1 , … , 𝑥𝑛 |0) đạt giá trị lớn Trong đó, P(x1|θ) xác suất có điều kiện 𝜃 P(x1, ,xn|θ) xác suất để toàn kiện x1, ,xn xảy đồng thời (likelihood) Với giả thiết từ định lý Bayes thành phần feature vector x độc lập, ta quy tốn tối ưu (Công thức 9): 𝜃 = max ∏𝑛𝑖=1 𝑃(𝑥𝑖 |𝜃) (9) 𝜃 Bài tốn tối ưu (Cơng thức 9) viết lại dạng tương đương cách lấy log vế phải ta Công thức 10: 𝜃 = max ∑𝑛𝑖=1 log (𝑃(𝑥𝑖 |𝜃)) (10) 𝜃 Phương trình ta áp dụng log vào vế phải log hàm đồng biến tập số dương biểu thức lớn log lớn Do đó, toán Maximum Likelihood đưa toán Maximum Log–likelihood Áp dụng quy tắc Công thức 10 vào Công thức 8, ta thu Công thức 11: 𝑦̂ = 𝑎𝑟𝑔 max = log(𝑃(𝑦)) + ∑𝑛𝑖=1 log (𝑃(𝑥𝑖 |𝑦)) 𝑦 (11) Trên thực tế, giả thiết Naive Bayes Classifier đưa xảy Nhưng điều lại giúp toán trở nên đơn giản, hoạt động hiệu nhanh chóng nhiều trường hợp thực tế toán phân loại văn bản, lọc tin nhắn rác hay lọc email spam Việc tính toán phân phối P(xi|y) phụ thuộc vào loại liệu Trong trường hợp toán phân loại văn bản, sử dụng phân phối “Multinomial Naive Bayes” Trong mơ hình phân phối này, giá trị thành phần xi feature vector số lần từ thứ i xuất văn Phân phối Multinomial Naive Bayes tham số hóa vector θy = (θy1, ,θyn) cho class y, n số lượng đặc trưng hay nói cách khác, n kích thước từ điển Bag-of-words (n = 1366 liệu training chúng tôi) θyi xác suất P(xi|y) đặc trưng thứ i rơi vào mẫu thuộc class y Như đề cập trên, θy ước lượng cách sử dụng smoothed version of maximum likelihood (tương ứng với việc đếm tần suất xuất từ thứ i văn bản) sau (Công thức 12): 𝑁 +𝛼 𝜃̂𝑦𝑖 = 𝑁 𝑦𝑖+𝛼𝑛 (12) 𝑦 59 Phạm Thị Kim Ngoan Nguyễn Hải Triều Trong đó: 𝑁𝑦𝑖 = ∑𝑥∈𝑇 𝑥𝑖 tổng số lần xuất đặc trưng thứ i rơi vào văn class y tập traning T; 𝑁𝑦 = ∑𝑛𝑖=1 𝑁𝑦𝑖 tổng số lần tất đặc trưng x1, ,xn rơi vào class y Cơng thức 12 tránh hạn chế đặc trưng thứ i không xuất lần class y tập traning T với α > Thông thường, chọn α = gọi Laplace smoothing, α < Lidstone smoothing 2.3.2 Support Vector Machine (SVM) Bên cạnh việc sử dụng phương pháp phân loại văn đơn giản NBC, viết sử dụng phương pháp Support Vector Machine để phân loại ý kiến người học trường Đại Học Nha Trang Các nghiên cứu Srivastava Bhambhu (2010); Joachims (1998); Trần Phạm (2012) dựa phương pháp SVM cho toán phân loại văn có kết tốt SVM phương pháp học có giám sát (supervised learning) mơ hình nhận dạng mẫu dựa việc cực đại hóa dải biên phân lớp (max margin classification) lựa chọn kernel phù hợp (Hình 6) Phương pháp hoạt động với liệu phân tách tuyến tính phi tuyến Hình Minh họa mặt phân cách hai class Hình Minh họa tốn tối ưu SVM cách tìm đường phân chia để thu max margin 60 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỤ NHIÊN VÀ CÔNG NGHỆ] Kỹ thuật phương pháp SVM mô tả tổng quát không gian d chiều sau: Cho trước x1, ,xN điểm điểm thuộc vào class bất kì, cần tìm siêu phẳng (hyperplane) phân hoạch tối ưu cho dấu hàm ước lượng 𝐻 = 𝑥𝑠𝑖𝑔𝑛(𝑤 𝑇 𝑥 + 𝑏); 𝑤 ∈ 𝑅 𝑑 , 𝑏 ∈ 𝑅 thể điểm liệu xi ∈ Rd nằm cụm liệu Để dễ dàng hiểu ý tưởng phương pháp SVM, xem xét tốn phân loại hai lớp khơng gian hai chiều hình minh họa Rõ ràng Hình tìm nhiều đường phân tách, chọn đường phân tách tối ưu Hình kết tốt Nhiệm vụ phương pháp SVM tìm đường thẳng (siêu phẳng) Hình Xem xét tập training có liệu tách rời tuyến tính (x1,y1),(x2,y2), ,(xN,yN) Với điểm xi tương ứng với nhãn yi ∈±1 (dấu phía âm dương), ta thu đường phân tách hai class H : wT x + b = w1x1 + w2x2 + b = hai đường thẳng biên gốc H1, H−1 song song với H có khoảng cách đến H Với cặp liệu (xn,yn) bất kỳ, khoảng cách từ điểm tới mặt phân chia 𝑦𝑛 (𝑤 𝑇 𝑥𝑛 +𝑏) ||𝑤||2 Trong Hình 6, margin tính khoảng cách gần từ điểm class tới mặt phân cách: 𝑚𝑎𝑟𝑔𝑖𝑛 = 𝑦𝑛 (𝑤 𝑇 𝑥𝑛 +𝑏) 𝑛 ||𝑤||2 Bài toán tối ưu SVM trở thành toán xác định w b cho “margin” đạt giá trị lớn (Công thức 13) (𝑤, 𝑏) = 𝑎𝑟𝑔 max {min 𝑤,𝑏 𝑦𝑛 (𝑤 𝑇 𝑥𝑛 + 𝑏) ||𝑤||2 𝑛 } = 𝑎𝑟𝑔 max {||𝑤|| 𝑦𝑛 (𝑤 𝑇 𝑥𝑛 + 𝑏)} 𝑤,𝑏 𝑛 (13) Giả sử phần tử tập mẫu nằm H1 H−1, tức w.x+b >= +1 với y = +1 w.x + b >= −1 với y = −1, ta thu Công thức 14 𝑦𝑛 (𝑤 𝑇 𝑥𝑛 + 𝑏) = 1, ∀𝑛 = 1,2, … , 𝑁 (14) Bài tốn tối ưu (Cơng thức 13) đồng nghĩa với việc ||w|| đạt nhỏ với ràng buộc Công thức 14 (𝑤, 𝑏) = 𝑎𝑟𝑔 max ||𝑤||2 𝑠𝑢𝑏𝑗𝑒𝑐𝑡 𝑡𝑜: 𝑦𝑛 (𝑤 𝑇 𝑥𝑛 + 𝑏) ≥ 1, ∀𝑛 = 1,2, … , 𝑁 𝑤,𝑏 (15) Trong đó, Phương trình 15 chuyển sang dạng lấy bình phương chia đơi để dễ dàng tính tốn tối ưu lồi (cả hàm mục tiêu hàm ràng buộc lồi) Chúng ta giải tốn lồi thơng qua tốn đối ngẫu cách cực tiểu hóa hàm Lagrange (Cơng thức 16): 𝑇 ℒ(𝑤, 𝑏, 𝜆) = ||𝑤||22 + ∑𝑁 𝑛=1 𝜆𝑛 (1 − 𝑦𝑛 (𝑤 𝑥𝑛 + 𝑏)) 61 (16) Phạm Thị Kim Ngoan Nguyễn Hải Triều Với λ = [λ1,λ2, ,λN]T hệ số Lagrange, λn ≥ 0, ∀n Tiếp theo, toán chuyển thành toán đối ngẫu cách cực đại hóa hàm λ (Cơng thức 17): 𝜆 = arg max [min ℒ(𝑤, 𝑏, 𝜆)] 𝜆 (17) 𝑤,𝑏 subject to: 𝜆 ≥ 0, 𝑁 ∑ 𝜆𝑛 𝑦𝑛 = 𝑛=1 Giải λ thực phương pháp quy hoạch động bậc (Quadratic Programing) Từ ta tìm tham số: 𝑁 𝑤 = ∑ 𝜆𝑖 𝑦𝑖 𝑥1 , 𝑁 𝑏 = 𝑦𝑖 − ∑ 𝜆𝑗 𝑦𝑗 𝑥𝑗𝑇 𝑥𝑖 𝑖=1 𝑗=1 Trong đó, Support Vector: (xi,yi) tập điểm liệu nằm đường biên gốc Cuối cùng, phân loại mẫu tiến hành kiểm tra hàm dấu sign(wx + b) Trong thực tế, liệu phân tách từ tập traning phi tuyến, có chồng lấn (nhiễu) Dẫn đến siêu phẳng mặt cong để phù hợp phân tách liệu Siêu phẳng tìm thông qua ánh xạ liệu vào không gian có số chiều lớn cách sử dụng hàm nhân K (kernel) thoả mãn điều kiện Mercer Trong Nandi (2014) nêu số kernel phổ biến thường sử dụng theo Bảng Bảng Các kernels thông dụng Hàm Công thức Linear Kernel K (x,y) = < x,y > Polynomial Kernel K (x,y) = < x,y >d, d: bậc đa thức Gaussian RBF Sigmoid Kernel K (x,y) = (γxT y + β), γ,β ≥ KẾT QUẢ Áp dụng bước trình bày phần phương pháp thực cho toán phân loại tập ý kiến người học trường ĐHNT Cụ thể, sử dụng thuật toán SVM tập training có kích thước 413, 516, 688, 1032, 2064 với kernels Bảng 5, ta thu kết dự đốn Hình 7a Hình 7b thể độ dự đốn xác thuật tốn NBC tập traning với mơ hình SVM 62 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỤ NHIÊN VÀ CƠNG NGHỆ] (a) (b) Hình Kết dự đoán (%) thuật toán SVM NBC Ghi chú: a) SVM sử dụng Linear Kernel, Polynomial Kernel, Gaussian RBF, Sigmoid Kernel b) NBC với α = 10−4,0.5,1 Theo kết Hình 7, kích thước tập training tăng lên dẫn đến số chiều vectors đặc trưng lớn phương pháp SVM làm việc hiệu phương pháp Naive Bayes, điều phù hợp với chứng minh Joachims (1999) Chúng ta quan sát Hình 7a, Linear kernel phương pháp SVM cho kết tốt tập training Hơn nữa, sử dụng tham số mặc định α=1 cho mơ hình Naive Bayes kết baseline thấp, đặc biệt tập training có kích thước nhỏ (dưới 76%) Do đó, chúng tơi tối ưu tham số để thu kết tốt tập liệu ý kiến người học trường Đại học Nha Trang Các tham số sử dụng tính tốn α = 10−4, 0.5,1 cho thuật toán NBC; d = 2, γ = 1/1366 β = cho thuật tốn SVM Đối với tập training có kích thước 2064 ý kiến tập test 889 ý kiến, chúng tơi thu độ dự đốn xác cao mơ hình NBC 90.10% SVM 92.13% Rõ ràng, với tập liệu có nhiễu có số chiều vectors đặc trưng lớn liệu chúng tơi sử dụng phương pháp SVM cho kết dự đoán tốt phương pháp NBC, điều thể trong kết quả so sánh bên Hình biểu diễn kết so sánh hai phương pháp SVM NBC 94 92 SVM 90 88 NBC 86 84 500 1000 1500 2000 Number of training data Hình So sánh kết dự đốn mơ hình NBC SVM 63 Phạm Thị Kim Ngoan Nguyễn Hải Triều Áp dụng tham số tối ưu cho hai phương pháp vào tập training có kích thước lớn 2064, quan sát chi tiết điểm liệu phân vào lớp cách sử dụng Confusion Matrix (Vũ, 2020) (a) (b) Hình Confusion matrix cho hai phương pháp Ghi chú: a) SVM b) NBC Dựa vào Hình 9, ta thấy điểm liệu lớp “ý kiến khác” bị phân loại nhầm nhiều chúng phân loại nhầm vào lớp “phương pháp giảng dạy”, “Thái độ giảng viên người học” Dữ liệu lớp “phương pháp giảng dạy” “cơ sở vật chất” phân loại nhiều Kết phân loại cho lớp “ý kiến khác” lớp “Thái độ giảng viên người học” phương pháp SVM cao phương pháp NBC Từ nhận xét trên, để cải thiện kết dự đốn, chúng tơi cần phải hiệu chỉnh lại tập training cho lớp “ý kiến khác” để thu kết dự đốn tốt Ngồi ra, tập liệu sử dụng bị cân liệu lớp, có chênh lệch lớn Do đó, phương pháp precision recall sử dụng để đánh giá hiệu phân loại mơ hình (Vũ, 2020) Bảng Ước lượng dựa Precision Recall cho phương pháp NBC Class Precision Recall F1-score Support Cơ sở vật chất 0.99 0.97 0.98 151 Khác 0.73 0.57 0.64 47 Phương pháp 0.88 0.95 0.91 469 Thái độ 0.91 0.82 0.86 222 Macro avg 0.88 0.83 0.85 889 Weighted avg 0.90 0.90 0.90 889 64 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỤ NHIÊN VÀ CÔNG NGHỆ] Bảng Ước lượng dựa Precision Recall cho phương pháp SVM Class Precision Recall F1-score Support Cơ sở vật chất 0.99 0.97 0.98 151 Khác 0.89 0.68 0.77 47 Phương pháp 0.91 0.95 0.93 469 Thái độ 0.90 0.88 0.89 222 Macro avg 0.92 0.87 0.89 889 Weighted avg 0.92 0.92 0.92 889 Dựa kết F1-score đến kết luận mơ hình SVM hoạt động tốt tập liệu “ý kiến người học trường ĐHNT” KẾT LUẬN Trong báo này, với mong muốn hiểu phản hồi người học hoạt động đào tạo Nhà trường, đề xuất xử lý tự động ý kiến người học dựa phương pháp phân loại văn Kết thử nghiệm khả quan tập liệu ý kiến người học trường ĐHNT-một tập liệu có nhiễu với phương pháp SVM 92.13% NBC 90.10% Bước tiếp theo, chúng tơi thực tối ưu mơ hình, thử nghiệm với phương pháp phân loại khác để cải thiện độ xác mơ hình phân lớp, xử lý phân tích thêm để hiểu rõ ý kiến người học, từ hỗ trợ đơn vị chức đưa đề xuất phù hợp để nâng cao chất lượng đào tạo Nhà trường TÀI LIỆU THAM KHẢO Han, J., Kamber, M., & Pei, J (2011) Data Mining Concepts and Techniques (3rd ed.) Massachusetts, USA: Morgan Kaufmann Publishing Harvard University (n.d) Getting Feedback Retrieved from https://bokcenter.harvard edu/getting-feedback Hồ, T T., & Đỗ, P (2014) Mơ hình tích hợp khám phá, phân lớp gán nhãn chủ đề tiếp cận theo mơ hình chủ đề Tạp chí phát triển KH&CN, 17(K4-2014), 73-85 Joachims, T (1998) Text categorization with Support Vector Machines: Learning with many relevant features Paper presented at The 10th European Conference on Machine Learning (ECML-98), Chemnitz, Germany Joachims, T (1999) Transductive inference for text classification using Support Vector Machines Paper presented at The Sixteenth International Conference on Machine Learning (ICML’99), San Francisco, USA, 200-209 Karthika, S., & Sairam, N (2015) Naïve Bayesian classifer for educational qualifcation Indian Journal of Science and Technology, 8(16), 1-5 65 Phạm Thị Kim Ngoan Nguyễn Hải Triều L-Università ta’ Malta (UM) (2020) Student feedback Retrieved from https://www.um edu.mt/ services/administrativesupport/apqru/studentfeedback Maaten, L.V., & Hinton, G E (2008) Visualizing data using t-SNE Journal of Machine Learning Research, 9, 2579-2605 Nandi, M (2014) Kernel theory recitation Pennsylvania, USA: Carnegie Mellon University-Machine Learning Department Publishing Robertson, S E (2004) Understanding inverse document frequency: On theoretical arguments for IDF Journal of Documentation, 60(5), 503-520 Srivastava, D., & Bhambhu, L (2010) Data classification using Support Vector Machine Journal of Theoretical and Applied Information Technology, 12(1), 1-7 Trần, C Đ., & Phạm, N K (2012) Phân loại văn với máy học vector hỗ trợ định Tạp chí Khoa học Trường Đại học Cần Thơ, (21a), 52-63 Trần, V T (2016) Python Vietnamese toolkit Retrieved from https://pypi.org/project/pyvi/ Vũ, H T (2020) Machine Learning Retrieved from https://github.com/tiep vupsu/ebookMLCB Zhang, H (2004) The optimality of Naive Bayes Paper presented at The Seventeenth International Florida Artificial Intelligence Research Society Conference, Florida, USA 66 ... thập ý kiến người học Xử lý liệu ý kiến người học tự động Các phòng ban tiếp nhận Đánh giá hoạt động đào tạo Hình Chu trình xử lý ý kiến người học Trường ĐHNT Các phần báo cáo gồm: Phương pháp. .. kiến người học trường ĐHNT” KẾT LUẬN Trong báo này, với mong muốn hiểu phản hồi người học hoạt động đào tạo Nhà trường, đề xuất xử lý tự động ý kiến người học dựa phương pháp phân loại văn Kết... nhận nhiều ý kiến khác người học phản hồi dạng liệu văn Các ý kiến thường liên quan đến đề xuất người học để nâng cao chất lượng đào tạo Nhà trường, có nhiều ý hay chưa xử lý, việc xử lý thủ cơng

Ngày đăng: 16/10/2020, 23:41