Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 37, 06 2015 119 ĐỀ XUẤT GIẢI PHÁP SỬ DỤNG LƯỚI THÍCH NGHI ĐỂ NÂNG CAO ĐỘ CHÍNH XÁC TRONG BÀI TOÁN PHÂN NHÓM SINH VIÊN Phạm Thị Bích V[.]
Nghiên cứu khoa học công nghệ ĐỀ XUẤT GIẢI PHÁP SỬ DỤNG LƯỚI THÍCH NGHI ĐỂ NÂNG CAO ĐỘ CHÍNH XÁC TRONG BÀI TỐN PHÂN NHĨM SINH VIÊN Phạm Thị Bích Vân*, Đỗ Thị Mai Hường Tóm tắt: Trong năm gần khai phá liệu giáo dục trở thành hướng phát triển thu hút đông đảo quan tâm nhà khoa học giới Mục đích khai phá liệu giáo dục nhằm trích rút tri thức từ tập liệu giáo dục, tri thức giúp ích để nâng cao chất lượng giáo dục đào tạo Trong báo đề xuất giải pháp sử dụng lưới thích nghi tốn phân nhóm sinh viên theo kết học tập dựa tập sở liệu điểm học tập sinh viên Độ xác phân nhóm giải pháp đề xuất so sánh với thuật toán khác Quá trình thực nghiệm tiến hành tập liệu điểm sinh viên Khoa Công nghệ Thông tin, Học viện Kỹ thuật quân Từ khóa: Dự báo, Khai phá liệu giáo dục, Phân nhóm, Lưới thích nghi MỞ ĐẦU Khai phá liệu giáo dục hướng khai phá liệu Các phương pháp khai phá liệu giáo dục áp dụng nghiên cứu giới luật kết hợp, phân lớp, phân nhóm, mạng nơron, thuật toán gen…Các ứng dụng chủ yếu tập trung vào dự báo điểm thi, dự báo khả thành công sinh viên năm học đầu, phân nhóm sinh viên, gợi ý khóa học phù hợp với sinh viên Cụ thể như: AlRadaideh cộng [1] áp dụng mơ hình phân lớp định, ID3, C4.5 Bayes để dự báo điểm thi kết thúc học phần C++ sinh viên đại học Yarmouk, Jordan Ayesha, Mustafa, Sattar Khan [2] miêu tả việc dùng thuật tốn phân nhóm K-means để dự báo hành vi học tập sinh viên Romeo cộng [3] thực sánh độ xác phân nhóm kỹ thuật phương pháp khai phá liệu khác tập liệu lấy từ hệ thống Moodle… Nhận thấy, đặc điểm chung vấn đề gặp phải nghiên cứu việc chọn lựa thuộc tính phân tích thu thập liệu để trích rút thuộc tính tương đối khó khăn nhiều thời gian; bên cạnh tỷ lệ xác thu chưa cao (phần lớn đạt 70 %) [3] Lưới thích nghi [6,7,8] kỹ thuật sử dụng phân nhóm khơng gian liệu lớn nhiều chiều, liệu phức tạp Đối với liệu giáo dục tập liệu tương đối phức tạp, việc xử lý tập liệu có ảnh hưởng lớn chất lượng phân nhóm Vì thế, tốn phân nhóm sinh viên dựa liệu giáo dục, đề xuất giải pháp sử dụng kỹ thuật lưới thích nghi q trình xử lý liệu để nâng cao chất lượng phân nhóm Bài báo cấu trúc sau: mục trình bày sở lý thuyết, mục đề xuất mơ hình phân nhóm sinh viên đề xuất thuật toán phân khoảng liệu điểm sinh viên theo lưới thích nghi, mục thực nghiệm so sánh giải pháp đề xuất với thuật tốn điển hình K-means CLIQUE, mục kết luận kết đạt CƠ SỞ LÝ THUYẾT Phân nhóm (clustering) gom đối tượng liệu thành nhóm có giống dựa thuộc tính chúng Một tập hợp đối tượng gom lại thành nhóm (cụm) thân chúng có giống khác biệt so với đối tượng thuộc nhóm khác Một số thuật tốn phân nhóm phổ biến như: thuật tốn K-means[4] thực phân nhóm theo phân vùng với ưu điểm đơn giản trình thực nhạy cảm với nhiễu; thuật toán CLIQUE[5] tiếp cận dựa lưới mật độ: ưu điểm thuật tốn làm việc với tập liệu lớn, nhiều chiều giảm ảnh hưởng Tạp chí Nghiên cứu KH&CN quân sự, Số 37, 06 - 2015 119 Cơng nghệ thơng tin & Khoa học máy tính nhiễu tiến hành điền dự liệu khuyết thiếu K-means Tuy nhiên CLIQUE có nhược điểm chất lượng nhóm phụ thuộc nhiều vào kích thước khoảng lưới chiều, kích thước người dùng lựa chọn; thuật toán MAFIA[6] cải tiến thuật tốn CLIQUE cách sử dụng lưới thích nghi với kích thước chiều chia khoảng theo thích nghi, khoảng lưới hình thành thích nghi theo liệu; pMAFIA[7] phiên song song thuật toán MAFIA để tăng tốc độ xử lý Trong mơ hình đề xuất báo chúng tơi sử dụng thuật tốn pMAFIA-TID[9] cải tiến thuật toán pMAFIA nhằm để tăng tốc độ thực Lý lựa chọn pMAFIATID tập sở liệu sinh viên tập sở liệu nhiều chiều (800 ghi, 27 chiều) thời gian hình thành nhóm lớn, từ cần phải tăng tốc độ thực thi Bên cạnh khơng gian liệu đầu vào khơng đầy đủ phân bố liệu không xác định trước cần sử dụng thuật toán dựa lưới thích nghi để nâng cao độ xác PHÂN NHÓM SINH VIÊN THEO KẾT QUẢ HỌC TẬP SỬ DỤNG LƯỚI THÍCH NGHI 3.1 Đề xt mơ hình Với mục đích phân nhóm sinh viên thành nhóm theo khả tốt nghiệp, chúng tơi đề xuất mơ hình phân nhóm sinh viên sử dụng lưới thích nghi dựa kết điểm thi học phần Mục đích nhằm phân thành nhóm có khả tốt nghiệp hạn, nhóm có khả tốt nghiệp chậm, nhóm có khả tốt nghiệp giỏi, trung bình Từ nhóm cho phép dự đốn sớm cho sinh viên có khả tốt nghiệp hạn hay không loại tốt nghiệp sinh viên gì? Dự đốn TN hạn Tập nhóm C1,…,Cn (mang nhãn hạn khơng hạn) Thơng tin Dự đốn phân loại TN Tập nhóm C’1,…,C’m (mang nhãn Giỏi, Khá, Trung bình) CSDL giáo dục gồm N ghi (800 Lưới thích nghi, ghi sinh viên) pMAFIA-TID Hình1 Mơ hình phân nhóm sinh viên Các bước thực phân nhóm sinh viên sau: Bước 1.Thu thập liệu tiền xử lý liệu Bước 2.Áp dụng kỹ thuật lưới thích nghi thuật tốn pMAFIA-TID để phân nhóm tập liệu xử lý, gán nhãn nhóm Bước Xây dựng module dự đoán theo mã sinh viên 3.2 Đề xuất thuật toán phân khoảng liệu điểm theo lưới thích nghi Muốn thu nhóm xác cần coi điểm khoảng lưới Tuy nhiên, ta để thơng số ngưỡng mật độ lớn số nhóm tạo thành số chiều nhóm tạo thành nhỏ, thông tin tri thức thu không đủ để đưa dự đoán cho trường hợp Ngược lại, ta để thông số ngưỡng mật độ nhỏ trình khai phá nhiều thời gian, yêu cầu lượng nhớ lớn Do vậy, chúng tơi đề xuất thuật tốn dựa kỹ thuật lưới thích nghi dựa phân tích liệu để đưa khoảng lưới thích nghi cho chiều (mỗi học phần) Dữ liệu chọn để phân tích thực nghiệm liệu điểm sinh viên Khoa Công nghệ Thông tin, Học viện Kỹ thuật quân gồm 800 ghi 120 P.T.B.Vân, Đ.T.M.Hường, “Đề xuất giải pháp sử dụng lưới … phân nhóm sinh viên.” Nghiên cứu khoa học cơng nghệ a Cấu trúc máy tính b Ngơn ngữ C Hình Lược đồ histogram điểm hai học phần Xét hình 3a lược đồ phân bố liệu điểm mơn Cấu trúc máy tính sinh viên Nhận thấy số sinh viên đạt điểm số sinh viên đạt điểm có chênh lệch mật độ khơng nhiều, mặt đó, chênh lệch trình độ điểm điểm môn Cấu trúc máy tính khơng lớn, ta gộp khoảng khoảng với để thành khoảng [5,6] với mật độ gần tương đương Mặc dù khoảng điểm có mật độ gần tương đương với khoảng điểm 6, nhiên ta gộp khoảng với khoảng [5,6] có thành khoảng [5,7] điểm điểm có chênh lệch lực lớn, nên gộp tối đa hai khoảng Tương tự ta gộp khoảng khoảng thành khoảng [7,8] Trong lưới thích nghi có hai thơng số cần lưu ý thơng số α(thơng số định đến mức độ đậm đặc khối) thông số β thông số định khả gộp hai khoảng liền kề Nhận thấy số sinh viên đạt điểm 10 nhỏ( xét tất học phần), điểm 10 thường khó hình thành khoảng mật độ cao, cho phép gộp khoảng, với thơng số β chung khoảng 10 gộp với khoảng Do điểm 10 khó tham gia vào q trình hình thành nhóm, nhiên điểm 10 thường liên quan nhiều đến sinh viên tốt nghiệp giỏi, để điểm 10 tham gia vào nhóm ta để mức β khác Tuy nhiên, trường hợp ta gộp vậy, xét lược đồ phân bố liệu mơn Ngơn ngữ C hình 3b Nhận thấy khoảng có mật độ 280 chênh lệch lớn so với khoảng có mật độ 144, ta không nên gộp hai khoảng lại với Thay vào khoảng gộp với khoảng thành khoảng [6,7] Như trình tiền xử lý để đưa khoảng cho chiều liệu thực sau: Đối với điểm từ đến 4, ta gộp thành khoảng giá trị [0,4] Đối với điểm từ đến 10, ta gộp giá trị điểm theo kỹ thuật lưới thích nghi để khoảng lưới thích nghi cho kích thước khoảng tối đa Ví dụ với mơn Cấu trúc máy tính môn Ngôn ngữ C, sau thực theo phương pháp (β=20% cho trường hợp thông thường, β=70% gộp mức điểm xuất sắc) ta thu khoảng sau: Tạp chí Nghiên cứu KH&CN quân sự, Số 37, 06 - 2015 121 Công nghệ thông tin & Khoa học máy tính a Cấu trúc máy tính b Ngơn ngữ C Hình Các khoảng lưới thích nghi hai học phần Thuật tốn: THỰC NGHIỆM Đánh giá độ xác phân nhóm so sánh với số thuật tốn phân nhóm khác Tập liệu thực nghiệm: Tập liệu gồm 800 ghi, ghi gồm 27 thuộc tính (27 học phần) thu thập từ liệu điểm sinh viên Khoa Công nghệ Thông tin, Học viện Kỹ thuật Quân Cài đặt, thử nghiệm giải pháp đề xuất hai thuật tốn CLIQUE, thuật tốn K-means để phân nhóm sinh viên theo hai trường hợp dự đoán loại tốt nghiệp dự đoán tốt nghiệp hạn Đối với CLIQUE thực với độ rộng khoảng lưới cố định 1, đối 122 P.T.B.Vân, Đ.T.M.Hường, “Đề xuất giải pháp sử dụng lưới … phân nhóm sinh viên.” Nghiên cứu khoa học công nghệ với K-means thực phân thành 10 nhóm Kết thu bảng so sánh độ xác so với phân nhóm dựa lưới thích nghi sau: Bảng So sánh độ xác dự đốn thuật toán Phương pháp Dự đoán loại TN (%) Dự đoán TN hạn(%) pMAFIA-TID - Lưới thích nghi 83 73 CLIQUE- Lưới cố định 77 63 K-means 74 65 Bởi q trình phân nhóm thực thời điểm khác khóa học, không gian liệu không đầy đủ (điểm khuyết thiếu nhiều) Bên cạnh liệu phân bố không (số sinh viên tốt nghiệp chiếm số lượng vượt trội so với số sinh viên giỏi) việc dùng mơ hình đề xuất cho kết tốt hẳn so với hai phương pháp lại Bảng Chi tiết độ xác dự báo loại tốt nghiệp Loại tốt nghiệp Phương pháp Tỷ lệ xác trung bình Giỏi Khá TB pMAFIA-TID - Lưới thích nghi 100 57 90 83 CLIQUE - Lưới cố định 28 95 77 K-Means 100 42 84 74 Bảng đưa so sánh chi tiết tỷ lệ dự báo xác loại tốt nghiệp ba thuật toán Trong ba loại tốt nghiệp Giỏi, Khá Trung bình số lượng sinh viên trung bình chiếm tỷ lệ nhiều nhất, nhóm Trung bình thường đậm đặc nên phần trăm dự báo xác thuật toán cao Tuy nhiên loại Khá, số lượng sinh viên phân bố liệu điểm học phần sinh viên thuộc nhóm khác nhiều dẫn đến tỷ lệ dự báo xác thấp Bảng Chi tiết độ xác dự báo khả tốt nghiệp Tỷ lệ xác Phương pháp Khơng hạn Đúng hạn trung bình pMAFIA-TID – Lưới thích nghi 60 85 73 CLIQUE – Lưới cố định 92 38 63 K-means 57 71 65 Lưới cố định cho kết thấp dự báo tốt nghiệp hạn, K-means dự báo trường hợp không tốt nghiệp hạn KẾT LUẬN Trong chúng tơi trình bày tóm lược số kết nghiên cứu khai phá liệu lĩnh vực giáo dục đào tạo tổng quan phương pháp phân nhóm liệu Đề xuất giải pháp phân nhóm sinh viên sử dụng lưới thích nghi để nâng cao độ xác tốn phân nhóm sinh viên Hiệu việc đề xuất chứng minh so sánh chất lượng nhóm với hai thuật toán CLIQUE K-means TÀI LIỆU THAM KHẢO [1] Q A AI-Radaideh, E W AI-Shawakfa, and M I AI-Najjar, “Mining student data using decision trees”, ACIT'2006 [2] S Ayesha, T Mustafa, A R Sattar, M I Khan, “Data mining model for higher education system”, Europen Journal of Scientific Research, 2010 [3] C Romero, S Ventura, P Espejo, C Hervas Data mining algorithms to classify students Educational Data Mining Conference (EDM 2008) Tạp chí Nghiên cứu KH&CN quân sự, Số 37, 06 - 2015 123 Công nghệ thông tin & Khoa học máy tính [4] Jianwei Li, Ying Liu, Wei-Keng Lia, Alok Choudhary, “Parallel Data mining Algorithms for Association Rules and Clustering” [5] R Agrawal, J Gehrke, D Gunopulos, P Raghavan, “Automatic subspace clustering of high dimensional data for data mining applications”, In Proceedings of the ACM SIGMOD international conference , pages 94-105, ACM Press, 1998 [6] S.Goil, H Nagesh, A Choudhary, “MAFIA: Efficient and scalable subspace clustering for very large data sets” Technical Report CPDC-TR-9906-010, 1999 [7] H.S Nagesh,A.Choudhary, “A scalable parallel subspace clustering algorithm for massive data sets”, International Conference on Parallel Processing, 2000 [8] K Leung, C.Leckie, “Unsupervised A normaly Detection in Network Intrusion Detection using Cluster”, 28th Australasian Computer Science Conference, 2005 [9] Nguyễn Mạnh Hùng, Phạm T Bích Vân, Đỗ Thị Mai Hường, “Một số cải tiến thuật tốn phân nhóm song song liệu lớn, nhiều chiều dựa lưới thích nghi pMAFIA”, Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, 2010 ABSTRACT PROPOSING A SOLUTION USING ADAPTIVE GRIDS TECHNIQUE IN CLUSTERING STUDENTS TO IMPROVE THE ACCURACY Nowadays, the educational data mining has become a new emerging technique of data mining which has attracted more scientists in the world In this paper, we propose the model which uses clustering to classify students based on their grades The purpose is to predict the students’ performing in graduation, and the prediction is useful for both educators and students in indentify the weak students to help them score better results In the model, we use adaptive grids technique in the processing of data to improve cluster’s quality Finally, we produce the compare of prediction accuracy between proposed model with other models like CLIQUE and K-means Keywords: Prediction, Educational data mining, Clustering, Adaptive grids Nhận ngày 02 tháng năm 2014 Hoàn thiện ngày 14 tháng năm 2015 Chấp nhận đăng ngày 12 tháng năm 2015 Địa chỉ: Học viện Kỹ thuật quân sự; *Email: manhhungk12@mta.edu.vn 124 P.T.B.Vân, Đ.T.M.Hường, “Đề xuất giải pháp sử dụng lưới … phân nhóm sinh viên.” ... nhóm liệu Đề xuất giải pháp phân nhóm sinh viên sử dụng lưới thích nghi để nâng cao độ xác tốn phân nhóm sinh viên Hiệu việc đề xuất chứng minh so sánh chất lượng nhóm với hai thuật toán CLIQUE... khơng đầy đủ phân bố liệu không xác định trước cần sử dụng thuật toán dựa lưới thích nghi để nâng cao độ xác PHÂN NHÓM SINH VIÊN THEO KẾT QUẢ HỌC TẬP SỬ DỤNG LƯỚI THÍCH NGHI 3.1 Đề xt mơ hình... đích phân nhóm sinh viên thành nhóm theo khả tốt nghi? ??p, chúng tơi đề xuất mơ hình phân nhóm sinh viên sử dụng lưới thích nghi dựa kết điểm thi học phần Mục đích nhằm phân thành nhóm có khả tốt nghi? ??p