Ứng Dụng Thuật Toán Phân Lớp Dựa Trên Luật Kết Hợp Dự Báo Vào Giải Bài Toán Dự Báo Tình Hình Nghỉ Bỏ Học Của Học Sinh Trung Học Trên Địa Bàn Thành Phố Hồ Chí Minh.pdf

Thông tin tài liệu

Untitled BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH Tp Hồ Chí Minh, tháng 11/2020 S KC0 0 7 0 6 0 NGÀNH LUẬN VĂN THẠC SĨ BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM[.]

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THC S 1*8 Best_Gain then 24 Best_Gain  Gain_Ratio[i] 25 End if 26 End for 27 LGT = Best_Gain * GSR 28 For i=1 to n 29 30 31 32 if Gain_Ratio[i] >=LGT && Gain[i] >= MGV then Close-to-the-best[ ]  i // i thứ tự thuộc tính A[n] end if end for 33 For q =1 to Size[Close-to-the-best] // với giá trị Close-to-the-best 34 TempP  P1, TempN  N1 // lưu P1 N1 35 Xóa tuple khơng chứa thuộc tính A[q] P1 N1 36 Thêm A[q] vào luật dự tuyển RA[]// có dạng = A[q] 37 11 While (W(P) > TWT) 12 E[i] = − − W(P1)+W(N1) log W(P1)+W(N1) A[n] = danh mục thuộc tính D Tính InfoD WP[i] WP[i] − WP[i]+WN[i] log WP[i]+WN[i] − R[ ]   // khởi tạo tập luật P  D[n](class=1) // đưa tuple có class=1 vào P I[i] = P1  P, N1  N 94 Giảm trọng số tuple có chứa giá trị A[q] tập P 38 if Count[N1] = = then // Nếu N1 trống (rỗng) 39 Thêm luật dự tuyển RA[=A[q]]vào tập luật R[ ] 40 Xóa thuộc tính A[q] khỏi Bảng Gain_Ratio Đặt trọng số tuple P chứa A[q] sau đưa vào luật thức R[ ] 42 P1  TempP, N1 TempN // trả lại liệu cho P1 N1 end for 18 end for 19 return Accuracy; công thức (8) Các công thức Gain Ratio(A) = Gain(A)/SplitInfo(A) 𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜𝐴(𝐷) = 𝐷 𝑙𝑜𝑔2 (| 𝐷𝑗|) |𝐷𝑗 | tổng số tuple dương tính âm tính tập huấn luyện D 3.3.2 Nội dung giải thuật phân lớp 𝑣 tổng số lớp tập huấn luyện Đầu vào: tập thử nghiệm T, R 𝐴 thuộc tính thêm vào luật ứng viên Đầu ra: Accuracy Phương thức: 𝐺𝑎𝑖𝑛(𝐴) = 𝐼(𝑝, 𝑛) − 𝐸(𝐴) For i=1 to m 𝐸(𝐴) = − ∑𝑚 𝑖=1 Tính Laplace accuracy cho luật R[i]// cơng thưc (7) Trong đó: end for for j=1 to m //cho luật R if ( antecedent.R[j]  T[i] && consequent.R[j] == ‘Negative’ ) then Đưa R[j] vào temp_N[ ]; 10 end if 𝐼(𝑝𝑖 , 𝑛𝑖 ) (4) p tổng số tuple dương tính tập huấn luyện if ( antecedent.R[j]  T[i] && consequent.R[j] == ‘Positive’ ) then Đưa R[j] vào temp_P[ ]; 𝑝+𝑛 I(p,n) thông tin dự kiến cần thiết để đáp ứng tập liệu huấn luyện For i=1 to n //với tuple T end if 𝑝𝑖 + 𝑛𝑖 (3) E(A) entropy thuộc tính A tập liệu huấn luyện Sắp xếp luật R[m]; (2) |D| tổng số tuple có tập huấn luyện D 45 Return R[ ] |𝐷 | − ∑𝑣𝑗=1 |𝐷𝑗| ∗ (1) Trong đó: 44 End While else wrong = wrong + 1; 17 end if end if 41 43 16 n tổng số tuple âm tính tập huấn luyện 𝑝𝑖 tổng số tuple dương tính bao phủ giá trị thứ i thuộc tính A 𝑛𝑖 tổng số tuple âm tính bao phủ giá trị thứ i thuộc tính A 11 end for m số giá trị thuộc tính A 12 Chọn k luật tốt từ temp_P[ ] temp_N[ ]; 𝑇𝑊𝑇 = ∑𝑛𝑖=1 𝑊(𝑝𝑖 ) ∗ 𝐶𝑇 (5) Trong đó: 13 Tính trung bình Laplace accuracy cho k luật tốt vừa chọn n tổng số tuple dương tính tập huấn luyện 14 Nhãn lớp có giá trị trung bình cao gán P[i]; 𝑊(𝑝𝑖 ) trọng số tuple dương tính tập huấn luyện 15 if (P[i] ==A[i]) then correct = correct + 1; 95 𝑛𝑐+1 𝑛𝑡𝑜𝑡+𝑘 (7) k: số lớp nc: tổng số tuples tập liệu huấn luyện thỏa vế trái vế phải luật Từ k luật tốt từ lớp thỏa mãn huấn luyện cho chọn theo độ xác Laplace Độ xác Laplace trung bình k luật tốt từ lớp xác định Một lớp có độ xác Laplace trung bình cao chọn làm nhãn lớp cho thử nghiệm Luồng công việc chi tiết liên quan đến phương pháp phác thảo Preprocessed Dataset ntot: số tuple tập liệu huấn luyện thỏa vế trái luật Statistical T-test Accuracy = No of correctly classified tuples/Total no of tuples (8) Reducts computation ỨNG DỤNG GIẢI THUẬT CPAR-GR VÀO DỰ BÁO TÌNH HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH CAR generation Cách tiếp cận để giải tốn dự báo tình hình nghỉ bỏ học học sinh phương pháp sử dụng luật phân lớp kết hợp tiến hành qua giai đoạn CAR evaluation CPAR-GR Laplace Accuracy CAR ordering 4.1 Thu giảm số chiều tập liệu Tập liệu huấn luyện thu thập có 15 thuộc tính, Thống kê T-test sử dụng để chọn tính quan trọng có ý nghĩa cao phân lớp Được thực hàm Mattest MATLAB 7.0.1 Nó tính tốn giá trị p điểm t cho thuộc tính Các thuộc tính có giá trị p nhỏ 0.05 coi đáng kể Các thuộc tính quan trọng (tức lớn 0.05) xóa khỏi liệu Sau trình thu giảm số chiều tập liệu cịn lại 14 thuộc tính quan trọng đáng kể cho trình huấn luyện tạo luật 4.2 Xây dựng phân lớp kết hợp (AC) Sử dụng CPAR-GR tập liệu huấn luyện để tạo luật kết hợp (CAR) Khi luật phân lớp kết hợp tạo xếp dựa độ xác Laplace Độ xác Laplace thước đo đánh giá luật kết hợp sử dụng FOIL (Quinlan & Cameron 1993), PRM (Yin & Han 2000) CPAR (Yin & Han 2003) xác định chất lượng luật phân lớp cách xem xét phạm vi luật Select best k-rules from each class that satisfies the test tuple Compute average Laplace accuracy for the best krules for each class Class label prediction of the test tuple based on the average Laplace accuracy Dimensionality reduction 𝐿𝑎𝑝𝑙𝑎𝑐𝑒 𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = Trong đó: (6) Construction of associative classifier 𝐿𝐺𝑇 = 𝐵𝑒𝑠𝑡_𝐺𝑎𝑖𝑛 ∗ 𝐺𝑆𝑅 4.3 Sử dụng luật để tiến hành phân lớp cho tập thử nghiệm Classifier assification of the test tuple 𝐶𝑇 ngưỡng bao phủ (trong nghiên cứu sử dụng CT =0.05) Hình 0.1 Các giai đoạn phân lớp kết hợp KẾT QUẢ THỰC NGHIỆM 5.1 Môi trường thực nghiệm Hệ thống thử nghiệm cài đặt công cụ Python 3.8 Microsoft Windows 10 Enterprise 64bit, thực CPU Intel® Core™ i5-3320M CPU @ 2.60GHz, nhớ RAM 8.0 GB, HDD 500GB Cùng thư viện Numpy, Pandas, PyQt5 5.2 Các tập liệu thực nghiệm Học sinh (gồm 1062 giao tác), Cơ sở liệu Breast cancer (gồm 699 giao tác), Cleve (gồm 304 giao tác), Hepatitis (gồm 156 giao tác), 96 Bảng 0.3 Tập luật sinh liệu học sinh STT Heart (gồm 304 giao tác), Pima (gồm 769 giao tác), Mushroom (gồm 8124 giao tác) liệu tham khảo UCI machine learning repository [7] Giải thuật thực với tham số CT, MGV, GSR Decay_Factor có giá trị 0.05, 0.7, 0.99 2/3 5.3 Kết thực nghiệm Tại bảng 5.1, 5.2 5.3 trình bày thời gian thực thi, tài nguyên sử dụng hiệu phân lớp thuật toán liệu 5.3.1 Thời gian thực thi Thời gian thực thi giảm xuống đáng kể áp dụng thông số đầu vào GSRDecay_Factor (0.99 – 2/3) số thuộc tính tham gia xét luật dự tuyển nên lượng tính tốn giảm dẫn đến thời gian tính toán giảm theo Bảng 0.1 Thời gian thực liệu Nghỉ bỏ học học sinh (đơn vị tính mili giây - ms) GSR – Decay_Factor CPAR CPAR-GR 0.6 – 1/3 0.99 – 2/3 10326 12387 2601 2871 Tài nguyên CPAR CPAR-GR CPU (%) 12.6 13.5 RAM (MB) 58.3 59.7 0.983 0.985 0.995 0.985 Bảng 0.4 So sánh độ xác CPAR CPAR-GR (%) Bộ liệu Breast Cancer Cleve Hepatitis Heart Pima Mushroom Học sinh Average accuracy(%) 0.99 – 2/3 CPU (%) 15.8 15.3 0.968 0.993 0.994 0.984 0.982 Qua trình thực nghiệm liệu cho thấy giải thuật CPAR-GR cho độc xác cao hầu hết liệu từ 0.57% đến 8% thể tính hiệu cải tiến Bảng 0.2 So sánh sử dụng tài nguyên giải thuật sở liệu học sinh 0.6 – 1/3 Sớm tuổi =  Class = Nghiện ma túy =  Class = Học lực =  Class = Hạnh kiểm = 2, Sớm tuổi =  Class = Mồ côi = 1, Hút thuốc =  Class = Nghiện ma túy = 4, Nghiện game = 4,  Class =0 Vi phạm nội quy = 4, Bảo lưu =  Class = Trễ tuổi =  Class = Học lực = 5, Hạnh kiểm =  Class = 5.3.4 Độ xác phân lớp 5.3.2 Tài nguyên sử dụng GSR – Decay_Factor Laplace Accuracy Luật kết hợp 95.7 82.84 77.92 87.04 CPARGR 95.13 86.8 79.22 87.04 78.52 85.23 87.4 82.55 93.43 87.61 84.21 87.43 CPAR BIỂU ĐỒ ĐỘ CHÍNH XÁC PHÂN LỚP RAM (MB) 57.52 59.9 CPAR CPAR-GR 120 100 80 5.3.3 Kết tạo luật 60 Qua bảng thống kê 5.3 cho thấy độ xác luật kết hợp tạo tương đối cao mức 98% 40 20 Hình 0.2 Biểu đồ độ xác phân lớp giải thuật CPAR CPAR-GR KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Qua thực hai giải thuật CPAR CPAR-GR liệu học sinh cho thấy 97 với GSR – Decay_Factor thay đổi từ 0.6- 1/3 sang 0.99 – 2/3 hệ số GSR – Decay_Factor nhỏ dẫn đến việc thực lặp xảy nhiều lần So dánh CPAR CPAR-GR CPAR-GR cải tiến lại sử dụng tài nguyên thời gian thực nhìn chung nhiều hơn, đổi lại độ xác phân lớp CPAR-GR hầu hết liệu cao liệu, thu giảm số chiều tập liệu Khắc phục tình trạng có số trường hợp luật kết hợp sinh vế điều kiện có thuộc tính Tiến hành thu thập thêm liệu lĩnh vực quản lý học sinh lĩnh vực khác nhằm củng cố thực nghiệm tính ưu việt sau cải tiến thuật toán CPAR-GR Trong thời gian tới chúng tơi tập trung áp dụng có hiệu phương pháp tiền xử lý TÀI LIỆU THAM KHẢO [1] V T N Châu, “Luật kết hợp,” Giáo trình khai phá liệu, Đại học Quốc gia Tp Hồ Chí Minh, 2012, p 11 [2] N Kaoungku, K Suksut, R Chanklan, K Kerdprasop N Kerdprasop, Data Classification Based on Feature Selection with Association Rule Mining, Hong Kong: International MultiConference of Engineers and Computer Scientists , 2017 [3] S Sulova, Association Rule Mining for Improvement of IT Project Management, TEM Journal Volume 7, Issue 4, 2018, pp 717-722 [4] Y Li, J Wang, L Duan, T Bai, X Wang, Y Zhang G Qin, Association RuleBased Feature Mining for Automated Fault Diagnosis of Rolling Bearing, Hindawi, 2019 [5] X Yin, J Han Jiawei, CPAR: Classification based on Predictive Association Rules, Proc 3rd SIAM International Conference on Data Mining, 2003, pp 331-335 [6] M Nandhini S N Sivanandam, An improved predictive association rule based classiﬁer using gain ratio and T-test for health care data diagnosis, Tamil Nadu,India: Sadhan Indian Academy of Sciences, 2015 [7] "Machine Learning Repository," University of California, [Online] Available: https://archive.ics.uci.edu/ml/index.php 98 Tác giả chịu trách nhiệm viết: Tp HCM, ngày 22 tháng 12 năm 2020 Họ tên: Nguyễn Văn Chiến Xác nhận giảng viên hướng dẫn Đơn vị: Trường ĐH Sư phạm Kỹ Thuật Tp.Hồ Chí Minh (Ký & ghi rõ họ tên) Điện thoại: 0973422537 Email: nguyenvanchien12@gmail.com TS Nguyễn Thành Sơn 99 S K L 0

Ngày đăng: 24/06/2023, 19:20

Xem thêm: Ứng Dụng Thuật Toán Phân Lớp Dựa Trên Luật Kết Hợp Dự Báo Vào Giải Bài Toán Dự Báo Tình Hình Nghỉ Bỏ Học Của Học Sinh Trung Học Trên Địa Bàn Thành Phố Hồ Chí Minh.pdf

Ứng Dụng Thuật Toán Phân Lớp Dựa Trên Luật Kết Hợp Dự Báo Vào Giải Bài Toán Dự Báo Tình Hình Nghỉ Bỏ Học Của Học Sinh Trung Học Trên Địa Bàn Thành Phố Hồ Chí Minh.pdf

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan