(Luận văn thạc sĩ hcmute) ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn thành phố hồ chí minh

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN VĂN CHIẾN ỨNG DỤNG THUẬT TOÁN PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP DỰ BÁO VÀO GIẢI BÀI TỐN “DỰ BÁO TÌNH HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH TRUNG HỌC TRÊN ĐỊA BÀN THÀNH PHỐ HỒ CHÍ MINH” NGÀNH: KHOA HỌC MÁY TÍNH – 60480101 S K C0 Tp Hồ Chí Minh, tháng 11/2020 Luan van BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN VĂN CHIẾN ỨNG DỤNG THUẬT TOÁN PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP DỰ BÁO VÀO GIẢI BÀI TỐN “DỰ BÁO TÌNH HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH TRUNG HỌC TRÊN ĐỊA BÀN THÀNH PHỐ HỒ CHÍ MINH” NGÀNH: KHOA HỌC MÁY TÍNH – 60480101 Tp Hồ Chí Minh, tháng 11 năm 2020 Luan van BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN VĂN CHIẾN ỨNG DỤNG THUẬT TOÁN PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP DỰ BÁO VÀO GIẢI BÀI TỐN “DỰ BÁO TÌNH HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH TRUNG HỌC TRÊN ĐỊA BÀN THÀNH PHỐ HỒ CHÍ MINH” NGÀNH: KHOA HỌC MÁY TÍNH – 60480101 Hướng dẫn khoa học: TS NGUYỄN THÀNH SƠN Tp Hồ Chí Minh, tháng 11 năm 2020 Luan van QUYẾT ĐỊNH GIAO ĐỀ TÀI i Luan van LÝ LỊCH KHOA HỌC ii Luan van iii Luan van iv Luan van v Luan van vi Luan van vii Luan van - Bước 2: Nạp sở liệu vào ứng dụng Sau xây dựng sở liệu khởi động chương trình tiến hành thao tác giao diện sau: Các tham số giải thuật Xóa liệu Nạp liệu huấn luyện + Tại thẻ Import Data người dùng thay đổi tham số giải thuật để thay đổi tính chi tiết luật kết hợp tạo Đối với tập liệu lớn sử dụng tham số Gain_Similarity_Ratio – Decay_Factor 0.6 – 1/3 để giảm bớt số lần duyệt, tập liệu nhỏ sử dụng tham số Gain_Similarity_Ratio – Decay_Factor 0.99 – 2/3 + Nhấn nút Import Data Train để nạp tập liệu huấn luyện, nạp thành công liệu hiển thị lưới phía + Nhấn nút Clear: để xóa liệu để nạp liệu - Bước 3: Tạo luật kết hợp giải thuật CPAR-GR từ liệu vừa nạp Tại thẻ CPAR-GR: 86 Luan van + Nhấn nút Run CPAR-GR chương trình tiến hành phân tích tạo luật kết hợp từ liệu nạp thẻ Import data + Nhấn nút Clear Rerult để xóa danh mục luật hành Tập luật tạo - Bước 4: Phân tích liệu học sinh + Từ liệu học sinh hành có học sinh theo học nhà trường, tiến hành lập sở liệu tập tin Excel tương tự tập huấn luyện theo dạng sau: 87 Luan van + Tại thẻ CPAR-GR ứng dụng nhấn nút Import test data chọn đường dẫn tới tập tin cần phần tích, sau chọn liệu hiển thị khung bên 88 Luan van Chọn liệu phân tích + Nhấn nút Run Test để bắt đầu phân tích, ứng dụng ghi liệu file Excel kết dự đoán từ luật tạo bước trước 89 Luan van Dữ liệu điền sau dự báo + Người dùng nhấn nút Clear test để nạp liệu test khác nhấn lại Run test để dự đoán kết cho tập liệu 90 Luan van ỨNG DỤNG THUẬT TOÁN PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP DỰ BÁO VÀO GIẢI BÀI TỐN “DỰ BÁO TÌNH HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH TRUNG HỌC TRÊN ĐỊA BÀN THÀNH PHỐ HỒ CHÍ MINH” AN IMPROVED PREDICTIVE ASSOCIATION RULE BASED CLASSIFIER INTO THE PROBLEM OF “FORECASTING HIGH SCHOOL DROPOUT SITUATION IN HO CHI MINH CITY” Nguyễn Văn Chiến, Nguyễn Thành Sơn Trường đại học Sư phạm Kỹ thuật Tp.HCM TÓM TẮT Phân lớp dựa luật kết hợp giải pháp hiệu lĩnh vực khai phá liệu, giải thuật Apriori, Apriori-TID, FP-Growth, FOIL, PRM, CPAR … phương thức tạo luật kết hợp dùng để dự đoán nhãn lớp cách hiệu Tuy nhiên chất lượng luật cần cải tiến để đạt độ xác dự đoán ngày cao Trong báo giới thiệu giải thuật CPAR-GR cải tiến giải thuật CPAR chất lượng luật kết hợp tạo áp dụng vào tốn phân tích liệu nguyên nhân tình hình nghỉ bỏ học học sinh trung học Từ khóa: CPAR, CPAR-GR; Luật kết hợp; Phân lớp kết hợp; CAR ABSTRACT Classification based on Predictive Association Rules is an effective solution in the field of data mining, Algorithms such as Apriori, Apriori-TID, FP-Growth, FOIL, PRM, CPAR, etc are methods of creating association rules used to predict class labels However, improvements in the quality of the association rules are needed to achieve higher predictive accuracy In this paper, CPAR-GR is an innovative of CPAR algorithm on the quality of association rules created and applied to the problem of analyzing the data causes of dropout of high school students Keywords: CPAR; CPAR-GR; Association Rules; Classification based on Predictive Association Rules; CAR GIỚI THIỆU Các kỹ thuật phát tri thức khai phá liệu thực qua nhiều giai đoạn sử dụng nhiều kỹ thuật phân lớp (classification), gom cụm (clustering), phân tích tương tự (similarity analysis), tổng hợp (summarization), luật kết hợp (association rules), … Một nội dung phổ biến khai phá liệu phát luật kết hợp phân lớp dựa luật kết hợp Phương pháp nhằm tìm tập thuộc tính thường xuất đồng thời sở liệu rút luật ảnh hưởng tập thuộc tính dẫn đến xuất nhiều tập thuộc tính khác nào? Do việc phát luật kết hợp bước quan trọng khai phá liệu Việc sử dụng luật kết hợp để phân tích liệu học sinh nhằm phát sớm trường hợp có nguy bỏ học từ có biện pháp can thiệp giúp đỡ em tiếp tục việc học, đồng thời giúp người đứng đầu sở giáo dục chủ động nắm bắt số liệu phục vụ thiết thực cho kế hoạch hoạt động sở quản lý Bài báo nhằm mục đích giới thiệu đánh giá hiệu cải tiến thuật tốn CPAR-GR ứng dụng vào phân tích tình hình nghỉ bỏ học học sinh trung học Thành phố Hồ Chí Minh Phần cịn lại báo gồm: phần Một số khái niệm công trình liên quan Phần Một số giải thuật phân lớp dựa luật kết hợp dự báo Ứng dụng giải thuật CPAR-GR vào dự báo tình hình nghỉ bỏ học học sinh 91 Luan van trình bày phần Phần Kết luận hướng phát triển đề tài MỘT SỐ KHÁI NIỆM VÀ CƠNG TRÌNH LIÊN QUAN 2.1 Một số khái niệm I = {i1, i2, …in} tập bao gồm n mục phân biệt (item – gọi thuộc tính – attribute) [1] D = {t1, t2, …tm} tập gồm m giao dịch gọi sở liệu giao dịch, t có định danh ký hiệu TID (Transaction Identification) chứa tập mục I [1] Một luật định nghĩa kéo theo có dạng X ⇒ Y X,Y ⊆ I X ∩ Y = Ø [1] X gọi phần mệnh đề điều kiện Y gọi mệnh đề kết luật tương ứng Độ phổ biến Supp(X) = |X| / |D| Supp(X ⇒ Y) = |{T ⊆ D:X ∪ Y ⊆ T}| / |D| Độ tin cậy - Khai phá luật kết hợp để quản lý dự án công nghệ thông tin [3] Được tác giả Snezhana Sulova (công tác Đại học Kinh tế - Varna, Bulgaria, công bố tháng 10 năm 2018) phát liên kết khơng xác định nhân viên giúp tạo dự án tốt cách sử dụng song song hai giải thuật FPGrowth Apriori đối sánh kết sinh luật kết hợp, kết thu chứng minh khai phá luật kết hợp tạo kiện hữu ích liên kết liệu dựa chúng, người quản lý dự án thực định quan trọng - Sử dụng luật kết hợp để phát lỗi vịng bi [4] cơng trình nhóm tác giả Yuan Li, Jinjiang Wang , Lixiang Duan , Tangbo Bai, Xuduo Wang, Yulong Zhang Guoliang Qin công tác trường đại học Trung Quốc, công bố tháng năm 2019 Sử dụng luật kết hợp để khám phá mối quan hệ khuyết tật dán nhãn tính bất thường để phân tích lỗi ổ trục Luật sử dụng để chẩn đốn lỗi giúp thực phân tích khuyết tật cách có hệ thống MỘT SỐ GIẢI THUẬT PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP DỰ BÁO 3.1 Giải thuật PRM Supp(X⇒Y) Conf(X⇒Y) = Supp(X) 2.2 Các cơng trình liên quan - Luật ngun tử (Construct Concise and Accurate Classifier by Atomic Association) khai thác tạo tập luật nhỏ đơn giản để phân lớp Các luật nguyên tử mạnh với mức độ xác cao gần cao thực phân lớp phần cách xác Kết cho thấy giải thuật đề xuất không đạt độ xác phân lớp cao mà tạo luật phân lớp kết hợp nhỏ nhất; nữa, chạy nhanh nhiều so với giải thuật phân lớp kết hợp có - Phân lớp dựa lựa chọn đặc điểm với khai phá luật kết hợp [2] nhóm tác giả Nuntawut Kaoungku, Keerachart Suksut, Ratiporn Chanklan, Kittisak Kerdprasop Nittaya Kerdprasop nghiên cứu đề xuất năm 2017 sử dụng khai phá luật kết hợp để tạo luật chứa tính thường xuyên xuất Giải thuật đề xuất giảm số lượng tính năng, đồng thời tăng độ xác phân lớp liệu Giải thuật PRM (Predictive Rule Mining) [5] giải thuật cải tiến từ giải thuật FOIL Trong PRM, sau mẫu bao phủ cách xác theo luật, thay xóa nó, trọng số bị giảm cách nhân với factor Phiên "có trọng số" FOIL tạo nhiều luật mẫu dương tính thường dùng nhiều lần 3.1.1 Nội dung giải thuật Đầu vào: Tập huấn luyện D, chia thành phần P tập dương tính N tập âm tính Đầu ra: tập luật R cho lớp Phương thức: Procedure Predictive Rule Mining Đặt trọng số cho mẫu rule R ← Φ totalWeight ← TotalWeight(P) A ← tính PNArray từ tập D 92 Luan van while TotalWeight(P) > δ * totalWeight N’ ← N, P’ ← P, A’ ← A khơng bỏ sót thuộc tính đem lại luật có chất lượng cao r←Φ 3.2.1 Nội dung giải thuật while true Procedure PROPOSED_CPAR Tìm mẫu p tốt A’ ruleSet  if gain(p) < min_gain then for each class P  tập dương tính thêm p vào r N  tập âm tính for t P’ ∪ N’ khơng thỏa r Loop Xóa t khỏi P’ N’ pData  tập dương tính Tính lại A’ theo mẫu t xóa nData  tập âm tính end R  ; []  ; ge[]   end While true R ← R ∪ {r} maxGain  maximum ge[] For Mỗi mẫu t P thỏa luật r l  mẫu đạt maxGain t.weight ← α * t.weight if maxGain < T then thoát Giảm trọng số tập chứa t A RRl end end xóa mẫu khơng chứa nội dung luật pData, nData return R cập nhật []; cập nhật ge[] 3.1.2 Ưu điểm giải thuật PRM End while Là giải thuật đơn giản thuận lợi cho việc cài đặt nhiều ngơn ngữ lập trình khác ruleSet  ruleSet  R Giải thuật tận dụng triệt để thuộc tính để sinh luật chất lượng dựa vào việc giảm trọng số mẫu thay xóa bỏ sau thuộc tính tham gia vào luật 3.1.3 Nhược điểm giải thuật PRM Giải thuật sử dụng thuộc tính có mức gain cao chưa đảm bảo tính khách quan tồn diện tạo luật Việc tính tốn tốn thời gian tài nguyên số lần thực lặp lại lớn 3.2 Giải thuật CPAR Giải thuật CPAR (Classification based on Predictive Association Rules) [5] giải thuật phát triển dựa ý tưởng thuật tốn PRM Xiaoxin Yin Jiawei Han cơng bố năm 2003 Nội dung cải tiến giải thuật thay sử dụng thuộc tính có gain cao tác giả sử dụng thuộc tính có gain nằm ngưỡng gain tốt nhằm end loop end for return ruleSet 3.2.2 Ưu điểm giải thuật: Giải thuật sử dụng ngưỡng gain T để làm xét mẫu có gain đạt ngưỡng để xem xét tham gia luật điều tránh việc bỏ sót thuộc tính quan trọng làm nên chất lượng luật 3.2.3 Nhược điểm giải thuật Giải thuật cịn sử dụng cách tính gain truyền thống (FOIL Gain) để tính gain cho thuộc tính điều làm cho thuộc tính quan trọng có gain khơng cao khơng có khả tham gia luật, cản trở hiệu dự báo luật sinh 3.3 Giải thuật CPAR-GR Giải thuật CPAR-GR (Predictive association rule based classiﬁer using gain ratio and T-test) [24] phát triển dựa 93 Luan van ý tưởng giải thuật CPAR cải tiến nội dung sử dụng Gain-Ratio thay cho Gain để xác định tập mục phổ biến, đảm bảo thuộc tính có Gain-Ratio xác đạt ngưỡng Gain đem lại tập luật chất lượng cao Thứ hai giải thuật sử dụng phương pháp tiền xử lý T-Test để thu giảm số chiều tập liệu đầu vào nhằm giảm bớt số lần tính tốn làm tăng hiệu suất giải thuật 13 W(P1) = tổng trọng số tuple P1 14 W(N1) = tổng trọng số tuple N1 15 For i=1 to n //Tính gain_ratio 3.3.1 Nội dung giải thuật tạo luật kết hợp Đầu vào: ▪ D[n]- tập liệu nhị phân cần phân lớp gồm n thuộc tính ▪ P- tuple dương tính D ▪ N- tuple âm tính D ▪ ∑W(P)- tổng trọng số tất tuples dương tính (khởi tạo ban đầu tuple có trọng số 1) ▪ MGV- người dùng định giá trị gain tối thiểu (0.7) ▪ TWT- ngưỡng trọng số tối thiểu ▪ LGT- ngưỡng Gain thuộc tính ▪ CT- ngưỡng bao phủ tuple (0.05) ▪ Decay_Factor – người dùng định dùng để giảm trọng số tuple (2/3) ▪ GSR – Hệ số lấy khoảng giá trị Gain_ratio (0.99) Đầu ra: ▪ Danh sách luật kết hợp (CAR) Phương thức: 18 RA[ ]   // khởi tạo tập luật dự tuyển 30 16 WP[i] = tổng trọng số tuple chứa thuộc tính thứ i P1 17 WN[i] = tổng trọng số tuple chứa thuộc tính thứ i N1 WP[i] N  D[n](class  1) // đưa tuple có class vào N Best_Gain = W(P) //tổng trọng số tuple tập P W(N) // tổng trọng số tuple tập N WN[i] WN[i] log WP[i]+WN[i] WP[i]+WN[i] 10 TWT = W(P) * CT E[i] = − 20 Gain[i] = InfoD – E[i] 21 SplitInfo[i] = WP[i]+WN[i] 𝐼[𝑖] WP[i]+WN[i] − W(P1)+W(N1) log W(P1)+W(N1) 22 Gain_Ratio[i] = Gain[i]/ SplitInfo[i] 23 If Gain_Ratio[i] > Best_Gain then 24 Best_Gain  Gain_Ratio[i] 25 End if 26 End for 27 LGT = Best_Gain * GSR 28 For i=1 to n 29 31 32 if Gain_Ratio[i] >=LGT && Gain[i] >= MGV then Close-to-the-best[ ]  i // i thứ tự thuộc tính A[n] end if end for 33 For q =1 to Size[Close-to-the-best] // với giá trị Close-to-the-best 34 TempP  P1, TempN  N1 // lưu P1 N1 35 Xóa tuple khơng chứa thuộc tính A[q] P1 N1 36 Thêm A[q] vào luật dự tuyển RA[]// có dạng = A[q] 37 11 While (W(P) > TWT) 12 WP[i]+WN[i] ∗ W(P1)+W(N1) 19 A[n] = danh mục thuộc tính D Tính InfoD WP[i] − WP[i]+WN[i] log WP[i]+WN[i] − R[ ]   // khởi tạo tập luật P  D[n](class=1) // đưa tuple có class=1 vào P I[i] = P1  P, N1  N 94 Luan van Giảm trọng số tuple có chứa giá trị A[q] tập P 38 if Count[N1] = = then // Nếu N1 trống (rỗng) 39 Thêm luật dự tuyển RA[=A[q]]vào tập luật R[ ] 40 Xóa thuộc tính A[q] khỏi Bảng Gain_Ratio Đặt trọng số tuple P chứa A[q] sau đưa vào luật thức R[ ] 41 else wrong = wrong + 1; 17 end if 18 end for 19 return Accuracy; công thức (8) Các công thức Gain Ratio(A) = Gain(A)/SplitInfo(A) 𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜𝐴(𝐷) = end if 42 P1  TempP, N1 TempN // trả lại liệu cho P1 N1 43 16 𝐷 (1) |𝐷 | − ∑𝑣𝑗=1 |𝐷𝑗| ∗ 𝑙𝑜𝑔2 (| 𝐷𝑗|) (2) Trong đó: end for |D| tổng số tuple có tập huấn luyện D 44 End While 45 Return R[ ] 3.3.2 Nội dung giải thuật phân lớp |𝐷𝑗 | tổng số tuple dương tính âm tính tập huấn luyện D Đầu vào: tập thử nghiệm T, R 𝑣 tổng số lớp tập huấn luyện Đầu ra: Accuracy 𝐴 thuộc tính thêm vào luật ứng viên Phương thức: 𝐺𝑎𝑖𝑛(𝐴) = 𝐼(𝑝, 𝑛) − 𝐸(𝐴) For i=1 to m 𝐸(𝐴) = − ∑𝑚 𝑖=1 Tính Laplace accuracy cho luật R[i]// công thưc (7) 𝐼(𝑝𝑖 , 𝑛𝑖 ) (4) E(A) entropy thuộc tính A tập liệu huấn luyện Sắp xếp luật R[m]; I(p,n) thông tin dự kiến cần thiết để đáp ứng tập liệu huấn luyện For i=1 to n //với tuple T 𝑝+𝑛 Trong đó: end for 𝑝𝑖 + 𝑛𝑖 (3) for j=1 to m //cho luật R p tổng số tuple dương tính tập huấn luyện if ( antecedent.R[j]  T[i] && consequent.R[j] == ‘Positive’ ) then Đưa R[j] vào temp_P[ ]; end if if ( antecedent.R[j]  T[i] && consequent.R[j] == ‘Negative’ ) then Đưa R[j] vào temp_N[ ]; 10 end if n tổng số tuple âm tính tập huấn luyện 𝑝𝑖 tổng số tuple dương tính bao phủ giá trị thứ i thuộc tính A 𝑛𝑖 tổng số tuple âm tính bao phủ giá trị thứ i thuộc tính A 11 end for m số giá trị thuộc tính A 12 Chọn k luật tốt từ temp_P[ ] temp_N[ ]; 𝑇𝑊𝑇 = ∑𝑛𝑖=1 𝑊(𝑝𝑖 ) ∗ 𝐶𝑇 (5) Trong đó: 13 Tính trung bình Laplace accuracy cho k luật tốt vừa chọn n tổng số tuple dương tính tập huấn luyện 14 Nhãn lớp có giá trị trung bình cao gán P[i]; 𝑊(𝑝𝑖 ) trọng số tuple dương tính tập huấn luyện 15 if (P[i] ==A[i]) then correct = correct + 1; 95 Luan van 𝑛𝑐+1 (7) 𝑛𝑡𝑜𝑡+𝑘 k: số lớp nc: tổng số tuples tập liệu huấn luyện thỏa vế trái vế phải luật Từ k luật tốt từ lớp thỏa mãn huấn luyện cho chọn theo độ xác Laplace Độ xác Laplace trung bình k luật tốt từ lớp xác định Một lớp có độ xác Laplace trung bình cao chọn làm nhãn lớp cho thử nghiệm Luồng công việc chi tiết liên quan đến phương pháp phác thảo Preprocessed Dataset ntot: số tuple tập liệu huấn luyện thỏa vế trái luật Statistical T-test Accuracy = No of correctly classified tuples/Total no of tuples (8) Reducts computation ỨNG DỤNG GIẢI THUẬT CPAR-GR VÀO DỰ BÁO TÌNH HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH CAR generation Cách tiếp cận để giải toán dự báo tình hình nghỉ bỏ học học sinh phương pháp sử dụng luật phân lớp kết hợp tiến hành qua giai đoạn CAR evaluation CPAR-GR Laplace Accuracy CAR ordering 4.1 Thu giảm số chiều tập liệu Tập liệu huấn luyện thu thập có 15 thuộc tính, Thống kê T-test sử dụng để chọn tính quan trọng có ý nghĩa cao phân lớp Được thực hàm Mattest MATLAB 7.0.1 Nó tính tốn giá trị p điểm t cho thuộc tính Các thuộc tính có giá trị p nhỏ 0.05 coi đáng kể Các thuộc tính quan trọng (tức lớn 0.05) xóa khỏi liệu Sau trình thu giảm số chiều tập liệu cịn lại 14 thuộc tính quan trọng đáng kể cho trình huấn luyện tạo luật 4.2 Xây dựng phân lớp kết hợp (AC) Sử dụng CPAR-GR tập liệu huấn luyện để tạo luật kết hợp (CAR) Khi luật phân lớp kết hợp tạo xếp dựa độ xác Laplace Độ xác Laplace thước đo đánh giá luật kết hợp sử dụng FOIL (Quinlan & Cameron 1993), PRM (Yin & Han 2000) CPAR (Yin & Han 2003) xác định chất lượng luật phân lớp cách xem xét phạm vi luật Select best k-rules from each class that satisfies the test tuple Compute average Laplace accuracy for the best krules for each class Class label prediction of the test tuple based on the average Laplace accuracy Dimensionality reduction 𝐿𝑎𝑝𝑙𝑎𝑐𝑒 𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = Trong đó: (6) Construction of associative classifier 𝐿𝐺𝑇 = 𝐵𝑒𝑠𝑡_𝐺𝑎𝑖𝑛 ∗ 𝐺𝑆𝑅 4.3 Sử dụng luật để tiến hành phân lớp cho tập thử nghiệm Classifier assification of the test tuple 𝐶𝑇 ngưỡng bao phủ (trong nghiên cứu sử dụng CT =0.05) Hình 0.1 Các giai đoạn phân lớp kết hợp KẾT QUẢ THỰC NGHIỆM 5.1 Môi trường thực nghiệm Hệ thống thử nghiệm cài đặt công cụ Python 3.8 Microsoft Windows 10 Enterprise 64bit, thực CPU Intel® Core™ i5-3320M CPU @ 2.60GHz, nhớ RAM 8.0 GB, HDD 500GB Cùng thư viện Numpy, Pandas, PyQt5 5.2 Các tập liệu thực nghiệm Học sinh (gồm 1062 giao tác), Cơ sở liệu Breast cancer (gồm 699 giao tác), Cleve (gồm 304 giao tác), Hepatitis (gồm 156 giao tác), 96 Luan van Bảng 0.3 Tập luật sinh liệu học sinh STT Heart (gồm 304 giao tác), Pima (gồm 769 giao tác), Mushroom (gồm 8124 giao tác) liệu tham khảo UCI machine learning repository [7] Giải thuật thực với tham số CT, MGV, GSR Decay_Factor có giá trị 0.05, 0.7, 0.99 2/3 5.3 Kết thực nghiệm Tại bảng 5.1, 5.2 5.3 trình bày thời gian thực thi, tài nguyên sử dụng hiệu phân lớp thuật toán liệu 5.3.1 Thời gian thực thi Thời gian thực thi giảm xuống đáng kể áp dụng thông số đầu vào GSRDecay_Factor (0.99 – 2/3) số thuộc tính tham gia xét luật dự tuyển nên lượng tính tốn giảm dẫn đến thời gian tính tốn giảm theo Bảng 0.1 Thời gian thực liệu Nghỉ bỏ học học sinh (đơn vị tính mili giây - ms) GSR – Decay_Factor CPAR CPAR-GR 0.6 – 1/3 0.99 – 2/3 10326 12387 2601 2871 Tài nguyên CPAR CPAR-GR CPU (%) 12.6 13.5 RAM (MB) 58.3 59.7 0.983 0.985 0.995 0.985 Bảng 0.4 So sánh độ xác CPAR CPAR-GR (%) Bộ liệu Breast Cancer Cleve Hepatitis Heart Pima Mushroom Học sinh Average accuracy(%) 0.99 – 2/3 CPU (%) 15.8 15.3 0.968 0.993 0.994 0.984 0.982 Qua trình thực nghiệm liệu cho thấy giải thuật CPAR-GR cho độc xác cao hầu hết liệu từ 0.57% đến 8% thể tính hiệu cải tiến Bảng 0.2 So sánh sử dụng tài nguyên giải thuật sở liệu học sinh 0.6 – 1/3 Sớm tuổi =  Class = Nghiện ma túy =  Class = Học lực =  Class = Hạnh kiểm = 2, Sớm tuổi =  Class = Mồ côi = 1, Hút thuốc =  Class = Nghiện ma túy = 4, Nghiện game = 4,  Class =0 Vi phạm nội quy = 4, Bảo lưu =  Class = Trễ tuổi =  Class = Học lực = 5, Hạnh kiểm =  Class = 5.3.4 Độ xác phân lớp 5.3.2 Tài nguyên sử dụng GSR – Decay_Factor Laplace Accuracy Luật kết hợp 95.7 82.84 77.92 87.04 CPARGR 95.13 86.8 79.22 87.04 78.52 85.23 87.4 82.55 93.43 87.61 84.21 87.43 CPAR BIỂU ĐỒ ĐỘ CHÍNH XÁC PHÂN LỚP RAM (MB) 57.52 59.9 CPAR CPAR-GR 120 100 80 5.3.3 Kết tạo luật 60 Qua bảng thống kê 5.3 cho thấy độ xác luật kết hợp tạo tương đối cao mức 98% 40 20 Hình 0.2 Biểu đồ độ xác phân lớp giải thuật CPAR CPAR-GR KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Qua thực hai giải thuật CPAR CPAR-GR liệu học sinh cho thấy 97 Luan van với GSR – Decay_Factor thay đổi từ 0.6- 1/3 sang 0.99 – 2/3 hệ số GSR – Decay_Factor nhỏ dẫn đến việc thực lặp xảy nhiều lần So dánh CPAR CPAR-GR CPAR-GR cải tiến lại sử dụng tài nguyên thời gian thực nhìn chung nhiều hơn, đổi lại độ xác phân lớp CPAR-GR hầu hết liệu cao liệu, thu giảm số chiều tập liệu Khắc phục tình trạng có số trường hợp luật kết hợp sinh vế điều kiện có thuộc tính Tiến hành thu thập thêm liệu lĩnh vực quản lý học sinh lĩnh vực khác nhằm củng cố thực nghiệm tính ưu việt sau cải tiến thuật toán CPAR-GR Trong thời gian tới chúng tơi tập trung áp dụng có hiệu phương pháp tiền xử lý TÀI LIỆU THAM KHẢO [1] V T N Châu, “Luật kết hợp,” Giáo trình khai phá liệu, Đại học Quốc gia Tp Hồ Chí Minh, 2012, p 11 [2] N Kaoungku, K Suksut, R Chanklan, K Kerdprasop N Kerdprasop, Data Classification Based on Feature Selection with Association Rule Mining, Hong Kong: International MultiConference of Engineers and Computer Scientists , 2017 [3] S Sulova, Association Rule Mining for Improvement of IT Project Management, TEM Journal Volume 7, Issue 4, 2018, pp 717-722 [4] Y Li, J Wang, L Duan, T Bai, X Wang, Y Zhang G Qin, Association RuleBased Feature Mining for Automated Fault Diagnosis of Rolling Bearing, Hindawi, 2019 [5] X Yin, J Han Jiawei, CPAR: Classification based on Predictive Association Rules, Proc 3rd SIAM International Conference on Data Mining, 2003, pp 331-335 [6] M Nandhini S N Sivanandam, An improved predictive association rule based classiﬁer using gain ratio and T-test for health care data diagnosis, Tamil Nadu,India: Sadhan Indian Academy of Sciences, 2015 [7] "Machine Learning Repository," University of California, [Online] Available: https://archive.ics.uci.edu/ml/index.php 98 Luan van Tác giả chịu trách nhiệm viết: Tp HCM, ngày 22 tháng 12 năm 2020 Họ tên: Nguyễn Văn Chiến Xác nhận giảng viên hướng dẫn Đơn vị: Trường ĐH Sư phạm Kỹ Thuật Tp.Hồ Chí Minh (Ký & ghi rõ họ tên) Điện thoại: 0973422537 Email: nguyenvanchien12@gmail.com TS Nguyễn Thành Sơn 99 Luan van S K L 0 Luan van ... CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN VĂN CHIẾN ỨNG DỤNG THUẬT TOÁN PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP DỰ BÁO VÀO GIẢI BÀI TỐN “DỰ BÁO TÌNH HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH TRUNG HỌC TRÊN ĐỊA BÀN THÀNH PHỐ... HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN VĂN CHIẾN ỨNG DỤNG THUẬT TOÁN PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP DỰ BÁO VÀO GIẢI BÀI TỐN “DỰ BÁO TÌNH HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH. .. cam đoan đề tài ? ?Ứng dụng thuật toán phân lớp dựa luật kết hợp dự báo vào giải toán dự báo tình hình nghỉ, bỏ học học sinh trung học địa bàn Thành phố Hồ Chí Minh? ?? kết tự thân học tập, tìm hiểu

Định dạng
Số trang	128
Dung lượng	6,52 MB