(Luận văn thạc sĩ) ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn thành phố hồ chí minh

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN VĂN CHIẾN ỨNG DỤNG THUẬT TOÁN PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP DỰ BÁO VÀO GIẢI BÀI TỐN “DỰ BÁO TÌNH HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH TRUNG HỌC TRÊN ĐỊA BÀN THÀNH PHỐ HỒ CHÍ MINH” NGÀNH: KHOA HỌC MÁY TÍNH – 60480101 SKC007060 Tp Hồ Chí Minh, tháng 11/2020 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN VĂN CHIẾN ỨNG DỤNG THUẬT TOÁN PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP DỰ BÁO VÀO GIẢI BÀI TOÁN “DỰ BÁO TÌNH HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH TRUNG HỌC TRÊN ĐỊA BÀN THÀNH PHỐ HỒ CHÍ MINH” NGÀNH: KHOA HỌC MÁY TÍNH – 60480101 Tp Hồ Chí Minh, tháng 11 năm 2020 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN VĂN CHIẾN ỨNG DỤNG THUẬT TOÁN PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP DỰ BÁO VÀO GIẢI BÀI TỐN “DỰ BÁO TÌNH HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH TRUNG HỌC TRÊN ĐỊA BÀN THÀNH PHỐ HỒ CHÍ MINH” NGÀNH: KHOA HỌC MÁY TÍNH – 60480101 Hướng dẫn khoa học: TS NGUYỄN THÀNH SƠN Tp Hồ Chí Minh, tháng 11 năm 2020 QUYẾT ĐỊNH GIAO ĐỀ TÀI i LÝ LỊCH KHOA HỌC ii iii iv v vi vii Dữ liệu điền sau dự báo + Người dùng nhấn nút Clear test để nạp liệu test khác nhấn lại Run test để dự đoán kết cho tập liệu 90 ỨNG DỤNG THUẬT TOÁN PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP DỰ BÁO VÀO GIẢI BÀI TỐN “DỰ BÁO TÌNH HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH TRUNG HỌC TRÊN ĐỊA BÀN THÀNH PHỐ HỒ CHÍ MINH” AN IMPROVED PREDICTIVE ASSOCIATION RULE BASED CLASSIFIER INTO THE PROBLEM OF “FORECASTING HIGH SCHOOL DROPOUT SITUATION IN HO CHI MINH CITY” Nguyễn Văn Chiến, Nguyễn Thành Sơn Trường đại học Sư phạm Kỹ thuật Tp.HCM TÓM TẮT Phân lớp dựa luật kết hợp giải pháp hiệu lĩnh vực khai phá liệu, giải thuật Apriori, Apriori-TID, FP-Growth, FOIL, PRM, CPAR … phương thức tạo luật kết hợp dùng để dự đoán nhãn lớp cách hiệu Tuy nhiên chất lượng luật cần cải tiến để đạt độ xác dự đốn ngày cao Trong báo giới thiệu giải thuật CPAR-GR cải tiến giải thuật CPAR chất lượng luật kết hợp tạo áp dụng vào tốn phân tích liệu nguyên nhân tình hình nghỉ bỏ học học sinh trung học Từ khóa: CPAR, CPAR-GR; Luật kết hợp; Phân lớp kết hợp; CAR ABSTRACT Classification based on Predictive Association Rules is an effective solution in the field of data mining, Algorithms such as Apriori, Apriori-TID, FP-Growth, FOIL, PRM, CPAR, etc are methods of creating association rules used to predict class labels However, improvements in the quality of the association rules are needed to achieve higher predictive accuracy In this paper, CPAR-GR is an innovative of CPAR algorithm on the quality of association rules created and applied to the problem of analyzing the data causes of dropout of high school students Keywords: CPAR; CPAR-GR; Association Rules; Classification based on Predictive Association Rules; CAR GIỚI THIỆU Các kỹ thuật phát tri thức khai phá liệu thực qua nhiều giai đoạn sử dụng nhiều kỹ thuật phân lớp (classification), gom cụm (clustering), phân tích tương tự (similarity analysis), tổng hợp (summarization), luật kết hợp (association rules), … Một nội dung phổ biến khai phá liệu phát luật kết hợp phân lớp dựa luật kết hợp Phương pháp nhằm tìm tập thuộc tính thường xuất đồng thời sở liệu rút luật ảnh hưởng tập thuộc tính dẫn đến xuất nhiều tập thuộc tính khác nào? Do việc phát luật kết hợp bước quan trọng khai phá liệu Việc sử dụng luật kết hợp để phân tích liệu học sinh nhằm phát sớm trường hợp có nguy bỏ học từ có biện pháp can thiệp giúp đỡ em tiếp tục việc học, đồng thời giúp người đứng đầu sở giáo dục chủ động nắm bắt số liệu phục vụ thiết thực cho kế hoạch hoạt động sở quản lý Bài báo nhằm mục đích giới thiệu đánh giá hiệu cải tiến thuật toán CPAR-GR ứng dụng vào phân tích tình hình nghỉ bỏ học học sinh trung học Thành phố Hồ Chí Minh Phần cịn lại báo gồm: phần Một số khái niệm cơng trình liên quan Phần Một số giải thuật phân lớp dựa luật kết hợp dự báo Ứng dụng giải thuật CPAR-GR vào dự báo tình hình nghỉ bỏ học học sinh 91 trình bày phần Phần Kết luận hướng phát triển đề tài MỘT SỐ KHÁI NIỆM VÀ CÔNG TRÌNH LIÊN QUAN 2.1 Một số khái niệm I = {i1, i2, …in} tập bao gồm n mục phân biệt (item – gọi thuộc tính – attribute) [1] D = {t1, t2, …tm} tập gồm m giao dịch gọi sở liệu giao dịch, t có định danh ký hiệu TID (Transaction Identification) chứa tập mục I [1] Một luật định nghĩa kéo theo có dạng X ⇒ Y X,Y ⊆ I X ∩ Y = Ø [1] X gọi phần mệnh đề điều kiện Y gọi mệnh đề kết luật tương ứng Độ phổ biến Supp(X) = |X| / |D| Supp(X ⇒ Y) = |{T ⊆ D:X ∪ Y ⊆Supp(X⇒Y) T}| / |D| Độ tin cậy Conf(X⇒Y) = Supp(X) 2.2 Các cơng trình liên quan - Luật nguyên tử (Construct Concise and Accurate Classifier by Atomic Association) khai thác tạo tập luật nhỏ đơn giản để phân lớp Các luật nguyên tử mạnh với mức độ xác cao gần cao thực phân lớp phần cách xác Kết cho thấy giải thuật đề xuất không đạt độ xác phân lớp cao mà cịn tạo luật phân lớp kết hợp nhỏ nhất; nữa, chạy nhanh nhiều so với giải thuật phân lớp kết hợp có - Phân lớp dựa lựa chọn đặc điểm với khai phá luật kết hợp [2] nhóm tác giả Nuntawut Kaoungku, Keerachart Suksut, Ratiporn Chanklan, Kittisak Kerdprasop Nittaya Kerdprasop nghiên cứu đề xuất năm 2017 sử dụng khai phá luật kết hợp để tạo luật chứa tính thường xuyên xuất Giải thuật đề xuất giảm số lượng tính năng, đồng thời tăng độ xác phân lớp liệu - Khai phá luật kết hợp để quản lý dự án công nghệ thông tin [3] Được tác giả Snezhana Sulova (công tác Đại học Kinh tế - Varna, Bulgaria, công bố tháng 10 năm 2018) phát liên kết không xác định nhân viên giúp tạo dự án tốt cách sử dụng song song hai giải thuật FPGrowth Apriori đối sánh kết sinh luật kết hợp, kết thu chứng minh khai phá luật kết hợp tạo kiện hữu ích liên kết liệu dựa chúng, người quản lý dự án thực định quan trọng - Sử dụng luật kết hợp để phát lỗi vịng bi [4] cơng trình nhóm tác giả Yuan Li, Jinjiang Wang , Lixiang Duan , Tangbo Bai, Xuduo Wang, Yulong Zhang Guoliang Qin công tác trường đại học Trung Quốc, công bố tháng năm 2019 Sử dụng luật kết hợp để khám phá mối quan hệ khuyết tật dán nhãn tính bất thường để phân tích lỗi ổ trục Luật sử dụng để chẩn đoán lỗi giúp thực phân tích khuyết tật cách có hệ thống MỘT SỐ GIẢI THUẬT PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP DỰ BÁO 3.1 Giải thuật PRM Giải thuật PRM (Predictive Rule Mining) [5] giải thuật cải tiến từ giải thuật FOIL Trong PRM, sau mẫu bao phủ cách xác theo luật, thay xóa nó, trọng số bị giảm cách nhân với factor Phiên "có trọng số" FOIL tạo nhiều luật mẫu dương tính thường dùng nhiều lần 3.1.1 Nội dung giải thuật Đầu vào: Tập huấn luyện D, chia thành phần P tập dương tính N tập âm tính Đầu ra: tập luật R cho lớp Phương thức: Procedure Predictive Rule Mining Đặt trọng số cho mẫu rule R ← Φ totalWeight ← TotalWeight(P) A ← tính PNArray từ tập D 92 while TotalWeight(P) > δ * totalWeight N’←N,P’←P,A’←A không bỏ sót thuộc tính đem lại luật có chất lượng cao 3.2.1 Nội dung giải thuật r←Φ Procedure PROPOSED_CPAR while true ruleSet Tìm mẫu p tốt A’ for each class if gain(p) < min_gain then thoát thêm p vào r for t P’ ∪ N’ khơng thỏa r Xóa t khỏi P’ N’ P tập dương tính N tập âm tính Loop Tính lại A’ theo mẫu t xóa end end pData tập dương tính nData tập âm tính R ← R ∪ {r} R ; []; ge[] For Mỗi mẫu t P thỏa luật r While true t.weight ← α * t.weight maxGain maximum ge[] l Giảm trọng số tập chứa t A mẫu đạt maxGain if maxGain < T then thoát end end R return R xóa mẫu khơng chứa nội dung luật pData, nData 3.1.2 Ưu điểm giải thuật PRM End while ruleSet Giải thuật tận dụng triệt để thuộc tính để sinh luật chất lượng dựa vào việc giảm trọng số mẫu thay xóa bỏ sau thuộc tính tham gia vào luật Giải thuật sử dụng thuộc tính có mức gain cao chưa đảm bảo tính khách quan tồn diện tạo luật l cập nhật []; cập nhật ge[] Là giải thuật đơn giản thuận lợi cho việc cài đặt nhiều ngơn ngữ lập trình khác 3.1.3 Nhược điểm giải thuật PRM R ruleSet R end loop end for return ruleSet 3.2.2 Ưu điểm giải thuật: Việc tính tốn tốn thời gian tài nguyên số lần thực lặp lại lớn Giải thuật sử dụng ngưỡng gain T để làm xét mẫu có gain đạt ngưỡng để xem xét tham gia luật điều tránh việc bỏ sót thuộc tính quan trọng làm nên chất lượng luật 3.2 Giải thuật CPAR 3.2.3 Nhược điểm giải thuật Giải thuật CPAR (Classification based on Predictive Association Rules) [5] giải thuật phát triển dựa ý tưởng thuật toán PRM Xiaoxin Yin Jiawei Han công bố năm 2003 Nội dung cải tiến giải thuật thay sử dụng thuộc tính có gain cao tác giả sử dụng thuộc tính có gain nằm ngưỡng gain tốt nhằm Giải thuật sử dụng cách tính gain truyền thống (FOIL Gain) để tính gain cho thuộc tính điều làm cho thuộc tính quan trọng có gain khơng cao khơng có khả tham gia luật, cản trở hiệu dự báo luật sinh 3.3 Giải thuật CPAR-GR Giải thuật CPAR-GR (Predictive association rule based classifier using gain ratio and T-test) [24] phát triển dựa 93 ý tưởng giải thuật CPAR cải tiến nội dung sử dụng Gain-Ratio thay cho Gain để xác định tập mục phổ biến, đảm bảo thuộc tính có Gain-Ratio xác đạt ngưỡng Gain đem lại tập luật chất lượng cao Thứ hai giải thuật sử dụng phương pháp tiền xử lý T-Test để thu giảm số chiều tập liệu đầu vào nhằm giảm bớt số lần tính tốn làm tăng hiệu suất giải thuật 3.3.1 Nội dung giải thuật tạo luật kết hợp Đầu vào: ▪ D[n]- tập liệu nhị phân cần phân lớp gồm n thuộc tính ▪ P- tuple dương tính D ▪ N- tuple âm tính D ▪ ∑W(P)- tổng trọng số tất tuples dương tính (khởi tạo ban đầu tuple có trọng số 1) ▪ MGV- người dùng định giá trị gain tối thiểu (0.7) ▪ TWT- ngưỡng trọng số tối thiểu ▪ LGT- ngưỡng Gain thuộc tính ▪ CT- ngưỡng bao phủ tuple (0.05) ▪ Decay_Factor – người dùng định dùng để giảm trọng số tuple (2/3) ▪ GSR – Hệ số lấy khoảng giá trị Gain_ratio (0.99) Đầu ra: ▪ Danh sách luật kết hợp (CAR) Phương thức:  RA[ ] R[ ]   // khởi tạo tập luật dự tuyển // khởi tạo tập luật P D[n](class=1) // đưa tuple có class=1 vào P  N D[n](class 1) // đưa tuple có class vào N 13 W(P1) = tổng trọng số tuple P1 14 W(N1) = tổng trọng số tuple N1 15 For i=1 to n //Tính gain_ratio 16 WP[i] = tổng trọng số tuple chứa thuộc tính thứ i P1 17 WN[i] = tổng trọng số tuple chứa thuộc tính thứ i N1 18 I[i] = 20 Gain[i] = InfoD – E[i] 21 SplitInfo[i] = − 22 Gain_Ratio[i] = Gain[i]/ SplitInfo[i] 23 24 25 If Gain_Ratio[i] > Best_Gain then Best_Gain  Gain_Ratio[i] End if 26 End for 27 LGT = Best_Gain * GSR 28 For i=1 to n 29 if Gain_Ratio[i] >=LGT && Gain[i] >= MGV then 30 Close-to-the-best[ ]  i // i thứ tự thuộc tính A[n] Best_Gain = end if W(P) //tổng trọng số tuple tập P 31 W(N) // tổng trọng số tuple tập N 32 A[n] = danh mục thuộc tính D 33 For q =1 to Size[Close-to-the-best] // với giá trị Close-to-the-best Tính InfoD end for   10 TWT = W(P) * CT 34 TempP P1, TempN P1 N1 11 While ( W(P) > TWT) 35 Xóa tuple khơng chứa thuộc tính A[q] P1 N1 36 Thêm A[q] vào luật dự tuyển RA[]// có dạng = A[q] 12   P1 P,N1 N N1 // lưu 37 94 Giảm trọng số tuple có chứa giá trị A[q] tập P 38 if Count[N1] = = then // Nếu N1 trống (rỗng) 39 Thêm luật dự tuyển RA[=A[q]]vào tập luật R[ ] 40 Xóa thuộc tính A[q] khỏi Bảng Gain_Ratio Đặt trọng số tuple P chứa A[q] sau đưa vào luật thức R[ ] 17 end if 18 end for 19 return Accuracy; công thức (8) Các công thức Gain Ratio(A) = Gain(A)/SplitInfo(A) end if 41  else wrong = wrong + 1; 16 ( )=−  42 P1 TempP, N1 TempN // trả lại liệu cho P1 N1 43 end for 44 End While (| Trong đó: 45 Return R[ ] |D| tổng số tuple có tập huấn luyện D 3.3.2 Nội dung giải thuật phân lớp | | tổng số tuple dương tính âm tính tập huấn luyện D Đầu vào: tập thử nghiệm T, R tổng số lớp tập huấn luyện Đầu ra: Accuracy thuộc tính thêm vào luật ứng viên Phương thức: For i=1 to m ( )= ( , )− ( ) Tính Laplace accuracy cho luật R[i]// cơng thưc (7) ( )=− end for Trong đó: Sắp xếp luật R[m]; E(A) entropy thuộc tính A tập liệu huấn luyện For i=1 to n //với tuple T for j=1 to m //cho luật R I(p,n) thông tin dự kiến cần thiết để đáp ứng tập liệu huấn luyện if ( antecedent.R[j] T[i] && consequent.R[j] == ‘Positive’ ) then Đưa R[j] vào temp_P[ ]; end if if ( antecedent.R[j] T[i] && consequent.R[j] == ‘Negative’ ) then Đưa R[j] vào temp_N[ ]; 10 end if p tổng số tuple dương tính tập huấn luyện n tổng số tuple âm tính tập huấn luyện tổng số tuple dương tính bao phủ giá trị thứ i thuộc tính A tổng số tuple âm tính bao phủ giá trị thứ i thuộc tính A 11 end for 12 Chọn k luật tốt từ temp_P[ ] temp_N[ ]; m số giá trị thuộc tính A 13 Tính trung bình Laplace accuracy cho k = luật tốt vừa chọn Trong đó: 14 Nhãn lớp có giá trị trung bình cao n tổng số tuple dương tính tập gán P[i]; huấn luyện 15 if (P[i] ==A[i]) then correct = correct + 1; ( ) trọng số tuple dương tính tập huấn luyện 95 ngưỡng bao phủ (trong nghiên cứu sử dụng CT =0.05) = _∗= + +1 4.3 Sử dụng luật để tiến hành phân lớp cho tập thử nghiệm (6) (7) Trong đó: k: số lớp nc: tổng số tuples tập liệu huấn luyện thỏa vế trái vế phải luật ntot: số tuple tập liệu huấn luyện thỏa vế trái luật Accuracy = No of correctly classified tuples/Total no of tuples (8) ỨNG DỤNG GIẢI THUẬT CPAR-GR VÀO DỰ BÁO TÌNH HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH Cách tiếp cận để giải tốn dự báo tình hình nghỉ bỏ học học sinh phương pháp sử dụng luật phân lớp kết hợp tiến hành qua giai đoạn 4.1 Thu giảm số chiều tập liệu Tập liệu huấn luyện thu thập có 15 thuộc tính, Thống kê T-test sử dụng để chọn tính quan trọng có ý nghĩa cao phân lớp Được thực hàm Mattest MATLAB 7.0.1 Nó tính tốn giá trị p điểm t cho thuộc tính Các thuộc tính có giá trị p nhỏ 0.05 coi đáng kể Các thuộc tính quan trọng (tức lớn 0.05) xóa khỏi liệu Sau trình thu giảm số chiều tập liệu cịn lại 14 thuộc tính quan trọng đáng kể cho trình huấn luyện tạo luật 4.2 Xây dựng phân lớp kết hợp (AC) Sử dụng CPAR-GR tập liệu huấn luyện để tạo luật kết hợp (CAR) Khi luật phân lớp kết hợp tạo xếp dựa độ xác Laplace Độ xác Laplace thước đo đánh giá luật kết hợp sử dụng FOIL (Quinlan & Cameron 1993), PRM (Yin & Han 2000) CPAR (Yin & Han 2003) xác định chất lượng luật phân lớp cách xem xét phạm vi luật Từ k luật tốt từ lớp thỏa mãn huấn luyện cho chọn theo độ xác Laplace Độ xác Laplace trung bình k luật tốt từ lớp xác định Một lớp có độ xác Laplace trung bình cao chọn làm nhãn lớp cho thử nghiệm Luồng công việc chi tiết liên quan đến phương pháp phác thảo Statistical T-test Reducts computation Dimensionality reduction Preprocessed Dataset CAR evaluation CAR ordering Select best k-rules from each class that satisfies the test tuple Compute average Laplace accuracy for the best krules for each class Class label prediction of the test tuple based on the average Laplace accuracy Classifier assification of the test tuple Construction of associative classifier CAR generation Hình 0.1 Các giai đoạn phân lớp kết hợp KẾT QUẢ THỰC NGHIỆM 5.1 Môi trường thực nghiệm Hệ thống thử nghiệm cài đặt công cụ Python 3.8 Microsoft Windows 10 Enterprise 64bit, thực CPU Intel® Core™ i5-3320M CPU @ 2.60GHz, nhớ RAM 8.0 GB, HDD 500GB Cùng thư viện Numpy, Pandas, PyQt5 5.2 Các tập liệu thực nghiệm Học sinh (gồm 1062 giao tác), Cơ sở liệu Breast cancer (gồm 699 giao tác), Cleve (gồm 304 giao tác), Hepatitis (gồm 156 giao tác), 96 5.3 Kết thực nghiệm Tại bảng 5.1, 5.2 5.3 trình bày thời gian thực thi, tài nguyên sử dụng hiệu phân lớp thuật toán liệu 5.3.1 Thời gian thực thi Thời gian thực thi giảm xuống đáng kể áp dụng thông số đầu vào GSRDecay_Factor (0.99 – 2/3) số thuộc tính tham gia xét luật dự tuyển nên lượng tính tốn giảm dẫn đến thời gian tính tốn giảm theo Bảng 0.1 Thời gian thực liệu Nghỉ bỏ học học sinh (đơn vị tính mili giây - ms) Bảng 0.3 Tập luật sinh liệu học sinh STT Heart (gồm 304 giao tác), Pima (gồm 769 giao tác), Mushroom (gồm 8124 giao tác) liệu tham khảo UCI machine learning repository [7] Giải thuật thực với tham số CT, MGV, GSR Decay_Factor có giá trị 0.05, 0.7, 0.99 2/3 5.3.4 Độ xác phân lớp Qua q trình thực nghiệm liệu cho thấy giải thuật CPAR-GR cho độc xác cao hầu hết liệu từ 0.57% đến 8% thể tính hiệu cải tiến Bảng 0.4 So sánh độ xác CPAR CPAR-GR (%) GSR – Decay_Factor CPAR CPAR-GR 5.3.2 Tài nguyên sử dụng Bảng 0.2 So sánh sử dụng tài nguyên giải thuật sở liệu học sinh Lu Sớm tuổi = 2Class = Nghiện ma túy = 2Cl Học lực = 2Class = Hạnh kiểm = 2, Sớm Mồ côi = 1, Hút thuố Nghiện ma túy = 4, N =0 Vi phạm nội quy = 4, Trễ tuổi = 5Class = Học lực = 5, Hạnh ki Bộ liệu Breast Cancer Cleve Hepatitis Heart Pima Mushroom Học sinh Average accuracy(%) BIỂU ĐỒ ĐỘ CHÍNH XÁC PHÂN LỚP CPAR 5.3.3 Kết tạo luật Qua bảng thống kê 5.3 cho thấy độ xác luật kết hợp tạo tương đối cao mức 98% Hình 0.2 Biểu đồ độ xác phân lớp giải thuật CPAR CPAR-GR KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Qua thực hai giải thuật CPAR CPAR-GR liệu học sinh cho thấy 97 với GSR – Decay_Factor thay đổi từ 0.6- 1/3 sang 0.99 – 2/3 hệ số GSR – Decay_Factor nhỏ dẫn đến việc thực lặp xảy nhiều lần So dánh CPAR CPAR-GR CPAR-GR cải tiến lại sử dụng tài nguyên thời gian thực nhìn chung nhiều hơn, đổi lại độ xác phân lớp CPAR-GR hầu hết liệu cao liệu, thu giảm số chiều tập liệu Khắc phục tình trạng có số trường hợp luật kết hợp sinh vế điều kiện có thuộc tính Tiến hành thu thập thêm liệu lĩnh vực quản lý học sinh lĩnh vực khác nhằm củng cố thực nghiệm tính ưu việt sau cải tiến thuật toán CPAR-GR Trong thời gian tới chúng tơi tập trung áp dụng có hiệu phương pháp tiền xử lý TÀI LIỆU THAM KHẢO [1] V T N Châu, “Luật kết hợp,” Giáo trình khai phá liệu, Đại học Quốc gia Tp Hồ Chí Minh, 2012, p 11 [2] N Kaoungku, K Suksut, R Chanklan, K Kerdprasop N Kerdprasop, Data Classification Based on Feature Selection with Association Rule Mining, Hong Kong: International MultiConference of Engineers and Computer Scientists , 2017 [3] S Sulova, Association Rule Mining for Improvement of IT Project Management, TEM Journal Volume 7, Issue 4, 2018, pp 717-722 [4] Y Li, J Wang, L Duan, T Bai, X Wang, Y Zhang Association Mining Diagnosis G Rule-Based for of Automated Rolling Qin, Feature Fault Bearing, Hindawi, 2019 [5] X Yin, J Han Jiawei, CPAR: Classification based on Predictive Association Rules, Proc 3rd SIAM International Conference on Data Mining, 2003, pp 331-335 [6] M Nandhini S N Sivanandam, An improved predictive association rule based classifier using gain ratio and T-test for health care data diagnosis, Tamil Nadu,India: Sadhan Indian Academy of Sciences, 2015 [7] "Machine Learning Repository," University of California, [Online] Available: https://archive.ics.uci.edu/ml/index.ph p 98 Tác giả chịu trách nhiệm viết: Họ tên: Nguyễn Văn Chiến Tp HCM, ngày 22 tháng 12 năm 2020 Xác nhận giảng viên hướng dẫn (Ký & ghi rõ họ tên) Đơn vị: Trường ĐH Sư phạm Kỹ Thuật Tp.Hồ Chí Minh Điện thoại: 0973422537 Email: nguyenvanchien12@gmail.com TS Nguyễn Thành Sơn 99 ... LUẬN VĂN THẠC SĨ NGUYỄN VĂN CHIẾN ỨNG DỤNG THUẬT TOÁN PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP DỰ BÁO VÀO GIẢI BÀI TOÁN “DỰ BÁO TÌNH HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH TRUNG HỌC TRÊN ĐỊA BÀN THÀNH PHỐ HỒ CHÍ MINH? ??... HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN VĂN CHIẾN ỨNG DỤNG THUẬT TOÁN PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP DỰ BÁO VÀO GIẢI BÀI TỐN “DỰ BÁO TÌNH HÌNH NGHỈ BỎ HỌC CỦA HỌC SINH. .. cam đoan đề tài ? ?Ứng dụng thuật toán phân lớp dựa luật kết hợp dự báo vào giải tốn dự báo tình hình nghỉ, bỏ học học sinh trung học địa bàn Thành phố Hồ Chí Minh? ?? kết tự thân tơi học tập, tìm hiểu

Định dạng
Số trang	138
Dung lượng	3,19 MB