Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên trường đại học bình dương

116 15 0
Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên trường đại học bình dương

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên trường đại học bình dương Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên trường đại học bình dương Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên trường đại học bình dương

MỤC LỤC LÝ LỊCH KHOA HỌC i LỜI CẢM ƠN iv LỜI CAM ĐOAN v TÓM TẮT vi MỤC LỤC viii DANH SÁCH CÁC TỪ VIẾT TẮT xi DANH SÁCH CÁC BẢNG xii DANH SÁCH CÁC HÌNH xiv Chương TỔNG QUAN 1 Lý chọn đề tài Mục tiêu đề tài Nhiệm vụ đề tài Đối tượng phạm vi nghiên cứu 4.1 Đối tượng nghiên cứu 4.2 Phạm vi nghiên cứu Cách tiếp cận phương pháp nghiên cứu Ý nghĩa thực tiễn đề tài Các cơng trình nghiên cứu gần Chương CƠ SỞ LÝ THUYẾT I CÁC KHÁI NIỆM CƠ BẢN TRONG KHAI PHÁ LUẬT KẾT HỢP Tập mục (Itemset) k-tập mục (k-itemset) Luật kết hợp (Association rule) Độ hỗ trợ (Support) Độ tin cậy (Confidence) Tập mục phổ biến/ thường xuyên (Frequent itemset) x II CÁC KHÁI NIỆM CƠ BẢN TRONG PHÂN LỚP Phân lớp (Classification) Phân lớp dựa luật kết hợp 10 III MỘT SỐ THUẬT GIẢI PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP 11 Thuật giải CARIM (An Efficient Algorithm for Mining ClassAssociation Rules with Interestingness Measures) 11 Thuật giải MMAC (Multi-class, multi-label associative classification) 11 Thuật giải CBA (Classification Based on Associations) 12 Thuật giải CPAR (Classification based on Predictive Association Rules) 12 Thuật giải MISFP (Multiple Item Support Frequent Patterns) 13 Thuật giải FCBA (Fast Classification Based on Association Rules) 13 Thuật giải CMAR (Classification based on Multiple Association Rules) 14 Thuật giải MCAR (Multi class Classification based on Association Rule) 14 Thuật giải CPAR-GR (Predictive association rule based classifier using gain ratio) 14 10 Thuật giải WCBA (Weighted Classification Based on Association Rules) 15 IV MỘT SỐ PHƯƠNG PHÁP TIỀN XỬ LÝ DỮ LIỆU 16 Phương pháp lọc (filter method) 16 Phương pháp bao bọc (wrapper method) 18 Phương pháp nhúng (embedded method) 22 Phương pháp làm liệu SPSS 23 4.1 Giới thiệu phần mềm SPSS 23 4.2 Làm liệu phần mềm SPSS 25 4.3 Ứng dụng vào đề tài dự báo khả bỏ học sinh viên 25 Chương PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP 27 Ý tưởng 27 Mô tả thuật giải CPAR-GR 27 xi Thuật giải CPAR-GR 28 Chương ỨNG DỤNG THUẬT GIẢI VÀO BÀI TOÁN DỰ BÁO KHẢ NĂNG BỎ HỌC CỦA SINH VIÊN, KẾT QUẢ THỰC NGHIỆM 35 Mô tả toán 35 Phương pháp thực 40 Xây dựng lựa chọn mơ hình 41 Minh họa thuật giải CPAR-GR 43 Giao diện chương trình demo 58 Mô tả liệu tập huấn luyện, tập liệu kiểm tra 63 Kết tạo luật từ thuật giải CPAR-GR tập huấn luyện 67 Đánh giá độ xác luật từ thuật giải CPAR-GR tập huấn luyện 75 Sử dụng luật vào dự báo khả bỏ học sinh viên 77 Chương KẾT LUẬN 80 Kết đạt 80 Hạn chế đề tài 80 Hướng phát triển đề tài 80 TÀI LIỆU THAM KHẢO 81 Tài liệu tham khảo tiếng Anh 81 Tài liệu tham khảo tiếng Việt 82 PHỤ LỤC HƯỚNG DẪN TIỀN XỬ LÝ DỮ LIỆU VÀ CHƯƠNG TRÌNH DEMO 84 Tiền xử lý liệu 84 Sử dụng chương trình demo ứng dụng dự báo khả bỏ học sinh viên 91 xii DANH SÁCH CÁC TỪ VIẾT TẮT CPAR: Classification based on Predictive Association Rules CPAR-GR: Predictive association rule based classifier using gain ratio WCBA: Weighted Classification Based on Association Rules CBA: Classification Based on Associations CARIM: An Efficient Algorithm for Mining ClassAssociation Rules with Interestingness Measures MMAC: Multi-class, multi-label associative classification MISFP: Multiple Item Support Frequent Patterns FCBA: Fast Classification Based on Association Rules CMAR: Classification based on Multiple Association Rules MCAR: Multi class Classification based on Association Rule RFE: Recursive Feature elimination CTĐT: Chương trình đào tạo SPSS: Statistical Package for the Social Sciences xiii DANH SÁCH CÁC BẢNG BẢNG TRANG Bảng 2.1: Cơ sở liệu D, ví dụ itemset Bảng 2.2: Cơ sở liệu D, ví dụ luật kết hợp Bảng 2.3: Cơ sở liệu D, ví dụ support Bảng 2.4: Cơ sở liệu D, ví dụ confidence Bảng 2.5: Cơ sở liệu D, ví dụ tập mục phổ biến/thường xuyên Bảng 2.6: Cơ sở liệu D, ví dụ phân lớp dựa luật kết hợp 10 Bảng Bảng số liệu sinh viên đại học quy khóa 2017, 2018, 2019 2020 35 Bảng Cơ sở liệu huấn luyện 42 Bảng Tập mẫu P 43 Bảng 4 Tập mẫu N 43 Bảng Tập mẫu P sau đặt trọng số 44 Bảng Tập mẫu N sau đặt trọng số 44 Bảng Tập mẫu P' 45 Bảng Tập mẫu N' 45 Bảng Bảng Gain Ratio lần 46 Bảng 10 Tập P sau lần giảm trọng số 48 Bảng 11 Bảng Gain Ratio lần 48 Bảng 12 Tập P sau lần giảm trọng số 50 Bảng 13 Bảng Gain Ratio lần 50 Bảng 14 Tập P sau lần giảm trọng số 51 Bảng 15 Độ xác luật kết hợp 53 Bảng 16 Dự đoán nhãn lớp cho tuple T 54 Bảng 17 Thuộc tính tập liệu huấn luyện, tập liệu kiểm tra 62 Bảng 18 Bảng thống kê giá trị trung bình thuộc tính 66 xiv Bảng 19 Kết thống kê (T-test) đánh giá tác động biến độc lập với biến phụ thuộc 67 Bảng 20 Trích tóm tắt liệu trước tiền xử lý 71 Bảng 21 Trích tóm tắt liệu sau tiền xử lý (thủ công) 72 Bảng 22 Kết tạo luật thuật giải CPAR-GR 73 Bảng 23 Đánh giá độ xác luật tạo từ tập huấn luyện 75 xv DANH SÁCH CÁC HÌNH HÌNH TRANG Hình 2.1: Mơ hình phương pháp lọc 16 Hình 2.2: Mơ hình phương pháp bao bọc 19 Hình 2.3: Quá trình hoạt động thuật tốn Random Forest 20 Hình 2.4: Mơ hình phương pháp nhúng 22 Hình 1: Quy trình làm việc thuật tốn CPAR-GR [1] 27 Hình Biểu đồ số liệu sinh viên khóa 2017 37 Hình Biểu đồ số liệu sinh viên khóa 2018 38 Hình Biểu đồ số liệu sinh viên khóa 2019 38 Hình 4 Biểu đồ số liệu sinh viên khóa 2020 39 Hình Giao diện ứng dụng demo dự báo khả bỏ học sinh viên 56 Hình Giao diện sau nhập liệu huấn luyện 56 Hình Giao diện trước thực thi thuật giải CPAR-GR 57 Hình Giao diện sau thực thi thuật giải CPAR-GR 57 Hình Giao diện trước nhập liệu kiểm tra 58 Hình 10 Giao diện sau nhập liệu kiểm tra 58 Hình 11 Giao diện trước chạy kiểm tra 59 Hình 12 Giao diện sau chạy kiểm tra 59 xvi Chương TỔNG QUAN Lý chọn đề tài Trong môi trường giáo dục đại học nay, đặc biệt giáo dục đại học đào tạo theo hệ thống tín Sinh viên chưa biết chưa hiểu hết tầm quan trọng việc đào tạo theo hệ thống tín chỉ, lựa chọn đào tạo mang tính chất mềm dẻo giúp người học tự hoạch định chiến lược học tập, định tiến độ học tập trường thân Hầu hết sinh viên tham gia học sở giáo dục đại học biết đăng ký mơn học để tích lũy tín theo cảm tính, theo lời bạn bè, lơ việc học để làm thêm, chán việc học khơng hiểu bài,… Sinh viên lập kế hoạch học tập, kế hoạch thân, từ kết học tập sinh viên ngày xuống, tinh thần học tập qua năm giảm, dẫn đến tình trạng bỏ học tăng cao, tỉ lệ cảnh báo học vụ vi phạm quy chế phần lớn liên quan đến điểm tích lũy học kỳ khóa học Chính lý đó, việc ứng dụng cơng nghệ thơng tin việc khai phá liệu học tập sinh viên, kỹ thuật phân lớp dựa luật kết hợp dự báo khả bỏ học sinh viên đưa giải pháp phù hợp giúp cải thiện làm giảm tỉ lệ bỏ học, tỉ lệ sinh viên bị cảnh báo học vụ hữu ích cấp thiết Mục tiêu đề tài Nghiên cứu toán phân lớp dựa luật kết hợp ứng dụng vào dự báo khả bỏ học sinh viên Trường Đại học Bình Dương Nhiệm vụ đề tài Tìm hiểu trình bày thuật giải CPAR-GR [1] Sử dụng thuật giải CPAR-GR để xây dựng chương trình demo dự báo khả bỏ học sinh viên Đánh giá thực nghiệm với sở liệu sinh viên thực tế (sinh viên từ năm đến năm 4) Đối tượng phạm vi nghiên cứu 4.1 Đối tượng nghiên cứu Nghiên cứu vấn đề khai phá liệu; kỹ thuật phân lớp dựa luật kết hợp dự báo khả bỏ học sinh viên Trường Đại học Bình Dương 4.2 Phạm vi nghiên cứu Nghiên cứu thuật giải phân lớp dựa luật kết hợp CPAR-GR ứng dụng vào toán dự báo khả bỏ học sinh viên Trường Đại học Bình Dương Cách tiếp cận phương pháp nghiên cứu Kết hợp phương pháp: nghiên cứu lý thuyết, thu thập phân tích liệu lập trình ứng dụng Sử dụng liệu thực tế q trình học tập sinh viên quy năm đến năm Trường Đại học Bình Dương để phân tích thực nghiệm (dữ liệu mã hóa thành mã định danh để mang tính bảo mật thông tin) Ý nghĩa thực tiễn đề tài Nghiên cứu nhằm góp phần nâng cao chất lượng đào tạo, giúp đơn vị chuyên trách có sở để hoạch định chiến lược, phương pháp hỗ trợ sinh viên kịp thời trình học tập, làm giảm tỉ lệ bỏ học, kết học tập sinh viên Các cơng trình nghiên cứu gần Đại dịch cúm mối quan tâm lớn toàn giới Lần đầu tiên, thuật giải khai thác phân lớp dựa luật kết hợp (CBA) sử dụng để khám phá quy tắc củng cố thay đổi chuỗi không nhiễm bệnh để dự báo đại dịch Năm 2015, F Kargarfard, A Sami, E Ebrahimie [2] giả định quy tắc trích xuất dẫn đến phát triển hệ thống chuyên gia hiệu để dự đốn đại dịch cúm Nhóm tác giả sử dụng liệu lớn chứa 5373 HA (hemagglutinin) chuỗi dịch cúm đại dịch cúm 2009 Phân tích thực trình tự nucleotide protein Nhóm tác giả tìm thấy số quy tắc có khả trình bày vị trí kháng nguyên chưa khám phá cấu trúc cúm Ở cấp độ nucleotide, thay đổi thymine (T) vị trí 260 đặc điểm phân biệt việc phân biệt khơng gây đại dịch với hậu đại dịch Ở cấp độ protein, quy tắc bao gồm I233K, M334L tính khác biệt CBA phân loại hiệu chuỗi đại dịch khơng đại dịch với độ xác cao mức độ nucleotide protein Tìm điểm nóng chuỗi cúm phát quan trọng chúng đại diện cho vùng có khả phản ứng kháng thể thấp Nhóm tác giả lập luận virus phá vỡ phản ứng miễn dịch vật chủ đột biến điểm Dựa quy tắc phát hiện, nhóm tác giả phát triển phần mềm "Dự đoán dịch cúm" để phân biệt đại dịch từ chuỗi không nhiễm bệnh Nghiên cứu mở khám phá quy tắc kết hợp điểm đột biến q trình tiến hóa đại dịch cúm Trong sở liệu cân lớp, thiểu số đóng vai trị quan trọng chúng không khai thác dựa vào phân lớp luật kết hợp Năm 2017, N T Thúy Loan, T T Minh Thúy, and G H Côn đề xuất phương pháp biến đổi sở liệu cho phân lớp cân bằng, sau khai thác luật kết hợp dựa liệu biến đổi [3] Để biến đổi liệu, nhóm tác giả chia tập liệu thành m tập con, tập tương ứng với giá trị thuộc tính lớp Với tập liệu, nhóm tác giả sử dụng K-means để gom chúng thành k nhóm (k số dịng liệu tập liệu có dịng nhất) Với nhóm, nhóm tác giả chọn dịng đại diện dịng có khoảng cách gần với trọng tâm Sau gom nhóm, nhóm tác giả tập hợp liệu lại sử dụng CAR-Miner để khai thác phân lớp luật kết Giao diện sau mở thành công tập liệu kiểm tra Bước 6: Chọn nút “Kiểm tra” để tiến hành kiểm tra, dự báo 95 PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP ĐỂ DỰ BÁO KHẢ NĂNG BỎ HỌC CỦA SINH VIÊN TRƯỜNG ĐẠI HỌC BÌNH DƯƠNG CLASSIFICATION BASED ON ASSOCIATION RULES FORECAST OF STUDENT DROPOUT IN BINH DUONG UNIVERSITY Thái Thanh Hùng Học viên Trường đại học Sư phạm Kỹ thuật TP.HCM TÓM TẮT Kết học tập sinh viên mối quan tâm hàng đầu sở giáo dục đại học nói chung Trường Đại học Bình Dương nói riêng Vì thước đo chất lượng đào tạo, tín nhiệm xã hội sở giáo dục Trên sở cải thiện chất lượng đào tạo, kết học tập sinh viên tốt hơn, viết đề xuất ứng dụng phân lớp dựa luật kết hợp để dự báo khả bỏ học sinh viên Trường Đại học Bình Dương Kết nghiên cứu đưa dự báo khả sinh viên bỏ học tiếp tục học giúp cho cố vấn học tập kịp thời theo dõi có kế hoạch giúp đỡ kịp thời Từ khóa: Dự báo; CPAR-GR; phân lớp; bỏ học; kết học tập; sinh viên ABSTRACT Student learning outcomes are always the top concern of higher education in general and Binh Duong University in particular Because this is a measure of training quality, society's trust in education On the basis of improving training quality, better student learning outcomes, the article proposes the application of association rule-based analysis to predict the dropout probability of students at Binh Duong University The research results are predicted that students are likely to drop out or continue studying, helping to try to monitor the episode in time and have a timely help plan Keywords: Forecast; CPAR-GR; classification; ĐẶT VẤN ĐỀ Khi bước vào ngưỡng cửa đại học, cách thức sinh hoạt học tập khác với bậc phổ thông nên sinh viên gặp khơng khó khăn bỡ ngỡ Một thật khơng thể phủ nhận có sinh viên thủ khoa kỳ thi đại học có kết học tập khơng tốt mong đợi, chí cịn thấp sinh viên đủ điểm trúng tuyển Kết học tập sinh viên Trường Đại học Bình Dương, đặc biệt kết sau năm học nhiều vấn đề cần suy xét, có nhiều sinh viên bị thuộc thơi học học lực Chính vậy, việc xác định thực trạng đề xuất giải pháp nâng cao kết học tập sinh viên vấn đề cần thiết Kết học tập chịu ảnh hưởng nhiều yếu tốt chủ quan khách quan, gia đình bạn bè mơi trường học tập, xã hội…Bài viết tập trung giải pháp liên quan đến dropout; learning outcomes; student sinh viên giảng viên trình học tập lớp tự học sinh viên CƠ SỞ ĐỀ XUẤT GIẢI PHÁP 2.1 Cơ sở lý luận Phân lớp dựa luật kết hợp Phân lớp dựa luật kết hợp tìm tập luật kết hợp sở liệu cho, luật tập chứa vế phải giá trị thuộc tính lớp Cho sở liệu D, I tất mục D Y tập nhãn lớp Luật phân lớp kết hợp biểu thức có dạng X→y X⊆I y∈Y Độ tin cậy luật c c% mẫu D chứa X gán nhãn lớp y Độ phổ biến luật s s% mẫu D chứa X gán nhãn lớp y Phân lớp dựa luật kết hợp gồm giai đoạn: (1) tìm luật kết hợp, (2) phân lớp dựa luật kết hợp tìm Thuật giải CPAR-GR Thuật tốn CPAR-GR dựa việc cải tiến thuật toán CPAR [3] gốc Yin & Han đề xuất năm 2003, cải thiện độ xác luật tạo đồng thời xác định chất lượng luật quan trọng Bằng cách sử dụng độ xác Laplace để đánh giá luật, luật k tốt chọn để sử dụng Đầu tiên tác giả đề xuất tiến hành tiền xử lý tập liệu cách giữ lại thuộc tính có tầm quan trọng, xóa thuộc tính quan trọng nhằm mục đích giảm thời gian xử lý Để thực bước tiền xử lý, tác giả đề xuất sử dụng thống kê T-test để đánh giá giá trị thuộc tính giai đoạn Tại giai đoạn này, độ xác luật tính gia giá trị độ xác Laplace xếp theo giá trị độ xác Giai đoạn 3: Giai đoạn chọn luật phân lớp Đây giai đoạn cuối cùng, k luật tốt từ lớp đáp ứng tập liệu huấn luyện cho chọn theo độ xác Laplace Độ xác Laplace trung bình k luật tốt từ lớp xác định Một lớp có độ xác Laplace trung bình cao chọn làm nhãn lớp cho tập liệu kiểm tra Sau thực tiền xử lý phương pháp thống kê T-test, tác giả tiến hành tạo luật phân lớp thuật toán CPAR-GR [1-2] Việc kết hợp T-test CPAR-GR cho kết tốt độ xác luật tạo 2.2 Mô tả thuật giải CPAR-GR Thuật giải CPAR-GR đề xuất với giai đoạn xử lý sau: Giai đoạn 1: Giai đoạn tiền xử lý Tại giai đoạn này, tập liệu xử lý với mục đích làm giảm kích thước, giữ lại thuộc tính có tầm quan trọng, loại bỏ thuộc tính quan trọng phương pháp thống kê T-test Thống kê T-test thực chức Independent Sample T–Test phần mềm SPSS (Statistical Package for the Social Sciences) với việc tính giá trị thuộc tính Thuộc tính có giá trị p  0.05 xem quan trọng giữ lại, ngược lại thuộc tính có giá trị p > 0.05 xem quan trọng xóa khỏi tập liệu Giai đoạn 2: Giai đoạn tạo luật kết hợp Sử dụng thuật giải CPAR-GR, tạo luật dựa tập liệu xử lý Hình Quy trình làm việc thuật giải CPAR-GR[1] ỨNG DỤNG THUẬT GIẢI CPARGR VÀO BÀI TOÁN DỰ BÁO KHẢ NĂNG BỎ HỌC CỦA SINH VIÊN, KẾT QUẢ THỰC NGHIỆM 3.1 Phương pháp thực Quá trình khai phá liệu sinh viên phục vụ việc dự đoán kết học tập tiến hành gồm bước thu thập, làm sạch, trích lọc, chuyển đổi liệu dạng phù hợp, ứng dụng kỹ thuật khai phá liệu để xây dựng mơ hình đánh giá kết thu Với sở liệu phục vụ cho việc khai phá nhằm dự báo khả bỏ học sinh viên thu thập từ nhiều nguồn liệu khác gồm phần mềm quản lý đào tạo, kết khảo sát, từ hồ sơ quản lý học tập Khoa Trong đó: Thơng tin sinh viên thu thập từ phần mềm quản lý đào tạo, thông tin cập nhật từ hồ sơ cá nhân sinh viên nhập học, thông tin cập nhật định kỳ Kết học tập sinh viên theo học kỳ, kết học tập năm học thu thập từ phần mềm quản lý đào tạo lượng giảng dạy, khảo sát cấp Trường sinh viên năm cuối Kết khảo sát đánh giá giảng dạy theo học kỳ thu thập từ website, khảo sát nội Khoa Tiền xử lý liệu huấn luyện việc sử dụng chức phân tích Independent Samples Test phần mềm SPSS để loại bỏ thuộc tính có giá trị quan trọng Thông tin người sinh viên bao gồm thông tin mã định danh, ngày sinh, nơi sinh, giới tính, dân tộc, điểm tích lũy học kỳ, điểm tích lũy năm học, điểm rèn luyện,… Thơng tin khảo sát đánh giá giảng dạy bao gồm thông tin sau chương trình đào tạo, sở vật chất, đội ngũ giảng viên,… Dữ liệu trích xuất thực tế từ phần mềm quản lý đào tạo nên có tính xác thực cao Tuy nhiên, xuất số thuộc tính rỗng số liệu ảnh hưởng tiến độ giảng dạy, chấm thi cuối kỳ Đối với mẫu tin có thuộc tính rỗng đề tài đề xuất phương án điền tạm giá trị trung bình thuộc tính vào giá trị rỗng để dự báo kết 3.2 Kết thực nghiệm Mô tả liệu tập huấn luyện, tập liệu kiểm tra Dữ liệu sinh viên bỏ học lưu trữ Phòng Quản lý đào tạo Công tác sinh viên Hàng học kỳ, năm học, vào Quy chế đào tạo Nhà trường, Phịng Quản lý đào tạo Cơng tác sinh viên tiến hành xử lý học vụ sinh viên Sinh viên không thỏa điều kiện theo Quy chế bị nhắc nhở, cảnh báo, thơi học Sinh viên có định học nhập quản lý phần mềm quản lý đào tạo Nhà trường nhằm mục đích thống kê, báo cáo kịp thời yêu cầu Bộ Giáo dục Đào tạo Tập liệu sinh viên phục vụ nghiên cứu đề tài trích xuất từ phần mềm quản lý đào tạo Nhà trường gồm 1060 mẫu tin, đồng thời kết hợp với liệu quản lý Khoa thông qua kết khảo sát chất Kết thực nghiệm Với việc sử dụng phương pháp T-test xử lý loại bỏ thuộc tính có mức ý nghĩa (thơng thường mức ý nghĩa 0.05 = 5%) có khác biệt khơng có khác biệt thuộc tính tình hình bỏ học sinh viên Nếu Sig kiểm định t ≤ α (mức ý nghĩa) -> có khác biệt có ý nghĩa trung bình tổng thể Nếu Sig > α (mức ý nghĩa) -> khơng có khác biệt có ý nghĩa trung bình tổng thể Từ kết phân tích chức Independent Sample T-test, có thuộc tính, gồm: Giới tính, Hoạt động Đồn – Hội, Hoạt động CLB trường có Sig 0.05 Vì đưa liệu vào tập huấn kiểm tra tiến hành loại bỏ thuộc tính khỏi tập liệu Kết tạo luật Bảng Kết tạo luật thuật giải CPAR-GR Ký hiệu luật Luật kết hợp R1 {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = → Nhãn lớp = 1} R2 {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = 2, Vắng thi học kỳ, khóa học = → Nhãn lớp = 1} R3 {Kết học tập học kỳ = 1, Kết đánh giá rèn luyện = 2, Kết học tập tồn khóa = → Nhãn lớp = 1} R4 {Đăng ký môn học không tiến độ đào tạo khóa học = → Nhãn lớp = 1} R5 {Phải làm thêm nhiều = 1, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 1} R6 {Điều kiện kinh tế gia đình = 2, Ý thức tự giác, chủ động học tập = 1, Sự quan tâm, động viên gia đình = → Nhãn lớp = 1} R7 {Kết đăng ký môn học học kỳ = → Nhãn lớp = 0} Ký hiệu luật Luật kết hợp Ký hiệu luật R8 {Điều kiện kinh tế gia đình = → Nhãn lớp = 0} R9 {Sự quan tâm, động viên gia đình = → Nhãn lớp = 0} R10 {Độ tuổi sinh viên = 4, Chất lượng xét tuyển đầu vào = → Nhãn lớp = 0} R11 {Đăng ký môn học không tiến độ đào tạo khóa học = → Nhãn lớp = 0} R12 {Kết đánh giá rèn luyện = 5, Phải làm thêm nhiều = 4, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 0} 133 133 0.992 R5 {Phải làm thêm nhiều = 1, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 1} 121 121 0.991 R6 {Điều kiện kinh tế gia đình = 2, Ý thức tự giác, chủ động học tập = 1, Sự quan tâm, động viên gia đình = → Nhãn lớp = 1} 9 0.90 R7 {Kết đăng ký môn học học kỳ = → Nhãn lớp = 0} 141 141 0.993 R8 {Điều kiện kinh tế gia đình = → Nhãn lớp = 0} 144 144 0.993 R9 {Sự quan tâm, động viên gia đình = → Nhãn lớp = 0} 151 151 0.993 R10 {Độ tuổi sinh viên = 4, Chất lượng xét tuyển đầu vào = → Nhãn lớp = 0} 144 144 0.993 R11 {Tiến độ đào tạo khóa học = → Nhãn lớp = 0} 161 161 0.993 R12 {Kết đánh giá rèn luyện = 5, Phải làm thêm nhiều = 4, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 0} 43 43 0.977 k: số nhãn lớp tập liệu huấn luyện Luật kết hợp R1 {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = → Nhãn lớp = 1} R2 {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = 2, Vắng thi học kỳ, khóa học = → Nhãn lớp = 1} {Kết học tập học kỳ = 1, Kết đánh giá rèn luyện = 2, Kết học tập tồn khóa = → Nhãn lớp = R3 Nhãn lớp Laplace accuracy nc ntot k (nc+1) /(ntot+k) 29 29 37 29 29 37 2 0.967 0.967 0.974 (nc+1) /(ntot+k) ntot: số lượng tuple tập liệu huấn luyện thỏa vế trái Ký hiệu luật k {Tiến độ đào tạo khóa học = → Nhãn lớp = 1} nc: số lượng tuple tập liệu huấn luyện thỏa vế trái vế phải Bảng Đánh giá độ xác luật tạo từ tập huấn luyện ntot R4 +1 + Trong đó: nc 1} Đánh giá độ xác luật từ thuật giải CPAR-GR tập huấn luyện = Luật kết hợp Laplace accuracy Nhãn lớp Đánh giá độ xác phân lớp = Sử dụng luật vào dự báo khả bỏ học sinh viên Với luật tìm sau sử dụng tập huấn luyện để đưa vào thuật giải CPAR-GR để xử lý Chúng ta sử dụng luật vừa tìm để dự báo tập liệu kiểm tra/ liệu cần thực dự báo Quy tắc luật tìm được, xác định cụ thể sau: R1: {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = → Nhãn lớp = 1}; Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = Kỷ luật, đình học tập học kỳ, dẫn đến khả sinh viên bỏ học R2: {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = 2, Vắng thi học kỳ, khóa học = → Nhãn lớp = 1}; Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = Kỷ luật, đình học tập học kỳ Vắng thi học kỳ, khóa học = Trên môn học kỳ, dẫn đến sinh viên có khả bỏ học R3: {Kết học tập học kỳ = 1, Kết đánh giá rèn luyện = 2, Kết học tập tồn khóa = → Nhãn lớp = 1}; Kết học tập học kỳ = Yếu/kém Kết đánh giá rèn luyện = Yếu Kết học tập toàn khóa = Yếu/kém, dẫn đến sinh viên có khả bỏ học R4: {Tiến độ đào tạo khóa học = → Nhãn lớp = 1}; Tiến độ đào tạo khóa học = Chậm so với tiến độ (trên 20%), dẫn đến sinh viên có khả bỏ học R5: {Phải làm thêm nhiều = 1, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 1}; Phải làm thêm nhiều = Rất nhiều Tự ý nghỉ học, tạm dừng, bảo lưu học tập = Tự ý nghỉ học, dẫn đến sinh viên có khả bỏ học R6: {Điều kiện kinh tế gia đình = 2, Ý thức tự giác, chủ động học tập = 1, Sự quan tâm, động viên gia đình = → Nhãn lớp = 1}; Điều kiện kinh tế gia đình = Hộ nghèo Ý thức tự giác, chủ động học tập Kém, Sự quan tâm, động viên gia đình = Khơng có, dẫn đến sinh viên có khả bỏ học R7: {Kết đăng ký môn học học kỳ = → Nhãn lớp = 0}; Kết đăng ký môn học học kỳ = Từ 23 đến 25 tín chỉ, dẫn đến sinh viên khơng có khả bỏ học R8: {Điều kiện kinh tế gia đình = → Nhãn lớp = 0}; Điều kiện kinh tế gia đình = Khá, dẫn đến sinh viên khơng có khả bỏ học R9: {Sự quan tâm, động viên gia đình = → Nhãn lớp = 0}; Sự quan tâm, động viên gia đình = Gia đình quan tâm, động viên việc học, dẫn đến sinh viên khơng có khả bỏ học R10: {Độ tuổi sinh viên = 4, Chất lượng xét tuyển đầu vào = → Nhãn lớp = 0}; Độ tuổi sinh viên = Hơn tuổi, Chất lượng xét tuyển đầu vào = Giỏi, dẫn đến sinh viên khả bỏ học R11: {Tiến độ đào tạo khóa học = → Nhãn lớp = 0}; Tiến độ đào tạo khóa học = Vượt tiến độ (trên 20%), dẫn đến sinh viên khơng có khả bỏ học R12: {Kết đánh giá rèn luyện = 5, Phải làm thêm nhiều = 4, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 0}; Kết đánh giá rèn luyện = Xuất sắc Phải làm thêm nhiều = Ít, khơng thường xun Tự ý nghỉ học, tạm dừng, bảo lưu học tập = Khơng có, dẫn đến sinh viên khơng có khả bỏ học Thực nghiệm tập liệu kiểm tra với 223 mẫu tin, với kết xác đạt 95.96% KẾT LUẬN 4.2 Hạn chế 4.1 Kết đạt Dữ liệu thu thập chưa nhiều, chưa bao quát hết yếu tố ảnh hưởng đến khả bỏ học sinh viên Nắm sở lý thuyết khai phá luật kết hợp, phân lớp vấn đề liên quan đến phân lớp dựa luật kết hợp Hiểu mô tả phương pháp lựa chọn thuộc tính Hiểu mơ tả thuật tốn CPARGR dùng phân lớp dựa luật kết hợp Hiểu mô tả toán dự báo khả bỏ học sinh viên Xây dựng ứng dụng dự báo tình hình bỏ học sinh viên Trường Đại học Bình Dương Ứng dụng chưa thân thiện với người dùng 4.3 Hướng phát triển Tìm hiểu thuật giải WCBA (Weighted Classification Based on Association Rules) [4] ứng dụng phương pháp lựa chọn thuộc tính để loại bỏ thuộc tính quan trọng hơn, giúp luật sinh có độ xác cao So sánh thực nghiệm hai phương pháp CPAR-GR WCBA dựa tiêu chí độ xác thời gian thực thi để lựa chọn ứng dụng vào toán dự báo Tập liệu thu thập để huấn luyện kiểm tra nhiều thuộc tính hơn, với số lượng liệu phong phú từ nhiều nguồn khác để đánh giá độ xác cao TÀI LIỆU THAM KHẢO [1] M Nandhini and S N Sivanandam, “An improved predictive association rule based classifier using gain ratio and T-test for health care data diagnosis,” Sadhana - Acad Proc Eng Sci., vol 40, no 6, pp 1683–1699, 2015, doi: 10.1007/s12046-015-0410-6 [2] N.V.Chien, "Ứng dụng thuật toán phân lớp dựa luật kết hợp dự báo vào giải toán Dự báo tình hình nghỉ học, bỏ học học sinh trung học địa bàn Thành phố Hồ Chí Minh", 2020 [3] X Yin and J Han, “CPAR: Classification based on Predictive Association Rules,” pp 331–335, 2003, doi: 10.1137/1.9781611972733.40 [4] J Alwidian, B H Hammo, and N Obeid, “WCBA: Weighted classification based on association rules algorithm for breast cancer disease,” Appl Soft Comput J., vol 62, no November, pp 536–549, 2018, doi: 10.1016/j.asoc.2017.11.013 Tác giả chịu trách nhiệm viết: Họ tên: Thái Thanh Hùng Đơn vị: Học viên Trường đại học Sư phạm Kỹ thuật Tp.HCM Điện thoại: 0979813904 Email: tthung@bdu.edu.vn PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP ĐỂ DỰ BÁO KHẢ NĂNG BỎ HỌC CỦA SINH VIÊN TRƯỜNG ĐẠI HỌC BÌNH DƯƠNG CLASSIFICATION BASED ON ASSOCIATION RULES FORECAST OF STUDENT DROPOUT IN BINH DUONG UNIVERSITY Thái Thanh Hùng Học viên Trường đại học Sư phạm Kỹ thuật TP.HCM TĨM TẮT Kết học tập sinh viên ln mối quan tâm hàng đầu sở giáo dục đại học nói chung Trường Đại học Bình Dương nói riêng Vì thước đo chất lượng đào tạo, tín nhiệm xã hội sở giáo dục Trên sở cải thiện chất lượng đào tạo, kết học tập sinh viên tốt hơn, viết đề xuất ứng dụng phân lớp dựa luật kết hợp để dự báo khả bỏ học sinh viên Trường Đại học Bình Dương Kết nghiên cứu đưa dự báo khả sinh viên bỏ học tiếp tục học giúp cho cố vấn học tập kịp thời theo dõi có kế hoạch giúp đỡ kịp thời Từ khóa: Dự báo; CPAR-GR; phân lớp; bỏ học; kết học tập; sinh viên ABSTRACT Student learning outcomes are always the top concern of higher education in general and Binh Duong University in particular Because this is a measure of training quality, society's trust in education On the basis of improving training quality, better student learning outcomes, the article proposes the application of association rule-based analysis to predict the dropout probability of students at Binh Duong University The research results are predicted that students are likely to drop out or continue studying, helping to try to monitor the episode in time and have a timely help plan Keywords: Forecast; CPAR-GR; classification; dropout; learning outcomes; student ĐẶT VẤN ĐỀ Khi bước vào ngưỡng cửa đại học, cách thức sinh hoạt học tập khác với bậc phổ thông nên sinh viên gặp khơng khó khăn bỡ ngỡ Một thật khơng thể phủ nhận có sinh viên thủ khoa kỳ thi đại học có kết học tập khơng tốt mong đợi, chí cịn thấp sinh viên đủ điểm trúng tuyển Kết học tập sinh viên Trường Đại học Bình Dương, đặc biệt kết sau năm học nhiều vấn đề cần suy xét, có nhiều sinh viên bị thuộc thơi học học lực Chính vậy, việc xác định thực trạng đề xuất giải pháp nâng cao kết học tập sinh viên vấn đề cần thiết Kết học tập chịu ảnh hưởng nhiều yếu tốt chủ quan khách quan, gia đình bạn bè mơi trường học tập, xã hội…Bài viết tập trung giải pháp liên quan đến sinh viên giảng viên trình học tập lớp tự học sinh viên CƠ SỞ ĐỀ XUẤT GIẢI PHÁP 2.1 Cơ sở lý luận Phân lớp dựa luật kết hợp Phân lớp dựa luật kết hợp tìm tập luật kết hợp sở liệu cho, luật tập chứa vế phải giá trị thuộc tính lớp Cho sở liệu D, I tất mục D Y tập nhãn lớp Luật phân lớp kết hợp biểu thức có dạng X→y X⊆I y∈Y Độ tin cậy luật c c% mẫu D chứa X gán nhãn lớp y Độ phổ biến luật s s% mẫu D chứa X gán nhãn lớp y Phân lớp dựa luật kết hợp gồm giai đoạn: (1) tìm luật kết hợp, (2) phân lớp dựa luật kết hợp tìm Thuật giải CPAR-GR Thuật toán CPAR-GR dựa việc cải tiến thuật toán CPAR [3] gốc Yin & Han đề xuất năm 2003, cải thiện độ xác luật tạo đồng thời xác định chất lượng luật quan trọng Bằng cách sử dụng độ xác Laplace để đánh giá luật, luật k tốt chọn để sử dụng Đầu tiên tác giả đề xuất tiến hành tiền xử lý tập liệu cách giữ lại thuộc tính có tầm quan trọng, xóa thuộc tính quan trọng nhằm mục đích giảm thời gian xử lý Để thực bước tiền xử lý, tác giả đề xuất sử dụng thống kê T-test để đánh giá giá trị thuộc tính từ lớp đáp ứng tập liệu huấn luyện cho chọn theo độ xác Laplace Độ xác Laplace trung bình k luật tốt từ lớp xác định Một lớp có độ xác Laplace trung bình cao chọn làm nhãn lớp cho tập liệu kiểm tra Sau thực tiền xử lý phương pháp thống kê T-test, tác giả tiến hành tạo luật phân lớp thuật toán CPAR-GR [1-2] Việc kết hợp T-test CPAR-GR cho kết tốt độ xác luật tạo 2.2 Mô tả thuật giải CPAR-GR Thuật giải CPAR-GR đề xuất với giai đoạn xử lý sau: Giai đoạn 1: Giai đoạn tiền xử lý Tại giai đoạn này, tập liệu xử lý với mục đích làm giảm kích thước, giữ lại thuộc tính có tầm quan trọng, loại bỏ thuộc tính quan trọng phương pháp thống kê T-test Thống kê T-test thực chức Independent Sample T–Test phần mềm SPSS (Statistical Package for the Social Sciences) với việc tính giá trị thuộc tính Thuộc tính có giá trị p  0.05 xem quan trọng giữ lại, ngược lại thuộc tính có giá trị p > 0.05 xem quan trọng xóa khỏi tập liệu Giai đoạn 2: Giai đoạn tạo luật kết hợp Sử dụng thuật giải CPAR-GR, tạo luật dựa tập liệu xử lý giai đoạn Tại giai đoạn này, độ xác luật tính gia giá trị độ xác Laplace xếp theo giá trị độ xác Giai đoạn 3: Giai đoạn chọn luật phân lớp Đây giai đoạn cuối cùng, k luật tốt Hình Quy trình làm việc thuật giải CPAR-GR[1] ỨNG DỤNG THUẬT GIẢI CPAR-GR VÀO BÀI TOÁN DỰ BÁO KHẢ NĂNG BỎ HỌC CỦA SINH VIÊN, KẾT QUẢ THỰC NGHIỆM 3.1 Phương pháp thực Quá trình khai phá liệu sinh viên phục vụ việc dự đoán kết học tập tiến hành gồm bước thu thập, làm sạch, trích lọc, chuyển đổi liệu dạng phù hợp, ứng dụng kỹ thuật khai phá liệu để xây dựng mô hình đánh giá kết thu Với sở liệu phục vụ cho việc khai phá nhằm dự báo khả bỏ học sinh viên thu thập từ nhiều nguồn liệu khác gồm phần mềm quản lý đào tạo, kết khảo sát, từ hồ sơ quản lý học tập Khoa Trong đó: Thơng tin sinh viên thu thập từ phần mềm quản lý đào tạo, thông tin cập nhật từ hồ sơ cá nhân sinh viên nhập học, thông tin cập nhật định kỳ Kết học tập sinh viên theo học kỳ, kết học tập năm học thu thập từ phần mềm quản lý đào tạo Kết khảo sát đánh giá giảng dạy theo học kỳ thu thập từ website, khảo sát nội Khoa Thông tin người sinh viên bao gồm thông tin mã định danh, ngày sinh, nơi sinh, giới tính, dân tộc, điểm tích lũy học kỳ, điểm tích lũy năm học, điểm rèn luyện,… Thông tin khảo sát đánh giá giảng dạy bao gồm thông tin sau chương trình đào tạo, sở vật chất, đội ngũ giảng viên,… Dữ liệu trích xuất thực tế từ phần mềm quản lý đào tạo nên có tính xác thực cao Tuy nhiên, xuất số thuộc tính rỗng số liệu ảnh hưởng tiến độ giảng dạy, chấm thi cuối kỳ Đối với mẫu tin có thuộc tính rỗng đề tài đề xuất phương án điền tạm giá trị trung bình thuộc tính vào giá trị rỗng để dự báo kết 3.2 Kết thực nghiệm Mô tả liệu tập huấn luyện, tập liệu kiểm tra Dữ liệu sinh viên bỏ học lưu trữ Phịng Quản lý đào tạo Cơng tác sinh viên Hàng học kỳ, năm học, vào Quy chế đào tạo Nhà trường, Phòng Quản lý đào tạo Công tác sinh viên tiến hành xử lý học vụ sinh viên Sinh viên không thỏa điều kiện theo Quy chế bị nhắc nhở, cảnh báo, học Sinh viên có định thơi học nhập quản lý phần mềm quản lý đào tạo Nhà trường nhằm mục đích thống kê, báo cáo kịp thời yêu cầu Bộ Giáo dục Đào tạo Tập liệu sinh viên phục vụ nghiên cứu đề tài trích xuất từ phần mềm quản lý đào tạo Nhà trường gồm 1060 mẫu tin, đồng thời kết hợp với liệu quản lý Khoa thông qua kết khảo sát chất lượng giảng dạy, khảo sát cấp Trường sinh viên năm cuối mức ý nghĩa (thông thường mức ý nghĩa 0.05 = 5%) có khác biệt khơng có khác biệt thuộc tính tình hình bỏ học sinh viên Nếu Sig kiểm định t ≤ α (mức ý nghĩa) -> có khác biệt có ý nghĩa trung bình tổng thể Nếu Sig > α (mức ý nghĩa) -> khơng có khác biệt có ý nghĩa trung bình tổng thể Từ kết phân tích chức Independent Sample T-test, có thuộc tính, gồm: Giới tính, Hoạt động Đồn – Hội, Hoạt động CLB trường có Sig 0.05 Vì đưa liệu vào tập huấn kiểm tra tiến hành loại bỏ thuộc tính khỏi tập liệu Kết tạo luật Bảng Kết tạo luật thuật giải CPAR-GR Ký hiệu luật Luật kết hợp R1 {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = → Nhãn lớp = 1} R2 {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = 2, Vắng thi học kỳ, khóa học = → Nhãn lớp = 1} R3 {Kết học tập học kỳ = 1, Kết đánh giá rèn luyện = 2, Kết học tập tồn khóa = → Nhãn lớp = 1} R4 {Đăng ký mơn học khơng tiến độ đào tạo khóa học = → Nhãn lớp = 1} R5 {Phải làm thêm nhiều = 1, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 1} R6 {Điều kiện kinh tế gia đình = 2, Ý thức tự giác, chủ động học tập = 1, Sự quan tâm, động viên gia đình = → Nhãn lớp = 1} R7 {Kết đăng ký môn học học kỳ = → Nhãn lớp = 0} R8 {Điều kiện kinh tế gia đình = → Nhãn lớp = 0} R9 {Sự quan tâm, động viên gia đình = → Nhãn lớp = 0} R10 {Độ tuổi sinh viên = 4, Chất lượng xét tuyển đầu vào = → Nhãn lớp = 0} R11 {Đăng ký mơn học khơng tiến độ đào tạo khóa học = → Nhãn lớp = 0} R12 {Kết đánh giá rèn luyện = 5, Phải làm thêm nhiều = 4, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 0} Kết thực nghiệm Tiền xử lý liệu huấn luyện việc sử dụng chức phân tích Independent Samples Test phần mềm SPSS để loại bỏ thuộc tính có giá trị quan trọng Với việc sử dụng phương pháp T-test xử lý loại bỏ thuộc tính có Đánh giá độ xác luật từ thuật giải CPAR-GR tập huấn luyện +1 + = Ký hiệu luật nc R7 {Kết đăng ký môn học học kỳ = → Nhãn lớp = 0} 141 141 0.993 R8 {Điều kiện kinh tế gia đình = → Nhãn lớp = 0} 144 144 0.993 R9 {Sự quan tâm, động viên gia đình = → Nhãn lớp = 0} 151 151 0.993 R10 {Độ tuổi sinh viên = 4, Chất lượng xét tuyển đầu vào = → Nhãn lớp = 0} 144 144 0.993 R11 {Tiến độ đào tạo khóa học = → Nhãn lớp = 0} 161 161 0.993 R12 {Kết đánh giá rèn luyện = 5, Phải làm thêm nhiều = 4, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 0} 43 43 0.977 nc: số lượng tuple tập liệu huấn luyện thỏa vế trái vế phải k: số nhãn lớp tập liệu huấn luyện Bảng Đánh giá độ xác luật tạo từ tập huấn luyện Ký hiệu luật Luật kết hợp R1 {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = → Nhãn lớp = 1} R2 R3 R4 R5 R6 Nhãn lớp {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = 2, Vắng thi học kỳ, khóa học = → Nhãn lớp = 1} {Kết học tập học kỳ = 1, Kết đánh giá rèn luyện = 2, Kết học tập tồn khóa = → Nhãn lớp = 1} Laplace accuracy nc ntot k (nc+1) /(ntot+k) 29 29 37 29 29 37 2 0.967 0.967 0.974 Luật kết hợp {Phải làm thêm nhiều = 1, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 1} {Điều kiện kinh tế gia đình = 2, Ý thức tự giác, chủ động học 133 121 133 121 2 0.992 0.991 k (nc+1) /(ntot+k) Đánh giá độ xác phân lớp = {Tiến độ đào tạo khóa học = → Nhãn lớp = 1} ntot tập = 1, Sự quan tâm, động viên gia đình = → Nhãn lớp = 1} Trong đó: ntot: số lượng tuple tập liệu huấn luyện thỏa vế trái Laplace accuracy Nhãn lớp Sử dụng luật vào dự báo khả bỏ học sinh viên Với luật tìm sau sử dụng tập huấn luyện để đưa vào thuật giải CPAR-GR để xử lý Chúng ta sử dụng luật vừa tìm để dự báo tập liệu kiểm tra/ liệu cần thực dự báo Quy tắc luật tìm được, xác định cụ thể sau: 9 0.90 R1: {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = → Nhãn lớp = 1}; Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = Kỷ luật, đình học tập học kỳ, dẫn đến khả sinh viên bỏ học R2: {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = 2, Vắng thi học kỳ, khóa học = → Nhãn lớp = 1}; Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = Kỷ luật, đình học tập học kỳ Vắng thi học kỳ, khóa học = Trên môn học kỳ, dẫn đến sinh viên có khả bỏ học R3: {Kết học tập học kỳ = 1, Kết đánh giá rèn luyện = 2, Kết học tập tồn khóa = → Nhãn lớp = 1}; Kết học tập học kỳ = Yếu/kém Kết đánh giá rèn luyện = Yếu Kết học tập toàn khóa = Yếu/kém, dẫn đến sinh viên có khả bỏ học R4: {Tiến độ đào tạo khóa học = → Nhãn lớp = 1}; Tiến độ đào tạo khóa học = Chậm so với tiến độ (trên 20%), dẫn đến sinh viên có khả bỏ học R5: {Phải làm thêm nhiều = 1, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 1}; Phải làm thêm nhiều = Rất nhiều Tự ý nghỉ học, tạm dừng, bảo lưu học tập = Tự ý nghỉ học, dẫn đến sinh viên có khả bỏ học R6: {Điều kiện kinh tế gia đình = 2, Ý thức tự giác, chủ động học tập = 1, Sự quan tâm, động viên gia đình = → Nhãn lớp = 1}; Điều kiện kinh tế gia đình = Hộ nghèo Ý thức tự giác, chủ động học tập Kém, Sự quan tâm, động viên gia đình = Khơng có, dẫn đến sinh viên có khả bỏ học R7: {Kết đăng ký môn học học kỳ = → Nhãn lớp = 0}; Kết đăng ký môn học học kỳ = Từ 23 đến 25 tín chỉ, dẫn đến sinh viên khơng có khả bỏ học R8: {Điều kiện kinh tế gia đình = → Nhãn lớp = 0}; Điều kiện kinh tế gia đình = Khá, dẫn đến sinh viên khơng có khả bỏ học R9: {Sự quan tâm, động viên gia đình = → Nhãn lớp = 0}; Sự quan tâm, động viên gia đình = Gia đình quan tâm, động viên việc học, dẫn đến sinh viên khơng có khả bỏ học R10: {Độ tuổi sinh viên = 4, Chất lượng xét tuyển đầu vào = → Nhãn lớp = 0}; Độ tuổi sinh viên = Hơn tuổi, Chất lượng xét tuyển đầu vào = Giỏi, dẫn đến sinh viên khả bỏ học R11: {Tiến độ đào tạo khóa học = → Nhãn lớp = 0}; Tiến độ đào tạo khóa học = Vượt tiến độ (trên 20%), dẫn đến sinh viên khơng có khả bỏ học R12: {Kết đánh giá rèn luyện = 5, Phải làm thêm nhiều = 4, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 0}; Kết đánh giá rèn luyện = Xuất sắc Phải làm thêm nhiều = Ít, khơng thường xun Tự ý nghỉ học, tạm dừng, bảo lưu học tập = Khơng có, dẫn đến sinh viên khơng có khả bỏ học Thực nghiệm tập liệu kiểm tra với 223 mẫu tin, với kết xác đạt 95.96% KẾT LUẬN 4.1 Kết đạt Nắm sở lý thuyết khai phá luật kết hợp, phân lớp vấn đề liên quan đến phân lớp dựa luật kết hợp Hiểu mô tả phương pháp lựa chọn thuộc tính Hiểu mơ tả thuật tốn CPAR-GR dùng phân lớp dựa luật kết hợp Hiểu mơ tả tốn dự báo khả bỏ học sinh viên Xây dựng ứng dụng dự báo tình hình bỏ học sinh viên Trường Đại học Bình Dương 4.2 Hạn chế Dữ liệu thu thập chưa nhiều, chưa bao quát hết yếu tố ảnh hưởng đến khả bỏ học sinh viên Ứng dụng chưa thân thiện với người dùng 4.3 Hướng phát triển Tìm hiểu thuật giải WCBA (Weighted Classification Based on Association Rules ) [4] ứng dụng phương pháp lựa chọn thuộc tính để loại bỏ thuộc tính quan trọng hơn, giúp luật sinh có độ xác cao So sánh thực nghiệm hai phương pháp CPAR-GR WCBA dựa tiêu chí độ xác thời gian thực thi để lựa chọn ứng dụng vào toán dự báo Tập liệu thu thập để huấn luyện kiểm tra nhiều thuộc tính hơn, với số lượng liệu phong phú từ nhiều nguồn khác để đánh giá độ xác cao TÀI LIỆU THAM KHẢO [1] M Nandhini and S N Sivanandam, “An improved predictive association rule based classifier using gain ratio and T-test for health care data diagnosis,” Sadhana - Acad Proc Eng Sci., vol 40, no 6, pp 1683–1699, 2015, doi: 10.1007/s12046-015-0410-6 [2] N.V.Chien, "Ứng dụng thuật toán phân lớp dựa luật kết hợp dự báo vào giải toán Dự báo tình hình nghỉ học, bỏ học học sinh trung học địa bàn Thành phố Hồ Chí Minh", 2020 [3] X Yin and J Han, “CPAR: Classification based on Predictive Association Rules,” pp 331– 335, 2003, doi: 10.1137/1.9781611972733.40 [4] J Alwidian, B H Hammo, and N Obeid, “WCBA: Weighted classification based on association rules algorithm for breast cancer disease,” Appl Soft Comput J., vol 62, no November, pp 536–549, 2018, doi: 10.1016/j.asoc.2017.11.013 Tác giả chịu trách nhiệm viết: Họ tên: Thái Thanh Hùng Đơn vị: Học viên Trường đại học Sư phạm Kỹ thuật Tp.HCM Điện thoại: 0979813904 Email: tthung@bdu.edu.vn Giảng viên hướng dẫn xác nhận TS Nguyễn Thành Sơn ... trình demo để dự báo khả bỏ học sinh viên 26 Chương PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP Ý tưởng Đề tài ứng dụng phương pháp phân lớp dựa luật kết hợp để giải vấn đề dự báo khả bỏ học sinh viên Mơ tả... thuật phân lớp dựa luật kết hợp dự báo khả bỏ học sinh viên Trường Đại học Bình Dương 4.2 Phạm vi nghiên cứu Nghiên cứu thuật giải phân lớp dựa luật kết hợp CPAR-GR ứng dụng vào toán dự báo khả bỏ. .. Nhà trường có sở hỗ trợ sinh viên tốt Đề tài “PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP ĐỂ DỰ BÁO KHẢ NĂNG BỎ HỌC CỦA SINH VIÊN TRƯỜNG ĐẠI HỌC BÌNH DƯƠNG” góp phần sâu vào khai phá liệu sinh viên đại học

Ngày đăng: 15/03/2022, 21:52

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan