(Luận văn thạc sĩ) Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên Trường Đại học Bình Dương

123 1 0
(Luận văn thạc sĩ) Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên Trường Đại học Bình Dương

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

(Luận văn thạc sĩ) Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên Trường Đại học Bình Dương(Luận văn thạc sĩ) Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên Trường Đại học Bình Dương(Luận văn thạc sĩ) Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên Trường Đại học Bình Dương(Luận văn thạc sĩ) Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên Trường Đại học Bình Dương(Luận văn thạc sĩ) Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên Trường Đại học Bình Dương(Luận văn thạc sĩ) Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên Trường Đại học Bình Dương(Luận văn thạc sĩ) Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên Trường Đại học Bình Dương(Luận văn thạc sĩ) Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên Trường Đại học Bình Dương(Luận văn thạc sĩ) Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên Trường Đại học Bình Dương(Luận văn thạc sĩ) Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên Trường Đại học Bình Dương(Luận văn thạc sĩ) Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên Trường Đại học Bình Dương(Luận văn thạc sĩ) Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên Trường Đại học Bình Dương(Luận văn thạc sĩ) Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên Trường Đại học Bình Dương(Luận văn thạc sĩ) Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên Trường Đại học Bình Dương(Luận văn thạc sĩ) Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên Trường Đại học Bình Dương(Luận văn thạc sĩ) Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên Trường Đại học Bình Dương(Luận văn thạc sĩ) Phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên Trường Đại học Bình Dương

LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời cảm ơn chân thành đến thầy, cô, anh lớp KMT19B, đồng nghiệp quan em công tác gia đình em động viên, tạo điều kiện cho em hồn thành khóa học, bước đầu tìm hiểu nghiên cứu lĩnh vực ngành Khoa học máy tính Em xin cảm ơn q thầy, Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh tạo điều kiện, tổ chức khóa học trình độ thạc sĩ ngành Khoa học máy tính để chúng em có hội nâng cao kiến thức, tự rèn luyện thân, nâng cao khả tư duy, sáng tạo học tập công việc Em cảm ơn thầy TS Nguyễn Thành Sơn tận tình định hướng cho em suốt trình tập nghiên cứu, giúp em sáng tỏ vấn đề mà trước em chưa tiếp xúc, tháo gỡ vướng mắc trình thực luận văn tốt nghiệp Ngoài ra, thời gian học tập em nhận nhiều góp ý, chia sẻ anh lớp KMT19B, đồng nghiệp quan gia đình em, người sẻ chia động viên em nhiều lúc khó khăn Riêng cá nhân em, cố gắng nhiều, lĩnh vực tiếp xúc lần đầu nên có bỡ ngỡ, mặt học thuật hạn chế, mong quý thầy, định hướng, góp ý thêm để em có thêm kinh nghiệm phát triển hoàn thiện thân Một lần em xin chân thành cảm ơn thầy, cô, anh lớp KMT19B, đồng nghiệp quan em cơng tác gia đình em./ Tp Hồ Chí Minh, ngày 28 tháng 02 năm 2021 Học viên Thái Thanh Hùng iv v LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu tơi Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tp Hồ Chí Minh, ngày 28 tháng năm 2021 (Ký tên ghi rõ họ tên) Thái Thanh Hùng vi TÓM TẮT Luận văn gồm số kiến thức phân lớp dựa luật kết hợp, ứng dụng thuật giải CPAR-GR (predictive association rule based classifier using gain ratio) [1] tìm luật kết hợp dự báo khả bỏ học sinh viên Trường Đại học Bình Dương Xây dựng chương trình demo dự báo khả bỏ học sinh viên thuật giải CPAR-GR, ngôn ngữ sử dụng trình xây dựng chương trình demo Python Luận văn có chương, gồm: Chương 1: Tổng quan Trong chương này, luận văn nêu lên vấn đề lý chọn đề tài, mục tiêu đề tài, nhiệm vụ đề tài, đối tượng phạm vi nghiên cứu, cách tiếp cận phương pháp nghiên cứu, ý nghĩa thực tiễn đề tài cơng trình nghiên cứu gần Chương 2: Cơ sở lý thuyết Trong chương này, luận văn trình bày sở lý thuyết liên quan đến khai phá luật kết hợp, khái niệm phân lớp số thuật toán/ thuật giải phân lớp dựa luật kết hợp Chương 3: Phân lớp dựa luật kết hợp Nội dung chương nêu lên ý tưởng thực luận văn, trình bày chi tiết thuật giải CPAR-GR trình tạo luật kết hợp phân lớp Chương 4: Ứng dụng thuật giải vào toán dự báo khả bỏ học sinh viên Nội dung chương trình bày việc mơ tả tốn, phương pháp thực hiện, cấu trúc liệu đầu vào đầu ra, chương trình demo dự báo, kết thực nghiệm Chương 5: Kết luận vii Trình bày kết đạt được, chưa đạt luận văn, hướng phát triển đề tài sau viii SUMMARY This thesis includes some basic knowledge of classification based on association rules, applying the CPAR-GR algorithm (predictive association rule based classifier using gain ratio) to find association rules and predict students' dropout ability at Binh Duong University Building a demo program that predicts a student's dropout ability using the CPAR-GR algorithm, the language used in the development of the demo program is Python The thesis has chapters, including: Chapter 1: Overview In this chapter, the thesis raises issues such as reasons for choosing the topic, the objective of the topic, the mission of the topic, the subject and scope of the research, the research approach and method, the real meaning of the topic and recent research works Chapter 2: Theoretical basis In this chapter, the thesis presents theoretical foundations related to association law mining, basic concepts in classification and some classification algorithms based on association law Chapter 3: Classification based on association rules The content of chapter presents the idea of implementing the thesis, presenting details about the CPAR-GR algorithm in the process of creating the rules of succession and classification Chapter 4: Applying an algorithm to the problem of predicting students' dropout ability The content of chapter is presented about the description of the problem, the implementation method, the input and output data structure, as well as a description of the forecasting demo program, experimental results Chapter 5: Conclusion Presenting the results achieved and not achieved of the thesis, the direction of the topic development later ix MỤC LỤC LÝ LỊCH KHOA HỌC i LỜI CẢM ƠN iv LỜI CAM ĐOAN v TÓM TẮT vi MỤC LỤC viii DANH SÁCH CÁC TỪ VIẾT TẮT xi DANH SÁCH CÁC BẢNG xii DANH SÁCH CÁC HÌNH xiv Chương TỔNG QUAN 1 Lý chọn đề tài Mục tiêu đề tài Nhiệm vụ đề tài Đối tượng phạm vi nghiên cứu 4.1 Đối tượng nghiên cứu 4.2 Phạm vi nghiên cứu Cách tiếp cận phương pháp nghiên cứu Ý nghĩa thực tiễn đề tài Các cơng trình nghiên cứu gần Chương CƠ SỞ LÝ THUYẾT I CÁC KHÁI NIỆM CƠ BẢN TRONG KHAI PHÁ LUẬT KẾT HỢP Tập mục (Itemset) k-tập mục (k-itemset) Luật kết hợp (Association rule) Độ hỗ trợ (Support) Độ tin cậy (Confidence) Tập mục phổ biến/ thường xuyên (Frequent itemset) x II CÁC KHÁI NIỆM CƠ BẢN TRONG PHÂN LỚP Phân lớp (Classification) Phân lớp dựa luật kết hợp 10 III MỘT SỐ THUẬT GIẢI PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP 11 Thuật giải CARIM (An Efficient Algorithm for Mining ClassAssociation Rules with Interestingness Measures) 11 Thuật giải MMAC (Multi-class, multi-label associative classification) 11 Thuật giải CBA (Classification Based on Associations) 12 Thuật giải CPAR (Classification based on Predictive Association Rules) 12 Thuật giải MISFP (Multiple Item Support Frequent Patterns) 13 Thuật giải FCBA (Fast Classification Based on Association Rules) 13 Thuật giải CMAR (Classification based on Multiple Association Rules) 14 Thuật giải MCAR (Multi class Classification based on Association Rule) 14 Thuật giải CPAR-GR (Predictive association rule based classifier using gain ratio) 14 10 Thuật giải WCBA (Weighted Classification Based on Association Rules) 15 IV MỘT SỐ PHƯƠNG PHÁP TIỀN XỬ LÝ DỮ LIỆU 16 Phương pháp lọc (filter method) 16 Phương pháp bao bọc (wrapper method) 18 Phương pháp nhúng (embedded method) 22 Phương pháp làm liệu SPSS 23 4.1 Giới thiệu phần mềm SPSS 23 4.2 Làm liệu phần mềm SPSS 25 4.3 Ứng dụng vào đề tài dự báo khả bỏ học sinh viên 25 Chương PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP 27 Ý tưởng 27 Mô tả thuật giải CPAR-GR 27 xi Thuật giải CPAR-GR 28 Chương ỨNG DỤNG THUẬT GIẢI VÀO BÀI TOÁN DỰ BÁO KHẢ NĂNG BỎ HỌC CỦA SINH VIÊN, KẾT QUẢ THỰC NGHIỆM 35 Mơ tả tốn 35 Phương pháp thực 40 Xây dựng lựa chọn mơ hình 41 Minh họa thuật giải CPAR-GR 43 Giao diện chương trình demo 58 Mô tả liệu tập huấn luyện, tập liệu kiểm tra 63 Kết tạo luật từ thuật giải CPAR-GR tập huấn luyện 67 Đánh giá độ xác luật từ thuật giải CPAR-GR tập huấn luyện 75 Sử dụng luật vào dự báo khả bỏ học sinh viên 77 Chương KẾT LUẬN 80 Kết đạt 80 Hạn chế đề tài 80 Hướng phát triển đề tài 80 TÀI LIỆU THAM KHẢO 81 Tài liệu tham khảo tiếng Anh 81 Tài liệu tham khảo tiếng Việt 82 PHỤ LỤC HƯỚNG DẪN TIỀN XỬ LÝ DỮ LIỆU VÀ CHƯƠNG TRÌNH DEMO 84 Tiền xử lý liệu 84 Sử dụng chương trình demo ứng dụng dự báo khả bỏ học sinh viên 91 xii DANH SÁCH CÁC TỪ VIẾT TẮT CPAR: Classification based on Predictive Association Rules CPAR-GR: Predictive association rule based classifier using gain ratio WCBA: Weighted Classification Based on Association Rules CBA: Classification Based on Associations CARIM: An Efficient Algorithm for Mining ClassAssociation Rules with Interestingness Measures MMAC: Multi-class, multi-label associative classification MISFP: Multiple Item Support Frequent Patterns FCBA: Fast Classification Based on Association Rules CMAR: Classification based on Multiple Association Rules MCAR: Multi class Classification based on Association Rule RFE: Recursive Feature elimination CTĐT: Chương trình đào tạo SPSS: Statistical Package for the Social Sciences xiii PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP ĐỂ DỰ BÁO KHẢ NĂNG BỎ HỌC CỦA SINH VIÊN TRƯỜNG ĐẠI HỌC BÌNH DƯƠNG CLASSIFICATION BASED ON ASSOCIATION RULES FORECAST OF STUDENT DROPOUT IN BINH DUONG UNIVERSITY Thái Thanh Hùng Học viên Trường đại học Sư phạm Kỹ thuật TP.HCM TÓM TẮT Kết học tập sinh viên mối quan tâm hàng đầu sở giáo dục đại học nói chung Trường Đại học Bình Dương nói riêng Vì thước đo chất lượng đào tạo, tín nhiệm xã hội sở giáo dục Trên sở cải thiện chất lượng đào tạo, kết học tập sinh viên tốt hơn, viết đề xuất ứng dụng phân lớp dựa luật kết hợp để dự báo khả bỏ học sinh viên Trường Đại học Bình Dương Kết nghiên cứu đưa dự báo khả sinh viên bỏ học tiếp tục học giúp cho cố vấn học tập kịp thời theo dõi có kế hoạch giúp đỡ kịp thời Từ khóa: Dự báo; CPAR-GR; phân lớp; bỏ học; kết học tập; sinh viên ABSTRACT Student learning outcomes are always the top concern of higher education in general and Binh Duong University in particular Because this is a measure of training quality, society's trust in education On the basis of improving training quality, better student learning outcomes, the article proposes the application of association rule-based analysis to predict the dropout probability of students at Binh Duong University The research results are predicted that students are likely to drop out or continue studying, helping to try to monitor the episode in time and have a timely help plan Keywords: Forecast; CPAR-GR; classification; ĐẶT VẤN ĐỀ Khi bước vào ngưỡng cửa đại học, cách thức sinh hoạt học tập khác với bậc phổ thông nên sinh viên gặp khơng khó khăn bỡ ngỡ Một thật khơng thể phủ nhận có sinh viên thủ khoa kỳ thi đại học có kết học tập không tốt mong đợi, chí cịn thấp sinh viên đủ điểm trúng tuyển Kết học tập sinh viên Trường Đại học Bình Dương, đặc biệt kết sau năm học nhiều vấn đề cần suy xét, có nhiều sinh viên bị thuộc thơi học học lực Chính vậy, việc xác định thực trạng đề xuất giải pháp nâng cao kết học tập sinh viên vấn đề cần thiết Kết học tập chịu ảnh hưởng nhiều yếu tốt chủ quan khách quan, gia đình bạn bè mơi trường học tập, xã hội…Bài viết tập trung giải pháp liên quan đến dropout; learning outcomes; student sinh viên giảng viên trình học tập lớp tự học sinh viên CƠ SỞ ĐỀ XUẤT GIẢI PHÁP 2.1 Cơ sở lý luận Phân lớp dựa luật kết hợp Phân lớp dựa luật kết hợp tìm tập luật kết hợp sở liệu cho, luật tập chứa vế phải giá trị thuộc tính lớp Cho sở liệu D, I tất mục D Y tập nhãn lớp Luật phân lớp kết hợp biểu thức có dạng X→y X⊆I y∈Y Độ tin cậy luật c c% mẫu D chứa X gán nhãn lớp y Độ phổ biến luật s s% mẫu D chứa X gán nhãn lớp y Phân lớp dựa luật kết hợp gồm giai đoạn: (1) tìm luật kết hợp, (2) phân lớp dựa luật kết hợp tìm Thuật giải CPAR-GR Thuật toán CPAR-GR dựa việc cải tiến thuật toán CPAR [3] gốc Yin & Han đề xuất năm 2003, cải thiện độ xác luật tạo đồng thời xác định chất lượng luật quan trọng Bằng cách sử dụng độ xác Laplace để đánh giá luật, luật k tốt chọn để sử dụng Đầu tiên tác giả đề xuất tiến hành tiền xử lý tập liệu cách giữ lại thuộc tính có tầm quan trọng, xóa thuộc tính quan trọng nhằm mục đích giảm thời gian xử lý Để thực bước tiền xử lý, tác giả đề xuất sử dụng thống kê T-test để đánh giá giá trị thuộc tính giai đoạn Tại giai đoạn này, độ xác luật tính gia giá trị độ xác Laplace xếp theo giá trị độ xác Giai đoạn 3: Giai đoạn chọn luật phân lớp Đây giai đoạn cuối cùng, k luật tốt từ lớp đáp ứng tập liệu huấn luyện cho chọn theo độ xác Laplace Độ xác Laplace trung bình k luật tốt từ lớp xác định Một lớp có độ xác Laplace trung bình cao chọn làm nhãn lớp cho tập liệu kiểm tra Sau thực tiền xử lý phương pháp thống kê T-test, tác giả tiến hành tạo luật phân lớp thuật toán CPAR-GR [1-2] Việc kết hợp T-test CPAR-GR cho kết tốt độ xác luật tạo 2.2 Mô tả thuật giải CPAR-GR Thuật giải CPAR-GR đề xuất với giai đoạn xử lý sau: Giai đoạn 1: Giai đoạn tiền xử lý Tại giai đoạn này, tập liệu xử lý với mục đích làm giảm kích thước, giữ lại thuộc tính có tầm quan trọng, loại bỏ thuộc tính quan trọng phương pháp thống kê T-test Thống kê T-test thực chức Independent Sample T–Test phần mềm SPSS (Statistical Package for the Social Sciences) với việc tính giá trị thuộc tính Thuộc tính có giá trị p  0.05 xem quan trọng giữ lại, ngược lại thuộc tính có giá trị p > 0.05 xem quan trọng xóa khỏi tập liệu Giai đoạn 2: Giai đoạn tạo luật kết hợp Sử dụng thuật giải CPAR-GR, tạo luật dựa tập liệu xử lý Hình Quy trình làm việc thuật giải CPAR-GR[1] ỨNG DỤNG THUẬT GIẢI CPARGR VÀO BÀI TOÁN DỰ BÁO KHẢ NĂNG BỎ HỌC CỦA SINH VIÊN, KẾT QUẢ THỰC NGHIỆM 3.1 Phương pháp thực Quá trình khai phá liệu sinh viên phục vụ việc dự đoán kết học tập tiến hành gồm bước thu thập, làm sạch, trích lọc, chuyển đổi liệu dạng phù hợp, ứng dụng kỹ thuật khai phá liệu để xây dựng mơ hình đánh giá kết thu Với sở liệu phục vụ cho việc khai phá nhằm dự báo khả bỏ học sinh viên thu thập từ nhiều nguồn liệu khác gồm phần mềm quản lý đào tạo, kết khảo sát, từ hồ sơ quản lý học tập Khoa Trong đó: Thơng tin sinh viên thu thập từ phần mềm quản lý đào tạo, thông tin cập nhật từ hồ sơ cá nhân sinh viên nhập học, thông tin cập nhật định kỳ Kết học tập sinh viên theo học kỳ, kết học tập năm học thu thập từ phần mềm quản lý đào tạo lượng giảng dạy, khảo sát cấp Trường sinh viên năm cuối Kết khảo sát đánh giá giảng dạy theo học kỳ thu thập từ website, khảo sát nội Khoa Tiền xử lý liệu huấn luyện việc sử dụng chức phân tích Independent Samples Test phần mềm SPSS để loại bỏ thuộc tính có giá trị quan trọng Thông tin người sinh viên bao gồm thông tin mã định danh, ngày sinh, nơi sinh, giới tính, dân tộc, điểm tích lũy học kỳ, điểm tích lũy năm học, điểm rèn luyện,… Thông tin khảo sát đánh giá giảng dạy bao gồm thông tin sau chương trình đào tạo, sở vật chất, đội ngũ giảng viên,… Dữ liệu trích xuất thực tế từ phần mềm quản lý đào tạo nên có tính xác thực cao Tuy nhiên, xuất số thuộc tính rỗng số liệu ảnh hưởng tiến độ giảng dạy, chấm thi cuối kỳ Đối với mẫu tin có thuộc tính rỗng đề tài đề xuất phương án điền tạm giá trị trung bình thuộc tính vào giá trị rỗng để dự báo kết 3.2 Kết thực nghiệm Mô tả liệu tập huấn luyện, tập liệu kiểm tra Dữ liệu sinh viên bỏ học lưu trữ Phịng Quản lý đào tạo Cơng tác sinh viên Hàng học kỳ, năm học, vào Quy chế đào tạo Nhà trường, Phòng Quản lý đào tạo Công tác sinh viên tiến hành xử lý học vụ sinh viên Sinh viên không thỏa điều kiện theo Quy chế bị nhắc nhở, cảnh báo, thơi học Sinh viên có định thơi học nhập quản lý phần mềm quản lý đào tạo Nhà trường nhằm mục đích thống kê, báo cáo kịp thời yêu cầu Bộ Giáo dục Đào tạo Tập liệu sinh viên phục vụ nghiên cứu đề tài trích xuất từ phần mềm quản lý đào tạo Nhà trường gồm 1060 mẫu tin, đồng thời kết hợp với liệu quản lý Khoa thông qua kết khảo sát chất Kết thực nghiệm Với việc sử dụng phương pháp T-test xử lý loại bỏ thuộc tính có mức ý nghĩa (thơng thường mức ý nghĩa 0.05 = 5%) có khác biệt khơng có khác biệt thuộc tính tình hình bỏ học sinh viên Nếu Sig kiểm định t ≤ α (mức ý nghĩa) -> có khác biệt có ý nghĩa trung bình tổng thể Nếu Sig > α (mức ý nghĩa) -> khơng có khác biệt có ý nghĩa trung bình tổng thể Từ kết phân tích chức Independent Sample T-test, có thuộc tính, gồm: Giới tính, Hoạt động Đồn – Hội, Hoạt động CLB trường có Sig 0.05 Vì đưa liệu vào tập huấn kiểm tra tiến hành loại bỏ thuộc tính khỏi tập liệu Kết tạo luật Bảng Kết tạo luật thuật giải CPAR-GR Ký hiệu luật Luật kết hợp R1 {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = → Nhãn lớp = 1} R2 {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = 2, Vắng thi học kỳ, khóa học = → Nhãn lớp = 1} R3 {Kết học tập học kỳ = 1, Kết đánh giá rèn luyện = 2, Kết học tập tồn khóa = → Nhãn lớp = 1} R4 {Đăng ký mơn học khơng tiến độ đào tạo khóa học = → Nhãn lớp = 1} R5 {Phải làm thêm nhiều = 1, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 1} R6 {Điều kiện kinh tế gia đình = 2, Ý thức tự giác, chủ động học tập = 1, Sự quan tâm, động viên gia đình = → Nhãn lớp = 1} R7 {Kết đăng ký môn học học kỳ = → Nhãn lớp = 0} Ký hiệu luật Luật kết hợp Ký hiệu luật R8 {Điều kiện kinh tế gia đình = → Nhãn lớp = 0} R9 {Sự quan tâm, động viên gia đình = → Nhãn lớp = 0} R10 {Độ tuổi sinh viên = 4, Chất lượng xét tuyển đầu vào = → Nhãn lớp = 0} R11 {Đăng ký môn học khơng tiến độ đào tạo khóa học = → Nhãn lớp = 0} R12 {Kết đánh giá rèn luyện = 5, Phải làm thêm nhiều = 4, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 0} 133 133 0.992 R5 {Phải làm thêm nhiều = 1, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 1} 121 121 0.991 R6 {Điều kiện kinh tế gia đình = 2, Ý thức tự giác, chủ động học tập = 1, Sự quan tâm, động viên gia đình = → Nhãn lớp = 1} 9 0.90 R7 {Kết đăng ký môn học học kỳ = → Nhãn lớp = 0} 141 141 0.993 R8 {Điều kiện kinh tế gia đình = → Nhãn lớp = 0} 144 144 0.993 R9 {Sự quan tâm, động viên gia đình = → Nhãn lớp = 0} 151 151 0.993 R10 {Độ tuổi sinh viên = 4, Chất lượng xét tuyển đầu vào = → Nhãn lớp = 0} 144 144 0.993 R11 {Tiến độ đào tạo khóa học = → Nhãn lớp = 0} 161 161 0.993 R12 {Kết đánh giá rèn luyện = 5, Phải làm thêm nhiều = 4, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 0} 43 43 0.977 k: số nhãn lớp tập liệu huấn luyện Luật kết hợp R1 {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = → Nhãn lớp = 1} R2 {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = 2, Vắng thi học kỳ, khóa học = → Nhãn lớp = 1} {Kết học tập học kỳ = 1, Kết đánh giá rèn luyện = 2, Kết học tập tồn khóa = → Nhãn lớp = R3 Nhãn lớp Laplace accuracy nc ntot k (nc+1) /(ntot+k) 29 29 37 29 29 37 2 0.967 0.967 0.974 (nc+1) /(ntot+k) ntot: số lượng tuple tập liệu huấn luyện thỏa vế trái Ký hiệu luật k {Tiến độ đào tạo khóa học = → Nhãn lớp = 1} nc: số lượng tuple tập liệu huấn luyện thỏa vế trái vế phải Bảng Đánh giá độ xác luật tạo từ tập huấn luyện ntot R4 +1 + Trong đó: nc 1} Đánh giá độ xác luật từ thuật giải CPAR-GR tập huấn luyện = Luật kết hợp Laplace accuracy Nhãn lớp Đánh giá độ xác phân lớp = Sử dụng luật vào dự báo khả bỏ học sinh viên Với luật tìm sau sử dụng tập huấn luyện để đưa vào thuật giải CPAR-GR để xử lý Chúng ta sử dụng luật vừa tìm để dự báo tập liệu kiểm tra/ liệu cần thực dự báo Quy tắc luật tìm được, xác định cụ thể sau: R1: {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = → Nhãn lớp = 1}; Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = Kỷ luật, đình học tập học kỳ, dẫn đến khả sinh viên bỏ học R2: {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = 2, Vắng thi học kỳ, khóa học = → Nhãn lớp = 1}; Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = Kỷ luật, đình học tập học kỳ Vắng thi học kỳ, khóa học = Trên mơn học kỳ, dẫn đến sinh viên có khả bỏ học R3: {Kết học tập học kỳ = 1, Kết đánh giá rèn luyện = 2, Kết học tập tồn khóa = → Nhãn lớp = 1}; Kết học tập học kỳ = Yếu/kém Kết đánh giá rèn luyện = Yếu Kết học tập tồn khóa = Yếu/kém, dẫn đến sinh viên có khả bỏ học R4: {Tiến độ đào tạo khóa học = → Nhãn lớp = 1}; Tiến độ đào tạo khóa học = Chậm so với tiến độ (trên 20%), dẫn đến sinh viên có khả bỏ học R5: {Phải làm thêm nhiều = 1, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 1}; Phải làm thêm nhiều = Rất nhiều Tự ý nghỉ học, tạm dừng, bảo lưu học tập = Tự ý nghỉ học, dẫn đến sinh viên có khả bỏ học R6: {Điều kiện kinh tế gia đình = 2, Ý thức tự giác, chủ động học tập = 1, Sự quan tâm, động viên gia đình = → Nhãn lớp = 1}; Điều kiện kinh tế gia đình = Hộ nghèo Ý thức tự giác, chủ động học tập Kém, khơng có Sự quan tâm, động viên gia đình = Khơng có, dẫn đến sinh viên có khả bỏ học R7: {Kết đăng ký môn học học kỳ = → Nhãn lớp = 0}; Kết đăng ký môn học học kỳ = Từ 23 đến 25 tín chỉ, dẫn đến sinh viên khơng có khả bỏ học R8: {Điều kiện kinh tế gia đình = → Nhãn lớp = 0}; Điều kiện kinh tế gia đình = Khá, dẫn đến sinh viên khơng có khả bỏ học R9: {Sự quan tâm, động viên gia đình = → Nhãn lớp = 0}; Sự quan tâm, động viên gia đình = Gia đình quan tâm, động viên việc học, dẫn đến sinh viên khơng có khả bỏ học R10: {Độ tuổi sinh viên = 4, Chất lượng xét tuyển đầu vào = → Nhãn lớp = 0}; Độ tuổi sinh viên = Hơn tuổi, Chất lượng xét tuyển đầu vào = Giỏi, dẫn đến sinh viên khơng có khả bỏ học R11: {Tiến độ đào tạo khóa học = → Nhãn lớp = 0}; Tiến độ đào tạo khóa học = Vượt tiến độ (trên 20%), dẫn đến sinh viên khơng có khả bỏ học R12: {Kết đánh giá rèn luyện = 5, Phải làm thêm nhiều = 4, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 0}; Kết đánh giá rèn luyện = Xuất sắc Phải làm thêm nhiều = Ít, khơng thường xun Tự ý nghỉ học, tạm dừng, bảo lưu học tập = Khơng có, dẫn đến sinh viên khơng có khả bỏ học Thực nghiệm tập liệu kiểm tra với 223 mẫu tin, với kết xác đạt 95.96% KẾT LUẬN 4.2 Hạn chế 4.1 Kết đạt Dữ liệu thu thập chưa nhiều, chưa bao quát hết yếu tố ảnh hưởng đến khả bỏ học sinh viên Nắm sở lý thuyết khai phá luật kết hợp, phân lớp vấn đề liên quan đến phân lớp dựa luật kết hợp Hiểu mô tả phương pháp lựa chọn thuộc tính Hiểu mơ tả thuật toán CPARGR dùng phân lớp dựa luật kết hợp Hiểu mơ tả tốn dự báo khả bỏ học sinh viên Xây dựng ứng dụng dự báo tình hình bỏ học sinh viên Trường Đại học Bình Dương Ứng dụng chưa thân thiện với người dùng 4.3 Hướng phát triển Tìm hiểu thuật giải WCBA (Weighted Classification Based on Association Rules) [4] ứng dụng phương pháp lựa chọn thuộc tính để loại bỏ thuộc tính quan trọng hơn, giúp luật sinh có độ xác cao So sánh thực nghiệm hai phương pháp CPAR-GR WCBA dựa tiêu chí độ xác thời gian thực thi để lựa chọn ứng dụng vào toán dự báo Tập liệu thu thập để huấn luyện kiểm tra nhiều thuộc tính hơn, với số lượng liệu phong phú từ nhiều nguồn khác để đánh giá độ xác cao TÀI LIỆU THAM KHẢO [1] M Nandhini and S N Sivanandam, “An improved predictive association rule based classifier using gain ratio and T-test for health care data diagnosis,” Sadhana - Acad Proc Eng Sci., vol 40, no 6, pp 1683–1699, 2015, doi: 10.1007/s12046-015-0410-6 [2] N.V.Chien, "Ứng dụng thuật toán phân lớp dựa luật kết hợp dự báo vào giải tốn Dự báo tình hình nghỉ học, bỏ học học sinh trung học địa bàn Thành phố Hồ Chí Minh", 2020 [3] X Yin and J Han, “CPAR: Classification based on Predictive Association Rules,” pp 331–335, 2003, doi: 10.1137/1.9781611972733.40 [4] J Alwidian, B H Hammo, and N Obeid, “WCBA: Weighted classification based on association rules algorithm for breast cancer disease,” Appl Soft Comput J., vol 62, no November, pp 536–549, 2018, doi: 10.1016/j.asoc.2017.11.013 Tác giả chịu trách nhiệm viết: Họ tên: Thái Thanh Hùng Đơn vị: Học viên Trường đại học Sư phạm Kỹ thuật Tp.HCM Điện thoại: 0979813904 Email: tthung@bdu.edu.vn PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP ĐỂ DỰ BÁO KHẢ NĂNG BỎ HỌC CỦA SINH VIÊN TRƯỜNG ĐẠI HỌC BÌNH DƯƠNG CLASSIFICATION BASED ON ASSOCIATION RULES FORECAST OF STUDENT DROPOUT IN BINH DUONG UNIVERSITY Thái Thanh Hùng Học viên Trường đại học Sư phạm Kỹ thuật TP.HCM TÓM TẮT Kết học tập sinh viên mối quan tâm hàng đầu sở giáo dục đại học nói chung Trường Đại học Bình Dương nói riêng Vì thước đo chất lượng đào tạo, tín nhiệm xã hội sở giáo dục Trên sở cải thiện chất lượng đào tạo, kết học tập sinh viên tốt hơn, viết đề xuất ứng dụng phân lớp dựa luật kết hợp để dự báo khả bỏ học sinh viên Trường Đại học Bình Dương Kết nghiên cứu đưa dự báo khả sinh viên bỏ học tiếp tục học giúp cho cố vấn học tập kịp thời theo dõi có kế hoạch giúp đỡ kịp thời Từ khóa: Dự báo; CPAR-GR; phân lớp; bỏ học; kết học tập; sinh viên ABSTRACT Student learning outcomes are always the top concern of higher education in general and Binh Duong University in particular Because this is a measure of training quality, society's trust in education On the basis of improving training quality, better student learning outcomes, the article proposes the application of association rule-based analysis to predict the dropout probability of students at Binh Duong University The research results are predicted that students are likely to drop out or continue studying, helping to try to monitor the episode in time and have a timely help plan Keywords: Forecast; CPAR-GR; classification; dropout; learning outcomes; student ĐẶT VẤN ĐỀ Khi bước vào ngưỡng cửa đại học, cách thức sinh hoạt học tập khác với bậc phổ thông nên sinh viên gặp khơng khó khăn bỡ ngỡ Một thật khơng thể phủ nhận có sinh viên thủ khoa kỳ thi đại học có kết học tập khơng tốt mong đợi, chí thấp sinh viên đủ điểm trúng tuyển Kết học tập sinh viên Trường Đại học Bình Dương, đặc biệt kết sau năm học nhiều vấn đề cần suy xét, có nhiều sinh viên bị thuộc thơi học học lực Chính vậy, việc xác định thực trạng đề xuất giải pháp nâng cao kết học tập sinh viên vấn đề cần thiết Kết học tập chịu ảnh hưởng nhiều yếu tốt chủ quan khách quan, gia đình bạn bè môi trường học tập, xã hội…Bài viết tập trung giải pháp liên quan đến sinh viên giảng viên trình học tập lớp tự học sinh viên CƠ SỞ ĐỀ XUẤT GIẢI PHÁP 2.1 Cơ sở lý luận Phân lớp dựa luật kết hợp Phân lớp dựa luật kết hợp tìm tập luật kết hợp sở liệu cho, luật tập chứa vế phải giá trị thuộc tính lớp Cho sở liệu D, I tất mục D Y tập nhãn lớp Luật phân lớp kết hợp biểu thức có dạng X→y X⊆I y∈Y Độ tin cậy luật c c% mẫu D chứa X gán nhãn lớp y Độ phổ biến luật s s% mẫu D chứa X gán nhãn lớp y Phân lớp dựa luật kết hợp gồm giai đoạn: (1) tìm luật kết hợp, (2) phân lớp dựa luật kết hợp tìm Thuật giải CPAR-GR Thuật tốn CPAR-GR dựa việc cải tiến thuật toán CPAR [3] gốc Yin & Han đề xuất năm 2003, cải thiện độ xác luật tạo đồng thời xác định chất lượng luật quan trọng Bằng cách sử dụng độ xác Laplace để đánh giá luật, luật k tốt chọn để sử dụng Đầu tiên tác giả đề xuất tiến hành tiền xử lý tập liệu cách giữ lại thuộc tính có tầm quan trọng, xóa thuộc tính quan trọng nhằm mục đích giảm thời gian xử lý Để thực bước tiền xử lý, tác giả đề xuất sử dụng thống kê T-test để đánh giá giá trị thuộc tính từ lớp đáp ứng tập liệu huấn luyện cho chọn theo độ xác Laplace Độ xác Laplace trung bình k luật tốt từ lớp xác định Một lớp có độ xác Laplace trung bình cao chọn làm nhãn lớp cho tập liệu kiểm tra Sau thực tiền xử lý phương pháp thống kê T-test, tác giả tiến hành tạo luật phân lớp thuật toán CPAR-GR [1-2] Việc kết hợp T-test CPAR-GR cho kết tốt độ xác luật tạo 2.2 Mô tả thuật giải CPAR-GR Thuật giải CPAR-GR đề xuất với giai đoạn xử lý sau: Giai đoạn 1: Giai đoạn tiền xử lý Tại giai đoạn này, tập liệu xử lý với mục đích làm giảm kích thước, giữ lại thuộc tính có tầm quan trọng, loại bỏ thuộc tính quan trọng phương pháp thống kê T-test Thống kê T-test thực chức Independent Sample T–Test phần mềm SPSS (Statistical Package for the Social Sciences) với việc tính giá trị thuộc tính Thuộc tính có giá trị p  0.05 xem quan trọng giữ lại, ngược lại thuộc tính có giá trị p > 0.05 xem quan trọng xóa khỏi tập liệu Giai đoạn 2: Giai đoạn tạo luật kết hợp Sử dụng thuật giải CPAR-GR, tạo luật dựa tập liệu xử lý giai đoạn Tại giai đoạn này, độ xác luật tính gia giá trị độ xác Laplace xếp theo giá trị độ xác Giai đoạn 3: Giai đoạn chọn luật phân lớp Đây giai đoạn cuối cùng, k luật tốt Hình Quy trình làm việc thuật giải CPAR-GR[1] ỨNG DỤNG THUẬT GIẢI CPAR-GR VÀO BÀI TOÁN DỰ BÁO KHẢ NĂNG BỎ HỌC CỦA SINH VIÊN, KẾT QUẢ THỰC NGHIỆM 3.1 Phương pháp thực Quá trình khai phá liệu sinh viên phục vụ việc dự đoán kết học tập tiến hành gồm bước thu thập, làm sạch, trích lọc, chuyển đổi liệu dạng phù hợp, ứng dụng kỹ thuật khai phá liệu để xây dựng mơ hình đánh giá kết thu Với sở liệu phục vụ cho việc khai phá nhằm dự báo khả bỏ học sinh viên thu thập từ nhiều nguồn liệu khác gồm phần mềm quản lý đào tạo, kết khảo sát, từ hồ sơ quản lý học tập Khoa Trong đó: Thơng tin sinh viên thu thập từ phần mềm quản lý đào tạo, thông tin cập nhật từ hồ sơ cá nhân sinh viên nhập học, thông tin cập nhật định kỳ Kết học tập sinh viên theo học kỳ, kết học tập năm học thu thập từ phần mềm quản lý đào tạo Kết khảo sát đánh giá giảng dạy theo học kỳ thu thập từ website, khảo sát nội Khoa Thông tin người sinh viên bao gồm thông tin mã định danh, ngày sinh, nơi sinh, giới tính, dân tộc, điểm tích lũy học kỳ, điểm tích lũy năm học, điểm rèn luyện,… Thông tin khảo sát đánh giá giảng dạy bao gồm thơng tin sau chương trình đào tạo, sở vật chất, đội ngũ giảng viên,… Dữ liệu trích xuất thực tế từ phần mềm quản lý đào tạo nên có tính xác thực cao Tuy nhiên, xuất số thuộc tính rỗng số liệu ảnh hưởng tiến độ giảng dạy, chấm thi cuối kỳ Đối với mẫu tin có thuộc tính rỗng đề tài đề xuất phương án điền tạm giá trị trung bình thuộc tính vào giá trị rỗng để dự báo kết 3.2 Kết thực nghiệm Mô tả liệu tập huấn luyện, tập liệu kiểm tra Dữ liệu sinh viên bỏ học lưu trữ Phòng Quản lý đào tạo Công tác sinh viên Hàng học kỳ, năm học, vào Quy chế đào tạo Nhà trường, Phịng Quản lý đào tạo Cơng tác sinh viên tiến hành xử lý học vụ sinh viên Sinh viên không thỏa điều kiện theo Quy chế bị nhắc nhở, cảnh báo, học Sinh viên có định thơi học nhập quản lý phần mềm quản lý đào tạo Nhà trường nhằm mục đích thống kê, báo cáo kịp thời yêu cầu Bộ Giáo dục Đào tạo Tập liệu sinh viên phục vụ nghiên cứu đề tài trích xuất từ phần mềm quản lý đào tạo Nhà trường gồm 1060 mẫu tin, đồng thời kết hợp với liệu quản lý Khoa thông qua kết khảo sát chất lượng giảng dạy, khảo sát cấp Trường sinh viên năm cuối mức ý nghĩa (thông thường mức ý nghĩa 0.05 = 5%) có khác biệt khơng có khác biệt thuộc tính tình hình bỏ học sinh viên Nếu Sig kiểm định t ≤ α (mức ý nghĩa) -> có khác biệt có ý nghĩa trung bình tổng thể Nếu Sig > α (mức ý nghĩa) -> khơng có khác biệt có ý nghĩa trung bình tổng thể Từ kết phân tích chức Independent Sample T-test, có thuộc tính, gồm: Giới tính, Hoạt động Đồn – Hội, Hoạt động CLB trường có Sig 0.05 Vì đưa liệu vào tập huấn kiểm tra tiến hành loại bỏ thuộc tính khỏi tập liệu Kết tạo luật Bảng Kết tạo luật thuật giải CPAR-GR Ký hiệu luật Luật kết hợp R1 {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = → Nhãn lớp = 1} R2 {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = 2, Vắng thi học kỳ, khóa học = → Nhãn lớp = 1} R3 {Kết học tập học kỳ = 1, Kết đánh giá rèn luyện = 2, Kết học tập tồn khóa = → Nhãn lớp = 1} R4 {Đăng ký môn học không tiến độ đào tạo khóa học = → Nhãn lớp = 1} R5 {Phải làm thêm nhiều = 1, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 1} R6 {Điều kiện kinh tế gia đình = 2, Ý thức tự giác, chủ động học tập = 1, Sự quan tâm, động viên gia đình = → Nhãn lớp = 1} R7 {Kết đăng ký môn học học kỳ = → Nhãn lớp = 0} R8 {Điều kiện kinh tế gia đình = → Nhãn lớp = 0} R9 {Sự quan tâm, động viên gia đình = → Nhãn lớp = 0} R10 {Độ tuổi sinh viên = 4, Chất lượng xét tuyển đầu vào = → Nhãn lớp = 0} R11 {Đăng ký môn học không tiến độ đào tạo khóa học = → Nhãn lớp = 0} R12 {Kết đánh giá rèn luyện = 5, Phải làm thêm nhiều = 4, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 0} Kết thực nghiệm Tiền xử lý liệu huấn luyện việc sử dụng chức phân tích Independent Samples Test phần mềm SPSS để loại bỏ thuộc tính có giá trị quan trọng Với việc sử dụng phương pháp T-test xử lý loại bỏ thuộc tính có Đánh giá độ xác luật từ thuật giải CPAR-GR tập huấn luyện +1 + = Ký hiệu luật nc R7 {Kết đăng ký môn học học kỳ = → Nhãn lớp = 0} 141 141 0.993 R8 {Điều kiện kinh tế gia đình = → Nhãn lớp = 0} 144 144 0.993 R9 {Sự quan tâm, động viên gia đình = → Nhãn lớp = 0} 151 151 0.993 R10 {Độ tuổi sinh viên = 4, Chất lượng xét tuyển đầu vào = → Nhãn lớp = 0} 144 144 0.993 R11 {Tiến độ đào tạo khóa học = → Nhãn lớp = 0} 161 161 0.993 R12 {Kết đánh giá rèn luyện = 5, Phải làm thêm nhiều = 4, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 0} 43 43 0.977 nc: số lượng tuple tập liệu huấn luyện thỏa vế trái vế phải k: số nhãn lớp tập liệu huấn luyện Bảng Đánh giá độ xác luật tạo từ tập huấn luyện Ký hiệu luật Luật kết hợp R1 {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = → Nhãn lớp = 1} R2 R3 R4 R5 R6 Nhãn lớp {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = 2, Vắng thi học kỳ, khóa học = → Nhãn lớp = 1} {Kết học tập học kỳ = 1, Kết đánh giá rèn luyện = 2, Kết học tập toàn khóa = → Nhãn lớp = 1} Laplace accuracy nc ntot k (nc+1) /(ntot+k) 29 29 37 29 29 37 2 0.967 0.967 0.974 Luật kết hợp {Phải làm thêm nhiều = 1, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 1} {Điều kiện kinh tế gia đình = 2, Ý thức tự giác, chủ động học 133 121 133 121 2 0.992 0.991 k (nc+1) /(ntot+k) Đánh giá độ xác phân lớp = {Tiến độ đào tạo khóa học = → Nhãn lớp = 1} ntot tập = 1, Sự quan tâm, động viên gia đình = → Nhãn lớp = 1} Trong đó: ntot: số lượng tuple tập liệu huấn luyện thỏa vế trái Laplace accuracy Nhãn lớp Sử dụng luật vào dự báo khả bỏ học sinh viên Với luật tìm sau sử dụng tập huấn luyện để đưa vào thuật giải CPAR-GR để xử lý Chúng ta sử dụng luật vừa tìm để dự báo tập liệu kiểm tra/ liệu cần thực dự báo Quy tắc luật tìm được, xác định cụ thể sau: 9 0.90 R1: {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = → Nhãn lớp = 1}; Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = Kỷ luật, đình học tập học kỳ, dẫn đến khả sinh viên bỏ học R2: {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = 2, Vắng thi học kỳ, khóa học = → Nhãn lớp = 1}; Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = Kỷ luật, đình học tập học kỳ Vắng thi học kỳ, khóa học = Trên mơn học kỳ, dẫn đến sinh viên có khả bỏ học R3: {Kết học tập học kỳ = 1, Kết đánh giá rèn luyện = 2, Kết học tập tồn khóa = → Nhãn lớp = 1}; Kết học tập học kỳ = Yếu/kém Kết đánh giá rèn luyện = Yếu Kết học tập tồn khóa = Yếu/kém, dẫn đến sinh viên có khả bỏ học R4: {Tiến độ đào tạo khóa học = → Nhãn lớp = 1}; Tiến độ đào tạo khóa học = Chậm so với tiến độ (trên 20%), dẫn đến sinh viên có khả bỏ học R5: {Phải làm thêm nhiều = 1, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 1}; Phải làm thêm nhiều = Rất nhiều Tự ý nghỉ học, tạm dừng, bảo lưu học tập = Tự ý nghỉ học, dẫn đến sinh viên có khả bỏ học R6: {Điều kiện kinh tế gia đình = 2, Ý thức tự giác, chủ động học tập = 1, Sự quan tâm, động viên gia đình = → Nhãn lớp = 1}; Điều kiện kinh tế gia đình = Hộ nghèo Ý thức tự giác, chủ động học tập Kém, khơng có Sự quan tâm, động viên gia đình = Khơng có, dẫn đến sinh viên có khả bỏ học R7: {Kết đăng ký môn học học kỳ = → Nhãn lớp = 0}; Kết đăng ký môn học học kỳ = Từ 23 đến 25 tín chỉ, dẫn đến sinh viên khơng có khả bỏ học R8: {Điều kiện kinh tế gia đình = → Nhãn lớp = 0}; Điều kiện kinh tế gia đình = Khá, dẫn đến sinh viên khơng có khả bỏ học R9: {Sự quan tâm, động viên gia đình = → Nhãn lớp = 0}; Sự quan tâm, động viên gia đình = Gia đình quan tâm, động viên việc học, dẫn đến sinh viên khơng có khả bỏ học R10: {Độ tuổi sinh viên = 4, Chất lượng xét tuyển đầu vào = → Nhãn lớp = 0}; Độ tuổi sinh viên = Hơn tuổi, Chất lượng xét tuyển đầu vào = Giỏi, dẫn đến sinh viên khơng có khả bỏ học R11: {Tiến độ đào tạo khóa học = → Nhãn lớp = 0}; Tiến độ đào tạo khóa học = Vượt tiến độ (trên 20%), dẫn đến sinh viên khơng có khả bỏ học R12: {Kết đánh giá rèn luyện = 5, Phải làm thêm nhiều = 4, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 0}; Kết đánh giá rèn luyện = Xuất sắc Phải làm thêm nhiều = Ít, khơng thường xun Tự ý nghỉ học, tạm dừng, bảo lưu học tập = Khơng có, dẫn đến sinh viên khơng có khả bỏ học Thực nghiệm tập liệu kiểm tra với 223 mẫu tin, với kết xác đạt 95.96% KẾT LUẬN 4.1 Kết đạt Nắm sở lý thuyết khai phá luật kết hợp, phân lớp vấn đề liên quan đến phân lớp dựa luật kết hợp Hiểu mô tả phương pháp lựa chọn thuộc tính Hiểu mơ tả thuật tốn CPAR-GR dùng phân lớp dựa luật kết hợp Hiểu mô tả toán dự báo khả bỏ học sinh viên Xây dựng ứng dụng dự báo tình hình bỏ học sinh viên Trường Đại học Bình Dương 4.2 Hạn chế Dữ liệu thu thập chưa nhiều, chưa bao quát hết yếu tố ảnh hưởng đến khả bỏ học sinh viên Ứng dụng chưa thân thiện với người dùng 4.3 Hướng phát triển Tìm hiểu thuật giải WCBA (Weighted Classification Based on Association Rules ) [4] ứng dụng phương pháp lựa chọn thuộc tính để loại bỏ thuộc tính quan trọng hơn, giúp luật sinh có độ xác cao So sánh thực nghiệm hai phương pháp CPAR-GR WCBA dựa tiêu chí độ xác thời gian thực thi để lựa chọn ứng dụng vào toán dự báo Tập liệu thu thập để huấn luyện kiểm tra nhiều thuộc tính hơn, với số lượng liệu phong phú từ nhiều nguồn khác để đánh giá độ xác cao TÀI LIỆU THAM KHẢO [1] M Nandhini and S N Sivanandam, “An improved predictive association rule based classifier using gain ratio and T-test for health care data diagnosis,” Sadhana - Acad Proc Eng Sci., vol 40, no 6, pp 1683–1699, 2015, doi: 10.1007/s12046-015-0410-6 [2] N.V.Chien, "Ứng dụng thuật toán phân lớp dựa luật kết hợp dự báo vào giải tốn Dự báo tình hình nghỉ học, bỏ học học sinh trung học địa bàn Thành phố Hồ Chí Minh", 2020 [3] X Yin and J Han, “CPAR: Classification based on Predictive Association Rules,” pp 331– 335, 2003, doi: 10.1137/1.9781611972733.40 [4] J Alwidian, B H Hammo, and N Obeid, “WCBA: Weighted classification based on association rules algorithm for breast cancer disease,” Appl Soft Comput J., vol 62, no November, pp 536–549, 2018, doi: 10.1016/j.asoc.2017.11.013 Tác giả chịu trách nhiệm viết: Họ tên: Thái Thanh Hùng Đơn vị: Học viên Trường đại học Sư phạm Kỹ thuật Tp.HCM Điện thoại: 0979813904 Email: tthung@bdu.edu.vn Giảng viên hướng dẫn xác nhận TS Nguyễn Thành Sơn ... trình demo để dự báo khả bỏ học sinh viên 26 Chương PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP Ý tưởng Đề tài ứng dụng phương pháp phân lớp dựa luật kết hợp để giải vấn đề dự báo khả bỏ học sinh viên Mô tả... thuật phân lớp dựa luật kết hợp dự báo khả bỏ học sinh viên Trường Đại học Bình Dương 4.2 Phạm vi nghiên cứu Nghiên cứu thuật giải phân lớp dựa luật kết hợp CPAR-GR ứng dụng vào toán dự báo khả bỏ. .. Nhà trường có sở hỗ trợ sinh viên tốt Đề tài “PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP ĐỂ DỰ BÁO KHẢ NĂNG BỎ HỌC CỦA SINH VIÊN TRƯỜNG ĐẠI HỌC BÌNH DƯƠNG” góp phần sâu vào khai phá liệu sinh viên đại học

Ngày đăng: 09/12/2022, 14:11

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan