(Luận văn thạc sĩ hcmute) phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên trường đại học bình dương

137 2 0
(Luận văn thạc sĩ hcmute) phân lớp dựa trên luật kết hợp để dự báo khả năng bỏ học của sinh viên trường đại học bình dương

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ THÁI THANH HÙNG PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP ĐỂ DỰ BÁO KHẢ NĂNG BỎ HỌC CỦA SINH VIÊN TRƯỜNG ĐẠI HỌC BÌNH DƯƠNG NGÀNH: KHOA HỌC MÁY TÍNH - 8480101 SKC007260 Tp Hồ Chí Minh, tháng 02/2021 Luan van BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ THÁI THANH HÙNG PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP ĐỂ DỰ BÁO KHẢ NĂNG BỎ HỌC CỦA SINH VIÊN TRƯỜNG ĐẠI HỌC BÌNH DƯƠNG NGÀNH: KHOA HỌC MÁY TÍNH - 8480101 Tp Hồ Chí Minh, tháng 02/2021 Luan van BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ THÁI THANH HÙNG PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP ĐỂ DỰ BÁO KHẢ NĂNG BỎ HỌC CỦA SINH VIÊN TRƯỜNG ĐẠI HỌC BÌNH DƯƠNG NGÀNH: KHOA HỌC MÁY TÍNH – 8480101 Hướng dẫn khoa học: TS NGUYỄN THÀNH SƠN Tp Hồ Chí Minh, tháng 02/2021 Luan van Luan van Luan van Luan van Luan van Luan van Luan van Luan van PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP ĐỂ DỰ BÁO KHẢ NĂNG BỎ HỌC CỦA SINH VIÊN TRƯỜNG ĐẠI HỌC BÌNH DƯƠNG CLASSIFICATION BASED ON ASSOCIATION RULES FORECAST OF STUDENT DROPOUT IN BINH DUONG UNIVERSITY Thái Thanh Hùng Học viên Trường đại học Sư phạm Kỹ thuật TP.HCM TÓM TẮT Kết học tập sinh viên mối quan tâm hàng đầu sở giáo dục đại học nói chung Trường Đại học Bình Dương nói riêng Vì thước đo chất lượng đào tạo, tín nhiệm xã hội sở giáo dục Trên sở cải thiện chất lượng đào tạo, kết học tập sinh viên tốt hơn, viết đề xuất ứng dụng phân lớp dựa luật kết hợp để dự báo khả bỏ học sinh viên Trường Đại học Bình Dương Kết nghiên cứu đưa dự báo khả sinh viên bỏ học tiếp tục học giúp cho cố vấn học tập kịp thời theo dõi có kế hoạch giúp đỡ kịp thời Từ khóa: Dự báo; CPAR-GR; phân lớp; bỏ học; kết học tập; sinh viên ABSTRACT Student learning outcomes are always the top concern of higher education in general and Binh Duong University in particular Because this is a measure of training quality, society's trust in education On the basis of improving training quality, better student learning outcomes, the article proposes the application of association rule-based analysis to predict the dropout probability of students at Binh Duong University The research results are predicted that students are likely to drop out or continue studying, helping to try to monitor the episode in time and have a timely help plan Keywords: Forecast; CPAR-GR; classification; ĐẶT VẤN ĐỀ Khi bước vào ngưỡng cửa đại học, cách thức sinh hoạt học tập khác với bậc phổ thơng nên sinh viên gặp khơng khó khăn bỡ ngỡ Một thật phủ nhận có sinh viên thủ khoa kỳ thi đại học có kết học tập khơng tốt mong đợi, chí cịn thấp sinh viên đủ điểm trúng tuyển Kết học tập sinh viên Trường Đại học Bình Dương, đặc biệt kết sau năm học nhiều vấn đề cần suy xét, có nhiều sinh viên bị thuộc thơi học học lực Chính vậy, việc xác định thực trạng đề xuất giải pháp nâng cao kết học tập sinh viên vấn đề cần thiết Kết học tập chịu ảnh hưởng nhiều yếu tốt chủ quan khách quan, gia đình bạn bè mơi trường học tập, xã hội…Bài viết tập trung giải pháp liên quan đến dropout; learning outcomes; student sinh viên giảng viên trình học tập lớp tự học sinh viên CƠ SỞ ĐỀ XUẤT GIẢI PHÁP 2.1 Cơ sở lý luận Phân lớp dựa luật kết hợp Phân lớp dựa luật kết hợp tìm tập luật kết hợp sở liệu cho, luật tập chứa vế phải giá trị thuộc tính lớp Cho sở liệu D, I tất mục D Y tập nhãn lớp Luật phân lớp kết hợp biểu thức có dạng X→y X⊆I y∈Y Độ tin cậy luật c c% mẫu D chứa X gán nhãn lớp y Độ phổ biến luật s s% mẫu D chứa X gán nhãn lớp y Luan van Phân lớp dựa luật kết hợp gồm giai đoạn: (1) tìm luật kết hợp, (2) phân lớp dựa luật kết hợp tìm Thuật giải CPAR-GR Thuật tốn CPAR-GR dựa việc cải tiến thuật toán CPAR [3] gốc Yin & Han đề xuất năm 2003, cải thiện độ xác luật tạo đồng thời xác định chất lượng luật quan trọng Bằng cách sử dụng độ xác Laplace để đánh giá luật, luật k tốt chọn để sử dụng Đầu tiên tác giả đề xuất tiến hành tiền xử lý tập liệu cách giữ lại thuộc tính có tầm quan trọng, xóa thuộc tính quan trọng nhằm mục đích giảm thời gian xử lý Để thực bước tiền xử lý, tác giả đề xuất sử dụng thống kê T-test để đánh giá giá trị thuộc tính giai đoạn Tại giai đoạn này, độ xác luật tính gia giá trị độ xác Laplace xếp theo giá trị độ xác Giai đoạn 3: Giai đoạn chọn luật phân lớp Đây giai đoạn cuối cùng, k luật tốt từ lớp đáp ứng tập liệu huấn luyện cho chọn theo độ xác Laplace Độ xác Laplace trung bình k luật tốt từ lớp xác định Một lớp có độ xác Laplace trung bình cao chọn làm nhãn lớp cho tập liệu kiểm tra Sau thực tiền xử lý phương pháp thống kê T-test, tác giả tiến hành tạo luật phân lớp thuật toán CPAR-GR [1-2] Việc kết hợp T-test CPAR-GR cho kết tốt độ xác luật tạo Hình Quy trình làm việc thuật giải CPAR-GR[1] 2.2 Mô tả thuật giải CPAR-GR Thuật giải CPAR-GR đề xuất với giai đoạn xử lý sau: Giai đoạn 1: Giai đoạn tiền xử lý Tại giai đoạn này, tập liệu xử lý với mục đích làm giảm kích thước, giữ lại thuộc tính có tầm quan trọng, loại bỏ thuộc tính quan trọng phương pháp thống kê T-test Thống kê T-test thực chức Independent Sample T–Test phần mềm SPSS (Statistical Package for the Social Sciences) với việc tính giá trị thuộc tính Thuộc tính có giá trị p  0.05 xem quan trọng giữ lại, ngược lại thuộc tính có giá trị p > 0.05 xem quan trọng xóa khỏi tập liệu Giai đoạn 2: Giai đoạn tạo luật kết hợp Sử dụng thuật giải CPAR-GR, tạo luật dựa tập liệu xử lý ỨNG DỤNG THUẬT GIẢI CPARGR VÀO BÀI TOÁN DỰ BÁO KHẢ NĂNG BỎ HỌC CỦA SINH VIÊN, KẾT QUẢ THỰC NGHIỆM 3.1 Phương pháp thực Quá trình khai phá liệu sinh viên phục vụ việc dự đoán kết học tập tiến hành gồm bước thu thập, làm sạch, trích lọc, chuyển đổi liệu dạng phù hợp, ứng dụng kỹ thuật khai phá liệu để xây dựng mơ hình đánh giá kết thu Với sở liệu phục vụ cho việc khai phá nhằm dự báo khả bỏ học sinh viên thu thập từ nhiều nguồn liệu khác gồm phần mềm quản lý đào tạo, kết khảo sát, từ hồ sơ quản lý học tập Khoa Trong đó: Thơng tin sinh viên thu thập từ phần mềm quản lý đào tạo, thông tin cập nhật từ hồ sơ cá nhân sinh viên nhập học, thông tin cập nhật định kỳ Luan van Kết học tập sinh viên theo học kỳ, kết học tập năm học thu thập từ phần mềm quản lý đào tạo lượng giảng dạy, khảo sát cấp Trường sinh viên năm cuối Kết khảo sát đánh giá giảng dạy theo học kỳ thu thập từ website, khảo sát nội Khoa Tiền xử lý liệu huấn luyện việc sử dụng chức phân tích Independent Samples Test phần mềm SPSS để loại bỏ thuộc tính có giá trị quan trọng Thơng tin người sinh viên bao gồm thông tin mã định danh, ngày sinh, nơi sinh, giới tính, dân tộc, điểm tích lũy học kỳ, điểm tích lũy năm học, điểm rèn luyện,… Thông tin khảo sát đánh giá giảng dạy bao gồm thơng tin sau chương trình đào tạo, sở vật chất, đội ngũ giảng viên,… Dữ liệu trích xuất thực tế từ phần mềm quản lý đào tạo nên có tính xác thực cao Tuy nhiên, xuất số thuộc tính rỗng số liệu ảnh hưởng tiến độ giảng dạy, chấm thi cuối kỳ Đối với mẫu tin có thuộc tính rỗng đề tài đề xuất phương án điền tạm giá trị trung bình thuộc tính vào giá trị rỗng để dự báo kết 3.2 Kết thực nghiệm Mô tả liệu tập huấn luyện, tập liệu kiểm tra Dữ liệu sinh viên bỏ học lưu trữ Phòng Quản lý đào tạo Công tác sinh viên Hàng học kỳ, năm học, vào Quy chế đào tạo Nhà trường, Phòng Quản lý đào tạo Công tác sinh viên tiến hành xử lý học vụ sinh viên Sinh viên không thỏa điều kiện theo Quy chế bị nhắc nhở, cảnh báo, học Sinh viên có định thơi học nhập quản lý phần mềm quản lý đào tạo Nhà trường nhằm mục đích thống kê, báo cáo kịp thời yêu cầu Bộ Giáo dục Đào tạo Tập liệu sinh viên phục vụ nghiên cứu đề tài trích xuất từ phần mềm quản lý đào tạo Nhà trường gồm 1060 mẫu tin, đồng thời kết hợp với liệu quản lý Khoa thông qua kết khảo sát chất Kết thực nghiệm Với việc sử dụng phương pháp T-test xử lý loại bỏ thuộc tính có mức ý nghĩa (thơng thường mức ý nghĩa 0.05 = 5%) có khác biệt khơng có khác biệt thuộc tính tình hình bỏ học sinh viên Nếu Sig kiểm định t ≤ α (mức ý nghĩa) -> có khác biệt có ý nghĩa trung bình tổng thể Nếu Sig > α (mức ý nghĩa) -> khơng có khác biệt có ý nghĩa trung bình tổng thể Từ kết phân tích chức Independent Sample T-test, có thuộc tính, gồm: Giới tính, Hoạt động Đồn – Hội, Hoạt động CLB trường có Sig 0.05 Vì đưa liệu vào tập huấn kiểm tra tiến hành loại bỏ thuộc tính khỏi tập liệu Kết tạo luật Bảng Kết tạo luật thuật giải CPAR-GR Ký hiệu luật Luật kết hợp R1 {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = → Nhãn lớp = 1} R2 {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = 2, Vắng thi học kỳ, khóa học = → Nhãn lớp = 1} R3 {Kết học tập học kỳ = 1, Kết đánh giá rèn luyện = 2, Kết học tập tồn khóa = → Nhãn lớp = 1} R4 {Đăng ký môn học không tiến độ đào tạo khóa học = → Nhãn lớp = 1} R5 {Phải làm thêm nhiều = 1, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 1} R6 {Điều kiện kinh tế gia đình = 2, Ý thức tự giác, chủ động học tập = 1, Sự quan tâm, động viên gia đình = → Nhãn lớp = 1} R7 {Kết đăng ký môn học học kỳ = → Nhãn lớp = 0} Luan van Ký hiệu luật Luật kết hợp Ký hiệu luật R8 {Điều kiện kinh tế gia đình = → Nhãn lớp = 0} R9 {Sự quan tâm, động viên gia đình = → Nhãn lớp = 0} R10 {Độ tuổi sinh viên = 4, Chất lượng xét tuyển đầu vào = → Nhãn lớp = 0} R11 {Đăng ký môn học khơng tiến độ đào tạo khóa học = → Nhãn lớp = 0} R12 {Kết đánh giá rèn luyện = 5, Phải làm thêm nhiều = 4, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 0} 133 133 0.992 R5 {Phải làm thêm nhiều = 1, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 1} 121 121 0.991 R6 {Điều kiện kinh tế gia đình = 2, Ý thức tự giác, chủ động học tập = 1, Sự quan tâm, động viên gia đình = → Nhãn lớp = 1} 9 0.90 R7 {Kết đăng ký môn học học kỳ = → Nhãn lớp = 0} 141 141 0.993 R8 {Điều kiện kinh tế gia đình = → Nhãn lớp = 0} 144 144 0.993 R9 {Sự quan tâm, động viên gia đình = → Nhãn lớp = 0} 151 151 0.993 R10 {Độ tuổi sinh viên = 4, Chất lượng xét tuyển đầu vào = → Nhãn lớp = 0} 144 144 0.993 R11 {Tiến độ đào tạo khóa học = → Nhãn lớp = 0} 161 161 0.993 R12 {Kết đánh giá rèn luyện = 5, Phải làm thêm nhiều = 4, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 0} 43 43 0.977 k: số nhãn lớp tập liệu huấn luyện Luật kết hợp R1 {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = → Nhãn lớp = 1} R2 {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = 2, Vắng thi học kỳ, khóa học = → Nhãn lớp = 1} {Kết học tập học kỳ = 1, Kết đánh giá rèn luyện = 2, Kết học tập tồn khóa = → Nhãn lớp = R3 Nhãn lớp Laplace accuracy nc ntot k (nc+1) /(ntot+k) 29 29 37 29 29 37 2 0.967 0.967 0.974 (nc+1) /(ntot+k) ntot: số lượng tuple tập liệu huấn luyện thỏa vế trái Ký hiệu luật k {Tiến độ đào tạo khóa học = → Nhãn lớp = 1} nc: số lượng tuple tập liệu huấn luyện thỏa vế trái vế phải Bảng Đánh giá độ xác luật tạo từ tập huấn luyện ntot R4 +1 + Trong đó: nc 1} Đánh giá độ xác luật từ thuật giải CPAR-GR tập huấn luyện = Luật kết hợp Laplace accuracy Nhãn lớp Luan van Đánh giá độ xác phân lớp = Sử dụng luật vào dự báo khả bỏ học sinh viên Với luật tìm sau sử dụng tập huấn luyện để đưa vào thuật giải CPAR-GR để xử lý Chúng ta sử dụng luật vừa tìm để dự báo tập liệu kiểm tra/ liệu cần thực dự báo Quy tắc luật tìm được, xác định cụ thể sau: R1: {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = → Nhãn lớp = 1}; Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = Kỷ luật, đình học tập học kỳ, dẫn đến khả sinh viên bỏ học R2: {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = 2, Vắng thi học kỳ, khóa học = → Nhãn lớp = 1}; Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = Kỷ luật, đình học tập học kỳ Vắng thi học kỳ, khóa học = Trên môn học kỳ, dẫn đến sinh viên có khả bỏ học R3: {Kết học tập học kỳ = 1, Kết đánh giá rèn luyện = 2, Kết học tập tồn khóa = → Nhãn lớp = 1}; Kết học tập học kỳ = Yếu/kém Kết đánh giá rèn luyện = Yếu Kết học tập tồn khóa = Yếu/kém, dẫn đến sinh viên có khả bỏ học R4: {Tiến độ đào tạo khóa học = → Nhãn lớp = 1}; Tiến độ đào tạo khóa học = Chậm so với tiến độ (trên 20%), dẫn đến sinh viên có khả bỏ học R5: {Phải làm thêm nhiều = 1, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 1}; Phải làm thêm nhiều = Rất nhiều Tự ý nghỉ học, tạm dừng, bảo lưu học tập = Tự ý nghỉ học, dẫn đến sinh viên có khả bỏ học R6: {Điều kiện kinh tế gia đình = 2, Ý thức tự giác, chủ động học tập = 1, Sự quan tâm, động viên gia đình = → Nhãn lớp = 1}; Điều kiện kinh tế gia đình = Hộ nghèo Ý thức tự giác, chủ động học tập Kém, khơng có Sự quan tâm, động viên gia đình = Khơng có, dẫn đến sinh viên có khả bỏ học R7: {Kết đăng ký môn học học kỳ = → Nhãn lớp = 0}; Kết đăng ký môn học học kỳ = Từ 23 đến 25 tín chỉ, dẫn đến sinh viên khơng có khả bỏ học R8: {Điều kiện kinh tế gia đình = → Nhãn lớp = 0}; Điều kiện kinh tế gia đình = Khá, dẫn đến sinh viên khơng có khả bỏ học R9: {Sự quan tâm, động viên gia đình = → Nhãn lớp = 0}; Sự quan tâm, động viên gia đình = Gia đình quan tâm, động viên việc học, dẫn đến sinh viên khơng có khả bỏ học R10: {Độ tuổi sinh viên = 4, Chất lượng xét tuyển đầu vào = → Nhãn lớp = 0}; Độ tuổi sinh viên = Hơn tuổi, Chất lượng xét tuyển đầu vào = Giỏi, dẫn đến sinh viên khơng có khả bỏ học R11: {Tiến độ đào tạo khóa học = → Nhãn lớp = 0}; Tiến độ đào tạo khóa học = Vượt tiến độ (trên 20%), dẫn đến sinh viên khơng có khả bỏ học R12: {Kết đánh giá rèn luyện = 5, Phải làm thêm nhiều = 4, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 0}; Kết đánh giá rèn luyện = Xuất sắc Phải làm thêm nhiều = Ít, khơng thường xun Tự ý nghỉ học, tạm dừng, bảo lưu học tập = Không có, dẫn đến sinh viên khơng có khả bỏ học Thực nghiệm tập liệu kiểm tra với 223 mẫu tin, với kết xác đạt 95.96% Luan van KẾT LUẬN 4.2 Hạn chế 4.1 Kết đạt Dữ liệu thu thập chưa nhiều, chưa bao quát hết yếu tố ảnh hưởng đến khả bỏ học sinh viên Nắm sở lý thuyết khai phá luật kết hợp, phân lớp vấn đề liên quan đến phân lớp dựa luật kết hợp Hiểu mô tả phương pháp lựa chọn thuộc tính Hiểu mơ tả thuật toán CPARGR dùng phân lớp dựa luật kết hợp Hiểu mô tả toán dự báo khả bỏ học sinh viên Xây dựng ứng dụng dự báo tình hình bỏ học sinh viên Trường Đại học Bình Dương Ứng dụng chưa thân thiện với người dùng 4.3 Hướng phát triển Tìm hiểu thuật giải WCBA (Weighted Classification Based on Association Rules) [4] ứng dụng phương pháp lựa chọn thuộc tính để loại bỏ thuộc tính quan trọng hơn, giúp luật sinh có độ xác cao So sánh thực nghiệm hai phương pháp CPAR-GR WCBA dựa tiêu chí độ xác thời gian thực thi để lựa chọn ứng dụng vào toán dự báo Tập liệu thu thập để huấn luyện kiểm tra nhiều thuộc tính hơn, với số lượng liệu phong phú từ nhiều nguồn khác để đánh giá độ xác cao Luan van TÀI LIỆU THAM KHẢO [1] M Nandhini and S N Sivanandam, “An improved predictive association rule based classifier using gain ratio and T-test for health care data diagnosis,” Sadhana - Acad Proc Eng Sci., vol 40, no 6, pp 1683–1699, 2015, doi: 10.1007/s12046-015-0410-6 [2] N.V.Chien, "Ứng dụng thuật toán phân lớp dựa luật kết hợp dự báo vào giải toán Dự báo tình hình nghỉ học, bỏ học học sinh trung học địa bàn Thành phố Hồ Chí Minh", 2020 [3] X Yin and J Han, “CPAR: Classification based on Predictive Association Rules,” pp 331–335, 2003, doi: 10.1137/1.9781611972733.40 [4] J Alwidian, B H Hammo, and N Obeid, “WCBA: Weighted classification based on association rules algorithm for breast cancer disease,” Appl Soft Comput J., vol 62, no November, pp 536–549, 2018, doi: 10.1016/j.asoc.2017.11.013 Tác giả chịu trách nhiệm viết: Họ tên: Thái Thanh Hùng Đơn vị: Học viên Trường đại học Sư phạm Kỹ thuật Tp.HCM Điện thoại: 0979813904 Email: tthung@bdu.edu.vn Luan van PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP ĐỂ DỰ BÁO KHẢ NĂNG BỎ HỌC CỦA SINH VIÊN TRƯỜNG ĐẠI HỌC BÌNH DƯƠNG CLASSIFICATION BASED ON ASSOCIATION RULES FORECAST OF STUDENT DROPOUT IN BINH DUONG UNIVERSITY Thái Thanh Hùng Học viên Trường đại học Sư phạm Kỹ thuật TP.HCM TÓM TẮT Kết học tập sinh viên mối quan tâm hàng đầu sở giáo dục đại học nói chung Trường Đại học Bình Dương nói riêng Vì thước đo chất lượng đào tạo, tín nhiệm xã hội sở giáo dục Trên sở cải thiện chất lượng đào tạo, kết học tập sinh viên tốt hơn, viết đề xuất ứng dụng phân lớp dựa luật kết hợp để dự báo khả bỏ học sinh viên Trường Đại học Bình Dương Kết nghiên cứu đưa dự báo khả sinh viên bỏ học tiếp tục học giúp cho cố vấn học tập kịp thời theo dõi có kế hoạch giúp đỡ kịp thời Từ khóa: Dự báo; CPAR-GR; phân lớp; bỏ học; kết học tập; sinh viên ABSTRACT Student learning outcomes are always the top concern of higher education in general and Binh Duong University in particular Because this is a measure of training quality, society's trust in education On the basis of improving training quality, better student learning outcomes, the article proposes the application of association rule-based analysis to predict the dropout probability of students at Binh Duong University The research results are predicted that students are likely to drop out or continue studying, helping to try to monitor the episode in time and have a timely help plan Keywords: Forecast; CPAR-GR; classification; dropout; learning outcomes; student ĐẶT VẤN ĐỀ Khi bước vào ngưỡng cửa đại học, cách thức sinh hoạt học tập khác với bậc phổ thơng nên sinh viên gặp khơng khó khăn bỡ ngỡ Một thật phủ nhận có sinh viên thủ khoa kỳ thi đại học có kết học tập khơng tốt mong đợi, chí cịn thấp sinh viên đủ điểm trúng tuyển Kết học tập sinh viên Trường Đại học Bình Dương, đặc biệt kết sau năm học nhiều vấn đề cần suy xét, có nhiều sinh viên bị thuộc thơi học học lực Chính vậy, việc xác định thực trạng đề xuất giải pháp nâng cao kết học tập sinh viên vấn đề cần thiết Kết học tập chịu ảnh hưởng nhiều yếu tốt chủ quan khách quan, gia đình bạn bè mơi trường học tập, xã hội…Bài viết tập trung giải pháp liên quan đến sinh viên giảng viên trình học tập lớp tự học sinh viên CƠ SỞ ĐỀ XUẤT GIẢI PHÁP 2.1 Cơ sở lý luận Phân lớp dựa luật kết hợp Phân lớp dựa luật kết hợp tìm tập luật kết hợp sở liệu cho, luật tập chứa vế phải giá trị thuộc tính lớp Cho sở liệu D, I tất mục D Y tập nhãn lớp Luật phân lớp kết hợp biểu thức có dạng X→y X⊆I y∈Y Độ tin cậy luật c c% mẫu D chứa X gán nhãn lớp y Độ phổ biến luật s s% mẫu D chứa X gán nhãn lớp y Phân lớp dựa luật kết hợp gồm giai đoạn: (1) tìm luật kết hợp, (2) phân lớp dựa luật kết hợp tìm Thuật giải CPAR-GR Thuật toán CPAR-GR dựa việc cải tiến thuật toán CPAR [3] gốc Yin & Han đề xuất năm 2003, cải thiện độ xác luật Luan van tạo đồng thời xác định chất lượng luật quan trọng Bằng cách sử dụng độ xác Laplace để đánh giá luật, luật k tốt chọn để sử dụng Đầu tiên tác giả đề xuất tiến hành tiền xử lý tập liệu cách giữ lại thuộc tính có tầm quan trọng, xóa thuộc tính quan trọng nhằm mục đích giảm thời gian xử lý Để thực bước tiền xử lý, tác giả đề xuất sử dụng thống kê T-test để đánh giá giá trị thuộc tính từ lớp đáp ứng tập liệu huấn luyện cho chọn theo độ xác Laplace Độ xác Laplace trung bình k luật tốt từ lớp xác định Một lớp có độ xác Laplace trung bình cao chọn làm nhãn lớp cho tập liệu kiểm tra Sau thực tiền xử lý phương pháp thống kê T-test, tác giả tiến hành tạo luật phân lớp thuật toán CPAR-GR [1-2] Việc kết hợp T-test CPAR-GR cho kết tốt độ xác luật tạo Hình Quy trình làm việc thuật giải CPAR-GR[1] 2.2 Mô tả thuật giải CPAR-GR Thuật giải CPAR-GR đề xuất với giai đoạn xử lý sau: Giai đoạn 1: Giai đoạn tiền xử lý Tại giai đoạn này, tập liệu xử lý với mục đích làm giảm kích thước, giữ lại thuộc tính có tầm quan trọng, loại bỏ thuộc tính quan trọng phương pháp thống kê T-test Thống kê T-test thực chức Independent Sample T–Test phần mềm SPSS (Statistical Package for the Social Sciences) với việc tính giá trị thuộc tính Thuộc tính có giá trị p  0.05 xem quan trọng giữ lại, ngược lại thuộc tính có giá trị p > 0.05 xem quan trọng xóa khỏi tập liệu Giai đoạn 2: Giai đoạn tạo luật kết hợp Sử dụng thuật giải CPAR-GR, tạo luật dựa tập liệu xử lý giai đoạn Tại giai đoạn này, độ xác luật tính gia giá trị độ xác Laplace xếp theo giá trị độ xác Giai đoạn 3: Giai đoạn chọn luật phân lớp Đây giai đoạn cuối cùng, k luật tốt ỨNG DỤNG THUẬT GIẢI CPAR-GR VÀO BÀI TOÁN DỰ BÁO KHẢ NĂNG BỎ HỌC CỦA SINH VIÊN, KẾT QUẢ THỰC NGHIỆM 3.1 Phương pháp thực Quá trình khai phá liệu sinh viên phục vụ việc dự đoán kết học tập tiến hành gồm bước thu thập, làm sạch, trích lọc, chuyển đổi liệu dạng phù hợp, ứng dụng kỹ thuật khai phá liệu để xây dựng mơ hình đánh giá kết thu Với sở liệu phục vụ cho việc khai phá nhằm dự báo khả bỏ học sinh viên thu thập từ nhiều nguồn liệu khác gồm phần mềm quản lý đào tạo, kết khảo sát, từ hồ sơ quản lý học tập Khoa Trong đó: Thơng tin sinh viên thu thập từ phần mềm quản lý đào tạo, thông tin cập nhật từ hồ sơ cá nhân sinh viên nhập học, thông tin cập nhật định kỳ Kết học tập sinh viên theo học kỳ, kết học tập năm học thu thập từ phần mềm quản lý đào tạo Kết khảo sát đánh giá giảng dạy theo học kỳ thu thập từ website, khảo sát nội Khoa Thông tin người sinh viên bao gồm thông tin mã định danh, ngày sinh, nơi Luan van sinh, giới tính, dân tộc, điểm tích lũy học kỳ, điểm tích lũy năm học, điểm rèn luyện,… Thông tin khảo sát đánh giá giảng dạy bao gồm thơng tin sau chương trình đào tạo, sở vật chất, đội ngũ giảng viên,… Dữ liệu trích xuất thực tế từ phần mềm quản lý đào tạo nên có tính xác thực cao Tuy nhiên, xuất số thuộc tính rỗng số liệu ảnh hưởng tiến độ giảng dạy, chấm thi cuối kỳ Đối với mẫu tin có thuộc tính rỗng đề tài đề xuất phương án điền tạm giá trị trung bình thuộc tính vào giá trị rỗng để dự báo kết 3.2 Kết thực nghiệm Mô tả liệu tập huấn luyện, tập liệu kiểm tra Dữ liệu sinh viên bỏ học lưu trữ Phòng Quản lý đào tạo Công tác sinh viên Hàng học kỳ, năm học, vào Quy chế đào tạo Nhà trường, Phịng Quản lý đào tạo Cơng tác sinh viên tiến hành xử lý học vụ sinh viên Sinh viên không thỏa điều kiện theo Quy chế bị nhắc nhở, cảnh báo, thơi học Sinh viên có định học nhập quản lý phần mềm quản lý đào tạo Nhà trường nhằm mục đích thống kê, báo cáo kịp thời yêu cầu Bộ Giáo dục Đào tạo Tập liệu sinh viên phục vụ nghiên cứu đề tài trích xuất từ phần mềm quản lý đào tạo Nhà trường gồm 1060 mẫu tin, đồng thời kết hợp với liệu quản lý Khoa thông qua kết khảo sát chất lượng giảng dạy, khảo sát cấp Trường sinh viên năm cuối mức ý nghĩa (thông thường mức ý nghĩa 0.05 = 5%) có khác biệt khơng có khác biệt thuộc tính tình hình bỏ học sinh viên Nếu Sig kiểm định t ≤ α (mức ý nghĩa) -> có khác biệt có ý nghĩa trung bình tổng thể Nếu Sig > α (mức ý nghĩa) -> khác biệt có ý nghĩa trung bình tổng thể Từ kết phân tích chức Independent Sample T-test, có thuộc tính, gồm: Giới tính, Hoạt động Đồn – Hội, Hoạt động CLB trường có Sig 0.05 Vì đưa liệu vào tập huấn kiểm tra tiến hành loại bỏ thuộc tính khỏi tập liệu Kết tạo luật Bảng Kết tạo luật thuật giải CPAR-GR Ký hiệu luật Luật kết hợp R1 {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = → Nhãn lớp = 1} R2 {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = 2, Vắng thi học kỳ, khóa học = → Nhãn lớp = 1} R3 {Kết học tập học kỳ = 1, Kết đánh giá rèn luyện = 2, Kết học tập tồn khóa = → Nhãn lớp = 1} R4 {Đăng ký môn học không tiến độ đào tạo khóa học = → Nhãn lớp = 1} R5 {Phải làm thêm nhiều = 1, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 1} R6 {Điều kiện kinh tế gia đình = 2, Ý thức tự giác, chủ động học tập = 1, Sự quan tâm, động viên gia đình = → Nhãn lớp = 1} R7 {Kết đăng ký môn học học kỳ = → Nhãn lớp = 0} R8 {Điều kiện kinh tế gia đình = → Nhãn lớp = 0} R9 {Sự quan tâm, động viên gia đình = → Nhãn lớp = 0} R10 {Độ tuổi sinh viên = 4, Chất lượng xét tuyển đầu vào = → Nhãn lớp = 0} R11 {Đăng ký môn học không tiến độ đào tạo khóa học = → Nhãn lớp = 0} R12 {Kết đánh giá rèn luyện = 5, Phải làm thêm nhiều = 4, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 0} Kết thực nghiệm Tiền xử lý liệu huấn luyện việc sử dụng chức phân tích Independent Samples Test phần mềm SPSS để loại bỏ thuộc tính có giá trị quan trọng Với việc sử dụng phương pháp T-test xử lý loại bỏ thuộc tính có Luan van Đánh giá độ xác luật từ thuật giải CPAR-GR tập huấn luyện +1 + = Ký hiệu luật nc R7 {Kết đăng ký môn học học kỳ = → Nhãn lớp = 0} 141 141 0.993 R8 {Điều kiện kinh tế gia đình = → Nhãn lớp = 0} 144 144 0.993 R9 {Sự quan tâm, động viên gia đình = → Nhãn lớp = 0} 151 151 0.993 R10 {Độ tuổi sinh viên = 4, Chất lượng xét tuyển đầu vào = → Nhãn lớp = 0} 144 144 0.993 R11 {Tiến độ đào tạo khóa học = → Nhãn lớp = 0} 161 161 0.993 R12 {Kết đánh giá rèn luyện = 5, Phải làm thêm nhiều = 4, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 0} 43 43 0.977 nc: số lượng tuple tập liệu huấn luyện thỏa vế trái vế phải k: số nhãn lớp tập liệu huấn luyện Bảng Đánh giá độ xác luật tạo từ tập huấn luyện Ký hiệu luật Luật kết hợp R1 {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = → Nhãn lớp = 1} R2 R3 R4 R5 R6 Nhãn lớp {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = 2, Vắng thi học kỳ, khóa học = → Nhãn lớp = 1} {Kết học tập học kỳ = 1, Kết đánh giá rèn luyện = 2, Kết học tập tồn khóa = → Nhãn lớp = 1} Laplace accuracy nc ntot k (nc+1) /(ntot+k) 29 29 37 29 29 37 2 0.967 0.967 0.974 Luật kết hợp {Phải làm thêm nhiều = 1, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 1} {Điều kiện kinh tế gia đình = 2, Ý thức tự giác, chủ động học 133 121 133 121 2 0.992 0.991 k (nc+1) /(ntot+k) Đánh giá độ xác phân lớp = {Tiến độ đào tạo khóa học = → Nhãn lớp = 1} ntot tập = 1, Sự quan tâm, động viên gia đình = → Nhãn lớp = 1} Trong đó: ntot: số lượng tuple tập liệu huấn luyện thỏa vế trái Laplace accuracy Nhãn lớp Sử dụng luật vào dự báo khả bỏ học sinh viên Với luật tìm sau sử dụng tập huấn luyện để đưa vào thuật giải CPAR-GR để xử lý Chúng ta sử dụng luật vừa tìm để dự báo tập liệu kiểm tra/ liệu cần thực dự báo Quy tắc luật tìm được, xác định cụ thể sau: 9 0.90 R1: {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = → Luan van Nhãn lớp = 1}; Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = Kỷ luật, đình học tập học kỳ, dẫn đến khả sinh viên bỏ học R2: {Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = 2, Vắng thi học kỳ, khóa học = → Nhãn lớp = 1}; Cảnh báo học vụ, bị kỷ luật, đình chỉ, nhắc nhở trình học tập = Kỷ luật, đình học tập học kỳ Vắng thi học kỳ, khóa học = Trên môn học kỳ, dẫn đến sinh viên có khả bỏ học R3: {Kết học tập học kỳ = 1, Kết đánh giá rèn luyện = 2, Kết học tập tồn khóa = → Nhãn lớp = 1}; Kết học tập học kỳ = Yếu/kém Kết đánh giá rèn luyện = Yếu Kết học tập toàn khóa = Yếu/kém, dẫn đến sinh viên có khả bỏ học R4: {Tiến độ đào tạo khóa học = → Nhãn lớp = 1}; Tiến độ đào tạo khóa học = Chậm so với tiến độ (trên 20%), dẫn đến sinh viên có khả bỏ học R5: {Phải làm thêm nhiều = 1, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 1}; Phải làm thêm nhiều = Rất nhiều Tự ý nghỉ học, tạm dừng, bảo lưu học tập = Tự ý nghỉ học, dẫn đến sinh viên có khả bỏ học R6: {Điều kiện kinh tế gia đình = 2, Ý thức tự giác, chủ động học tập = 1, Sự quan tâm, động viên gia đình = → Nhãn lớp = 1}; Điều kiện kinh tế gia đình = Hộ nghèo Ý thức tự giác, chủ động học tập Kém, Sự quan tâm, động viên gia đình = Khơng có, dẫn đến sinh viên có khả bỏ học R7: {Kết đăng ký môn học học kỳ = → Nhãn lớp = 0}; Kết đăng ký môn học học kỳ = Từ 23 đến 25 tín chỉ, dẫn đến sinh viên khơng có khả bỏ học R8: {Điều kiện kinh tế gia đình = → Nhãn lớp = 0}; Điều kiện kinh tế gia đình = Khá, dẫn đến sinh viên khơng có khả bỏ học R9: {Sự quan tâm, động viên gia đình = → Nhãn lớp = 0}; Sự quan tâm, động viên gia đình = Gia đình quan tâm, động viên việc học, dẫn đến sinh viên khơng có khả bỏ học R10: {Độ tuổi sinh viên = 4, Chất lượng xét tuyển đầu vào = → Nhãn lớp = 0}; Độ tuổi sinh viên = Hơn tuổi, Chất lượng xét tuyển đầu vào = Giỏi, dẫn đến sinh viên khả bỏ học R11: {Tiến độ đào tạo khóa học = → Nhãn lớp = 0}; Tiến độ đào tạo khóa học = Vượt tiến độ (trên 20%), dẫn đến sinh viên khơng có khả bỏ học R12: {Kết đánh giá rèn luyện = 5, Phải làm thêm nhiều = 4, Tự ý nghỉ học, tạm dừng, bảo lưu học tập = → Nhãn lớp = 0}; Kết đánh giá rèn luyện = Xuất sắc Phải làm thêm nhiều = Ít, khơng thường xun Tự ý nghỉ học, tạm dừng, bảo lưu học tập = Khơng có, dẫn đến sinh viên khơng có khả bỏ học Thực nghiệm tập liệu kiểm tra với 223 mẫu tin, với kết xác đạt 95.96% KẾT LUẬN 4.1 Kết đạt Nắm sở lý thuyết khai phá luật kết hợp, phân lớp vấn đề liên quan đến phân lớp dựa luật kết hợp Hiểu mô tả phương pháp lựa chọn thuộc tính Hiểu mơ tả thuật tốn CPAR-GR dùng phân lớp dựa luật kết hợp Hiểu mơ tả tốn dự báo khả bỏ học sinh viên Xây dựng ứng dụng dự báo tình hình bỏ học sinh viên Trường Đại học Bình Dương 4.2 Hạn chế Dữ liệu thu thập chưa nhiều, chưa bao quát hết yếu tố ảnh hưởng đến khả bỏ học sinh viên Luan van Ứng dụng chưa thân thiện với người dùng 4.3 Hướng phát triển Tìm hiểu thuật giải WCBA (Weighted Classification Based on Association Rules ) [4] ứng dụng phương pháp lựa chọn thuộc tính để loại bỏ thuộc tính quan trọng hơn, giúp luật sinh có độ xác cao So sánh thực nghiệm hai phương pháp CPAR-GR WCBA dựa tiêu chí độ xác thời gian thực thi để lựa chọn ứng dụng vào toán dự báo Tập liệu thu thập để huấn luyện kiểm tra nhiều thuộc tính hơn, với số lượng liệu phong phú từ nhiều nguồn khác để đánh giá độ xác cao Luan van TÀI LIỆU THAM KHẢO [1] M Nandhini and S N Sivanandam, “An improved predictive association rule based classifier using gain ratio and T-test for health care data diagnosis,” Sadhana - Acad Proc Eng Sci., vol 40, no 6, pp 1683–1699, 2015, doi: 10.1007/s12046-015-0410-6 [2] N.V.Chien, "Ứng dụng thuật toán phân lớp dựa luật kết hợp dự báo vào giải tốn Dự báo tình hình nghỉ học, bỏ học học sinh trung học địa bàn Thành phố Hồ Chí Minh", 2020 [3] X Yin and J Han, “CPAR: Classification based on Predictive Association Rules,” pp 331– 335, 2003, doi: 10.1137/1.9781611972733.40 [4] J Alwidian, B H Hammo, and N Obeid, “WCBA: Weighted classification based on association rules algorithm for breast cancer disease,” Appl Soft Comput J., vol 62, no November, pp 536–549, 2018, doi: 10.1016/j.asoc.2017.11.013 Tác giả chịu trách nhiệm viết: Họ tên: Thái Thanh Hùng Đơn vị: Học viên Trường đại học Sư phạm Kỹ thuật Tp.HCM Điện thoại: 0979813904 Email: tthung@bdu.edu.vn Giảng viên hướng dẫn xác nhận TS Nguyễn Thành Sơn Luan van Luan van ... thuật phân lớp dựa luật kết hợp dự báo khả bỏ học sinh viên Trường Đại học Bình Dương 4.2 Phạm vi nghiên cứu Nghiên cứu thuật giải phân lớp dựa luật kết hợp CPAR-GR ứng dụng vào toán dự báo khả bỏ. .. ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ THÁI THANH HÙNG PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP ĐỂ DỰ BÁO KHẢ NĂNG BỎ HỌC CỦA SINH VIÊN TRƯỜNG ĐẠI HỌC BÌNH DƯƠNG NGÀNH:... học: Khoa học máy tính Tên luận văn: Phân lớp dựa luật kết hợp để dự báo khả bỏ học sinh viên Trường Đại học Bình Dương Ngày & nơi bảo vệ luận văn: Ngày bảo vệ 22/4/2021 Trường Đại học Sư phạm

Ngày đăng: 02/02/2023, 09:57

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan