Ứng dụng kỹ thuật học máy trên dữ liệu mất cân bằng hỗ trợ dự đoán sớm khả năng thôi học của học sinh trung học phổ thông

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	10
Dung lượng	840,05 KB

Nội dung

Bài viết đề xuất một mô hình học máy cho bài toán phân lớp trên tập dữ liệu mất cân bằng, trong đó sử dụng kết hợp kỹ thuật sinh mẫu tổng hợp SMOTE và giải thuật AdaBoost cho thuật toán Cây quyết định.

Trường Đại học Vinh Tạp chí khoa học, Tập 49 - Số 2A/2020, tr 47-56 ỨNG DỤNG KỸ THUẬT HỌC MÁY TRÊN DỮ LIỆU MẤT CÂN BẰNG HỖ TRỢ DỰ ĐỐN SỚM KHẢ NĂNG THƠI HỌC CỦA HỌC SINH TRUNG HỌC PHỔ THÔNG Võ Đức Quang (1), Nguyễn Thị Lan Anh (2), Mai Hồng Mận (3), Cao Thanh Sơn (4) Viện Kỹ thuật Công nghệ, Trường Đại học Vinh Nghiên cứu sinh, Trường Đại học Bách Khoa Hà Nội Trường THPT Đơng Hiếu, Thái Hịa, Nghệ An Lớp 58K4 Công nghệ thông tin, Viện Kỹ thuật Công nghệ, Trường Đại học Vinh Viện Kỹ thuật Công nghệ, Trường Đại học Vinh Ngày nhận 29/5/2020, ngày nhận đăng 13/7/2020 Tóm tắt: Bài báo đề xuất mơ hình học máy cho tốn phân lớp tập liệu cân bằng, sử dụng kết hợp kỹ thuật sinh mẫu tổng hợp SMOTE giải thuật AdaBoost cho thuật toán Cây định Các tác giả tiến hành thực nghiệm đánh giá so sánh hiệu phân lớp mô hình đề xuất với giải thuật Cây định sử dụng entropy số Gini liệu thực tế thu thập Trường trung học phổ thơng (THPT) Đơng Hiếu, Thái Hịa, Nghệ An từ năm 2014 đến năm 2019 Kết nghiên cứu sử dụng làm tảng để xây dựng ứng dụng hỗ trợ dự đốn sớm khả thơi học học sinh THPT, có ý nghĩa góp phần nâng cao chất lượng giáo dục đào tạo nhà trường cấp quản lý giáo dục Từ khóa: Học máy; khai phá liệu; liệu cân bằng; Cây định; AdaBoost, SMOTE Mở đầu Phân lớp liệu toán phổ biến ứng dụng khai phá liệu, xây dựng hệ dự đoán, dự báo hay khuyến nghị nhằm hỗ trợ người nhiều lĩnh vực đời sống Các phương pháp giải toán phân lớp thường sử dụng mơ hình dạng luật sử dụng giải thuật học máy như: Cây định, Mạng nơ-ron, Naïve Bayes, Support Vector Machines… Trong nhiều trường hợp, giải thuật không đạt hiệu cao liệu có chênh lệch lớn số lượng mẫu học nhãn lớp, gọi liệu cân Trong liệu đó, nhãn lớp có số lượng mẫu học lớn gọi lớp đa số (nhãn âm, nhãn tiêu cực, thường ký hiệu -1); nhãn lớp có số lượng mẫu học gọi lớp thiểu số (nhãn dương, nhãn tích cực, thường ký hiệu +1) Tuy nhiên, liệu cân lại xuất phổ biến toán quan trọng phát trường hợp gặp, chuẩn đoán bệnh y học, dự đoán sớm khả học trường học, phát cố môi trường, phát gian lận giao dịch, phát công mạng Tùy thuộc vào trường hợp hoàn cảnh cụ thể, độ cân khác nhau, từ mức độ nhỏ, vừa phải, trường hợp tỷ lệ cân lớn đến lớn, lên đến 1:100 chí 1:10.000 Khi đó, áp dụng thuật toán học máy truyền thống tập liệu cân bằng, phần tử thuộc lớp nhãn đa số phân lớp phần tử thuộc lớp thiểu số dễ bị nhận diện gán nhãn nhầm nhãn lớp đa số Điều dễ hiểu giải thuật học máy điều chỉnh theo hướng phân lớp xác tối đa số mẫu, trường hợp cân số mẫu nhãn âm đa số dẫn đến mơ hình phân lớp q “khớp” với liệu lớp đa số Điều dẫn Email: quangvd@vinhuni.edu.vn (V Đ Quang) 47 V Đ Quang, N T L Anh, M H Mận, C T Sơn / Ứng dụng kỹ thuật học máy liệu cân đến mơ hình phân lớp cho kết với độ xác (accuracy) cao giá trị độ nhạy (sensitivity) lại thấp Do vậy, giải thuật phân lớp thực hiệu liệu cân lại cho kết không tốt với tập liệu cân Điều tạo nên thú vị tạo động lực việc nghiên cứu phương pháp cải tiến mơ hình phân lớp áp dụng cho toán liệu cân Nhiều phương pháp đề xuất để giải vấn đề [5], chủ yếu phân thành hai nhóm bản: tiếp cận mức giải thuật tiếp cận mức liệu - Tiếp cận mức giải thuật hướng tới việc điều chỉnh thuật toán phân lớp mạnh truyền thống để có hiệu cao tập liệu cân Một số phương pháp nhà nghiên cứu đề xuất như: Điều chỉnh xác suất ước lượng, sử dụng số phạt khác cho nhãn lớp khác - Tiếp cận mức liệu nhằm tạo phân bố cân số lượng mẫu nhãn lớp, kỹ thuật thường sử dụng: (i) sinh thêm phần tử cho lớp thiểu số: SMOTE [7], ADA-SYN, OSD (ii) loại bỏ bớt phần tử thuộc lớp đa số: NearMiss, SMOTE với Tomek links [8]… Bên cạnh đó, lĩnh vực giáo dục, báo cáo thống kê giáo dục phổ thông năm gần từ sở giáo dục đào tạo cho thấy tượng học sinh học bậc trung học sở (THCS) THPT xảy phổ biến Có nhiều nguyên nhân dẫn đến tình trạng học sinh thơi học như: kết học tập, hồn cảnh gia đình cá nhân, môi trường tác động, sở hạ tầng giáo dục, thay đổi cách dạy học từ THCS lên THPT Trước thách thức đó, nhà hoạch định sách quản lý giáo dục sở cần phải tìm hiểu nguyên nhân để cải thiện chất lượng công tác giảng dạy hỗ trợ người học Song song với đó, việc theo dõi, rà soát trạng, đưa dự đoán phát sớm học sinh thơi học có ý nghĩa lớn việc đưa giải pháp, tư vấn, hỗ trợ kịp thời để giảm thiểu tối đa việc học sinh học [3, 4] Với tảng giải thuật học máy, hồn tồn xây dựng hệ thống dự đốn sớm khả thơi học học sinh thông qua giải thuật phân lớp nhị phân, với nhãn -1 liệu học sinh theo học bình thường, nhãn +1 gán cho liệu học sinh học; thuộc tính mẫu liệu cần thu thập thơng tin học sinh ảnh hưởng đến việc thơi học như: giới tính, hồn cảnh gia đình, hạnh kiểm, học lực, điểm đầu vào, nghề nghiệp bố mẹ… Do số lượng học sinh học so với học sinh theo học chiếm tỷ lệ nhỏ nên liệu trở thành liệu cân nhị phân Trong báo này, tác giả tiến hành thu thập liệu thực tế tình trạng học sinh thơi học Trường THPT Đơng Hiếu, Thái Hịa, Nghệ An, từ thử nghiệm sử dụng phương pháp học máy liệu cân để xây dựng mơ hình phân lớp dự đốn sớm học sinh thơi học Bài báo tiến hành đánh giá, so sánh kết phân lớp dự đoán giải thuật Cây định [3], Cây định kết hợp AdaBoost đánh giá hiệu kỹ thuật lấy mẫu OverSampling SMOTE Các giải thuật phân lớp sở 2.1 Thuật toán phân lớp dựa vào Cây định Cây định (decision tree) kiểu mô hình dự đốn có cấu trúc phân cấp nút nhánh biểu diễn dạng [1, 2] Cây định có ba loại nút: nút gốc (root), nút (internal node) nút (leaf node) Nó dùng 48 Trường Đại học Vinh Tạp chí khoa học, Tập 49 - Số 2A/2020, tr 47-56 để phân lớp cách xuất phát từ nút gốc di chuyển theo nhánh gặp nút Trên sở phân lớp này, chuyển đổi luật định (dạng if-then) Mỗi nút biểu diễn thuộc tính, nhánh biểu diễn giá trị có thuộc tính, nút biểu diễn giá trị nhãn lớp Hình biểu diễn định tổng quát Hình 1: Cây định tổng quát Tạo định q trình phân tích sở liệu, phân lớp đưa dự đoán Cây định tạo thành cách chia tập liệu thành tập con, tập tạo thành chủ yếu từ phần tử lớp Lựa chọn thuộc tính để tạo nhánh thường dựa vào entropy số Gini Xét tập liệu sau: + C = {C1, C2, …, Cm}: thuộc tính phân lớp; + D: tập liệu huấn luyện có thuộc tính phân lớp C; + D = D1  D2  …  Dt: phân hoạch D với Di  Dj =  Để thực trình phân lớp, cần tìm kiếm độ đo để đánh giá mức độ đồng đối tượng dựa thuộc tính phân lớp từ chọn độ đo để tìm phân hoạch D có mức độ đồng cực đại Một số độ đo phổ biến thường dùng gồm entropy số Gini - Entropy tập liệu lượng thông tin cần thiết để phân loại phần tử tập liệu huấn luyện D, ký hiệu: Info(D) - Đặt pi xác suất phần tử D thuộc vào lớp Ci với  i  m - Đặt Di tập phần tử D thuộc lớp Ci Ta có: (2.1) ( ) ∑ ( ) - Entropy tập liệu ứng với thuộc tính A lượng thơng tin cần để phân loại phần tử tập liệu D dựa thuộc tính A, ký hiệu InfoA(D), thuộc tính A dùng để tách D thành t phân hoạch tương ứng D1, D2, …, Dt Mỗi phân hoạch Dj có |Dj| phần tử, với  j  t Lượng thông tin cho biết mức độ trùng lặp phân hoạch mong đợi InfoA(D) nhỏ tốt Ta có cơng thức tính InfoA(D) sau: ( ) ∑ | | ( ( ) (2.2) 49 V Đ Quang, N T L Anh, M H Mận, C T Sơn / Ứng dụng kỹ thuật học máy liệu cân - Độ lợi thơng tin (information gain) có mục đích tối thiểu hố lượng thơng tin cần thiết để phân lớp mẫu liệu Độ lợi thông tin ứng với thuộc tính A, ký hiệu Gain(A), độ sai lệch entropy ban đầu tập liệu (trước phân hoạch) entropy liệu với thuộc tính A (sau phân hoạch A) Để tạo nhánh định, ta chọn thuộc tính có độ lợi thông tin Gain(A) lớn (2.3) ( ) ( ) ( ) - Chỉ số Gini (Gini Index) dựa vào bình phương xác suất thành viên cho thể loại đích nút Giá trị tiến đến trường hợp nút rơi vào thể loại đích Giả sử y = {1, 2, , n}, gọi f(i, j) tần suất giá trị j nút i, f(i, j) tỷ lệ ghi với y = j xếp vào nhóm i Ta có cơng thức: () ∑ ( ) (2.4) 2.2 Kỹ thuật AdaBoost kết hợp Cây định Boosting kỹ thuật sử dụng kết hợp thuật toán học máy quần thể khơng gian mẫu cách tuần tự, sau thực tổng hợp kết phân lớp riêng để phân lớp hiệu Một giải thuật hiệu Boosting AdaBoost (Adaptive Boosting) [6], sử dụng trọng số phân bổ lỗi gán cho mẫu Giải thuật Thuật toán ban đầu phân bổ trọng số tương đương mẫu huấn luyện Trong bước lặp, thuật toán tiến hành: (i) huấn luyện mẫu phân loại yếu; (ii) kiểm tra lại kết phân lớp mẫu huấn luyện có xác khơng; (iii) tính tốn lại phân bổ trọng số lỗi mẫu theo hướng: tăng trọng số lỗi mẫu bị phân loại sai giảm trọng số lỗi mẫu phân loại Sau kết thúc vòng lặp, giải thuật tiến hành tổng hợp phân lớp thành viên thành phân lớp tổng hợp Giải thuật 1: Giải thuật AdaBoost Input: Tập N mẫu liệu XTrain, XValidation, M: số lần lặp tối đa, ωi: phân bổ trọng số lỗi Output: H: Bộ phân lớp tổng hợp Begin Initialize: ωi = 1/N, T=1, ; /∗ phân loại thành viên ∗/ For m = 1, 2,…, M (a) Xtrain( ) sử dụng ωi (b) hm ← Train(Xtrain) (c) Tính đại lượng: εm= ∑ ( ( (d) Tính tốn tham số mơ hình: αm=λ.log (e) Thiết lập lại phân bổ trọng số lỗi: ωi+1 ← ( ∑ (f) Hm= Return HT End 50 )) ∑ (0< ( ) )) , i = 1, 2,…,N Trường Đại học Vinh Tạp chí khoa học, Tập 49 - Số 2A/2020, tr 47-56 Chú ý Giải thuật 1, tập liệu X với N mẫu ban đầu chia vào tập XTrain, XValidation, đó, mẫu gán trọng số lỗi ban đầu ωi=1/N Trong vòng lặp, phân lớp hm sử dụng để phân lớp Xtrain Từ kết phân lớp nhận được, giải thuật kiểm tra việc phân loại xác mẫu Tính tốn tham số αm cho phân lớp hm bước (d) thông qua đại lượng trung gian εm bước (c) Từ đó, tính tốn phân bổ trọng số lỗi ωi+1 theo hướng tăng trọng số mẫu bị phân loại sai, giảm bớt trọng số mẫu phân loại Việc tính tốn thực thông qua công thức bước (e) Bước (f) tiến hành tạo phân lớp tổng hợp Hm dựa tham số αm Nhãn phân lớp xác định dựa vào hàm dấu: nhãn (+1) Hm > ngược lại, nhãn (-1) Hm < 2.3 Kỹ thuật lấy mẫu OverSampling SMOTE Như đề cập Phần 1, mơ hình giải thuật học máy cho tỷ lệ xác cao liệu cân bằng, thực tế tỷ lệ khơng mang nhiều ý nghĩa Ví dụ, giả sử liệu có 100 mẫu, với 95 nhãn âm (-1), 05 mẫu nhãn dương (+1) Nếu mơ hình cho kết phân lớp dự đoán 92 nhãn (-1) 01 mẫu nhãn (+1), tỷ lệ phân loại xác lên đến 93%, nhiên mơ hình khơng có nhiều ý nghĩa phân lớp dự đoán 01 05 mẫu nhãn lớp quan trọng nhãn (+1) Để tận dụng cải thiện chất lượng phân lớp giải thuật học máy, nhiều nghiên cứu tiếp cận theo hướng sử dụng kỹ thuật lấy mẫu (Sampling): sinh mẫu tổng hợp cho nhãn (+1) (OverSampling) giảm số lượng mẫu nhãn (-1) (UnderSampling) nhằm mục đích cải thiện tỷ lệ số lượng mẫu nhãn lớp cân Trong báo này, sử dụng kỹ thuật OverSampling phổ biến SMOTE (Synthetic Minority Over-sampling) [7] để điều chỉnh mức độ cân liệu Kỹ thuật nhằm mục đích tạo liệu nhân tạo dựa không gian đặc tính tương đồng với mẫu nhóm thiểu số SMOTE sử dụng giải thuật K-láng giềng gần KNN (K-Nearest Neighbor), tính tốn khoảng cách khơng gian thuộc tính mẫu nhóm thiểu số; từ làm sở để tạo mẫu tổng hợp với khác biệt khơng gian thuộc tính nhỏ Mẫu tổng hợp xnew dựa việc chọn K láng giềng số thực để xác định vị trí: (2.5) (̂ )∗ Hình 2: Minh họa q trình lấy mẫu 51 V Đ Quang, N T L Anh, M H Mận, C T Sơn / Ứng dụng kỹ thuật học máy liệu cân Để minh họa, giả sử mẫu nhãn lớp thiểu số (+1) biểu diễn đối tượng hình tròn, nhãn lớp đa số (-1) minh họa đối tượng hình Hình Để sinh K mẫu tổng hợp từ mẫu , giải thuật tìm K láng giềng gần Sau đó, dựa vào để tổng hợp nên mẫu xnew “đường đi” từ đến láng giềng Hình dựa vào cơng thức (2.5) Việc chọn K tạo nên mẫu tổng hợp đạt tỷ lệ cân mẫu mong muốn Hình minh họa liệu 1000 mẫu có 20 mẫu có nhãn (+1) 980 mẫu nhãn (-1), tỷ lệ cân 1:49; sau thử nghiệm kỹ thuật SMOTE đạt tỷ lệ cân mẫu 1:5 Hình 3: Mẫu liệu sinh với kỹ thuật SMOTE Đề xuất mơ hình phân lớp dự đốn Dựa phương pháp giải thuật trình bày Mục 2, phần này, đề xuất mô hình phân lớp cho ứng dụng dự đốn sớm khả học sinh học Với liệu cân bằng, mơ hình sử dụng kỹ thuật sinh mẫu tổng hợp SMOTE cho lớp nhãn thiểu số, đưa liệu trạng thái cân Áp dụng giải thuật học máy phổ biến Cây định AdaBoost kết hợp Cây định để tiến hành huấn luyện mẫu, đề xuất mô hình phân lớp dự đốn Hình Trong q trình huấn luyện mẫu thử, mơ hình liên tục đánh giá lại, dựa kỹ thuật AdaBoost trình bày Mục 2.2, để thích nghi với đặc trưng liệu Hình 4: Mơ hình phân lớp dự đốn 52 Trường Đại học Vinh Tạp chí khoa học, Tập 49 - Số 2A/2020, tr 47-56 Thử nghiệm kết Các bước thực thử nghiệm phân lớp dự đốn sớm khả thơi học học sinh mô tả sau: - Bước 1: Thu thập liệu thông tin học sinh Trường THPT Đơng Hiếu, Thị xã Thái Hịa, Nghệ An từ năm 2014 đến 2019; - Bước 2: Tiền xử lý liệu: xử lý liệu thiếu; chuyển đổi số hóa giá trị thuộc tính; sử dụng kỹ thuật sinh mẫu SMOTE để giảm tỷ lệ cân bằng; - Bước 3: Chia tập liệu huấn luyện kiểm tra theo kịch thử nghiệm; - Bước 4: Thực huấn luyện tạo mơ hình theo giải thuật đề xuất; - Bước 5: Phân tích đánh giá kết thử nghiệm Bộ liệu thử nghiệm kết thu thập thông tin học sinh Trường THPT Đơng Hiếu, Thái Hịa, Nghệ An từ năm 2014 đến 2019 Bộ liệu gồm 828 mẫu, có 101 mẫu thơng tin học sinh học (nhãn +1), tức tỷ lệ cân xấp xỉ 1:8 Ngồi thuộc tính nhãn, mẫu liệu có 14 thuộc tính chuẩn hóa sang dạng số, bao gồm: Giới tính, Lịch sử kỷ luật, Lịch sử khen thưởng, Mức sống gia đình, Nghề nghiệp bố, Nghề nghiệp mẹ, Học lực THCS, Hạnh kiểm THCS, Điểm tuyển sinh, Khoảng cách địa lý, Tình trạng vắng học, Số anh chị em, Tình trạng gia đình, Ý thức học tập Kịch thử nghiệm tiến hành phân lớp dự đoán sử dụng giải thuật Cây định với số Gini entropy; Cây định kết hợp AdaBoost; sử dụng kỹ thuật lấy mẫu OverSampling SMOTE liệu thu thập với tỷ lệ mẫu huấn luyện thử nghiệm (Training/Test) khác Các kết đánh giá dựa độ đo Accuracy, Confusion Matrix, Precision, Recall, F1-Score Kết thu với liệu ban đầu với tỷ lệ cân khoảng 1:7 thể Bảng 1, T tỷ lệ phần trăm tập liệu thử nghiệm trích từ tập liệu ban đầu Bảng 1: Tập liệu với tỷ lệ cân 1:7 T = 0.3 Giải thuật T = 0.5 T = 0.7 Ma trận Độ Ma trận Độ Ma trận Độ nhầm lẫn xác nhầm lẫn xác nhầm lẫn xác Cây 214 định với [ số Gini Cây định với entropy [ Cây định với AdaBoost [ ] 29 0.9759 [ 35 ] 46 0.9758 [ 506 13 ] 0.9724 216 ] 29 0.9839 [ 35 ] 46 0.9758 [ 506 13 ] 0.9724 ] 29 0.9879 [ ] 45 0.9830 [ 505 ] 65 0.9810 53 V Đ Quang, N T L Anh, M H Mận, C T Sơn / Ứng dụng kỹ thuật học máy liệu cân Bảng 2: Kết thực nghiệm Tỷ lệ liệu 1:7 1:5 SMOTE 1:3 SMOTE 1:2 SMOTE 1:1.5 SMOTE 1:1 SMOTE 54 T 0.3 0.4 0.5 0.6 0.7 0.8 0.3 0.4 0.5 0.6 0.7 0.8 0.3 0.4 0.5 0.6 0.7 0.8 0.3 0.4 0.5 0.6 0.7 0.8 0.3 0.4 0.5 0.6 0.7 0.8 0.3 0.4 0.5 0.6 0.7 0.8 Cây định với Cây định với Cây định với số Gini Entropy AdaBoost F1F1F1Precision Recall Precision Recall Precision Recall score score score 0.9241 0.9719 0.9462 0.9508 0.9765 0.9632 0.9470 0.9598 0.9533 0.9250 0.9522 0.9380 0.9250 0.9522 0.9380 0.9520 0.9324 0.9419 0.9368 0.9518 0.9441 0.9368 0.9518 0.9441 0.9792 0.9286 0.9520 0.9489 0.9359 0.9423 0.9489 0.9359 0.9423 0.9378 0.9503 0.9439 0.9629 0.9055 0.9316 0.9629 0.9055 0.9316 0.9487 0.9378 0.9431 0.9191 0.9378 0.9281 0.9191 0.9378 0.9281 0.9427 0.9477 0.9452 0.9664 0.9822 0.9741 0.9664 0.9822 0.9741 0.9634 0.9713 0.9673 0.9474 0.9806 0.9630 0.9474 0.9806 0.9630 0.9527 0.9730 0.9625 0.9243 0.9348 0.9295 0.9243 0.9348 0.9295 0.9524 0.9692 0.9606 0.9274 0.9674 0.9459 0.9274 0.9674 0.9459 0.9552 0.9682 0.9616 0.9522 0.9522 0.9522 0.9522 0.9522 0.9522 0.9603 0.9491 0.9546 0.9401 0.9496 0.9448 0.9401 0.9496 0.9448 0.9481 0.9513 0.9497 0.9768 0.9680 0.9723 0.9768 0.9680 0.9723 0.9661 0.9703 0.9681 0.9536 0.9702 0.9615 0.9536 0.9702 0.9615 0.9663 0.9698 0.9681 0.9478 0.9708 0.9586 0.9478 0.9708 0.9586 0.9651 0.9733 0.9691 0.9657 0.9700 0.9679 0.9657 0.9700 0.9679 0.9652 0.9758 0.9704 0.9629 0.9609 0.9619 0.9629 0.9609 0.9619 0.9594 0.9651 0.9622 0.9560 0.9576 0.9568 0.9560 0.9576 0.9568 0.9557 0.9620 0.9588 0.9453 0.9583 0.9514 0.9495 0.9606 0.9547 0.9742 0.9766 0.9755 0.9569 0.9653 0.9609 0.9602 0.9669 0.9634 0.9772 0.9754 0.9763 0.9603 0.9659 0.9647 0.9629 0.9709 0.9667 0.9696 0.9764 0.9729 0.9673 0.9747 0.9709 0.9694 0.9759 0.9725 0.9750 0.9805 0.9777 0.9713 0.9765 0.9738 0.9742 0.9794 0.9767 0.9561 0.9561 0.9561 0.9647 0.9584 0.9614 0.9647 0.9584 0.9614 0.9598 0.9583 0.9591 0.9778 0.9828 0.9801 0.9818 0.9851 0.9829 0.9886 0.9886 0.9886 0.9775 0.9840 0.9805 0.9775 0.9840 0.9805 0.9859 0.9879 0.9869 0.9780 0.9844 0.9810 0.9780 0.9844 0.9810 0.9867 0.9890 0.9878 0.9777 0.9828 0.9801 0.9777 0.9828 0.9801 0.9802 0.9828 0.9814 0.9780 0.9833 0.9804 0.9780 0.9833 0.9804 0.9745 0.9794 0.9768 0.9791 0.9828 0.9802 0.9791 0.9828 0.9802 0.9640 0.9682 0.9659 0.9722 0.9732 0.9725 0.9722 0.9732 0.9725 0.9815 0.9819 0.9817 0.9776 0.9780 0.9777 0.9776 0.9780 0.9777 0.9810 0.9812 0.9811 0.9781 0.9782 0.9780 0.9781 0.9782 0.9780 0.9835 0.9836 0.9835 0.9818 0.9817 0.9817 0.9818 0.9817 0.9817 0.9818 0.9817 0.9817 0.9816 0.9812 0.9813 0.9816 0.9812 0.9813 0.9807 0.9802 0.9803 0.9822 0.9818 0.9819 0.9822 0.9818 0.9819 0.9761 0.9758 0.9759 Trường Đại học Vinh Tạp chí khoa học, Tập 49 - Số 2A/2020, tr 47-56 Kết thử nghiệm mô tả Bảng đưa đến số nhận xét sau: - Với liệu ban đầu tỷ lệ cân ~1:7 giải thuật AdaBoost kết hợp Cây định cho kết phân lớp cao so với việc sử dụng Cây định với entropy số Gini, đặc biệt tỷ lệ mẫu thử nghiệm tăng dần Khi chiếu theo hàng ngang, giá trị bôi đậm giá trị lớn độ đo Precision, giá trị gạch chân giá trị lớn độ đo Recall giá trị gạch chân - đậm giá trị lớn độ đo F1-Score tương ứng với giải thuật Cây định với số Gini, entropy hay AdaBoost (trong T tỷ lệ phần trăm tập liệu thử nghiệm trích từ tập liệu ban đầu) - Khi sử dụng kỹ thuật sinh mẫu tổng hợp SMOTE cho liệu để độ cân giảm dần từ 1:7 xuống 1:5, 1:3, 1:2, 1:1.5, 1:1 độ đo Precision, Recall, F1Score tăng lên (chiếu theo cột dọc), việc phân lớp xác mẫu nhãn dương tăng Điều cho thấy hiệu việc sinh mẫu tổng hợp tác động tốt đến mơ hình phân lớp Kết luận Trong báo này, chúng tơi đề xuất mơ hình phân lớp dự đoán áp dụng kỹ thuật xử lý với liệu cân hai nhãn lớp cách kết hợp kỹ thuật sinh tổng hợp mẫu SMOTE giải thuật AdaBoost cho Cây định Áp dụng mô hình đề xuất, thực nghiệm dự đốn khả học học sinh Trường THPT Đông Hiếu, Thái Hịa, Nghệ An cho kết xác cao Các kết thực nghiệm kết hợp kỹ thuật sinh mẫu tổng hợp SMOTE với giải thuật AdaBoost với giải thuật Cây định cho chất lượng tốt việc dùng giải thuật Cây định túy ứng dụng liệu cân Về mặt ứng dụng, xây dựng ứng dụng cho phép dự đốn sớm khả thơi học học sinh; từ giúp nhà trường, sở đào tạo, cán giảng dạy kịp thời đưa giải pháp quan tâm, hỗ trợ, động viên học sinh để hạn chế khả thơi học Theo đó, ứng dụng trở thành yếu tố góp phần nâng cao chất lượng giáo dục đào tạo đơn vị, đóng góp cho phát triển giáo dục nước nhà Trong thời gian tới, cải tiến giải thuật AdaBoost để thu kết tốt cho tập liệu cân với tỷ lệ chênh lệch lớn TÀI LIỆU THAM KHẢO [1] Lê Văn Phùng, Quách Xuân Trưởng, Khai phá liệu, NXB Thông tin Truyền thông, 2017 [2] Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy, Giáo trình khai phá liệu, NXB Đại học Quốc gia Hà Nội, 2013 [3] P Saurabh, “Mining educational data to reduce dropout rates of engineering students”, International Journal of Information Engineering and Electronic Business, Vol 2, pp 1-7, 2012 55 V Đ Quang, N T L Anh, M H Mận, C T Sơn / Ứng dụng kỹ thuật học máy liệu cân [4] S Rai, P Saini, A K Jain, “Model for Prediction of Dropout Student Using ID3 Decision Tree Algorithm”, International Journal of Advanced Research in Computer Science & Technology, Vol (1), pp 142-149, 2014 [5] F Hilario et al., “Learning from Imbalanced Data Sets”, Artificial Intelligence, Springer, 2018 [6] Y Sun, M.S Kamel, Y Wang, “Boosting for Learning Multiple Classes with Imbalanced Class Distribution”, Proc Int’l Conf Data Mining, pp 592-602, 2006 [7] N.V Chawla, K.W Bowyer, L.O Hall, W.P Kegelmeyer, “SMOTE: Synthetic Minority Over-Sampling Technique”, Journal of Artificial Intelligence Research, Vol 16, pp 321-357, 2002 [8] M Zeng, B Zou, F Wei, X Liu, and L Wang, “Effective prediction of three common diseases by combining SMOTE with Tomek links technique for imbalanced medical data”, In Proc of IEEE International Conference of Online Analysis and Computing Science (ICOACS), pp 225-228, 2016 SUMMARY APPLYING MACHINE LEARNING TECHNIQUES ON IMBALANCED DATASETS FOR EARLY PREDICTION OF HIGH SCHOOL STUDENT DROPOUT This paper proposes a model for the classification problem on imbalanced datasets, which uses a combination of the SMOTE model and the AdaBoost algorithm for the decision tree algorithm We make a comparison between the proposed model and the decision tree algorithm using the Gini index and entropy on the collected datasets at Dong Hieu high school, Thai Hoa, Nghe An from 2014 to 2019 The research results can be used as a framework to develop applications supporting the early prediction of the ability of students’ dropout Based on that results, the managers can analyze and come up with appropriate solutions in order to decrease the school dropout rate Keywords: Machine learning; data mining; imbalanced dataset; decision tree; AdaBoost; SMOTE 56 ... dự đoán sớm khả học học sinh thông qua giải thuật phân lớp nhị phân, với nhãn -1 liệu học sinh theo học bình thường, nhãn +1 gán cho liệu học sinh thơi học; thuộc tính mẫu liệu cần thu thập thông. .. lớp dự đoán Dựa phương pháp giải thuật trình bày Mục 2, phần này, chúng tơi đề xuất mơ hình phân lớp cho ứng dụng dự đốn sớm khả học sinh thơi học Với liệu cân bằng, mơ hình sử dụng kỹ thuật sinh. .. Cây định cho chất lượng tốt việc dùng giải thuật Cây định túy ứng dụng liệu cân Về mặt ứng dụng, xây dựng ứng dụng cho phép dự đốn sớm khả thơi học học sinh; từ giúp nhà trường, sở đào tạo, cán

Ngày đăng: 18/10/2020, 22:45