Ứng dụng kỹ thuật học máy trên dữ liệu mất cân bằng hỗ trợ dự đoán sớm khả năng thôi học của học sinh trung học phổ thông

Các phương pháp giải quyết bài toán phân lớp thường sử dụng mô hình dạng luật hoặc sử dụng các giải thuật học máy như: Cây quyết định, Mạng nơ-ron, Naïve Bayes, Support Vector Mach[r]

(1)

Trường Đại học Vinh Tạp chí khoa học, Tập 49 - Số 2A/2020, tr 47-56

ỨNG DỤNG KỸ THUẬT HỌC MÁY TRÊN DỮ LIỆU MẤT CÂN BẰNG HỖ TRỢ DỰ ĐOÁN SỚM KHẢ NĂNG THÔI HỌC

CỦA HỌC SINH TRUNG HỌC PHỔ THÔNG Võ Đức Quang (1)

, Nguyễn Thị Lan Anh (2), Mai Hồng Mận (3), Cao Thanh Sơn (4)

1

Viện Kỹ thuật Công nghệ, Trường Đại học Vinh Nghiên cứu sinh, Trường Đại học Bách Khoa Hà Nội

2

Trường THPT Đông Hiếu, Thái Hịa, Nghệ An 3

Lớp 58K4 Cơng nghệ thông tin, Viện Kỹ thuật Công nghệ, Trường Đại học Vinh 4

Viện Kỹ thuật Công nghệ, Trường Đại học Vinh Ngày nhận 29/5/2020, ngày nhận đăng 13/7/2020

Tóm tắt: Bài báo đề xuất mơ hình học máy cho toán phân lớp tập liệu cân bằng, sử dụng kết hợp kỹ thuật sinh mẫu tổng hợp SMOTE giải thuật AdaBoost cho thuật toán Cây định Các tác giả tiến hành thực nghiệm đánh giá so sánh hiệu phân lớp mơ hình đề xuất với giải thuật Cây định sử dụng entropy số Gini liệu thực tế thu thập Trường trung học phổ thơng (THPT) Đơng Hiếu, Thái Hịa, Nghệ An từ năm 2014 đến năm 2019 Kết nghiên cứu sử dụng làm tảng để xây dựng ứng dụng hỗ trợ dự đoán sớm khả thơi học học sinh THPT, có ý nghĩa góp phần nâng cao chất lượng giáo dục đào tạo nhà trường cấp quản lý giáo dục

Từ khóa: Học máy; khai phá liệu; liệu cân bằng; Cây định; AdaBoost, SMOTE

1 Mở đầu

(2)

V Đ Quang, N T L Anh, M H Mận, C T Sơn / Ứng dụng kỹ thuật học máy liệu cân

đến mơ hình phân lớp cho kết với độ xác (accuracy) cao giá trị độ nhạy (sensitivity) lại thấp Do vậy, giải thuật phân lớp thực hiệu liệu cân lại cho kết không tốt với tập liệu cân Điều tạo nên thú vị tạo động lực việc nghiên cứu phương pháp cải tiến mô hình phân lớp áp dụng cho tốn liệu cân

Nhiều phương pháp đề xuất để giải vấn đề [5], chủ yếu phân thành hai nhóm bản: tiếp cận mức giải thuật tiếp cận mức liệu

- Tiếp cận mức giải thuật hướng tới việc điều chỉnh thuật toán phân lớp mạnh truyền thống để có hiệu cao tập liệu cân Một số phương pháp nhà nghiên cứu đề xuất như: Điều chỉnh xác suất ước lượng, sử dụng số phạt khác cho nhãn lớp khác

- Tiếp cận mức liệu nhằm tạo phân bố cân số lượng mẫu giữa nhãn lớp, kỹ thuật thường sử dụng: (i) sinh thêm phần tử cho lớp thiểu số: SMOTE [7], ADA-SYN, OSD (ii) loại bỏ bớt phần tử thuộc lớp đa số: NearMiss, SMOTE với Tomek links [8]…

Bên cạnh đó, lĩnh vực giáo dục, báo cáo thống kê giáo dục phổ thông năm gần từ sở giáo dục đào tạo cho thấy tượng học sinh học bậc trung học sở (THCS) THPT xảy phổ biến Có nhiều ngun nhân dẫn đến tình trạng học sinh thơi học như: kết học tập, hồn cảnh gia đình cá nhân, mơi trường tác động, sở hạ tầng giáo dục, thay đổi cách dạy học từ THCS lên THPT Trước thách thức đó, nhà hoạch định sách quản lý giáo dục sở cần phải tìm hiểu nguyên nhân để cải thiện chất lượng công tác giảng dạy hỗ trợ người học Song song với đó, việc theo dõi, rà sốt trạng, đưa dự đoán phát sớm học sinh thơi học có ý nghĩa lớn việc đưa giải pháp, tư vấn, hỗ trợ kịp thời để giảm thiểu tối đa việc học sinh học [3, 4]

Với tảng giải thuật học máy, hồn tồn xây dựng hệ thống dự đốn sớm khả học học sinh thông qua giải thuật phân lớp nhị phân, với nhãn -1 liệu học sinh theo học bình thường, nhãn +1 gán cho liệu học sinh học; thuộc tính mẫu liệu cần thu thập thơng tin học sinh ảnh hưởng đến việc thơi học như: giới tính, hồn cảnh gia đình, hạnh kiểm, học lực, điểm đầu vào, nghề nghiệp bố mẹ… Do số lượng học sinh học so với học sinh theo học chiếm tỷ lệ nhỏ nên liệu trở thành liệu cân nhị phân

Trong báo này, tác giả tiến hành thu thập liệu thực tế tình trạng học sinh thơi học Trường THPT Đơng Hiếu, Thái Hịa, Nghệ An, từ thử nghiệm sử dụng phương pháp học máy liệu cân để xây dựng mô hình phân lớp dự đốn sớm học sinh thơi học Bài báo tiến hành đánh giá, so sánh kết phân lớp dự đoán giải thuật Cây định [3], Cây định kết hợp AdaBoost đánh giá hiệu kỹ thuật lấy mẫu OverSampling SMOTE

2 Các giải thuật phân lớp sở

2.1 Thuật toán phân lớp dựa vào Cây định

(3)

Trường Đại học Vinh Tạp chí khoa học, Tập 49 - Số 2A/2020, tr 47-56 để phân lớp cách xuất phát từ nút gốc di chuyển theo nhánh gặp nút Trên sở phân lớp này, chuyển đổi luật định (dạng if-then) Mỗi nút biểu diễn thuộc tính, nhánh biểu diễn giá trị có thuộc tính, nút biểu diễn giá trị nhãn lớp Hình biểu diễn định tổng quát

Hình 1: Cây định tổng quát

Tạo định q trình phân tích sở liệu, phân lớp đưa dự đoán Cây định tạo thành cách chia tập liệu thành tập con, tập tạo thành chủ yếu từ phần tử lớp Lựa chọn thuộc tính để tạo nhánh thường dựa vào entropy số Gini

Xét tập liệu sau:

+ C = {C1, C2, …, Cm}: thuộc tính phân lớp;

+ D: tập liệu huấn luyện có thuộc tính phân lớp C;

+ D = D1 D2 …  Dt: phân hoạch D với Di Dj = 

Để thực trình phân lớp, cần tìm kiếm độ đo để đánh giá mức độ đồng đối tượng dựa thuộc tính phân lớp từ chọn độ đo để tìm phân hoạch D có mức độ đồng cực đại Một số độ đo phổ biến thường dùng gồm entropy số Gini

- Entropy tập liệu lượng thông tin cần thiết để phân loại phần tử trong tập liệu huấn luyện D, ký hiệu: Info(D)

- Đặt pi xác suất phần tử D thuộc vào lớp Ci với  i  m

- Đặt Di tập phần tử D thuộc lớp Ci. Ta có:

( ) ∑ ( )

(2.1)

- Entropy tập liệu ứng với thuộc tính A lượng thơng tin cần để phân loại một phần tử tập liệu D dựa thuộc tính A, ký hiệu InfoA(D), thuộc

tính A dùng để tách D thành t phân hoạch tương ứng D1, D2, …, Dt Mỗi phân hoạch Dj

có |Dj| phần tử, với  j  t Lượng thông tin cho biết mức độ trùng lặp

phân hoạch mong đợi InfoA(D) nhỏ tốt

Ta có cơng thức tính InfoA(D) sau:

( ) ∑| |

( )

(4)

- Độ lợi thơng tin (information gain) có mục đích tối thiểu hố lượng thơng tin cần thiết để phân lớp mẫu liệu Độ lợi thông tin ứng với thuộc tính A, ký hiệu

Gain(A), độ sai lệch entropy ban đầu tập liệu (trước phân hoạch)

entropy liệu với thuộc tính A (sau phân hoạch A) Để tạo nhánh quyết định, ta chọn thuộc tính có độ lợi thơng tin Gain(A) lớn

( ) ( ) ( ) (2.3)

- Chỉ số Gini (Gini Index) dựa vào bình phương xác suất thành viên cho thể loại đích nút Giá trị tiến đến trường hợp nút rơi vào thể loại đích

Giả sử y = {1, 2, , n}, gọi f(i, j) tần suất giá trị j nút i, f(i, j) tỷ lệ ghi với y = j xếp vào nhóm i Ta có cơng thức:

( ) ∑ ( )

(2.4)

2.2 Kỹ thuật AdaBoost kết hợp Cây định

Boosting kỹ thuật sử dụng kết hợp thuật tốn học máy quần thể khơng gian mẫu cách tuần tự, sau thực tổng hợp kết phân lớp riêng để phân lớp hiệu Một giải thuật hiệu Boosting AdaBoost (Adaptive Boosting) [6], sử dụng trọng số phân bổ lỗi gán cho mẫu Giải thuật Thuật toán ban đầu phân bổ trọng số tương đương mẫu huấn luyện Trong bước lặp, thuật toán tiến hành: (i) huấn luyện mẫu phân loại yếu; (ii) kiểm tra lại kết phân lớp mẫu huấn luyện có xác khơng; (iii) tính tốn lại phân bổ trọng số lỗi mẫu theo hướng: tăng trọng số lỗi mẫu bị phân loại sai giảm trọng số lỗi mẫu phân loại Sau kết thúc vòng lặp, giải thuật tiến hành tổng hợp phân lớp thành viên thành phân lớp tổng hợp

Giải thuật 1: Giải thuật AdaBoost

Input: Tập N mẫu liệu XTrain, XValidation, M: số lần lặp tối đa, ωi: phân bổ trọng số lỗi Output: H: Bộ phân lớp tổng hợp

Begin

Initialize: ωi = 1/N, T=1, ; /∗ phân loại thành viên ∗/ For m = 1, 2,…, M

(a) Xtrain( ) sử dụng ωi

(b) hm ← Train(Xtrain)

(c) Tính đại lượng: εm=

∑ ( ( )) ∑

(d) Tính tốn tham số mơ hình: αm=λ.log

(0< ) (e) Thiết lập lại phân bổ trọng số lỗi:

ωi+1 ← ( ( )) , i = 1, 2,…,N (f) Hm= ∑

(5)

Trường Đại học Vinh Tạp chí khoa học, Tập 49 - Số 2A/2020, tr 47-56 Chú ý Giải thuật 1, tập liệu X với N mẫu ban đầu chia vào tập

XTrain, XValidation, đó,mỗi mẫu gán trọng số lỗi ban đầu ωi=1/N

Trong vòng lặp, phân lớp hm sử dụng để phân lớp Xtrain Từ kết phân

lớp nhận được, giải thuật kiểm tra việc phân loại xác mẫu Tính tốn tham số αm cho phân lớp hm bước (d) thông qua đại lượng trung gian εm bước (c)

Từ đó, tính toán phân bổ trọng số lỗi ωi+1 theo hướng tăng trọng số mẫu bị phân loại

sai, giảm bớt trọng số mẫu phân loại Việc tính tốn thực thơng qua cơng thức bước (e) Bước (f) tiến hành tạo phân lớp tổng hợp Hm dựa

tham số αm Nhãn phân lớp xác định dựa vào hàm dấu: nhãn (+1) Hm >

ngược lại, nhãn (-1) Hm <

2.3 Kỹ thuật lấy mẫu OverSampling SMOTE

Như đề cập Phần 1, mơ hình giải thuật học máy cho tỷ lệ xác cao liệu cân bằng, thực tế tỷ lệ khơng mang nhiều ý nghĩa Ví dụ, giả sử liệu có 100 mẫu, với 95 nhãn âm (-1), 05 mẫu nhãn dương (+1) Nếu mơ hình cho kết phân lớp dự đoán 92 nhãn (-1) 01 mẫu nhãn (+1), tỷ lệ phân loại xác lên đến 93%, nhiên mơ hình khơng có nhiều ý nghĩa phân lớp dự đoán 01 05 mẫu nhãn lớp quan trọng nhãn (+1) Để tận dụng cải thiện chất lượng phân lớp giải thuật học máy, nhiều nghiên cứu tiếp cận theo hướng sử dụng kỹ thuật lấy mẫu (Sampling): sinh mẫu tổng hợp cho nhãn (+1) (OverSampling) giảm số lượng mẫu nhãn (-1) (UnderSampling) nhằm mục đích cải thiện tỷ lệ số lượng mẫu nhãn lớp cân Trong báo này, sử dụng kỹ thuật OverSampling phổ biến SMOTE (Synthetic Minority Over-sampling) [7] để điều chỉnh mức độ cân liệu Kỹ thuật nhằm mục đích tạo liệu nhân tạo dựa không gian đặc tính tương đồng với mẫu nhóm thiểu số SMOTE sử dụng giải thuật K-láng giềng gần KNN (K-Nearest Neighbor), tính tốn khoảng cách khơng gian thuộc tính mẫu nhóm thiểu số; từ làm sở để tạo mẫu tổng hợp với khác biệt khơng gian thuộc tính nhỏ Mẫu tổng hợp xnew dựa việc chọn K láng

giềng số thực để xác định vị trí:

( ̂ ) ∗ (2.5)

(6)

Để minh họa, giả sử mẫu nhãn lớp thiểu số (+1) biểu diễn đối tượng hình trịn, nhãn lớp đa số (-1) minh họa đối tượng hình Hình Để sinh

K mẫu tổng hợp từ mẫu , giải thuật tìm K láng giềng gần Sau đó, dựa vào để tổng hợp nên mẫu xnew “đường đi” từ đến láng giềng Hình dựa vào

công thức (2.5)

Việc chọn K tạo nên mẫu tổng hợp đạt tỷ lệ cân mẫu mong muốn Hình minh họa liệu 1000 mẫu có 20 mẫu có nhãn (+1) 980 mẫu nhãn (-1), tỷ lệ cân 1:49; sau thử nghiệm kỹ thuật SMOTE đạt tỷ lệ cân mẫu 1:5

Hình 3: Mẫu liệu sinh với kỹ thuật SMOTE 3 Đề xuất mô hình phân lớp dự đốn

Dựa phương pháp giải thuật trình bày Mục 2, phần này, chúng tơi đề xuất mơ hình phân lớp cho ứng dụng dự đoán sớm khả học sinh học Với liệu cân bằng, mơ hình sử dụng kỹ thuật sinh mẫu tổng hợp SMOTE cho lớp nhãn thiểu số, đưa liệu trạng thái cân Áp dụng giải thuật học máy phổ biến Cây định AdaBoost kết hợp Cây định để tiến hành huấn luyện mẫu, chúng tơi đề xuất mơ hình phân lớp dự đốn Hình

Trong q trình huấn luyện mẫu thử, mơ hình liên tục đánh giá lại, dựa kỹ thuật AdaBoost trình bày Mục 2.2, để thích nghi với đặc trưng liệu

(7)

Trường Đại học Vinh Tạp chí khoa học, Tập 49 - Số 2A/2020, tr 47-56

4 Thử nghiệm kết

Các bước thực thử nghiệm phân lớp dự đốn sớm khả thơi học học sinh mô tả sau:

- Bước 1: Thu thập liệu thông tin học sinh Trường THPT Đơng Hiếu, Thị xã Thái Hịa, Nghệ An từ năm 2014 đến 2019;

- Bước 2: Tiền xử lý liệu: xử lý liệu cịn thiếu; chuyển đổi số hóa giá trị thuộc tính; sử dụng kỹ thuật sinh mẫu SMOTE để giảm tỷ lệ cân bằng;

- Bước 3: Chia tập liệu huấn luyện kiểm tra theo kịch thử nghiệm; - Bước 4: Thực huấn luyện tạo mơ hình theo giải thuật đề xuất;

- Bước 5: Phân tích đánh giá kết thử nghiệm

Bộ liệu thử nghiệm kết thu thập thông tin học sinh Trường THPT Đơng Hiếu, Thái Hịa, Nghệ An từ năm 2014 đến 2019 Bộ liệu gồm 828 mẫu, có 101 mẫu thơng tin học sinh học (nhãn +1), tức tỷ lệ cân xấp xỉ 1:8 Ngồi thuộc tính nhãn, mẫu liệu có 14 thuộc tính chuẩn hóa sang dạng số, bao gồm: Giới tính, Lịch sử kỷ luật, Lịch sử khen thưởng, Mức sống gia đình, Nghề nghiệp bố, Nghề nghiệp mẹ, Học lực THCS, Hạnh kiểm THCS, Điểm tuyển sinh, Khoảng cách địa lý, Tình trạng vắng học, Số anh chị em, Tình trạng gia đình, Ý thức học tập

Kịch thử nghiệm tiến hành phân lớp dự đoán sử dụng giải thuật Cây định với số Gini entropy; Cây định kết hợp AdaBoost; sử dụng kỹ thuật lấy mẫu OverSampling SMOTE liệu thu thập với tỷ lệ mẫu huấn luyện thử nghiệm (Training/Test) khác Các kết đánh giá dựa độ đo Accuracy, Confusion Matrix, Precision, Recall, F1-Score Kết thu với liệu ban đầu với tỷ lệ cân khoảng 1:7 thể Bảng 1,

T tỷ lệ phần trăm tập liệu thử nghiệm trích từ tập liệu ban đầu

Bảng 1: Tập liệu với tỷ lệ cân 1:7

Giải thuật

T = 0.3 T = 0.5 T = 0.7

Ma trận nhầm lẫn Độ xác Ma trận nhầm lẫn Độ xác Ma trận nhầm lẫn Độ xác Cây

định với số Gini

[214

1 29] 0.9759 [

35

4 46] 0.9758 [

506

13 ] 0.9724 Cây

định với entropy

[216

1 29] 0.9839 [

35

4 46] 0.9758 [

506

13 ] 0.9724 Cây

định với AdaBoost

[

1 29] 0.9879 [

3

5 45] 0.9830 [

505

Định dạng
Số trang	7
Dung lượng	754,49 KB