Kết quả chạy giải thuật

Một phần của tài liệu Luận văn thạc sĩ Khoa học máy tính: Bài toán phân lớp không cân đối cho dữ liệu giáo dục (Trang 116 - 122)

Chương 5. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ

5.3 Kết quả thực nghiệm với giải thuật GP vừa hiện thực

5.3.1 Kết quả chạy giải thuật

Giải thuật CST này cũng được cho chạy trên lần lượt các tập dữ liệu 3 lớp chưa cân đối Disc3cDS, Norm3cDS, rồi trên các tập dữ liệu 3 lớp đã cân đối rời rạc

Disc3cIM1, Disc3cIM2 và liên tục chuẩn hóa Norm3cIM1 và Norm3cIM2, như với ba giải thuật thông dụng có sẵn trong WEKA ở mục 5.2.

Vấn đề đối với giải thuật này là, có quá nhiều thông số cấu hình có thể chọn để chạy nó:

 Kích thước quần thể (populationSize): có thể chọn tùy ý;

 Số thế hệ tối đa (generations): có thể chọn tùy ý;

 Kiểu lựa chọn cha mẹ (parentSelector): có 4 kiểu để chọn: (1) Tournament Selector, (2) Roulette Wheel Selector, (3) Random Selector, và (4) Betters Selector;

 Độ sâu tối đa của cây (maxDerivSize): mặc định là 20;

 Xác suất lai ghép (crossoverProb): mặc định là 0.8;

 Xác suất tái sinh (copyProb): mặc định là 0.05;

 Xác suất biến dị (mutationProb): mặc định là 0.1 (thật ra không có tác dụng trong giải thuật này, chỉ có mặt theo cấu hình chung của mô-đun phân lớp của thư viện JCLEC);

 Hạt giống để sinh ngẫu nhiên (seed): mặc định là 123456789.

Một số thực nghiệm ban đầu cho thấy không cần thay đổi năm thông số sau (maxDerivSize, crossoverProb, copyProb, mutationProb, và seed), nhưng cũng vẫn còn 3 thông số đầu cần chọn để thực nghiệm (populationSize, generations, và parentSelector. Kết quả thực nghiệm cho thấy, kết quả tốt nhất (về độ chính xác phân lớp) chỉ đạt được trên các tập dữ liệu này khi: giá trị populationSize chiếm từ 2/3 đến 7/8 số bản ghi của tập dữ liệu (với tập dữ liệu đang xét thì các con số này được làm

tròn thành 900, 1000, 1100 và 1200), giá trị generations trong khoảng từ 1500 đến 2500 (cao hơn là không cần thiết, vì không sinh ra được kết quả tốt hơn nữa mà lại tốn thêm nhiều thời gian hơn), và Betters Selector thường là bộ lựa chọn cha mẹ cho ra kết quả cao nhất. Kết quả chạy thực nghiệm được cho trong Bảng 5.12 bên dưới.

Bảng 5.12: Kết quả chạy giải thuật CST trên các tập dữ liệu 3 lớp.

Dataset Confusion matrix Acc Se Sp

Disc3cDS P=1100, G=1500 S=4 (Betters) Build time: 622.57s

a b c  classified as 200 0 0 a = TN

0 110 61 b = BTH 19 45 908 c = CTN

90.69% 90.69%

100%

64.33%

93.42%

85.78%

89.06%

94.54%

83.56%

Norm3cDS P=900, G=1500 S=4 (Betters) Build time: 407.41s

a b c  classified as 200 0 0 a = TN

0 28 171 b = BTH 18 134 820 c = CTN

89.05% 89.05%

100%

83.63%

87.76%

91.33%

87.14%

98.85%

92.45%

Disc3cIM1 P=1100, G=1500 S=4 (Betters) Build time: 333.5s

a b c  classified as 448 0 0 a = TN

4 401 43 b = BTH 19 117 312 c = CTN

86.38% 86.38%

100%

89.51%

69.64%

86.38%

79.58%

84.82%

94.75%

Disc3cIM2 P=900, G=1500 S=4 (Betters) Build time:1131.8s

a b c  classified as 439 0 0 a = TN

0 398 40 b = BTH 14 100 391 c = CTN

88.52% 88.52%

100%

90.87%

75.48%

88.72%

82.95%

87.39%

85,44%

Norm3cIM1 P=900, G=1500 S=4 (Betters) Build time: 496.33s

a b c  classified as 448 0 0 a = TN

1 408 39 b = BTH 14 79 355 c = CTN

90.10% 90.10%

100%

91.07%

79.24%

90.10%

85.16%

89.62%

95.54%

Norm3cIM2 P=1000 , G=2500 S=4 (Betters) Build time: 727.43s

a b c  classified as 375 8 71 a = TN

0 427 0 b = BTH 22 0 440 c = CTN

92.48% 92.48%

82.60%

100%

95.24%

92.57%

97.53%

88.97%

91.03%

5.3.2 Nhận xét

So sánh giữa CST và J48 (giải thuật cũng sinh được cây phân lớp):

 Trên tập dữ liệu Disc3cDS: độ chính xác phân lớp của CST đích xác bằng độ đo đó của J48, nhưng dễ thấy chênh lệch giữa độ nhạy và độ đặc hiệu

của CST không lớn (4.91%), còn chênh lệch giữa độ nhạy và độ đặc hiệu của J48 lớn hơn (7.12%) (xem lại Bảng 5.6). Điều này chứng tỏ trên dữ liệu rời rạc, CST ít bị ảnh hưởng bởi sự không cân đối lớp hơn so với J48.

 Trên tập dữ liệu Norm3cDS: độ chính xác phân lớp của CST kém hơn một ít (1.27%) so với độ chính xác của J48, nhưng chênh lệch giữa độ nhạy và độ đặc hiệu của CST nhỏ (2.28%), còn chênh lệch giữa độ nhạy và độ đặc hiệu của J48 lớn hơn đáng kể (5.92%) (xem lại Bảng 5.7). Điều đó chứng tỏ trên dữ liệu liên tục, CST cũng ít bị ảnh hưởng bởi sự không cân đối lớp hơn so với J48.

 Trên tập dữ liệu Disc3cIM1: độ chính xác của CST có kém hơn đáng kể (6.55%) so với độ chính xác của J48, nhưng độ chênh lệch giữa độ nhạy và độ đặc hiệu của CST cũng chỉ bằng 0% như của J48 (xem lại Bảng 5.8).

 Trên tập dữ liệu Disc3cIM2: giải thuật CST có độ chính xác phân lớp kém hơn đáng kể (6.19%) so với độ chính xác của J48, tuy nhiên chênh lệch giữa độ nhạy và độ đặc hiệu của CST rất nhỏ (0.2%), tương tự như chênh lệch giữa độ nhạy và độ đặc hiệu của J48 (0.1%) (xem lại Bảng 5.9).

 Trên tập dữ liệu Norm3cIM1: giải thuật CST có độ chính xác phân lớp kém hơn không nhiều (4.32%) so với độ chính xác của J48, tuy nhiên chênh lệch giữa độ nhạy và đặc hiệu của CST bằng 0, giống như của J48 (xem lại Bàng 5.10).

 Trên tập dữ liệu Norm3cIM2: giải thuật CST có độ chính xác phân lớp kém hơn không nhiều (4.24%) so với độ chính xác của J48, tuy nhiên chênh lệch giữa độ nhạy và đặc hiệu của CST rất nhỏ (0.09%), gần giống như chênh lệch đó của J48 (0.05%) (xem lại Bàng 5.11).

Nhìn chung, trên bất kỳ tập dữ liệu nào, mô hình phân lớp mà CST sinh ra đều

không bị ảnh hưởng nhiều bởi sự không cân đối của dữ liệu; hơn nữa, mô hình đó có độ dễ hiểu tốt hơn nhiều so với mô hình phân lớp của J48.

So sánh CST trên các tập dữ liệu trước và sau khi tái cân đối:

 Nhìn chung, độ chính xác phân lớp của CST trước và sau khi tái cân đối không thay đổi mấy. Độ chênh lệch giữa độ nhạy và độ đặc hiệu của CST trước sau đều không lớn. Điều này chứng tỏ CST hầu như không phụ thuộc

vào tình trạng mất cân đối của dữ liệu, phù hợp với nhận định trong [37].

Như vậy, ta có thể sử dụng CST ngay trên tập dữ liệu không cân đối, không cần tốn thời gian và công sức để tái cân đối dữ liệu.

 Nhưng tính dễ hiểu của mô hình thu được từ CST tốt hơn nhiều so với tính dễ hiểu của mô hình thu được từ J48. Hình 5.2 cho thấy mô hình phân lớp thu được từ CST trên tập dữ liệu Disc3cIM1 (trích từ màn hình kết quả phân lớp của WEKA) chỉ bao gồm 4 luật phân lớp đơn giản, được ghép chung với nhau thành một luật duy nhất. Chú ý rằng, mô hình đó cũng gần giống và dễ hiểu tương đương với mô hình thu được cũng từ CST nhưng trên tập dữ liệu Disc3cDS trong Hình 5.3. So với Hình 5.1, rõ ràng 2 mô hình thu được từ CST dễ hiểu hơn nhiều so với mô hình thu được từ J48.

Hình 5.2: Mô hình (tập luật) phân lớp thu được từ CST trên Disc3cIM1.

Hình 5.3: Mô hình (tập luật) phân lớp thu được từ CST trên Disc3cDS.

Thử xem xét tính hợp lý của hai mô hình trên:

 Rule1: IF(c_500303≠CH) THEN (status=TN)

Môn c500303 là Luận văn Tốt nghiệp, sinh viên nào đủ điều kiện làm luận văn và đã làm luận văn thường đều tốt nghiệp, cho nên Rule 1 rất hữu lý.

 Rule 2: ELSE IF((c_503001=KE)OR(c_503001=CH)) THEN (status=BTH) Môn 503001 là Cấu trúc Dữ liệu và Giải thuật, đây là môn khó nhưng cung cấp kiến thức cơ bản để học nhiều môn khác trong chuyên ngành Khoa học Máy tính; sinh viên nào chưa làm luận văn đồng thời kém hoặc chưa học môn đó thường không hoàn thành nổi khóa học; như vậy Rule 2 cũng rất hợp lý.

 Rule 3 và 4:

ELSE IF((c_006023≠CH)AND(c_004011≠CH) THEN (status=CTN)

ELSE (status=CTN) Môn 006023 là Phương pháp tính, một môn học quan trọng, còn 004011 là Công tác giáo dục quốc phòng, môn tuy không có tín chỉ nhưng là môn bắt

buộc; sinh viên nào không phải kém môn Cấu trúc dữ liệu nhưng chưa học hai môn đó thì chắc chắn chưa thể nào tốt nghiệp, như vậy Rule 4 hợp lý; nhưng cho dù đã học hai môn đó mà chưa làm luận văn thì cũng chưa thể tốt nghiệp, như vậy Rule 3 cũng hợp lý. Tuy nhiên, Rule 3 có thể bỏ đi cũng được.

Một phần của tài liệu Luận văn thạc sĩ Khoa học máy tính: Bài toán phân lớp không cân đối cho dữ liệu giáo dục (Trang 116 - 122)

Tải bản đầy đủ (PDF)

(131 trang)