Dự ñ oán rủi ro tín dụng sử dụng cây quyết ñị nh (- 123docz.net

Quá trình tạo cây quyết định được thực hiện theo chiến lược chia để trị. Tập dữ

liệu mẫu được chia thành các tập nhỏ hơn và thực hiện đệ quy thuật tốn tạo cây. Hiện nay, cĩ một số thuật tốn thường được sử dụng để tạo cây quyết định là: CLS, ID3,

C4.5, thuật tốn dựa trên phụ thuộc hàm,… Trong đĩ, C4.5 là thuật tốn tốt được biết

đến hiện nay mà cải tiến của nĩ là See 5 đã được thương mại hĩa. Trong luận văn này, tơi sử dụng thuật tốn C4.5 để xây dựng cây quyết định và ứng dụng cho bài tốn “Dự đốn rủi ro tín dụng”. Tơi sử dụng phần mềm Weka đã tiến thành đánh giá thuật tốn

đối với bài tốn dựđốn rủi ro tín dụng. ðểđánh giá C4.5 tơi sử dụng Cross-validation với Folds=10 trong các quá trình thực nghiệm.

4.3.1. Thực nghiệm với tập dữ liệu D1

Tập dữ liệu đầu vào được sử dụng để thực nghiệm các kỹ thuật khai phá dữ liệu là tập dữ liệu đã được tiền xử lý trong chương 3.

Tập dữ liệu bao gồm 32,376 bản ghi, mỗi bản ghi gồm 18 thuộc tính và thuộc tính lớp. Số lớp của tập dữ liệu là 05 lớp như A, B, C, D và E được phân bố khơng

đồng đều như sau: lớp A cĩ 29,072 bản ghi chiếm 89.80% trên tổng số bản ghi của tập dữ liệu, lớp B cĩ 2,411 bản ghi chiếm 7.45% trên tổng số bản ghi của tập dữ liệu, lớp C cĩ 156 bản ghi chiếm 0.48% trên tổng số bản ghi của tập dữ liệu, lớp D cĩ 201 bản ghi chiếm 0.62 % trên tổng số bản ghi của tập dữ liệu và lớp E cĩ 536 bản ghi chiếm 1.65% trên tổng số bản ghi của tập dữ liệu.

Thực nghiệm với C4.5 khơng cắt tỉa cây (without pruning)

Nếu ta sử dụng cây quyết định (C4.5) để dựđốn rủi ro tín dụng mà khơng thực hiện cắt cây(without pruning) thì kết quả thu được như sau:

• Cây quyết định dựđốn được sinh ra bao gồm 48,511 lá và kích thước của cây là 49,327.

• Số mẫu phân lớp đúng là 29,533 chiếm 91.2188 %

• Số mẫu phân lớp sai là 2,843 chiếm 8.7812 % Một sốđộđo đối với từng lớp thu được như sau:

Bảng 4.2 – Một sốđộđo thực nghiệm C4.5 khơng cắt tỉa trên tập D1.

Tỷ lệ TP Tỷ lệ FP Precision Recall F-Measure ROC Area Class

0.971 0.586 0.936 0.971 0.953 0.825 A

0.378 0.023 0.564 0.378 0.453 0.84 B

0.318 0.002 0.5 0.318 0.389 0.821 D

0.314 0.001 0.563 0.314 0.403 0.793 C

Ma trận Confusion như sau :

Bảng 4.3 – Ma trận confusion thực nghiệm C4.5 khơng cắt tỉa trên tập D1.

a b c d e <-- classified as 28242 660 54 31 85 a = A 1472 911 7 5 16 b = B 122 12 64 2 1 c = D 90 14 2 49 0 d = C 250 18 1 0 267 e = E

Thực nghiệm với C4.5 cắt tỉa cây (pruning)

Nếu ta sử dụng cây quyết định (C4.5) để dự đốn rủi ro tín dụng và thực hiện cắt tỉa cây thì kết quả thu được như sau:

• Cây quyết định dựđốn được sinh ra bao gồm 15,449 lá và kích thước của cây là 15,677.

• Số mẫu phân lớp đúng là 29,433 chiếm 90.9099 %

• Số mẫu phân lớp sai là 2,943 chiếm 9.0901 % Một sốđộđo đối với từng lớp thu được như sau:

Bảng 4.4 – Một sốđộđo thực nghiệm C4.5 cắt tỉa trên tập D1.

Ma trận Confusion như sau :

Bảng 4.5 – Ma trận confusion thực nghiệm C4.5 cắt tỉa trên tập D1.

a b c d e <-- classified as 28760 228 14 15 55 a = A 1969 422 6 5 9 b = B 154 6 39 0 2 c = D 121 10 2 23 0 d = C 334 12 0 1 189 e = E

Tỷ lệ TP Tỷ lệ FP Precision Recall F-Measure ROC Area Class

0.989 0.78 0.918 0.989 0.952 0.765 A

0.175 0.009 0.622 0.175 0.273 0.781 B 0.194 0.001 0.639 0.194 0.298 0.777 D

0.147 0.001 0.523 0.147 0.23 0.757 C

4.3.2. Thực nghiệm với AdaBoots.M1

ðối với tập dữ liệu khơng cân bằng đã cĩ rất nhiều nghiên cứu nhằm cải tiến chất lượng của các kỹ thuật khai phá dữ liệu. Cụ thể như sử dụng các phương pháp lấy mẫu dữ liệu từ tập dữ liệu ban đầu để thu được cập dữ liệu cân bằng và thực hiện khai phá dữ liệu. Mức thuật tốn cũng cĩ nhiều nghiên cứu nhằm cải tiến chất lượng khai phá dữ liệu như học từng lớp, học cost-sensitive, Bagging hay Boosting. ðối với mức thuật tốn, tơi sử dụng phương pháp Boosting, cụ thể là thuật tốn AdaBoots.M1 [25]

để cải tiến chất lượng khai phá dữ liệu trong bài tốn dựđốn rủi ro tín dụng.

Sử dụng C4.5 khơng cắt tỉa cây trên tập dữ liệu D1

Việc sử dụng thuật tốn AdaBoots.M1 để cải tiến cây quyết định đối với bài tốn dự đốn rủi ro tín dụng thu được kết quả như sau:

• Cây quyết định dựđốn được sinh ra bao gồm 30,992 lá và kích thước của cây là 31,562.

• Trọng số 0.11

• Số mẫu phân lớp đúng là 29,662 chiếm 91.6172 %

• Số mẫu phân lớp sai là 2,714 chiếm 8.3828 %

Một sốđộđo đối với từng lớp thu được như sau:

Bảng 4.6 - Một số độ đo thực nghiệm C4.5 khơng cắt tỉa sử dụng AdaBoots trên tập D1.

Tỷ lệ TP Tỷ lệ FP Precision Recall F-Measure ROC Area Class 0.969 0.515 0.943 0.969 0.956 0.850 A

0.442 0.027 0.571 0.442 0.498 0.833 B

0.378 0.002 0.535 0.378 0.443 0.852 D

0.404 0.001 0.594 0.404 0.481 0.846 C

Ma trận Confusion như sau :

Bảng 4.7 - Ma trận confusion thực nghiệm C4.5 khơng cắt tỉa sử dụng AdaBoots trên tập D1. a b c d e <-- classified as 28162 747 51 31 81 a = A 1305 1066 11 10 19 b = B 112 10 72 2 1 c = D 72 18 3 63 0 d = C 214 26 1 0 295 e = E Sử dụng C4.5 thực hiện cắt tỉa cây trên tập dữ liệu D1

Việc sử dụng thuật tốn AdaBoots.M1 để cải tiến cây quyết định đối với bài tốn dựđốn rủi ro tín dụng thu được kết quả như sau:

• Cây quyết định dựđốn được sinh ra bao gồm 22,398 lá và kích thước của cây là 22,758.

• Trọng số 0.02

• Số mẫu phân lớp đúng là 29,512 chiếm 91.1539 %

• Số mẫu phân lớp sai là 2,864 chiếm 8.8461 % Một sốđộđo đối với từng lớp thu được như sau:

Bảng 4.8 – Một sốđộđo thực nghiệm C4.5 cắt tỉa cây sử dụng AdaBoots trên tập D1.

Tỷ lệ TP Tỷ lệ FP Precision Recall F-Measure ROC Area Class

0.984 0.706 0.925 0.984 0.953 0.837 A

0.249 0.014 0.597 0.249 0.352 0.823 B

0.249 0.001 0.667 0.249 0.362 0.842 D

0.237 0.001 0.607 0.237 0.341 0.808 C

Ma trận Confusion như sau :

Bảng 4.9 – Ma trận confusion thực nghiệm C4.5 cắt tỉa cây sử dụng AdaBoots trên tập D1. a b c d e <-- classified as 28603 371 16 18 64 a = A 1788 601 6 4 12 b = B 137 11 50 1 2 c = D 105 11 3 37 0 d = C 301 13 0 1 221 e = E

4.3.3. Thực nghiệm với tập dữ liệu hợp nhất lớp (D2) Sử dụng C4.5 khơng cắt tỉa cây

Thực nghiệm cây quyết định C4.5 khơng cắt tỉa cây trên tập dữ liệu hợp nhất cịn 02 lớp (tập dữ liệu D2) đối với bài tốn dựđốn rủi ro tín dụng thu được kết quả

như sau:

• Cây quyết định dựđốn được sinh ra bao gồm 17,245 lá và kích thước của cây là 17,483.

• Số mẫu phân lớp đúng là 31,639 chiếm 97.7236 %

• Số mẫu phân lớp sai là 737 chiếm 2.2764 % Một sốđộđo đối với từng lớp thu được như sau:

Bảng 4.10 – Một sốđộđo thực nghiệm C4.5 khơng cắt tỉa cây trên tập D2.

Tỷ lệ TP Tỷ lệ FP Precision Recall F-Measure ROC Area Class

0.993 0.591 0.983 0.993 0.998 0.814 A_B 0.409 0.007 0.636 0.409 0.498 0.814 C_D_E Ma trận Confusion như sau :

Bảng 4.11 – Ma trận confusion thực nghiệm C4.5 khơng cắt tỉa cây trên tập D2.

a b <-- classified as

31247 209 a = A_B

528 365 b = C_D_E

Thực nghiệm cây quyết định C4.5 cắt tỉa cây trên tập dữ liệu hợp nhất cịn 02 lớp (tập dữ liệu D2) đối với bài tốn dựđốn rủi ro tín dụng thu được kết quả như sau:

• Cây quyết định dự đốn được sinh ra bao gồm 3,090 lá và kích thước của cây là 3,155.

• Số mẫu phân lớp đúng là 31,636 chiếm 97.7177 %

• Số mẫu phân lớp sai là 740 chiếm 2.2856 % Một sốđộđo đối với từng lớp thu được như sau:

Bảng 4.12 – Một sốđộđo thực nghiệm C4.5 cắt tỉa cây trên tập D2. Tỷ lệ TP Tỷ lệ FP Precision Recall F-Measure ROC Area Class

0.997 0.737 0.979 0.997 0.988 0.829 A_B 0.263 0.003 0.741 0.263 0.388 0.829 C_D_E Ma trận Confusion như sau :

Bảng 4.13 – Ma trận confusion thực nghiệm C4.5 cắt tỉa cây trên tập D2.

a b <-- classified as

31401 82 a = A_B

658 235 b = C_D_E

Dự ñ oán rủi ro tín dụng sử dụng cây quyết ñị nh (C4.5)

Giới thiệu Support Vector Machine

Thực nghiệm với tập dữ liệu D1