Dự đoán chỉ số nhóm nợ sử dụng cây quyết định C4.5

Một phần của tài liệu Ứng dụng cây quyết định để dự đoán chỉ số nhóm nợ hỗ trợ quản lý rủi ro tín dụng (Trang 60)

II. Một số thuật toán xây dựng cây

3. Dự đoán chỉ số nhóm nợ sử dụng cây quyết định C4.5

58 Quá trình tạo cây được thực hiện theo chiến lược chia để trị. Tập dữ liệu mẫu được chia thành tập dữ liệu nhỏ hơn và thực hiện đệ quy thuật toán tạo cây. Trong đó C4.5 là một thuật toán tốt hiện nay, được cải tiến từ thuật toán ID3 cho phép xử lý trên tập dữ liệu có các thuộc tính số (numeric atributes) và làm việc được với tập dữ liệu bị thiếu và bị nhiễu.

Tôi sử dụng phần mềm Weka để tiến hành đánh giá thuật toán với bài toán dự đoán rủi ro tín dụng.

a) Thực nghiệm với tập dữ liệu A1

Tập dữ liệu đầu vào là tập dữ liệu đã được xử lý ở trên. Gồm 2090 bản ghi, mỗi bản gồm 11 thuộc tính và thuộc tính lớp. Số lớp của tập dữ liệu là 05 lớp – tương ứng với 5 nhóm chỉ số nợ. Lớp 1 chiếm 70,9091% trên tổng số bản ghi của tập dữ liệu, lớp 2 chiếm 8.0861% trên tổng số bản ghi của tập dữ liệu, lớp 3 chiếm 7.8469% trên tổng số bản ghi của tập dữ liệu, lớp 4 chiếm 6.3158% trên tổng số bản ghi của tập dữ liệu, lớp 5 chiếm 6.8421% trên tổng số bản ghi của tập dữ liệu

Thực nghiệm với C4.5 không cắt tỉa

Nếu sử dụng thuật toán C4.5 không cắt tỉa để dự đoán chỉ số nhóm nợ ta được kết quả sau:

Cây được sinh ra gồm: 230 lá, kích thước cây là 278 Số mẫu phân lớp đúng là 1520 chiếm 72.7273% Số mẫu phân lớp sai là 570 chiếm 27.2727%

Một số độ đo với từng lớp thu được như sau:

TP Rate FP Rate Precision Recall F-Measure ROC Area Class

0.957 0.768 0.756 0.957 0.845 0.67 1

0.181 0.023 0.543 0.181 0.272 0.69 2

0.27 0.019 0.449 0.27 0.337 0.688 3

0.03 0.009 0.19 0.03 0.052 0.617 4

59

Bảng 4.3. Độ đo thực nghiệm C4.5 không cắt tỉa trên tập dữ liệu A1

a b c d e < - - classified as 1427 28 23 9 4 a = 1 217 50 6 2 1 b = 2 71 7 31 2 4 c = 3 117 5 3 4 4 d = 4 55 2 6 4 8 e = 5 Bảng 4.4. Ma trận Confusion Trong đó Ma trận Confusion

Dự đoán là mẫu tích cực Dự đoán là mẫu không tích cực Mẫu tích cực thực tế Mẫu tích cực đúng (TP) Mẫu không tích cực sai (FN) Mẫu không tích cực thực tế Mẫu tích cực sai (FP) Mẫu không tích cực đúng (TN) TPrate : tỷ lệ mẫu tích cực (Positive) đúng, TPrate =TP/(TP+FN)

Fprate : tỷ lệ mẫu tích cực sai, FPrate=FP /(TN+FP)

PPvalue : giá trị dự đoán mẫu tích cực ; PPvalue=TP/(TP+FP)

NPValue : giá trị dự đoán mẫu không tích cực ; NPValue=TN/(TN+FN)

Nếu chỉ các lớp tích cực được xem xét thì hai độ đo quan trọng là TPrate, và PPValue. TPrate được định nghĩa là Recall(R)=TPrate =TP/(TP+FN)

Giá trị dự đoán mẫu tích cực được định nghĩa là precision (P) : P = PPvalue = TP/(TP+FP)

Về nguyên tắc, F-measure biểu diễn một trung bình điều hòa giữa recall và precision : F-measure = 2/(1/R+1/P). Giá trị này cao thì cả 2 giá trị recall và precision đều cao.

60

Thực nghiệm với C4.5 cắt tỉa

Nếu sử dụng cây quyết định C4.5 cắt tỉa để dự đoán chỉ số nhóm nợ và thực hiện cắt tỉa cây thì thu được kết quả sau :

Cây sinh ra gồm 274 lá và kích thước cây là 366 Số mẫu phân lớp đúng là 1526 chiếm 73.0144 % Số mẫu phân lớp sai là 564 chiếm 26.9856 %

Một số độ đo thu được đối với từng lớp:

TP Rate FP Rate Precision Recall F-Measure ROC Area Class

0.961 0.77 0.757 0.961 0.847 0.671 1

0.181 0.023 0.549 0.181 0.272 0.689 2

0.27 0.017 0.477 0.27 0.344 0.695 3

0.03 0.008 0.211 0.03 0.053 0.619 4

0.107 0.006 0.381 0.107 0.167 0.639 5

Bảng 4.5. Độ đo thực nghiệm C4.5 cắt tỉa trên tập dữ liệu A1

a b c d e < - - classified as 1433 28 19 7 4 a = 1 217 50 6 2 1 b = 2 72 6 31 2 4 c = 3 117 5 3 4 4 d = 4 55 2 6 4 8 e = 5 Bảng 4.6. Ma trận Confusion

b) Thực nghiệm với tập dữ liệu A2

Thực nghiệm C4.5 không cắt tỉa trên tập dữ liệu hợp nhất A2, ta thu được một

số kết quả sau :

Cây sinh ra gồm 54 lá và kích thước cây là 66 Số mẫu phân lớp đúng là 1807 chiếm 86.4593 % Số mẫu phân lớp sai là 283 chiếm 13.5407 %

61

TP Rate FP Rate Precision Recall F-Measure ROC Area Class

0.966 0.69 0.884 0.966 0.923 0.703 A

0.31 0.034 0.625 0.31 0.414 0.703 B

Bảng 4.7. Một số độ đo thực nghiệm C4.5 không cắt tỉa trên tập A2

a b < - - classified as

1707 60 a = A

223 100 b = B

Bảng 4.8. Ma trận Confusion thực nghiệm C4.5 trên tập A2

Thực nghiệm cây quyết định C4.5 cắt tỉa trên tập dữ liệu A2, ta thu được một số kết quả sau :

Cây quyết định dự đoán được sinh ra gồm 64 lá và kích thước cây là 86 Số mẫu phân lớp đúng 1647 chiếm 86.555 %

Số mẫu phân lớp sai 443 chiếm 13.445 %

Một số độ đo thu được đối với từng lớp:

TP Rate FP Rate Precision Recall F-Measure ROC Area Class

0.968 0.697 0.884 0.968 0.924 0.704 A

0.303 0.032 0.636 0.303 0.411 0.704 B

Bảng 4.9. Một số độ đo thực nghiệm C4.5 cắt tỉa trên tập A2

a b < - - classified as

1711 56 a = A

225 98 b = B

Bảng 4.10. Ma trận Confusion thực nghiệm C4.5 cắt tỉa trên tập A2

4. Đánh giá kết quả dự đoán chỉ số nhóm nợ sử dụng cây quyết định C4.5

Tập dữ liệu ban đầu của bài toán gồm 5 lớp, trong đó lớp 1,2 chiếm đa số trong tập dữ liệu và lớp 3,4,5 là các nhóm nợ xấu chiếm thiểu số trong tập dữ liệu. Nhóm nợ xấu là điều đáng quan tâm với bài toán rủi ro tín dụng. Để đánh giá các kỹ thuật khai phá tôi sử dụng các độ đo trung bình của độ đo lớp 1-2, và

62 3-4-5. Đặt độ đo trung bình của lớp 1-2 là các độ đo trung bình lớp I ( ví dụ F- measurei) và các độ đo trung bình của các độ đo 03 lớp 3-4-5 là các độ đo trung bình lớp II ( ví dụ F-measureii) . Đối với tập dữ liệu hợp nhất thì độ đo trên là độ đo của các lớp hợp nhất tương ứng. Tôi sử dụng độ phân lớp chính xác và các độ đo Recall, F-measure và ROC Area để đánh giá kỹ thuật khai phá.

Kết quả thực nghiệm như sau :

Tỷ lệ dự đoán chính xác (%) RecallI F- measureI ROC

AreaI RecallII F-measureII

ROC AreaII X1 72.727% 0.569 0.5585 0.68 0.136 0.185 0.648 X2 73.014% 0.571 0.5595 0.68 0.136 0.188 0.651 X3 86.459% 0.966 0.923 0.703 0.31 0.414 0.703 X4 86.555% 0.968 0.924 0.704 0.303 0.414 0.704

X1 : Sử dụng C4.5 không cắt tỉa trên tập dữ liệu A1 X2 : Sử dụng C4.5 cắt tỉa trên tập dữ liệu A1

X3 : Sử dụng C4.5 không cắt tỉa trên tập dữ liệu hợp nhất A2 X4 : Sử dụng C4.5 cắt tỉa trên tập dữ liệu hợp nhất A2

Dựa vào kết quả thực nghiệm trên ta nhận thấy nếu sử dụng C4.5 cắt tỉa và không cắt tỉa trên cùng một tập dữ liệu thì tỷ lệ dự đoán chính xác, và giá trị độ đo RecallI, F-measureI, ROCI, F-measureII, ROCII, là ngang nhau hoặc cao hơn một chút khi sử dụng C4.5 cắt tỉa. Như vậy với bài toán dự đoán chỉ số nhóm nợ sử dụng cây quyết định C4.5 cắt tỉa cho kết quả tốt hơn.

Nếu đưa bài toán dự đoán rủi ro tín dụng từ 5 lớp về bài toán dự đoán rủi ro 2 lớp dựa vào kết quả thực nghiệm ta thấy độ chính xác cao hơn, giá trị độ đo RecallI, F-measureI, ROC I tăng lên đáng kể, RecallII, F-measureII, ROCII cũng

63 cao hơn. Vậy trong bài toán dự đoán chỉ số nhóm nợ trên tập dữ liệu hợp nhất tốt hơn trên tập dữ liệu 5 lớp.

Kết quả thực nghiệm sử dụng cây quyết định C4.5 trên tập dữ liệu có thể chuyển thành các luật để đánh giá chất lượng của từng nút lá của cây quyết định. Mỗi luật có dạng sau : IF<điều kiện> THEN <lớp >(x/y) trong đó : <điều kiện> là điều kiện giá trị các thuộc tính của mẫu dữ liệu, <lớp> là kết luận về lớp (nhóm nợ) cần dự đoán, (x/y): x là tổng số mẫu dữ liệu trong tập dữ liệu thỏa mãn điều kiện, y là tổng số mẫu dữ liệu trong tập dữ liệu thỏa mãn điều kiện nhưng không có kết luận lớp. Trường hợp y=0 thì (x/y) viết là (x).

Một số luật kết luận về nhóm nợ xấu khi sử dụng cây quyết định C4.5 không cắt tỉa trên tập dữ liệu A1:

Luật 4.1

IF DURTYPE = 1 AND RESIDENT = 0 AND PURPOSE = 2 AND APRLIMIT = '(-inf- 116800000]' AND INCOME = N AND POSITION = O

THEN 4 (4.0/1.0) Luật 4.2

IF DURTYPE = 1 AND RESIDENT = 0 AND PURPOSE = 2 AND APRLIMIT = '(116800000-231600000]' AND TYPE = 6 AND JOB = 1

THEN 4 (5.11/2.11) Luật 4.3

IF DURTYPE = 1 AND RESIDENT = 0 AND PURPOSE = 2 AND APRLIMIT = '(805600000-920400000]' AND POSITION = O

THEN 4 (3.0) Luật 4.5

IF DURTYPE = 1 AND RESIDENT = 1 AND PURPOSE = 11 AND JOB = 6 THEN 4 (4.0)

Luật 4.6

IF DURTYPE = 1 AND RESIDENT = 1 AND PURPOSE = 11 AND JOB = 17 THEN 4 (3.0/1.0)

64 IF DURTYPE = 3 AND APRLIMIT = '(-inf-116800000]' AND TYPE = 6 AND POSITION = O

THEN 4 (2.0) Luật 4.8

IF DURTYPE = 3 AND APRLIMIT = '(-inf-116800000]' AND TYPE = 6 AND POSITION = N AND AGE = '(-inf-29]'

THEN 3 (7.0/1.0) Luật 4.9

IF DURTYPE = 3 AND APRLIMIT = '(-inf-116800000]' AND TYPE = 6 AND POSITION = N AND AGE = '(47-56]' AND RESIDENT = 0 AND JOB = 1

THEN 4 (5.0/2.0) Luật 4.10

IF DURTYPE = 3 AND APRLIMIT = '(-inf-116800000]' AND TYPE = 6 AND POSITION = N AND AGE = '(56-inf)'

THEN 3 (4.0/2.0) Luật 4.11

IF DURTYPE = 3 AND APRLIMIT = '(116800000-231600000]' AND POSITION = O AND AGE = '(-inf-29]'

THEN 3 (1.0) Luật 4.12

IF DURTYPE = 3 AND APRLIMIT = '(116800000-231600000]' AND POSITION = O AGE = '(29-38]'

THEN 4 (2.0) Luật 4.13

IF DURTYPE = 3 AND APRLIMIT = '(116800000-231600000]' AND POSITION = N AND RESIDENT = 0 AND JOB = 1

THEN 3 (5.0) Luật 4.14

IF DURTYPE = 3 AND APRLIMIT = '(116800000-231600000]' AND POSITION = N AND RESIDENT = 1 AND JOB = 6 AND AGE = '(29-38]'

THEN 3 (4.0) Luật 4.15

IF DURTYPE = 3 AND APRLIMIT = '(116800000-231600000]' AND POSITION = N AND RESIDENT = 1 AND JOB = 17

65 THEN 3 (3.0/1.0)

Luật 4.16

IF DURTYPE = 3 AND APRLIMIT = '(116800000-231600000]' AND POSITION = N AND RESIDENT = 1 AND JOB = 18

THEN 3 (25.0/12.0)

Luật 4.17

IF DURTYPE = 3 AND APRLIMIT = '(576000000-690800000]' AND TYPE = 4 AND POSITION = N AND GTVALUE = 1

THEN 4 (2.0/1.0) Luật 4.18

IF DURTYPE = 3 AND APRLIMIT = '(576000000-690800000]' AND TYPE = 6 AND INCOME = N AND JOB = 1

THEN 3 (10.0/3.0)

Luật 4.19

IF DURTYPE = 3 AND APRLIMIT = '(690800000-805600000]' AND GTVALUE = 1 AND POSITION = N AND JOB = 1 AND RESIDENT = 0

THEN 5 (3.0)

Luật 4.20

IF DURTYPE = 3 AND APRLIMIT = '(690800000-805600000]' AND GTVALUE = 1 AND POSITION = N AND JOB = 17

THEN 5 (3.0)

Luật 4.21

IF DURTYPE = 3 AND APRLIMIT = '(690800000-805600000]' AND GTVALUE = 1 AND POSITION = N AND JOB = 18 AND AGE = '(47-56]'

THEN 3 (6.0/2.0)

Luật 4.22

IF DURTYPE = 3 AND APRLIMIT = '(805600000-920400000]' AND TYPE = 3 AND GTVALUE = 1

THEN 5 (5.0/1.0) Luật 4.23

IF DURTYPE = 3 AND APRLIMIT = '(920400000-1035200000]' AND RESIDENT = 0 THEN 4 (6.0/2.0)

66 IF DURTYPE = 3 AND APRLIMIT = '(1035200000-inf)' AND GTVALUE = 1 AND PURPOSE = 2 AND MARRIED = 1 THEN 4 (12.0/7.0)

Khi cấp tín dụng cho khách hàng, ngân hàng căn cứ vào 3 tiêu chí: nguồn trả nợ của khách, tài sản thế chấp, mục đích sử dụng vốn vay. Trong đó, nguồn trả nợ của khách là tiêu chí chính và chủ yếu gây nên rủi ro tín dụng.

Các luật 4.17; luật 4.19; luật 4.20; luật 4.21; luật 4.22; luật 4.24 đều là những trường hợp GTVALUE nằm ở mức cao. GTVALUE=1 tài sản thế chấp của khách hàng là bất động sản đô thị, GTVALUE=2 tài sản thế chấp của khách hàng là bất động sản nông thôn. Trường hợp có tài sản đảm bảo cao như vậy thường là ít gây rủi ro, vậy mà khi sử dụng cây quyết định C4.5 không cắt tỉa đã thu được một số luật có giá trị mới này. Đây được xem là tri thức mới với các chuyên gia ngân hàng.

Thực nghiệm cây quyết định C4.5 không cắt tỉa với tập dữ liệu hợp nhất A2, thu được một số luật về nhóm nợ xấu như sau:

Luật 4.25

IF DURTYPE = 3 AND PURPOSE = 2 AND GTVALUE = 0 AND TYPE = 6 THEN B (5.0/1.0)

Luật 4.26

IF DURTYPE = 3 AND PURPOSE = 2 AND GTVALUE = 1 AND TYPE = 3 THEN B (17.0/2.0)

Luật 4.27

IF DURTYPE = 3 AND PURPOSE = 2 AND GTVALUE = 1 AND TYPE = 4 THEN B (8.0/3.0)

Luật 4.28

IF DURTYPE = 3 AND PURPOSE = 2 AND GTVALUE = 1 AND TYPE = 6 AND JOB = 1 AND RESIDENT = 0

THEN B (22.33/5.0)

Luật 4.29

IF DURTYPE = 3 AND PURPOSE = 2 AND GTVALUE = 1 AND TYPE = 6 AND JOB = 9

67

Luật 4.30

IF DURTYPE = 3 AND PURPOSE = 2 AND GTVALUE = 1 AND TYPE = 6 AND JOB = 18

THEN B (61.38/24.0)

Luật 4.31

IF DURTYPE = 3 AND PURPOSE = 2 AND GTVALUE = 2 AND JOB = 1 AND RESIDENT = 0

THEN B (9.0/1.0)

Luật 4.32

IF DURTYPE = 3 AND PURPOSE = 2 AND GTVALUE = 2 AND JOB = 18 AND MARRIED = 1

THEN B (15.0/2.0)

Như đã trình bày ở trên trong thực tế nợ xấu xảy ra thường là do nguồn trả nợ của khách hàng có vấn đề, và chủ yếu tập trung ở các khoản vay trung - dài hạn. Trong các luật trên có luật 4.26; luật 4.27; luật 4.28; luật 4.29; luật 4.30; luật 4.31; luật 4.32 đều có tài sản đảm bảo ở mức cao, tài sản đảm bảo cao như vậy không được xem là nhân tố rủi ro trong các sản phẩm vay. Vậy các luật này chính là tri thức mới đối với chuyên gia ngân hàng.

68

KẾT LUẬN

Luận văn đã trình bày về các nội dung: khai phá dữ liệu, các kỹ thuật khai phá dữ liệu, đặc biệt thuật toán cây quyết định đã được trình bày khá chi tiết, sau đó vận dụng lý thuyết rủi ro để giải quyết bài toán dự đoán chỉ số nhóm nợ của khách hàng khi biết những thông tin cần thiết, những thông tin – dữ liệu này đã được xử lý cho phù hợp. Từ đó đánh giá kết quả dự đoán và đưa ra một số luật mới hỗ trợ chuyên gia ngân hàng quản lý rủi ro tín dụng.

Tuy nhiên vẫn còn nhiều vấn đề trong luận văn cần phải tiếp tục nghiên cứu và tìm hiểu như: nghiên cứu để tăng tính chính xác cho bài toán dự đoán rủi ro, nghiên cứu bài toán dự đoán chỉ số nhóm nợ trên khối dữ liệu lớn, nghiên cứu các phương pháp khai phá dữ liệu khác từ đó chọn được một mô hình thích hợp nhất...để có thể phát triển và đưa bài toán áp dụng vào thực tế.

69

TÀI LIỆU THAM KHẢO

[1] Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques

(2001)

[2] Michael J.A. Berry - Gordon S. Linoff, Data Mining Techniques For Marketing, Sales, and Customer Relationship Management Second Edition, 2009.

[3] Knowledge Discovery in Databases. G.piatetsky - Shapiro and W.J. Frawley. AAAI/MIT Press, 1991.

[4] Võ Huỳnh Tâm - Trần Ngân Bình, "Giáo trình trí tuệ nhân tạo", chương 9, Nhà xuất bản Cần Thơ, 2006

[5] TS. Phạm Tiến Thành, Quản lý rủi ro tín dụng dưới góc độ ngân hàng, 2011.

[6] Wikipedia - Bách khoa toàn thư mở - Cây quyết định, 2011. http://en.wikipedia.org/wiki/Decision tree

Một phần của tài liệu Ứng dụng cây quyết định để dự đoán chỉ số nhóm nợ hỗ trợ quản lý rủi ro tín dụng (Trang 60)

Tải bản đầy đủ (PDF)

(72 trang)