Sau khi dữ liệu được nạp lên, panel bên trái thể hiện các thuộc tính của file dữ liệu, panel bên phải thể hiện các thống kê tương ứng với thuộc tính bên trái (xem hình sau).
Thuộc tính nhom_no:
Hình 3.6 Thuộc tính Nhóm nợ
dễ dàng trong Weka như sau: Trong panel Filter > Choose > filters >unsupervised
> attribute > Remove:
Bước tiếp theo là bấm chọn textbox ngay bên phải nút “Choose” và gỏ vào 1 (đây là index của thuộc tính id trong file dữ liệu).
Hình 3.7 Loại bỏ thuộc tính ID
Bấm nút “Apply” sẽ tạo ra một bộ dữ liệu mới (working relation) với 19 thuộc tính sau khi đã loại bỏ thuộc tính id.
Bây giờ ta lưu lại dữ liệu sau khi loại bỏ thuộc tính id dưới dạng file .arff với tên là "bank-tài2.arff". Để thực hiện việc rời rạc hóa dữ liệu ở bước tiếp theo. Chọn nút “save” và gõ vào tên file "bank-tài2.arff". Nội dung file “bank-tài2.arff” như sau (trong Word):
^relation Bank-Tai-Weka. filters.un3upervi3ed.attribute.Remove-Rl Sattribute tuoi numeric
(!attribute gioi_tinh {nam,nu}
Sattribute hoc_van {duoi th,dh,cd, tren_dh, th} Sattribute tienan_tiensu {co,khong}
Sattribute tinhtrang_cutru {CSHfNCC,THUE,KHAC,V0IJ3D} Sattribute cocau_giadinh {voi_gd_khac, hat_nhan,VOi borne,khac} Sattribute baohiem_nhanmang {khong,co}
Sattribute Songuoi phuthuoc numeric Sattribute tinhchat_congviec
{ld_thoi_vu, quan ly, Chuyenjnon,ld_duoc_dt, that nghiep}
Sattribute thoigian_lamviec numeric Sattribute ruirojιghenghiep {tb,thap,cao} Sattribute thu Jihap numeric
Sattribute tyle_pt/tn numeric Sattribute taisan_dambao {co,khong}
Sattribute thoihan_trano {da_co_nqh, khjnoi, dung_han, da_gh, dang_co_nqh} Sattribute dichvu_3udung {khong_sd, tg+dvkhac, dv_tt}
Sattribute Songayjquahan numeric Sattribute 3olan_giahan numeric Sattribute nhomjιo {V,III,I,II,IV} Sdata
57,nam, duoi th, co, CSH,VOijjdJchac, khong, 1, ld_thoi_vu, O, tb, 5.3,0.5, co, da C OJiqh, khong_3 d, 9 0, 2, V
57, nu,dh,khong,NCC,hat_nhan, co,4, quan ly, 3, thap, 9.6,0.66, khong, khjnoi, tg+
dvkhac, O, O, III
22,nam, cd,khong, THUE, VOi borne, khong,O, Chuyenjnon,l,tb, 6.1,0.35, khong, khjn
0i, tg+dvkhac, O,O,III
58, nam, trenjdh, khong,CSH, hat Jihan, co,5, quan ly, 7,tb,10.3, 0.76, khong,khjno
i,tg+dvkhac,O,O, III
52,nu,tren_dh,khong, KHAC, khac, khong,O, quan ly,5, thap, 8.9, 0.3,co,dungJ1an, tg+dvkhac,O,O,I
Hình 3.8 Nội dung file bank-tai2.arrf 3.4.3 Xây dựng mơ hình cây quyết định
Mơ hình thử nghiệm được thực hiện như sau:
Bước 1: Chọn menu Preprocess để vào panel lấy các nguồn thử nghiệm Bước 2: Click Open File để chỉ đến vị trí file nguồn dữ liệu.
Bước 3: Chọn file nguồn dữ liệu là file bank-data.arff thu được sau khi thực hiện tiền xử lý dữ liệu.
Hình 3.9 Giao diện tiền xử lý sau khi loại bỏ thuộc tính ID
Đầu tiên là chế độ kiểm thử Use training set: Sau khi đã chọn được nguồn dữ liệu và chế độ kiểm thử Use training set, ta tiến hành thử nghiệm trên nguồn đó như sau:
- Chọn menu Classify để thực hiện chức năng phân lớp.
- Click nút Choose để lựa chọn thuật toán cho việc phân lớp. Ở đây ta chọn thuật tốn J48, vì trong Weka, thuật tốn C4.5 được thực hiện bởi phân loại J48.
Click vào nút Start để thực hiện chức năng phân lớp như trong hình 3.10
Ket quả thử nghiệm: Ta thu được kết quả dưới 2 dạng:
- Dạng text (hình 3.10 và 3.11): bao gồm các thơng tin: ■ Số node lá: 34
Dạng mơ hình cây (hình 3.12): đầu ra là cây quyết định thông thường mà các node lá là các bộ phân loại.
Hình 3.12 Mơ hình cây quyết định của bài tốn quản trị rủi ro tín dụng
Nhận thấy kết quả chạy thử nghiệm với cùng bộ số liệu trên bằng 3 chế độ kiểm thử khác nhau Use training set, Cross - validatio, Percentage split thu được 3
| thoihan_trano = da_co_nqh: III (0.0) | thoihan_trano = kh_moi
| | songay_quahan <= 145 | | | taisan_dambao = co
| | | | dichvu_sudung = khong_sd: III (5.0) | | | | dichvu_sudung = tg+dvkhac
| | | | | tuoi <= 35: III (18.0/1.0) | | | | | tuoi > 35
| | | | | | tinhchat_congviec = ld_thoi_vu: III (2.0/1.0)
| | | | | | tinhchat_congviec= quan_ly: II (11.0/1.0) | | | | | | tinhchat_congviec= chuyen_mon: III (4.0/1.0) | | | | | | tinhchat_congviec = ld_duoc_dt: II (0.0) | | | | | | tinhchat_congviec = that_nghiep: II (0.0) | | | | dichvu_sudung = dv_tt: III (19.0)
| | | taisan_dambao = khong: III (39.0) | | songay_quahan > 145: IV (2.0) | thoihan_trano = dung_han
| | taisan_dambao = co
| | | tinhchat_congviec = ld_thoi_vu: III (4.0/1.0)
| | | tinhchat_congviec = quan_ly | | | | tyle_pt/tn <= 0.44 | | | | | dichvu_sudung = khong_sd:II (1.0) | | | | | dichvu_sudung = tg+dvkhac | | | | | | thoigian_lamviec <= 0: II (2.0) | | | | | | thoigian_lamviec > 0: I (29.0) | | | | | dichvu_sudung = dv_tt: II (7.0) | | | | tyle_pt/tn > 0.44: II (17.58) | | | tinhchat_congviec = chuyen_mon: II (32.0/4.0) | | | tinhchat_congviec = ld_duoc_dt: II (3.0) | | |tinhchat_congviec = that_nghiep: II (0.0) | | taisan_dambao = khong | | | tyle_pt/tn <= 0.26: I (3.0) | | | tyle_pt/tn > 0.26 | | | | thoigian_lamviec <= 7
| | | | | | dichvu_sudung = dv_tt: III (6.0)
| | | | | tyle_pt/tn > 0.35: III (37.0)
| | | | thoigian_lamviec > 7: II (4.0)
| thoihan_trano = da_gh: III (4.0)
| thoihan_trano = dang_co_nqh: III (2.0) solan_giahan > 0 | solan_giahan <= 1 | | songay_quahan <= 2: III (22.05/0.05) | | songay_quahan > 2 | | | songay_quahan <= 90: IV (113.26/0.26) | | | songay_quahan > 90: V (9.02/0.02) | solan_giahan > 1 | | songay_quahan <= 2 | | | solan_giahan <= 2: IV (5.01/0.01) | | | solan_giahan > 2: V (5.01/0.01) | | songay_quahan > 2: V (34.08/0.08)
Luật 1: Neu số lần gia hạn <= 0, thời hạn trả nợ = đã có nợ q hạn thì nhóm nợ = III.
Luật 2: Nếu số lần gia hạn <= 0, thời hạn trả nợ = khách hàng mới, số ngày q hạn >145 thì nhóm nợ = IV
Luật 3: Nếu số lần gia hạn <= 0, thời hạn trả nợ = khách hàng mới, số ngày quá hạn <= 145, tài sản đảm bảo = khơng thì nhóm nợ = III.
Luật 4: Nếu số lần gia hạn <= 0, thời hạn trả nợ = khách hàng mới, số ngày quá hạn <= 145, tài sản đảm bảo = có, dịch vụ sử dụng = dịch vụ thanh toán thì nhóm nợ = III.
Luật 5: Nếu số lần gia hạn <= 0,thời hạn trả nợ = khách hàng mới, số ngày quá hạn <= 145, tài sản đảm bảo = có, dịch vụ sử dụng = tiền gửi và dịch vụ khác, tuổi <= 35 thì nhóm nợ = III.
Luật 6: Nếu số lần gia hạn <= 0,thời hạn trả nợ = khách hàng mới, số ngày quá hạn <= 145, tài sản đảm bảo = có, dịch vụ sử dụng = tiền gửi và dịch vụ khác, tuổi >35, tính chất cơng việc là quản lý thì nhóm nợ = II.
Luật 7: Nếu số lần gia hạn <= 0, thời hạn trả nợ = đúng hạn, tài sản đảm bảo = có, tính chất cơng việc = quản lý, tỷ lệ phả trả/thu nhập <= 0,44, dịch vụ sử dụng = tiền gửi và dịch vụ khác, thời gian làm việc > 0 thì nhóm nợ = I.
Luật 8: Nếu số lần gia hạn <= 0, thời hạn trả nợ = đúng hạn, tài sản đảm bảo = không, tỷ lệ phả trả/thu nhập <= 0,26 thì nhóm nợ = I.
Luật 9: Nếu số lần gia hạn > 2 thì nhóm nợ = V.
Luật 10: Nếu số lần gia hạn = 2, số ngày q hạn >2 thì nhóm nợ = V.
3.4.5 Sử dụng cây quyết định trong dự báo nhóm nợ của các khoản vay chưabiết. biết.
Nhiệm vụ của bài tốn dự báo nhóm nợ bằng cây quyết định là sử dụng cây quyết định đã tạo ra để dự đoán các khoản vay này thuộc nhóm nợ nào dựa vào các thuộc tính đã cho. Giả sử rằng ta có dữ liệu về 10 khoản vay của KH với các giá trị dữ liệu đã biết về các thuộc tính tuổi, giới tính, trình độ học vấn, tiền án tiền sự, tình trạng cư trú, số người phụ thuộc, cơ cấu gia đình, bảo hiểm nhân mạng, tính chất cơng việc hiện tại, thời gian làm việc cơng việc hiện tại, rủi ro nghề nghiệp, thu nhập rịng ổn định hàng tháng, tỷ lệ số tiền phải trả/ thu nhập, tình hình trả nợ gốc và lãi, các dịch vụ sử dụng, thời gian quá hạn, số lần gia hạn trả nợ và thuộc tính chưa biết: nhóm nợ.
3
0 nam d c o c CSH hat_nhan khong 3iyen_mon 6 thap 6 3, ,780 khong Iajaojiqh tg+dvkhac 65 3 ? 2
8 u n h t khong THUE hat_nhan khong 2 Ijduocjlt 6 tb 3 5, ,750 co khjmoitg+dvkhac 60 1 ? 2
6 nam duoijth khong VOI_GDvoi_bome co 1d_thoi_vu 1 cao 2 7, 0,4 co khjmoitg+dvkhac 70 0 ? 6
1 nam tren_dh khong CSH hat_nhan co 3 quan_ly 1 thap 3 9, ,750 codungjhan dv_t 1 0 ? 5
0 m _th g e co OatJIghiep 0 0 co a_co_nqh dv_t 92 2V 4
3 nam h d khong hat_nhanCSH khong 3 quan_ly 4 tb 7 6 0,7 khong kh_moi khong_sd 75 0III 4
2 u n h d o c hat_nhanNCC co 1 quan_ly 6 11,3 1 0,4 codung_hantg+dvkhac 0 0I 4 1 n u d h khon g CSH hat_nhan
khong 0 quan_ly 6 thap 11,5 0,4 1
co dung_han dv_t 0 0 II 3
0 nam d c co hat_nhanCSH khong 3iyen_mon 6 thap 6 3, 8 0,7 khonga_co_nqhtg+dvkhac 65 3V 2 8 n u t h khon g THUE hat_nhan khong 2l_duoc_dt 6 tb 5, 3 0,7 5 co kh_moi tg+dvkhac 60 1 IV 2
6 nam duoi_th khong VOIjGDvoijbome co 1d_thoi_vu 1 cao 2 7, 0,4 co kh_moi tg+dvkhac 70 0III 6
1 nam tren_dh khong hat_nhanCSH co 3 quan_ly 1 thap 3 9, 5 0,7 co dung_han dv_t 1 0II 5
7 u n h d khong hat_nhanCSH co 2 quan_ly 5 thap 12,5 5 0,2 co dung_hantg+dvkhac 0 0I
Khóa luận tốt nghiệp 66 Khoa Hệ thống thơng tin quản lý
Ví dụ Khách hàng số 4 có số tuổi là 42, căn cứ vào các thuộc tính ta thấy số lần gia hạn = 0, thời hạn trả nợ = đúng hạn, tài sản đảm bảo = có, tính chất công việc= quản lý, tỷ lệ phả trả/thu nhập = 0,41 <0,44 , dịch vụ sử dụng = tiền gửi và dịch vụ khác, thời gian làm việc = 6 >0 thì nhóm nợ = I.
Tương tự khách hàng số 2 có số tuổi là 20, có số lần gia hạn = 2, số ngày quá hạn = 92 >2 thì nhóm nợ = V.
Làm tương tự cho các khách hàng còn lại, ta thu được bảng phân lớp nhóm nợ sau:
3.5 Đánh giá kết quả việc ứng dụng cây quyết định vào quản trị rủi ro tín dụngđược thử nghiệm với phần mềm WEKA được thử nghiệm với phần mềm WEKA
Bài toán xây dựng cây quyết định dự báo rủi ro tín dụng được thử nghiệm với phần mềm Weka và bộ số liệu của ngân hàng AGRIBANK đã thu được một số kết quả tốt:
• Mơ hình cây quyết định được xây dựng mô phỏng kết quả phân loại nhóm nợ một cách trực quan, dễ hiểu.
• Rút ra được các quy luật liên quan đến việc cho vay. Chẳng hạn như: Luật 7: Nếu số lần gia hạn <= 0, thời hạn trả nợ = đúng hạn, tài sản đảm bảo = có, tính chất cơng việc = quản lý, tỷ lệ phả trả/thu nhập <=
Qua đó, sử dụng cây quyết định trên sẽ giúp các chuyên gia Ngân hàng dự đoán trước khả năng trả nợ của KH hay mức độ rủi ro của một khoản vay bất kỳ, từ đó đưa ra những quyết định phù hợp nhằm tăng cường chất lượng tín dụng.
Tuy nhiên, hiệu quả phân lớp của cây quyết định phụ thuộc rất nhiều vào tập dữ liệu thử nghiệm (training data). Tập dữ liệu thử nghiệm trong mơ hình trên có kích tương đối nhỏ, do đó, kết quả phân loại khi sử dụng cây quyết định này đối với các trường hợp khác có thể chưa cao.
Như vậy, kết quả thực nghiệm với công cụ WEKA có thể khẳng định rằng phương pháp cây quyết định áp dụng trong quản trị rủi ro tín dụng trong ngân hàng là một hướng tiếp cận tiềm năng.
KẾT LUẬN CHUNG •
Luận văn đã trình bày được các vấn đề cơ bản về khai phá dữ liệu và cây quyết định: những vấn đề tổng quan về khai phá dữ liệu, khái niệm, chức năng, các thuật toán cũng như ưu và nhược điểm của kỹ thuật khai phá dữ liệu; Nắm được kỹ thuật khai phá dữ liệu bằng cây quyết định, các thuật toán xây dựng cây quyết định. Phần thử nghiệm đã xây dựng được một mơ hình cây quyết định bằng phần mềm Weka dựa trên bộ số liệu thực tế của Ngân hàng Nông nghiệp và Phát triển Nông thôn - chi nhánh Xuân Mai và sử dụng cây quyết định này để dự đốn nhóm nợ. Thơng qua việc xây dựng cây quyết định có thể khẳng định cây quyết định là một phương pháp tiềm năng giúp ngân hàng giảm thiểu đáng kể mức độ rủi ro của mình khi xét duyệt hồ sơ vay vốn của khách hàng.
Qua việc sử dụng phần mềm thử nghiệm khai phá dữ liệu Weka, tôi nhận thấy đây là một công cụ hữu hiệu trong việc học tập và nghiên cứu về KPDL. Với môi trường làm việc trực quan, sinh động, công cụ này có thể được sử dụng dễ dàng trong nhiều lĩnh vực của KPDL. Bằng việc sử dụng phần mềm Weka, luận văn đã xây dựng thành cơng cây quyết dùng trong dự báo rủi ro tín dụng.
Đối với các thuật toán trong cây quyết định chưa thực sự phù hợp với cơ sở dữ liệu lớn như của ngân hàng. Do hạn chế về mặt thời gian, kĩ thuật và đặc biệt là việc thu thập số liệu rất khó khăn. Bởi vì thơng tin của khách hàng đối với ngân hàng phải được bảo mật... Do đó, số lượng các chỉ tiêu chưa đủ để đáp ứng vào bài toán thực tiễn. Rõ ràng mơ hình của chúng tôi cần được phát triển để đáp ứng được u cầu của thực tế. Đó là mục đích của hướng nghiên cứu trong tương lai.
Hướng phát triển của đề tài sẽ nghiên cứu thêm một số thuật toán mới về khai phá dữ liệu bằng cây quyết định, tìm hiểu kỹ hơn về các kỹ thuật khai phá dữ liệu khác và xây dựng được những chương trình ứng dụng phức tạp và có tính thực tế hơn bằng cây quyết định. Khi mà lượng dữ liệu thu thập và lưu trữ ngày càng tăng, cùng với nhu cầu nắm bắt thơng tin, thì nhiệm vụ đặt ra cho Khai phá dữ liệu ngày càng quan trọng. Sự áp dụng được vào nhiều lĩnh vực kinh tế xã hội, an ninh quốc phòng cũng là một ưu thế của khai phá dữ liệu. Với những mong muốn đó tơi hy vọng sẽ dần đưa những kiến thức đã có từ đề tài này sớm trở thành thực tế, phục vụ cho cuộc sống con người chúng ta.
DANH MỤC TÀI LIỆU THAM KHẢO
Tiếng việt:
1. Cẩm nang tín dụng của ngân hàng nông nghiệp và phát triển nơng thơn
2. Giáo trình Tín dụng ngân hàng, NXB Thống kê, 2001.
3. Nguyễn Thị Thùy Linh (2005), Khóa luận tốt nghiệp đại học “Nghiên
cứu các thuật toán phân lớp dữ liệu trên cây quyết đinh”, Đại học
công nghệ - ĐH quốc gia Hà Nội, Hà Nội.
4. Nguyễn Trần Minh Khuê (2009), Các phương pháp và kĩ thuật khai
phá dữ liệu, Hà Nội.
5. Nguyễn Thị Hạnh (2011), Nghiên cứu khoa học “Khai phá dữ liệu
bằng cây quyết định”, Khoa công nghệ thông tin- đại học sư phạm Hà
Nội, Hà Nội.
6. PGS.TS Đỗ Phúc (2007), Bài giảng khai thác dữ liệu, Đại học Quốc gia TP.Hồ Chí Minh, TP Hồ Chí Minh.
7. Quyết định số 493/2005/QĐ-NHNN ngày 24/04/2005 của thống đốc NHNN Việt Nam về phân loại nợ, trích lập và sử dụng dự phòng để xử lý rủi ro tín dụng trong hoạt động của các tổ chức tín dụng.
Tiếng anh:
8. Jaiwei Han and Micheline Kamber (2001), Data Mining: Concepts
and Techniques, Morgan Kaufmann Publishers.
9. Thomas (2009), Data mining: Definittions and decision tree
examples, State university of New York.
Danh mục các website tham khảo:
10. BIS - http://bis.net.vn/forums/p/378/661.aspx/