Tiền xử lý dữ liệu

Một phần của tài liệu Ứng dụng mô hình cây quyết định vào quản trị rủi ro tín dụng NH khoá luận tốt nghiệp 793 (Trang 68)

3.1.2 .3Nguyên nhân của các tồn tại trên

3.4 Xây dựng cây quyết định với bộ cơ sở dữ liệu của ngân hàng Nông nghiệp và

3.4.2 Tiền xử lý dữ liệu

Trong qui trình khai phá dữ liệu, cơng việc xử lý dữ liệu trước khi đưa vào các mơ hình là rất cần thiết, bước này làm cho dữ liệu có được ban đầu qua thu thập dữ liệu (gọi là dữ liệu gốc - original data) có thể áp dụng được (thích hợp) với các mơ hình khai phá dữ liệu (data mining model) cụ thể. Các công việc cụ thể của tiền xử lý dữ liệu bao gồm những công việc như:

Filtering Attributes: Chọn các thuộc tính phù hợp với mơ hình

Filtering samples: Lọc các mẫu (instances, patterns) dữ liệu cho mơ hình Clean data: Làm sạch dữ liệu như xóa bỏ các dữ liệu bất thường (Outlier) Transformation: Chuyển đổi dữ liệu cho phù hợp với các mơ hình như chuyển

đổi dữ liệu từ numeric qua nomial hay ordinal.

Discretization (rời rạc hóa dữ liệu): Nếu có dữ liệu liên tục nhưng một vài mơ

hình chỉ áp dụng cho các dữ liệu rời rạc (như luật kết hợp chẳng hạn) thì phải thực hiện việc rời rạc hóa dữ liệu.

Nhóm Số lượng Cơ cấu Nhóm 1 32 7.21% Nhóm 2 81 18.24% Nhóm 3 163 36.71% Nhóm 4 120 27.03% Nhóm 5 48 10.91%

Bước 1: nạp dữ liệu (Loading the Data) vào Weka: chọn tab “Preprocess” -

> Open file.

Hình 3.4 Nạp CSDL vào WEKA

Sau khi dữ liệu được nạp lên, panel bên trái thể hiện các thuộc tính của file dữ liệu, panel bên phải thể hiện các thống kê tương ứng với thuộc tính bên trái (xem hình sau).

Thuộc tính nhom_no:

Hình 3.6 Thuộc tính Nhóm nợ

dễ dàng trong Weka như sau: Trong panel Filter > Choose > filters >unsupervised

> attribute > Remove:

Bước tiếp theo là bấm chọn textbox ngay bên phải nút “Choose” và gỏ vào 1 (đây là index của thuộc tính id trong file dữ liệu).

Hình 3.7 Loại bỏ thuộc tính ID

Bấm nút “Apply” sẽ tạo ra một bộ dữ liệu mới (working relation) với 19 thuộc tính sau khi đã loại bỏ thuộc tính id.

Bây giờ ta lưu lại dữ liệu sau khi loại bỏ thuộc tính id dưới dạng file .arff với tên là "bank-tài2.arff". Để thực hiện việc rời rạc hóa dữ liệu ở bước tiếp theo. Chọn nút “save” và gõ vào tên file "bank-tài2.arff". Nội dung file “bank-tài2.arff” như sau (trong Word):

^relation Bank-Tai-Weka. filters.un3upervi3ed.attribute.Remove-Rl Sattribute tuoi numeric

(!attribute gioi_tinh {nam,nu}

Sattribute hoc_van {duoi th,dh,cd, tren_dh, th} Sattribute tienan_tiensu {co,khong}

Sattribute tinhtrang_cutru {CSHfNCC,THUE,KHAC,V0IJ3D} Sattribute cocau_giadinh {voi_gd_khac, hat_nhan,VOi borne,khac} Sattribute baohiem_nhanmang {khong,co}

Sattribute Songuoi phuthuoc numeric Sattribute tinhchat_congviec

{ld_thoi_vu, quan ly, Chuyenjnon,ld_duoc_dt, that nghiep}

Sattribute thoigian_lamviec numeric Sattribute ruirojιghenghiep {tb,thap,cao} Sattribute thu Jihap numeric

Sattribute tyle_pt/tn numeric Sattribute taisan_dambao {co,khong}

Sattribute thoihan_trano {da_co_nqh, khjnoi, dung_han, da_gh, dang_co_nqh} Sattribute dichvu_3udung {khong_sd, tg+dvkhac, dv_tt}

Sattribute Songayjquahan numeric Sattribute 3olan_giahan numeric Sattribute nhomjιo {V,III,I,II,IV} Sdata

57,nam, duoi th, co, CSH,VOijjdJchac, khong, 1, ld_thoi_vu, O, tb, 5.3,0.5, co, da C OJiqh, khong_3 d, 9 0, 2, V

57, nu,dh,khong,NCC,hat_nhan, co,4, quan ly, 3, thap, 9.6,0.66, khong, khjnoi, tg+

dvkhac, O, O, III

22,nam, cd,khong, THUE, VOi borne, khong,O, Chuyenjnon,l,tb, 6.1,0.35, khong, khjn

0i, tg+dvkhac, O,O,III

58, nam, trenjdh, khong,CSH, hat Jihan, co,5, quan ly, 7,tb,10.3, 0.76, khong,khjno

i,tg+dvkhac,O,O, III

52,nu,tren_dh,khong, KHAC, khac, khong,O, quan ly,5, thap, 8.9, 0.3,co,dungJ1an, tg+dvkhac,O,O,I

Hình 3.8 Nội dung file bank-tai2.arrf 3.4.3 Xây dựng mơ hình cây quyết định

Mơ hình thử nghiệm được thực hiện như sau:

Bước 1: Chọn menu Preprocess để vào panel lấy các nguồn thử nghiệm Bước 2: Click Open File để chỉ đến vị trí file nguồn dữ liệu.

Bước 3: Chọn file nguồn dữ liệu là file bank-data.arff thu được sau khi thực hiện tiền xử lý dữ liệu.

Hình 3.9 Giao diện tiền xử lý sau khi loại bỏ thuộc tính ID

Đầu tiên là chế độ kiểm thử Use training set: Sau khi đã chọn được nguồn dữ liệu và chế độ kiểm thử Use training set, ta tiến hành thử nghiệm trên nguồn đó như sau:

- Chọn menu Classify để thực hiện chức năng phân lớp.

- Click nút Choose để lựa chọn thuật toán cho việc phân lớp. Ở đây ta chọn thuật tốn J48, vì trong Weka, thuật tốn C4.5 được thực hiện bởi phân loại J48.

Click vào nút Start để thực hiện chức năng phân lớp như trong hình 3.10

Ket quả thử nghiệm: Ta thu được kết quả dưới 2 dạng:

- Dạng text (hình 3.10 và 3.11): bao gồm các thơng tin: ■ Số node lá: 34

Dạng mơ hình cây (hình 3.12): đầu ra là cây quyết định thơng thường mà các node lá là các bộ phân loại.

Hình 3.12 Mơ hình cây quyết định của bài tốn quản trị rủi ro tín dụng

Nhận thấy kết quả chạy thử nghiệm với cùng bộ số liệu trên bằng 3 chế độ kiểm thử khác nhau Use training set, Cross - validatio, Percentage split thu được 3

| thoihan_trano = da_co_nqh: III (0.0) | thoihan_trano = kh_moi

| | songay_quahan <= 145 | | | taisan_dambao = co

| | | | dichvu_sudung = khong_sd: III (5.0) | | | | dichvu_sudung = tg+dvkhac

| | | | | tuoi <= 35: III (18.0/1.0) | | | | | tuoi > 35

| | | | | | tinhchat_congviec = ld_thoi_vu: III (2.0/1.0)

| | | | | | tinhchat_congviec= quan_ly: II (11.0/1.0) | | | | | | tinhchat_congviec= chuyen_mon: III (4.0/1.0) | | | | | | tinhchat_congviec = ld_duoc_dt: II (0.0) | | | | | | tinhchat_congviec = that_nghiep: II (0.0) | | | | dichvu_sudung = dv_tt: III (19.0)

| | | taisan_dambao = khong: III (39.0) | | songay_quahan > 145: IV (2.0) | thoihan_trano = dung_han

| | taisan_dambao = co

| | | tinhchat_congviec = ld_thoi_vu: III (4.0/1.0)

| | | tinhchat_congviec = quan_ly | | | | tyle_pt/tn <= 0.44 | | | | | dichvu_sudung = khong_sd:II (1.0) | | | | | dichvu_sudung = tg+dvkhac | | | | | | thoigian_lamviec <= 0: II (2.0) | | | | | | thoigian_lamviec > 0: I (29.0) | | | | | dichvu_sudung = dv_tt: II (7.0) | | | | tyle_pt/tn > 0.44: II (17.58) | | | tinhchat_congviec = chuyen_mon: II (32.0/4.0) | | | tinhchat_congviec = ld_duoc_dt: II (3.0) | | |tinhchat_congviec = that_nghiep: II (0.0) | | taisan_dambao = khong | | | tyle_pt/tn <= 0.26: I (3.0) | | | tyle_pt/tn > 0.26 | | | | thoigian_lamviec <= 7

| | | | | | dichvu_sudung = dv_tt: III (6.0)

| | | | | tyle_pt/tn > 0.35: III (37.0)

| | | | thoigian_lamviec > 7: II (4.0)

| thoihan_trano = da_gh: III (4.0)

| thoihan_trano = dang_co_nqh: III (2.0) solan_giahan > 0 | solan_giahan <= 1 | | songay_quahan <= 2: III (22.05/0.05) | | songay_quahan > 2 | | | songay_quahan <= 90: IV (113.26/0.26) | | | songay_quahan > 90: V (9.02/0.02) | solan_giahan > 1 | | songay_quahan <= 2 | | | solan_giahan <= 2: IV (5.01/0.01) | | | solan_giahan > 2: V (5.01/0.01) | | songay_quahan > 2: V (34.08/0.08)

Luật 1: Neu số lần gia hạn <= 0, thời hạn trả nợ = đã có nợ q hạn thì nhóm nợ = III.

Luật 2: Nếu số lần gia hạn <= 0, thời hạn trả nợ = khách hàng mới, số ngày q hạn >145 thì nhóm nợ = IV

Luật 3: Nếu số lần gia hạn <= 0, thời hạn trả nợ = khách hàng mới, số ngày quá hạn <= 145, tài sản đảm bảo = khơng thì nhóm nợ = III.

Luật 4: Nếu số lần gia hạn <= 0, thời hạn trả nợ = khách hàng mới, số ngày quá hạn <= 145, tài sản đảm bảo = có, dịch vụ sử dụng = dịch vụ thanh tốn thì nhóm nợ = III.

Luật 5: Nếu số lần gia hạn <= 0,thời hạn trả nợ = khách hàng mới, số ngày quá hạn <= 145, tài sản đảm bảo = có, dịch vụ sử dụng = tiền gửi và dịch vụ khác, tuổi <= 35 thì nhóm nợ = III.

Luật 6: Nếu số lần gia hạn <= 0,thời hạn trả nợ = khách hàng mới, số ngày quá hạn <= 145, tài sản đảm bảo = có, dịch vụ sử dụng = tiền gửi và dịch vụ khác, tuổi >35, tính chất cơng việc là quản lý thì nhóm nợ = II.

Luật 7: Nếu số lần gia hạn <= 0, thời hạn trả nợ = đúng hạn, tài sản đảm bảo = có, tính chất cơng việc = quản lý, tỷ lệ phả trả/thu nhập <= 0,44, dịch vụ sử dụng = tiền gửi và dịch vụ khác, thời gian làm việc > 0 thì nhóm nợ = I.

Luật 8: Nếu số lần gia hạn <= 0, thời hạn trả nợ = đúng hạn, tài sản đảm bảo = không, tỷ lệ phả trả/thu nhập <= 0,26 thì nhóm nợ = I.

Luật 9: Nếu số lần gia hạn > 2 thì nhóm nợ = V.

Luật 10: Nếu số lần gia hạn = 2, số ngày q hạn >2 thì nhóm nợ = V.

3.4.5 Sử dụng cây quyết định trong dự báo nhóm nợ của các khoản vay chưabiết. biết.

Nhiệm vụ của bài tốn dự báo nhóm nợ bằng cây quyết định là sử dụng cây quyết định đã tạo ra để dự đoán các khoản vay này thuộc nhóm nợ nào dựa vào các thuộc tính đã cho. Giả sử rằng ta có dữ liệu về 10 khoản vay của KH với các giá trị dữ liệu đã biết về các thuộc tính tuổi, giới tính, trình độ học vấn, tiền án tiền sự, tình trạng cư trú, số người phụ thuộc, cơ cấu gia đình, bảo hiểm nhân mạng, tính chất cơng việc hiện tại, thời gian làm việc công việc hiện tại, rủi ro nghề nghiệp, thu nhập ròng ổn định hàng tháng, tỷ lệ số tiền phải trả/ thu nhập, tình hình trả nợ gốc và lãi, các dịch vụ sử dụng, thời gian quá hạn, số lần gia hạn trả nợ và thuộc tính chưa biết: nhóm nợ.

3

0 nam d c o c CSH hat_nhan khong 3iyen_mon 6 thap 6 3, ,780 khong Iajaojiqh tg+dvkhac 65 3 ? 2

8 u n h t khong THUE hat_nhan khong 2 Ijduocjlt 6 tb 3 5, ,750 co khjmoitg+dvkhac 60 1 ? 2

6 nam duoijth khong VOI_GDvoi_bome co 1d_thoi_vu 1 cao 2 7, 0,4 co khjmoitg+dvkhac 70 0 ? 6

1 nam tren_dh khong CSH hat_nhan co 3 quan_ly 1 thap 3 9, ,750 codungjhan dv_t 1 0 ? 5

0 m _th g e co OatJIghiep 0 0 co a_co_nqh dv_t 92 2V 4

3 nam h d khong hat_nhanCSH khong 3 quan_ly 4 tb 7 6 0,7 khong kh_moi khong_sd 75 0III 4

2 u n h d o c hat_nhanNCC co 1 quan_ly 6 11,3 1 0,4 codung_hantg+dvkhac 0 0I 4 1 n u d h khon g CSH hat_nhan

khong 0 quan_ly 6 thap 11,5 0,4 1

co dung_han dv_t 0 0 II 3

0 nam d c co hat_nhanCSH khong 3iyen_mon 6 thap 6 3, 8 0,7 khonga_co_nqhtg+dvkhac 65 3V 2 8 n u t h khon g THUE hat_nhan khong 2l_duoc_dt 6 tb 5, 3 0,7 5 co kh_moi tg+dvkhac 60 1 IV 2

6 nam duoi_th khong VOIjGDvoijbome co 1d_thoi_vu 1 cao 2 7, 0,4 co kh_moi tg+dvkhac 70 0III 6

1 nam tren_dh khong hat_nhanCSH co 3 quan_ly 1 thap 3 9, 5 0,7 co dung_han dv_t 1 0II 5

7 u n h d khong hat_nhanCSH co 2 quan_ly 5 thap 12,5 5 0,2 co dung_hantg+dvkhac 0 0I

Khóa luận tốt nghiệp 66 Khoa Hệ thống thơng tin quản lý

Ví dụ Khách hàng số 4 có số tuổi là 42, căn cứ vào các thuộc tính ta thấy số lần gia hạn = 0, thời hạn trả nợ = đúng hạn, tài sản đảm bảo = có, tính chất cơng việc= quản lý, tỷ lệ phả trả/thu nhập = 0,41 <0,44 , dịch vụ sử dụng = tiền gửi và dịch vụ khác, thời gian làm việc = 6 >0 thì nhóm nợ = I.

Tương tự khách hàng số 2 có số tuổi là 20, có số lần gia hạn = 2, số ngày quá hạn = 92 >2 thì nhóm nợ = V.

Làm tương tự cho các khách hàng còn lại, ta thu được bảng phân lớp nhóm nợ sau:

3.5 Đánh giá kết quả việc ứng dụng cây quyết định vào quản trị rủi ro tín dụngđược thử nghiệm với phần mềm WEKA được thử nghiệm với phần mềm WEKA

Bài toán xây dựng cây quyết định dự báo rủi ro tín dụng được thử nghiệm với phần mềm Weka và bộ số liệu của ngân hàng AGRIBANK đã thu được một số kết quả tốt:

• Mơ hình cây quyết định được xây dựng mô phỏng kết quả phân loại nhóm nợ một cách trực quan, dễ hiểu.

• Rút ra được các quy luật liên quan đến việc cho vay. Chẳng hạn như: Luật 7: Nếu số lần gia hạn <= 0, thời hạn trả nợ = đúng hạn, tài sản đảm bảo = có, tính chất cơng việc = quản lý, tỷ lệ phả trả/thu nhập <=

Qua đó, sử dụng cây quyết định trên sẽ giúp các chuyên gia Ngân hàng dự đoán trước khả năng trả nợ của KH hay mức độ rủi ro của một khoản vay bất kỳ, từ đó đưa ra những quyết định phù hợp nhằm tăng cường chất lượng tín dụng.

Tuy nhiên, hiệu quả phân lớp của cây quyết định phụ thuộc rất nhiều vào tập dữ liệu thử nghiệm (training data). Tập dữ liệu thử nghiệm trong mơ hình trên có kích tương đối nhỏ, do đó, kết quả phân loại khi sử dụng cây quyết định này đối với các trường hợp khác có thể chưa cao.

Như vậy, kết quả thực nghiệm với công cụ WEKA có thể khẳng định rằng phương pháp cây quyết định áp dụng trong quản trị rủi ro tín dụng trong ngân hàng là một hướng tiếp cận tiềm năng.

KẾT LUẬN CHUNG •

Luận văn đã trình bày được các vấn đề cơ bản về khai phá dữ liệu và cây quyết định: những vấn đề tổng quan về khai phá dữ liệu, khái niệm, chức năng, các thuật toán cũng như ưu và nhược điểm của kỹ thuật khai phá dữ liệu; Nắm được kỹ thuật khai phá dữ liệu bằng cây quyết định, các thuật toán xây dựng cây quyết định. Phần thử nghiệm đã xây dựng được một mơ hình cây quyết định bằng phần mềm Weka dựa trên bộ số liệu thực tế của Ngân hàng Nông nghiệp và Phát triển Nông thôn - chi nhánh Xuân Mai và sử dụng cây quyết định này để dự đoán nhóm nợ. Thơng qua việc xây dựng cây quyết định có thể khẳng định cây quyết định là một phương pháp tiềm năng giúp ngân hàng giảm thiểu đáng kể mức độ rủi ro của mình khi xét duyệt hồ sơ vay vốn của khách hàng.

Qua việc sử dụng phần mềm thử nghiệm khai phá dữ liệu Weka, tôi nhận thấy đây là một công cụ hữu hiệu trong việc học tập và nghiên cứu về KPDL. Với môi trường làm việc trực quan, sinh động, công cụ này có thể được sử dụng dễ dàng trong nhiều lĩnh vực của KPDL. Bằng việc sử dụng phần mềm Weka, luận văn đã xây dựng thành cơng cây quyết dùng trong dự báo rủi ro tín dụng.

Đối với các thuật toán trong cây quyết định chưa thực sự phù hợp với cơ sở dữ liệu lớn như của ngân hàng. Do hạn chế về mặt thời gian, kĩ thuật và đặc biệt là việc thu thập số liệu rất khó khăn. Bởi vì thơng tin của khách hàng đối với ngân hàng phải được bảo mật... Do đó, số lượng các chỉ tiêu chưa đủ để đáp ứng vào bài toán thực tiễn. Rõ ràng mơ hình của chúng tơi cần được phát triển để đáp ứng được u cầu của thực tế. Đó là mục đích của hướng nghiên cứu trong tương lai.

Hướng phát triển của đề tài sẽ nghiên cứu thêm một số thuật toán mới về khai phá dữ liệu bằng cây quyết định, tìm hiểu kỹ hơn về các kỹ thuật khai phá dữ liệu khác và xây dựng được những chương trình ứng dụng phức tạp và có tính thực tế hơn bằng cây quyết định. Khi mà lượng dữ liệu thu thập và lưu trữ ngày càng tăng, cùng với nhu cầu nắm bắt thơng tin, thì nhiệm vụ đặt ra cho Khai phá dữ liệu ngày càng quan trọng. Sự áp dụng được vào nhiều lĩnh vực kinh tế xã hội, an ninh quốc phòng cũng là một ưu thế của khai phá dữ liệu. Với những mong muốn đó tơi hy vọng sẽ dần đưa những kiến thức đã có từ đề tài này sớm trở thành thực tế, phục vụ cho cuộc sống con người chúng ta.

DANH MỤC TÀI LIỆU THAM KHẢO

Tiếng việt:

1. Cẩm nang tín dụng của ngân hàng nông nghiệp và phát triển nơng thơn

2. Giáo trình Tín dụng ngân hàng, NXB Thống kê, 2001.

3. Nguyễn Thị Thùy Linh (2005), Khóa luận tốt nghiệp đại học “Nghiên

cứu các thuật toán phân lớp dữ liệu trên cây quyết đinh”, Đại học

công nghệ - ĐH quốc gia Hà Nội, Hà Nội.

4. Nguyễn Trần Minh Khuê (2009), Các phương pháp và kĩ thuật khai

phá dữ liệu, Hà Nội.

5. Nguyễn Thị Hạnh (2011), Nghiên cứu khoa học “Khai phá dữ liệu

bằng cây quyết định”, Khoa công nghệ thông tin- đại học sư phạm Hà

Nội, Hà Nội.

6. PGS.TS Đỗ Phúc (2007), Bài giảng khai thác dữ liệu, Đại học Quốc gia TP.Hồ Chí Minh, TP Hồ Chí Minh.

7. Quyết định số 493/2005/QĐ-NHNN ngày 24/04/2005 của thống đốc NHNN Việt Nam về phân loại nợ, trích lập và sử dụng dự phòng để

Một phần của tài liệu Ứng dụng mô hình cây quyết định vào quản trị rủi ro tín dụng NH khoá luận tốt nghiệp 793 (Trang 68)

Tải bản đầy đủ (DOCX)

(82 trang)
w