.2 Các chức năng của Weka Explorer

Một phần của tài liệu Ứng dụng mô hình cây quyết định vào quản trị rủi ro tín dụng NH khoá luận tốt nghiệp 793 (Trang 63)

Mơi trường làm việc chính của Weka là Weka Explorer. Các chức năng chính của Weka Explorer thể hiện trong các thẻ (tab) của màn hình chính bao gồm:

• Preprocess: Cho phép mở, điều chỉnh, lưu một tập tin dữ liệu. Thẻ này chứa các thuật toán áp dụng trong tiền xử lý dữ liệu.

• Classify: Cung cấp các mơ hình phân lớp dữ liệu hoặc hồi quy. • Cluster: Cung cấp các mơ hình gom cụm.

T T

Thuộc tính Mơ tả Giá trị

1 id Mã khách hàng (Khóa định

danh KH) 1, 2, 3..... 2 tuoi Tuổi của KH 20, 21, 22........ 3 gioi_tinh Giới tính của KH Nam/ nữ

4 hoc_van Học vấn của KH Dưới trung học, Trung học, Cao đẳng, Đại học, Trên đại học

5 tienan_tien

su KH có vi phạm pháp luậtkhơng?

Có/khơng

6 tinhtrang_c Nơi cư trú của KH? Chủ sở hữu, Nhà chung cư, Với

cho phép tổ chức file dữ liệu dưới dạng file .csv (comma-separated values), file này có dạng dữ liệu Excel.

Trước khi tiến hành phân loại, ta sẽ phải lựa chọn chế độ kiểm thử để xây dựng tập kiểm thử và tập huấn luyện. Weka hỗ trợ 4 chế độ kiểm thử:

Sử dụng tập huấn luyện (Use training set): sử dụng chính tập training data

để tiến hành kiểm thử.

Tập hỗ trợ kiểm thử (Supplied test set): sử dụng một tập dữ liệu khác để

kiểm thử.

Đánh giá chéo (Cross - validation): chia dữ liệu thành nhiều phần (Folds)

để thực hiện nhiều lần đánh giá kết quả. Số phần được chia mặc định là 10. • Tách theo tỉ lệ (Percentage split): chia dữ liệu thành hai phần theo tỷ lệ %,

một phần dùng để xây dựng mơ hình, phần cịn lại dành cho kiểm thử. Với chế độ kiểm thử thứ hai Supplied test set, cần có một tập dữ liệu kiểm thử (test data). Trong nội dung của luận văn này chỉ sử dụng một tập dữ liệu làm training data, do đó ta chỉ tiến hành chạy thử nghiệm với 3 chế độ kiểm thử còn lại.

Luận văn sẽ đi cài đặt và chạy thử nghiệm phiên bản Weka 3.6.9, áp dụng với file dữ liệu bank-tài.csv.

3.4 Xây dựng cây quyết định với bộ cơ sở dữ liệu của ngân hàng Nông nghiệpvà Phát triển Nông thôn- chi nhánh Xuân Mai. và Phát triển Nông thôn- chi nhánh Xuân Mai.

3.4.1 Bộ CSDL và phân tích u cầu bài tốn.

Đây là bộ cơ sở dữ liệu của ngân hàng mà trong q trình thực tập tơi đã thu thập và tổng hợp được. Dữ liệu được sử dụng để xây dựng cây quyết định trong bài tốn dự báo rủi ro tín dụng là một tập hợp các thông tin về nhiều khoản vay đã được phân nhóm nợ. Bộ số liệu sử dụng trong đề tài là thông tin về việc vay, trả nợ và thông tin về các khách hàng vay vốn được cung cấp bởi phịng tín dụng, ngân hàng Nơng nghiệp và Phát triển Nông thôn - chi nhánh Xuân Mai. Bộ CSDL này được lưu trữ ở file excel bank-tài.csv có cấu trúc gồm 444 bản ghi là thông tin về đối tượng khách hàng cá nhân và 20 trường trong đó 1 trường ID là mã khách hàng. Mười chín trường cịn lại là các chỉ tiêu (thuộc tính) quan trọng để đánh giá từng đối tượng khách hàng cá nhân.

động được đào tạo nghề, Lao động thời vụ, Thất nghiệp

12 ruiro_nghe

nghiep Mức độ rủi ro nghề nghiệpcủa KH Thấp, Trung bình, Cao 13 thu_nhap Thu nhập KH là bao nhiêu? VND

14 tyle_pt/tn Tỷ lệ phải trả/ thu nhập %

15 tsdb Tài sản đảm bảo Có/khơng 16 thoihan_tra

no Thời hạn trả nợ Luôn trả nợ đúng hạn, Đã bịgia hạn nợ hiện trả nợ tốt, Đã có nợ quá hạn/ KH mới, Đã có nợ quá hạn khả năng trả nợ không ổn định, Hiện đang có nợ quá hạn

17 dichvu_sud

ung KH có sử dụng dv nào củaNH? Tiền gửi + dịch vụ khác, Chỉ sửdụng dịch vụ thanh tốn, Khơng sử dụng

18 thoigian_q uahan

Thời gian quá hạn của KH? 0, 1, 2, 3.... 19 solan_giah

an

Số lần gia hạn của KH 0, 1, 2, 3 20 Nhom_no Nhóm nợ I, II, III, IV, V

⅛labαn: Bank-Tài N o . Id Nu m Nu me ric gi OiJ nh h□ C- Van IienanJe nsu Nominal Bnhtrang- CUtru Nominal cocau_gi adinh Nominal baohiemjιhan mang Nominal SonguoJhuth uoc Numeric Snhehat- COngviee Nominal IhoigianJa niviec Nume ruirθ- ∏gheπghie p thu Jiha p tyle~ pt∕tn Num taisa∏- damba□ Nominal thoiha∏- tran□ Nominal dichvU- Suduπg Nominal l

.c 7. 5 ιam duoi th CSH VoHjdJchac dι□ng .c l d-thol-Vu c F — .: 5 .5 0 da_co_nqh dιong-sd

2 _____ 5 7.0 dh ~ chong NCC_________Iatjihan ?Ị ____________ CjuanJy ___________ thap 9

.6 .66 0 chong <hjn□i tg+dvkhac 3

_____

2

2.0 --■' cd chong ΓHl ∣ E________VOiJom

e chong

____________ Chuyenjnon

___________

— 6

.1 .35 0 chong <hjn□i tg+dvkhac

- I

_____

5

8.0 --■' tre∏- chong CSH_________Iatjihan ?Ị

____________ CjuanJy

___________

— 1

0.3 .76 0 chong <hjn□i tg+dvkhac

5

_____

5

2.0 tre∏- chong KHAC________ςha - chong

____________ CjuanJy ____________ thap 8 .9 _____ dungjιan tg+dvkhac 6 _____ 4 4.0 dh chong CSH_________Iatjihan ?Ị _____________ CjuanJy ____________ thap _____ 0 .45 dungjιan tg4dvkhac _____ 3 6.0 --■' cd chong CSH_________Iatjihan ?Ị ____________ Chuyenjnon ___________ — 4 .6 .6 0 da~gh dv_tt 3 _____ 3 8.0 th chong VOI-GD_______Iatjihan ?Ị ____________ d-duocjt ___________ — 6 .5 .37 0 Chjnoi dv_tt 9 9

.0 1.03 -- " dh chong NCC hat-∏han :o .0 0 CjuanJy .0 6 thap .1 8 .34 0 Idiong dunqhan tg-Fdvkhac

-

J 0.1 1.06 IB " dh chong NCC voiIdiac qd :o .0 2 CjuanJy .0 4 thap ÕĨ Ĩ 0.56I Idiong da qh tg-Fdvkhac

1

1 ĩõĩ ÕẼ IB " tre∏- chong CSHI hat-∏han :o .0 2 CjuanJy .0 1 ⅛ .3 9 .7 0 ::: dunqhan tg-FdvIdiac

■ 1

2. 4.05 IB " duoi-th chong CSHI hat-∏han :o .0 0 Id thoi VU .0 0 ::- O .5 2 .67 0 Idiong da conqh dV-tt

_ 3.1 7.02 IL th :: FHUE VoiJome Idiong .0 0 that nqhiep .0 0 .0 0 :::. Idijnoi Idionq sd

1

4 4ÕĨ 2.02 IB " th chong FHUE VoiJome chong .0 1 d duoc dt .0 0 thap Z 0

.55 dιong chjnoi tg-FdvIdiac

1

5 5.1 645 IB " dh chong CSHI Iatjihan :o .0 2 Chuyenjnon 10.0 ::- O .4 3 .62 0 :::. dunqhan dV-tt

1

6 6.1 544 IB " dh chong NCC Iatjihan :o .0 0 Chuyenjnon .0 5 thap .7 6 .43 0 :::. dunqhan dV-tt

1

7 7.1 9.03 IL cd chong NCC Iatjihan ::: .0 1 Chuyenjnon .0 5 thap .1 4 CL4I chong da qh dV-tt

1

8 ãFĩ 9.03 IL tren_dh chong NCC hatjιhan Idiong .0 3 CjuanJy .0 7 :ao

s

∙[ light click or left+alt)for Ontextmenu L dV-tt

1 1 6 ■ tre chong KHAC Iatjihan :o l Chuyenjnon 3 ::- O 6 U Kriong Chjnoi chong sd

2

C Ỡ2 045 th chong CSH voiIdiac qd ::: ZF that nqhiep O L 4) 0 ::: danqh co chong sd

2

1 1.22 0.02 lam duoth chong <HAC voi home ::: .0 0 that nqhiep .0 0 .0 0 ::: danqh co dv tt

2. 5.04 lam dh chong NCC ιat nhan ::: ,0 1 chuyên mon .0 8 .41 0 chong di moi tg-FdvIdiac

■ 2

3. 3.03 IL dh chong VOI GD voi home chong .0 2 chuyên mon .0 6 .6 6 0.56I chong da qh dv tt

2

4 4.2 3.04 lam dh chong CSH ιat nhan chong .0 3 quan Iy .0 4 -- Z I

0.76 chong di moi dιonq sd 2

5 5.2 7.02 IL trendh chong VOI GD voi home ::: ,0 1 quan Iy .0 1 :ao 1.31 .31 0 chong dunqhan tg-Fdvkhac

2

6 6,2 9.02 lam dh chong FHUE ιat nhan ::: .0 0 quan Iy .0 2 thap .6 8 0.40I chong di moi tg-Fdvkhac

2

7 7.2 6.03 IL dh chong NCC lat nhan chong ,0 1 quan Iy .0 2 thap .45 0 chong dunqhan tg-Fdvkhac

2

8 8.2 3.04 IL dh chong NCC lat nhan ::: .0 2 chuyên mon .0 7 thap T 0

.67 chong di moi tg-Fdvkhac

2

9 9.2 6.06 IU trendh chonq NCC lat nhan dionq .0 2 quan Iy .0 6 .0 9 .6 0 chonq di moi tq-Fdvkhac

Khóa luận tốt nghiệp 54 Khoa Hệ thống thông tin quản lý

Bảng 3.1 Thuộc tính của bộ CSDL

Phân tích yêu cầu bài tốn

Muc đích: Tạo một cây ' quyết định trong

WEKA để dự đoán xem với thơng tin KH có sẵn thì ngân hàng sẽ đánh giá KH thuộc nhóm nợ

mấy? .

3.4.2 Tiền xử lý dữ liệu

Trong qui trình khai phá dữ liệu, cơng việc xử lý dữ liệu trước khi đưa vào các mơ hình là rất cần thiết, bước này làm cho dữ liệu có được ban đầu qua thu thập dữ liệu (gọi là dữ liệu gốc - original data) có thể áp dụng được (thích hợp) với các mơ hình khai phá dữ liệu (data mining model) cụ thể. Các công việc cụ thể của tiền xử lý dữ liệu bao gồm những công việc như:

Filtering Attributes: Chọn các thuộc tính phù hợp với mơ hình

Filtering samples: Lọc các mẫu (instances, patterns) dữ liệu cho mơ hình Clean data: Làm sạch dữ liệu như xóa bỏ các dữ liệu bất thường (Outlier) Transformation: Chuyển đổi dữ liệu cho phù hợp với các mơ hình như chuyển

đổi dữ liệu từ numeric qua nomial hay ordinal.

Discretization (rời rạc hóa dữ liệu): Nếu có dữ liệu liên tục nhưng một vài mơ

hình chỉ áp dụng cho các dữ liệu rời rạc (như luật kết hợp chẳng hạn) thì phải thực hiện việc rời rạc hóa dữ liệu.

Nhóm Số lượng Cơ cấu Nhóm 1 32 7.21% Nhóm 2 81 18.24% Nhóm 3 163 36.71% Nhóm 4 120 27.03% Nhóm 5 48 10.91%

Bước 1: nạp dữ liệu (Loading the Data) vào Weka: chọn tab “Preprocess” -

> Open file.

Hình 3.4 Nạp CSDL vào WEKA

Sau khi dữ liệu được nạp lên, panel bên trái thể hiện các thuộc tính của file dữ liệu, panel bên phải thể hiện các thống kê tương ứng với thuộc tính bên trái (xem hình sau).

Thuộc tính nhom_no:

Hình 3.6 Thuộc tính Nhóm nợ

dễ dàng trong Weka như sau: Trong panel Filter > Choose > filters >unsupervised

> attribute > Remove:

Bước tiếp theo là bấm chọn textbox ngay bên phải nút “Choose” và gỏ vào 1 (đây là index của thuộc tính id trong file dữ liệu).

Hình 3.7 Loại bỏ thuộc tính ID

Bấm nút “Apply” sẽ tạo ra một bộ dữ liệu mới (working relation) với 19 thuộc tính sau khi đã loại bỏ thuộc tính id.

Bây giờ ta lưu lại dữ liệu sau khi loại bỏ thuộc tính id dưới dạng file .arff với tên là "bank-tài2.arff". Để thực hiện việc rời rạc hóa dữ liệu ở bước tiếp theo. Chọn nút “save” và gõ vào tên file "bank-tài2.arff". Nội dung file “bank-tài2.arff” như sau (trong Word):

^relation Bank-Tai-Weka. filters.un3upervi3ed.attribute.Remove-Rl Sattribute tuoi numeric

(!attribute gioi_tinh {nam,nu}

Sattribute hoc_van {duoi th,dh,cd, tren_dh, th} Sattribute tienan_tiensu {co,khong}

Sattribute tinhtrang_cutru {CSHfNCC,THUE,KHAC,V0IJ3D} Sattribute cocau_giadinh {voi_gd_khac, hat_nhan,VOi borne,khac} Sattribute baohiem_nhanmang {khong,co}

Sattribute Songuoi phuthuoc numeric Sattribute tinhchat_congviec

{ld_thoi_vu, quan ly, Chuyenjnon,ld_duoc_dt, that nghiep}

Sattribute thoigian_lamviec numeric Sattribute ruirojιghenghiep {tb,thap,cao} Sattribute thu Jihap numeric

Sattribute tyle_pt/tn numeric Sattribute taisan_dambao {co,khong}

Sattribute thoihan_trano {da_co_nqh, khjnoi, dung_han, da_gh, dang_co_nqh} Sattribute dichvu_3udung {khong_sd, tg+dvkhac, dv_tt}

Sattribute Songayjquahan numeric Sattribute 3olan_giahan numeric Sattribute nhomjιo {V,III,I,II,IV} Sdata

57,nam, duoi th, co, CSH,VOijjdJchac, khong, 1, ld_thoi_vu, O, tb, 5.3,0.5, co, da C OJiqh, khong_3 d, 9 0, 2, V

57, nu,dh,khong,NCC,hat_nhan, co,4, quan ly, 3, thap, 9.6,0.66, khong, khjnoi, tg+

dvkhac, O, O, III

22,nam, cd,khong, THUE, VOi borne, khong,O, Chuyenjnon,l,tb, 6.1,0.35, khong, khjn

0i, tg+dvkhac, O,O,III

58, nam, trenjdh, khong,CSH, hat Jihan, co,5, quan ly, 7,tb,10.3, 0.76, khong,khjno

i,tg+dvkhac,O,O, III

52,nu,tren_dh,khong, KHAC, khac, khong,O, quan ly,5, thap, 8.9, 0.3,co,dungJ1an, tg+dvkhac,O,O,I

Hình 3.8 Nội dung file bank-tai2.arrf 3.4.3 Xây dựng mơ hình cây quyết định

Mơ hình thử nghiệm được thực hiện như sau:

Bước 1: Chọn menu Preprocess để vào panel lấy các nguồn thử nghiệm Bước 2: Click Open File để chỉ đến vị trí file nguồn dữ liệu.

Bước 3: Chọn file nguồn dữ liệu là file bank-data.arff thu được sau khi thực hiện tiền xử lý dữ liệu.

Hình 3.9 Giao diện tiền xử lý sau khi loại bỏ thuộc tính ID

Đầu tiên là chế độ kiểm thử Use training set: Sau khi đã chọn được nguồn dữ liệu và chế độ kiểm thử Use training set, ta tiến hành thử nghiệm trên nguồn đó như sau:

- Chọn menu Classify để thực hiện chức năng phân lớp.

- Click nút Choose để lựa chọn thuật toán cho việc phân lớp. Ở đây ta chọn thuật tốn J48, vì trong Weka, thuật tốn C4.5 được thực hiện bởi phân loại J48.

Click vào nút Start để thực hiện chức năng phân lớp như trong hình 3.10

Ket quả thử nghiệm: Ta thu được kết quả dưới 2 dạng:

- Dạng text (hình 3.10 và 3.11): bao gồm các thơng tin: ■ Số node lá: 34

Dạng mơ hình cây (hình 3.12): đầu ra là cây quyết định thông thường mà các node lá là các bộ phân loại.

Hình 3.12 Mơ hình cây quyết định của bài tốn quản trị rủi ro tín dụng

Nhận thấy kết quả chạy thử nghiệm với cùng bộ số liệu trên bằng 3 chế độ kiểm thử khác nhau Use training set, Cross - validatio, Percentage split thu được 3

| thoihan_trano = da_co_nqh: III (0.0) | thoihan_trano = kh_moi

| | songay_quahan <= 145 | | | taisan_dambao = co

| | | | dichvu_sudung = khong_sd: III (5.0) | | | | dichvu_sudung = tg+dvkhac

| | | | | tuoi <= 35: III (18.0/1.0) | | | | | tuoi > 35

| | | | | | tinhchat_congviec = ld_thoi_vu: III (2.0/1.0)

| | | | | | tinhchat_congviec= quan_ly: II (11.0/1.0) | | | | | | tinhchat_congviec= chuyen_mon: III (4.0/1.0) | | | | | | tinhchat_congviec = ld_duoc_dt: II (0.0) | | | | | | tinhchat_congviec = that_nghiep: II (0.0) | | | | dichvu_sudung = dv_tt: III (19.0)

| | | taisan_dambao = khong: III (39.0) | | songay_quahan > 145: IV (2.0) | thoihan_trano = dung_han

| | taisan_dambao = co

| | | tinhchat_congviec = ld_thoi_vu: III (4.0/1.0)

| | | tinhchat_congviec = quan_ly | | | | tyle_pt/tn <= 0.44 | | | | | dichvu_sudung = khong_sd:II (1.0) | | | | | dichvu_sudung = tg+dvkhac | | | | | | thoigian_lamviec <= 0: II (2.0) | | | | | | thoigian_lamviec > 0: I (29.0) | | | | | dichvu_sudung = dv_tt: II (7.0) | | | | tyle_pt/tn > 0.44: II (17.58) | | | tinhchat_congviec = chuyen_mon: II (32.0/4.0) | | | tinhchat_congviec = ld_duoc_dt: II (3.0) | | |tinhchat_congviec = that_nghiep: II (0.0) | | taisan_dambao = khong | | | tyle_pt/tn <= 0.26: I (3.0) | | | tyle_pt/tn > 0.26 | | | | thoigian_lamviec <= 7

| | | | | | dichvu_sudung = dv_tt: III (6.0)

| | | | | tyle_pt/tn > 0.35: III (37.0)

| | | | thoigian_lamviec > 7: II (4.0)

| thoihan_trano = da_gh: III (4.0)

| thoihan_trano = dang_co_nqh: III (2.0) solan_giahan > 0 | solan_giahan <= 1 | | songay_quahan <= 2: III (22.05/0.05) | | songay_quahan > 2 | | | songay_quahan <= 90: IV (113.26/0.26) | | | songay_quahan > 90: V (9.02/0.02) | solan_giahan > 1 | | songay_quahan <= 2 | | | solan_giahan <= 2: IV (5.01/0.01) | | | solan_giahan > 2: V (5.01/0.01) | | songay_quahan > 2: V (34.08/0.08)

Luật 1: Neu số lần gia hạn <= 0, thời hạn trả nợ = đã có nợ q hạn thì nhóm nợ = III.

Luật 2: Nếu số lần gia hạn <= 0, thời hạn trả nợ = khách hàng mới, số ngày q hạn >145 thì nhóm nợ = IV

Luật 3: Nếu số lần gia hạn <= 0, thời hạn trả nợ = khách hàng mới, số ngày quá hạn <= 145, tài sản đảm bảo = khơng thì nhóm nợ = III.

Luật 4: Nếu số lần gia hạn <= 0, thời hạn trả nợ = khách hàng mới, số ngày quá hạn <= 145, tài sản đảm bảo = có, dịch vụ sử dụng = dịch vụ thanh toán thì nhóm nợ = III.

Luật 5: Nếu số lần gia hạn <= 0,thời hạn trả nợ = khách hàng mới, số ngày quá hạn <= 145, tài sản đảm bảo = có, dịch vụ sử dụng = tiền gửi và dịch vụ khác, tuổi <= 35 thì nhóm nợ = III.

Luật 6: Nếu số lần gia hạn <= 0,thời hạn trả nợ = khách hàng mới, số ngày quá hạn <= 145, tài sản đảm bảo = có, dịch vụ sử dụng = tiền gửi và dịch vụ khác, tuổi >35, tính chất cơng việc là quản lý thì nhóm nợ = II.

Luật 7: Nếu số lần gia hạn <= 0, thời hạn trả nợ = đúng hạn, tài sản đảm bảo = có, tính chất cơng việc = quản lý, tỷ lệ phả trả/thu nhập <= 0,44, dịch vụ sử dụng = tiền gửi và dịch vụ khác, thời gian làm việc > 0 thì nhóm nợ = I.

Luật 8: Nếu số lần gia hạn <= 0, thời hạn trả nợ = đúng hạn, tài sản đảm bảo =

Một phần của tài liệu Ứng dụng mô hình cây quyết định vào quản trị rủi ro tín dụng NH khoá luận tốt nghiệp 793 (Trang 63)

Tải bản đầy đủ (DOCX)

(82 trang)
w