7 TGCongtac Numberic 1,2,3,4,5, ... Thời gian công tác 8
TTNhao Nominal Chusohuu,
Nhachung, ...
Tình trạng nhà ở
9 CocauGD Nominal Hatnhan,
Songvoigiadinh Cơ cấu gia đình 10 TNHangthang Numberic 1,2,3, ... Thu nhập hàng tháng(triệu đồng)
11 TiletienphaitratrenTN Numberic 20,21,22, ... Tỉ lệ tiền phải trả trên thunhập (%)
12 Oto Nominal Co, Khong Có ơ tơ hay không?
13 SPDVsudung Nominal
Loai 1, Loai 2, Loai 3
Các sản phẩm, dịch vụ sử dụng
14 TSThechap Nominal Co, Khong Có tài sản thế chấp tại ngân hàng hay không? 15 THTranogocvalai Nominal Loai 1, Loai 2, Loai
3, Loai 4, Loai 5
Tình hình trả nợ gốc và lãi
16 UytinGD Nominal Loai 1, Loai 2, Loai
3, Loai 4 Uy tín giao dịch
17 XHTD Nominal AAA, AA, A, BBB,
BB, ... Xếp hạng tín dụng
Đào Thị Hiền - Lớp K17HTTTB
Khóa luận tốt nghiệp Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội
Giải thích phân loại các thuộc tính:
- Sản phẩm dịch vụ sử dụng:
• Loại 1: Tiền gửi và các dịch vụ khác
• Loại 2: Chỉ sử dụng dịch vụ thanh tốn
• Loại 3: Khơng sử dụng
- Tình hình trả nợ gốc và lãi:
• Loại 1: Ln trả nợ đúng hạn
• Loại 2: Đã bị gia hạn nợ, hiện trả nợ tốt
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
• Loại 3: Đã có nợ quá hạn hoặc khách hàng mới
• Loại 4: Đã có nợ q hạn, khách hàng trả nợ khơng ổn định
• Loại 5: Hiện đang có nợ q hạn
- Uy tín giao dịch:
• Loại 1: Có giao dịch vào ra đều đặn hoặc trả nợ đầy đủ
• Loại 2: Khách hàng mới, chưa cấp hạn mức
• Loại 3: Từ 2 đến 3 tháng khơng có giao dịch tiền vào và (hoặc) phát sinh nợ
loại 2
• Loại 4: Trên 3 tháng khơng có giao dịch tiền vào và (hoặc) phát sinh nợ loại
3,4,5
3.3.2. Tiền xử lý dữ liệu
Trong q trình KPDL, cơng việc tiền xử lý dữ liệu trước khi đưa vào mơ hình là rất cần thiết. Bước này cho dữ liệu có được ban đầu qua thu thập dữ liệu có thể được áp dụng thích hợp với các mơ hình khai phá dữ liệu cụ thể. Các công việc bao gồm:
- Filtering Attributes: Chọn các thuộc tính phù hợp với mơ hình
- Filtering Sample: Lọc các mẫu dữ liệu cho mơ hình
- Transformation: Chuyển đổi kiểu dữ liệu cho phù hợp
- Discretization: Rời rạc hóa dữ liệu
• Bước 1: Đưa dữ liệu vào
Trong tab “Preprocess” chọn “Open file” để mở file có sẵn trên máy tính
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
Hình 3.4: Nạp CSDL vào Weka
Sau khi nạp dữ liệu lên lưu lại dữ liệu dưới dạng file .arff với tên là Data.arff.
0attιibute STT numeric Êattiibute Tuoi numeric
@attrIbute Trinhdohocvan {TrenDHr DailIOCj Trunghoc, Duoitrunghoc, Caodang > ^attribute TTHcnnhan {Kethonr Li-di, Docthan, kethon}
@attribute ScngtLOd-Phuthuoc numeric ^attribute TCCongviec
{ 1 Quanly, dieuhanh" , Chuyenmon, Ldthoj-VU, Ldduocdaotaonghe, Nghihuul
^attribute RRIJghenghiep {Thap , Cao, TBr Khac 1 ^attribute TGCongtac numeric
^attribute TTTJhao { Chusohuujr Khachung, Voigiadiinh, Thue 1
(⅞attr Ibute CocauGD £ Hatnhan J SongTOigiadinh, SongvolGDkihac J hatnhan}
^attribute TNHangthang numeric ^attribute TiLetienphaitratrenTN numeric ^attribute Oto {Co,Khongl
(⅞attribute SFDVsudung { 'Loai I1 , "Load 2τ}
^attribute TSThechap {CorKhongl
^attribute Tinhhinhtranogocvalai { rLoai I1J rLoad- 21
r1Leai 3i, 1Loai
41f 1Loai 5 1 1 _ -
^attribute UytinGD {τLoai 1i , ,Loai 3 , , i Loai 2 r , r Loai 41 1
iattɪibute XHTD { A⅛⅛, AL, BB, CC, Bj D f C, BBB, A, CCCl
0data
Ij 36 J TrenDHr KethoiIj Ij , Quanly, dieuhanh1 , Thap, 8, Chusohuu,Hathhan, 15,25 r CoJ , Loai 1 ■ , Co J 1 Loai 1 τ r τ Loai 1i , AAA
2,36fTrenDHrKethon,O, ,QuanLy,dieuhanh1, Cao,2JChusohuur Hatnhan,8J 32,Co, BLO
al 1i, CoJ τ Loal 21, 1Loai 3 iJAAA
3,31,DaihocrKethon,1, ,Quanly,dieuhanh τ,Thap, 1,Nhachung,Hathhan,8,23J Cor 1L
Ciai 2 r , Co, 1Loai 1i, 1Loai 1r , AA
4.56,DaihocrLidi,2, ,QuanLy, dieuhanh1, TB,25 , Voigiadinhr Hatnhan,9,77,Khcngr
,Loai 2 , J Cor 1Lcai 3,, i Loai 2 , J BB
S, 5 5, TrenDHr Kethon, 2, ChuyeniKjonr Thap, 20,Chusohuu, Hatnhanr 22, 25, Co, 1Loai
11 , Co , iLoai 1 , J ,Loai I1JAAA
6,37,Trunghocr Kethon,3,Ldthoivu,Cao,12,Thue, Hatnhanr 5 r 31, Co, τLoai
2 τ, Co, ’Loai 4 , J ,Loai 3 τ,BB
7.56,TrenDHr Kethon,3, 1QuanLy,dieuhanh1,Thapr 7JVoigladinh,Songvolgiadinh,4
2,36,Co, 'Leal l,jCo,τLoai 2■r 1 Leal 3,,A⅛
8 J 60 ,Duoitrunghoe,Lidi,4,LdthoiVUjTB,28JThuerSongroigiadiahf9, 7 9 r Khcngr 1L
Hình 3.5: Nội dung file Data.arff
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
❖Bước 2: Loại bỏ thuộc tính
Sau khi đưa dữ liệu lên phần mềm, trong file Bank_data_2.csv có thuộc tính STT khơng dùng để phân lớp dữ liệu, ta loại bỏ thuộc tính đó bằng cách: Trong Panel Filter -> Choose -> filters -> unsupervised -> attribute -> remove.
Hình 3.6: Lựa chọn thuộc tính Remove
Bấm vào textbox ngay bên phải nút “Choose” và gõ vào “1” chính là số thứ tự cột của thuộc tính STT trong file dữ liệu. Sau đó bấm “Apply” để thực hiện loại bỏ thuộc tính.
Hình 3.7: Loại bỏ thuộc tính STT
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
❖ Bước 3: Chuyển đổi dữ liệu của thuộc tính “Tuoi” về dạng Nominal với 5
giá trị:
- ‘1’ với 35 < Tuổi <= 55 (có nghĩa là từ 36 đến 55 tuổi)
- ‘2’ với 25 < Tuổi <= 35
- ‘3’ với 55 < Tuổi <= 60
- ‘4’ với 20 <= Tuổi <= 25
- ‘5’ với Tuổi > 60 hoặc =18,19
Chọn mục “MathExpression” trong cây thư mục, ở bên phải nút “Choose” sẽ xuất hiện dòng chữ “MathExpression -E (A-MIN)Z(MAX-MIN)”. Click chuột phải vào textbox đó và thiết lập thơng số trong hộp thoại của nó như sau:
Hình 3.8: Thiết lập thơng số cho thuộc tính tuổi
Click vào “OK” để hồn thành sau đó click vào “Apply” để thực hiện. Tiếp tục với hộp thoại trong mục “MathExpression”, áp dụng cho tuổi từ 56 - 60 thay bằng giá trị ‘3’. (55 < Tuổi <= 60)
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
Hình 3.9: Thiết lập thơng số cho thuộc tính tuổiTuổi từ 36 - 55 thay bằng giá trị ‘1’ (35 < Tuổi <= 55) Tuổi từ 36 - 55 thay bằng giá trị ‘1’ (35 < Tuổi <= 55)
Hình 3.10: Thiết lập thơng số cho thuộc tính tuổi Tuổi từ 26 - 35 thay bằng giá trị ‘2’ (25 < Tuổi <= 35)
No. Label Count 1 1 287 2 2 191 3 3 Tθ4 4 4 128 __________ 5_____________________________________________________156___________________________________________________
Số người phụ thuộc trong gia đình Giá trị gán nhãn
< 3 người 1 3 người 2 4 người 3 5 người 4 > 5 người 5 Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
Hình 3.11: Thiết lập thơng số cho thuộc tính tuổi Tuổi từ 20 - 25 thay bằng giá trị ‘4’ (20 <= Tuổi <= 25)
Hình 3.12: Thiết lập thơng số cho thuộc tính tuổi
Sau khi nhóm tuổi thành 5 nhóm ta chuyển đổi kiểu dữ liệu của trường Tuoi sang kiểu Nominal: sử dụng mục “NumericToNominal”. Sau đó thiết lập thơng số như hình dưới đây:
Đào Thị Hiền - Lớp K17HTTTB 52
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
Hình 3.13: Chuyển đổi kiểu dữ liệu cho thuộc tính tuổi
Sau khi nhóm tuổi thành 5 cụm và chuyển đổi dữ liệu từ thuộc tính Numeric sang Nominal ta thu được thống kê như sau:
Hình 3.14: Thống kê số lượng của 5 nhóm tuổi
Từ kết quả ta có thể thấy nhóm 1 là người có độ tuổi từ 36 đến 55 tuổi chiếm số lượng nhiều nhất là 316 người, số lượng ít nhất thuộc về nhóm 5 với 170 người.
Thực hiện tương tự với 4 thuộc tính có kiểu dữ liệu số cịn lại đó là:
- Songuoiphuthuoc
Thời gian cơng tác Giá trị gán nhãn >= 7 năm 1 Từ 5 đến dưới 7 năm 2 Từ 3 đến dưới 5 năm 3 Từ 1 đến dưới 3 năm 4 < 1 năm 5 Thu nhập hàng tháng Giá trị gán nhãn >= 10 triệu đồng 1 Từ 5 đến dưới 10 triệu đồng 2 Từ 3 đến dưới 5 triệu đồng 3 Từ 1 đến dưới 3 triệu đồng 4 < 1 triệu đồng 5
Tỉ lệ số tiền phải trả trên thu nhập Giá trị gán nhãn
< 30 % 1 Từ 30 % đến dưới 45 % 2 Từ 45 % đến dưới 60 % 3 Từ 60 % đến dưới 75 % 4 >= 70 % 5 Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
- TGCongtac
Bảng 3.3: Gán nhãn cho thuộc tính thời gian cơng tác
- TNHangthang
Bảng 3.4: Gán nhãn cho thuộc tính thu nhập hàng tháng
- TiletienphaitratrenTN
Sau khi đã xử lý dữ liệu xong click vào button “Save” để lưu lại bảng dữ liệu dưới tên Bankdata_MSB.arff.
TGCongtac Loai 2
UytinGD
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
3.3.3. Thực nghiệm
Sau khi đã trải qua bước tiền xử lý dữ liệu ta tiến hành phân loại dữ liệu bằng thuật toán C4.5. Trước khi tiến hành phân loại ta phải chọn chế độ kiểm thử để xây dựng tập kiểm thử và tập huấn luyện. Weka hỗ trợ 4 chế độ kiểm thử đó là:
- Use training set: Sử dụng chính tập training data để tiến hành kiểm thử.
- Supplied test set: Sử dụng tập dữ liệu khác để tiến hành kiểm thử.
- Cross-validation: Chia dữ liệu thành nhiều phần để thực hiện thành nhiều lần
đánh giá kết quả.
- Percentage split: Chia dữ liệu thành hai phần theo tỷ lệ %, một phần dùng để
xây dựng mơ hình, một phần dành cho kiểm thử.
Sử dụng chế độ kiểm thử “Use training set”. Chọn Classify -> Choose -> trees - > J48 -> Start.
Thu được kết quả như sau:
Hình 3.15: Kết quả thuật tốn dưới dạng Text
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
Loai 2 SPDVsudung Loai 2 Loai 1 P________ Songuoiphuthuoc . .. Loai 2 Lođi5 Loai 1 B Bg ■ Tuoi SPDVsudung Loai 1 TTNhao Voigiadinh Chusohui Nhachunj Thui TiIetienphaitratrenTN A
Loai1 Loai 2 Loai3 Loai4 Loai 1 Loai 2
Hình 3.16: Kết quả thuật tốn dưới dạng cây TGCongtai
Hình 3.17: Kết quả thuật toán dưới dạng cây
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
3.3.4. Đánh giá kết quả
3.3.4.1. Mơ hình cây quyết định và các luật
❖Kết quả thu được:
TGCongtac = 2 | UytinGD = Loai 1 | | Songuoiphuthuoc = 1
| | | Trinhdohocvan = TrenDH: AA (1.0) | | | Trinhdohocvan = Daihoc
| | | | SPDVsudung = Loai 1: AAA (3.0) | | | | SPDVsudung = Loai 2: AA (2.0) | | | Trinhdohocvan = Trunghoc: AA (0.0) | | | Trinhdohocvan = Duoitrunghoc: BBB (2.0) | | | Trinhdohocvan = Caodang: AA (2.0) | | Songuoiphuthuoc = 2: AA (11.0) | | Songuoiphuthuoc = 3: BBB (1.0) | | Songuoiphuthuoc = 4: AA (0.0) | | Songuoiphuthuoc = 5: A (1.0) | UytinGD = Loai 3 | | TTNhao = Chusohuu: A (6.0/2.0) | | TTNhao = Nhachung: B (2.0/1.0) | | TTNhao = Voigiadinh: B (2.0) | | TTNhao = Thue | | | SPDVsudung = Loai 1: BBB (3.0) | | | SPDVsudung = Loai 2: C (2.0/1.0) | UytinGD = Loai 2 | | SPDVsudung = Loai 1 | | | Tuoi = 1: AA (4.0/1.0) Đào Thị Hiền - Lớp K17HTTTB
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
| | | Tuoi = 2: BBB (3.0) | | | Tuoi = 3: BBB (0.0) | | | Tuoi = 4: BBB (0.0) | | | Tuoi = 5: CCC (1.0) | | SPDVsudung = Loai 2 | | | Songuoiphuthuoc = 1: BB(2.0) | | | Songuoiphuthuoc = 2: B (2.0/1.0) | | | Songuoiphuthuoc = 3: BB(0.0) | | | Songuoiphuthuoc = 4: BB(0.0) | | | Songuoiphuthuoc = 5: B (1.0) | UytinGD = Loai 4 | | SPDVsudung = Loai 1 | | | Oto = Co: BBB (2.0) | | | Oto = Khong
| | | | TSThechap = Co: A(3.0/1.0)
| | | | TSThechap = Khong:CCC(2.0)
| | SPDVsudung = Loai 2: B (7.0/4.0)
❖Các luật sinh ra từ cây quyết định:
- Luật 1: IF (TGCongtac = 1) AND (UytinGD = Loai 1) AND
(SPDVsudung = Loai 1) AND (TTNhao = Chusohuu) THEN (XHTD = AAA).
- Luật 2: IF (TGCongtac = 1) AND (UytinGD = Loai 1) AND
(SPDVsudung = Loai 1) AND (TTNhao = Thue) THEN (XHTD = AA).
- Luật 3: IF (TGCongtac = 1) AND (UytinGD = Loai 1) AND
(SPDVsudung = Loai 2) AND (Songuoiphuthuoc = 1)AND (Tuoi = 1) THEN (XHTD = AA).
- Luật 4: IF (TGCongtac = 1) AND (UytinGD = Loai 1) AND
TF Rate FF Rate Frecisicn Recall F-Eeasure ROC Area Class D-979 0.004 0.968 0.979 0.974 0,999 AA A 0.942 Ũ.D26 0.872 0.942 0.906 0,993 AA 0.807 0.032 0.74 0.Ξ07 0.772 0,983 BB 0.S07 0.032 0.728 0.Ξ07 0.766 0.985 CC 0.724 0.044 0.649 0.724 0.685 0.971 E 0.Ξ 0.002 0.947 0.Ξ 0.867 0.997 D 0.767 0.027 0.759 0.767 0.763 0.983 C 0.793 0.035 0.7Ξ7 0.793 0.79 0.979 EE E 0.52 0.007 0.813 0.52 0.634 0.985 A 0.649 0.013 0.828 0.649 0.727 0.986 CC C Weighted Avg. 0.S03 0.024 0.S06 0.Ξ03 0.801 0.986 Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
(SPDVsudung = Loai 2) AND (Songuoiphuthuoc = 1) AND (Tuoi = 2) THEN (XHTD = BBB).
- Luật 5: IF (TGCongtac = 1) AND (UytinGD = Loai 1) AND
(SPDVsudung = Loai 2) AND (Songuoiphuthuoc = 1) AND (Tuoi = 3) AND (Trinhdohocvan = Daihoc THEN (XHTD = AA).
- Luật 6: IF (TGCongtac = 2) AND (UytinGD = Loai 1) AND
(Songuoiphuthuoc = 1) AND (Trinhdohocvan = TrenDH) THEN
(XHTD = AA).
- Luật 7: IF (TGCongtac = 2) AND (UytinGD = Loai 1) AND
(Songuoiphuthuoc = 1) AND (Trinhdohocvan = Daihoc) AND
(SPDVsudung = Loai 1) THEN (XHTD = AAA).
- Luật 8: IF (TGCongtac = 2) AND (UytinGD = Loai 4) AND
(SPDVsudung = Loai 1) AND (Oto = Khong) AND (TSThechap = Khong) THEN (XHTD = CCC).
3.3.4.2. Phân tích kết quả đạt được
Bài tốn xây dựng cây quyết định xếp hạng tín dụng được thử nghiệm trên phần mềm Weka với bộ số liệu của ngân hàng MaritimeBank thu được kết quả tương đối tốt.
Dựa vào kết quả thực nghiệm ta thu được các thông tin sau:
Number of Leaves : 341
Size of the tree : 463
Time taken tc build model: 0.23 seconds
=== Evaluation on training set === === Summary ===
Correctly Classified Instances Incorrectly Classified Instances Kappa statistic
Mean absolute error Root mean squared error Relative absolute error
Root relative squared error Total Number of Instances
695 80,.254 ⅝ 171 19.746 ⅝ O .7777 0.0515 0.1604 2S.9037 ⅝ 53.7654 ⅝ S66 Đào Thị Hiền - Lớp K17HTTTB Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
Hình 3.18: Kết quả thực nghiệm
- Cây sinh ra với 341 nút lá
- Kích thước của cây là 463
- Độ chính xác đạt 80,254 %
- Các chỉ tiêu “Mean absolute error”, “Root mean squared error” .. .co giá trị
khá
nhỏ điều này chứng tỏ độ chính xác tương đối cao của phương pháp khi xây dựng mơ hình.
Hình 3.19: Bảng đo độ chính xác
Từ bảng trên ta thấy lớp ‘AAA’ có độ chính xác cao nhất với tỉ lệ các mẫu được phân lớp đúng đạt 97,9%, chỉ có 0,4% mẫu bị phân lớp sai. Tỷ lệ các mẫu thuộc lớp ‘AAA’ được phân loại đúng lần lượt chiếm 96,8%, 97,9% trên tổng số các mẫu được phân loại vào lớp ‘AAA’ và trên tổng số các mẫu có giá trị thực thuộc lớp này. Giá trị F-Measure và ROC Area càng tiến gần về 1 có nghĩa mơ hình càng tốt. Tương tự với các lớp cịn lại.
Với mơ hình cây quyết định kết quả được mô phỏng phân loại một cách trực quan, dễ hiểu đối với người sử dụng, có thể rút ra các luật một cách nhanh chóng, dễ dàng dự đốn trước được khả năng của khách hàng từ đó đưa ra được những quyết định phù hợp hơn.
3.3.4.3. Hướng phát triển và khuyến nghị
Những năm gần đây, việc khai phá dữ liệu để tìm kiếm tri thức, dự đốn xu hướng và hỗ trợ ra quyết định đã trở thành một nhu cầu cần thiết trong phân tích dữ liệu. Khóa luận cần được phát triển thêm để có thể xây dựng các ứng dụng phân tích dữ liệu mang tính thơng minh hơn.
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
Với ngân hàng, họ thường xuyên phải ra các quyết định liên quan đến quá trình cho vay của mình. Dù rằng ln mong muốn những quyết định của mình là chính xác xong thực tế không phải lúc nào cũng được như thế. Rủi ro là một điều hồn tồn có thể xảy ra đi kèm với các quyết định cho vay. Như vậy vấn đề không chỉ ở chỗ ra quyết định đúng mà cịn kiểm sốt được rủi ro liên quan. Sự thành công hay thất bại của một quyết định còn phụ thuộc rất lớn vào những thơng tin mà ngân hàng có được. Với cây quyết định, từ mẫu dữ liệu sẵn có, sau khi tham số hóa và chuyển đổi số liệu mẫu, chúng ta có thể đưa ra quyết định từ các yếu tố xếp hạng tín dụng, tổng thu nhập ...Với dự đốn đã thu được, khi phát sinh những khách hàng có thơng tin như các lớp khách hàng đã được dự đoán, nhà quản trị sẽ dễ dàng ra được quyết định kinh doanh hoặc giúp giảm thiểu thời gian, chi phí, dự đốn được xu hướng kết quả của thông tin.
Tuy nhiên với bộ dữ liệu thu thập được có kích thước tương đối nhỏ do đó kết