2.3. Thuật toán C4.5 với ứng dụng của nó trong ngân hàng
2.3.3. Ví dụ về thuật tốn C4.5
Thuộc tính (A) InfoA(D) Gain A SplitInfo (A) GainRatio A Hokhau 0,761 0,1203 1,761 0,068 Thunhap 0,6655 0,2158 1,2955 0,1666 Kethon 0,4349 0,4464 0,7219 0,6184 Nghenghiep 0,6 0,2813 1,8464 0,1524 TGCongtac 0,4855 0,3958 1 0,3958 TNTuluong 0,8465 0,0348 1 0,0348 TKHientai 0,8797 0,0016 0,8813 0,0018 TSThechap 0,8265 0,0548 0,469 0,1168 Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
Thuật tốn xây dựng cây quyết định với bảng trên như sau:
- Trước tiên nút lá được khởi tạo gồm các mẫu từ 1 đến 10
Đầu tiên sẽ tính Entropy cho tồn bộ tập huấn luyện D gồm: 3 bộ có giá trị thuộc tính nhãn là “True” và 7 bộ có thuộc tính nhãn là “False”, do đó:
Info(D) = - -3 Iog23 - ɪ log2"7 = 0,8813
10 o 10 10 ° 10
Tính IG cho từng thuộc tính:
Thuộc tính “Tuoi” có 3 giá trị là “Gia”, “Trungnien”, “Thanhnien”. Căn cứ vào bảng dữ liệu ta thấy:
- Với giá trị “Gia” có 2 bộ có giá trị thuộc tính nhãn là “True” và 4 bộ có giá
trị thuộc tính nhãn là “False”.
- Với giá trị “Trungnien” có 2 bộ có giá trị thuộc tính nhãn là “False”.
- Với giá trị “Thanhnien” có 1 bộ có giá trị thuộc tính nhãn là “True” và 1 bộ
có giá trị thuộc tính nhãn là “False”. ≠ InfoTuo1(D) = ∑3=1⅛nfo (Dj)
= 6 (-!l°g2! - 4l°g2 4) + 2 (-2l°g2 2 )+ 2 (-1lθg2; x 2)
10 6 & 6 6 ð 6 10 2 ð 2 10 2 ð 2
= 0,751
Thuộc tính “Gioitinh” có 2 giá trị là “Nam”, “Nu”.
- Với giá trị “Nam” có 2 bộ có giá trị thuộc tính nhãn là “True” và 4 bộ có giá
trị thuộc tính nhãn là “False”.
- Với giá trị “Nu” có 1 bộ có giá trị thuộc tính nhãn là “True” và 3 bộ có giá trị
thuộc tính nhãn là “False”.
≠ InfoGioitinh(D) = ∑2=1⅛⅛fo (Dj)
_ 6 2 24 44 1 13 3
=10 Hl°g26 - 6l°g26 )+
10 (-4l°g24 -4l°g24) = 0,8755
φ Gain (Tuoi) = Info(D) - InfoTuoi(D) = 0,8813 - 0,751 = 0,1303
φ Gain (Gioitinh) = Info(D) - InfoGioitinh(D) = 0,8813 - 0,8755 = 0,0058
Tiếp theo tính giá trị GainRatio cho từng thuộc tính:
Đào Thị Hiền - Lớp K17HTTTB 37
Khóa luận tốt nghiệp Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội
SplitInfOA(D) = - ∑‰ιj^ * Iog2 ɑ^jɪ)
≠ SplitInfOTuoi(D) = - (-⅛log2 -6 + ⅛log2 ɪ + -⅛log2 -2) = 1,371
10 ð 10 10 ð 10 10 ð 10 ,
≠ SplitInfOGiOitinh(D) = - (6log2 -6 +-4 log2 -4) = 0,971
10 10 10 10 Gain(Tuoi) 0,1303 φ GainRatio(Tuoi) = sp,f‰ = 0⅛7Γ = 0,095 Gain(Gioitinh) 0,0058 φ GainRatio(Gioitinh) = spɪ^ɪnfθɑ0^" = ^⅛0°7 = 0,006
Tương tự với 8 thuộc tính cịn lại thu được bảng sau: Bảng 2.4: Giá trị của thuộc tính
Nguồn: Tác giả tự tính
Từ giá trị GainRatio của các thuộc tính ta thấy GainRatio max = 0,6148 là giá trị GainRatio của thuộc tính Kethon => Ta chọn Kethon làm nút gốc, hai nhánh được tạo ra lần lượt với các tên là: “Có” và “Khong”. Hơn nữa nhánh “Khong” có các mẫu {1, 7} cùng thuộc một lớp “True” nên nút lá được tạo ra với nhãn là “True”.
InfoA(Dt) Gain A SplitInfo (A) GainRatio A Hokhau 0,4512 0,0924 1,5488 0,0597 Thunhap 0,4875 0,0561 1,0613 0,0529 Nghenghiep 0,3444 0,1992 1,5613 0,1276 TGCongtac 0,3444 0,1992 0,9544 0,2087 TNTuluong 0,4512 0,0924 0,9544 0,0968 TKHientai 0,4875 0,0561 0,8113 0,0691 TSThechap 0,5177 0,0259 0,5436 0,0476 Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
Như vậy cây sẽ có dạng như sau:
Hình 2.3: Cây sau khi chọn thuộc tính Kethon (C4.5)
Bước tiếp theo gọi thuật toán đệ quy: C4.5 (C4.5 (D1, C-{Kethon}, {d})
Tương tự để tìm điểm chia tốt nhất tại thuật tốn này, phải tính chỉ số GainRatio của 9 thuộc tính cịn lại.
Đầu tiên ta cũng sẽ tính Entropy cho bộ tập huấn luyện D1 gồm: 1 bộ {6} có giá trị thuộc tính nhãn là “True” và 7 bộ {2, 3, 4, 5, 8, 9, 10} có thuộc tính nhãn là “False”, do đó:
Info(D1) = - O1 log2OO1 - 7 log27 = 0,5436O
Tiếp theo tính IG cho từng thuộc tính (trừ thuộc tính “Kethon”):
Thuộc tính “Tuoi” có 3 giá trị là “Gia”, “Trungnien”, “Thanhnien”. Căn cứ vào bảng dữ liệu ta thấy:
- Với giá trị “Gia” có 1 bộ có giá trị thuộc tính nhãn là “True” và 4 bộ có giá
trị thuộc tính nhãn là “False”.
- Với giá trị “Trungnien” có 2 bộ có giá trị thuộc tính nhãn là “False”.
- Với giá trị “Thanhnien” có 1 bộ có giá trị thuộc tính nhãn là “False”.
≠ Into ....(DI) ∑3 ,—.Into(DIj)
1-1|D1|
= O (-⅛log2⅛ - 4log24 ) + O (-llog2l) + O (-11θg21)
O ɔ ɔ ɔ OzO 2 ZzO 1 1/
= 0,4512
Thuộc tính “Gioitinh” có 2 giá trị là “Nam”, “Nu”.
Đào Thị Hiền - Lớp K17HTTTB 39
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
- Với giá trị “Nam” có 1 bộ có giá trị thuộc tính nhãn là “True” và 4 bộ có giá
trị thuộc tính nhãn là “False”.
- Với giá trị “Nu” có 3 bộ có giá trị thuộc tính nhãn là “False”.
≠ InfoGioitinh(D1) = ∑2 ,—.Info (D1j) = 8 (- 1log21 - ∣10g2∣) + 3 (-310g23)
O ɔ ɔ ɔ ɔ 8 3 3
= 0,4512
φ Gain(Tuoi) = Info(D1) - InfoTuoι(D1) = 0,5436 - 0,4512 = 0,0924
≠ Gain(Gioitinh) = Info(D1) - InfoG1o1tinh(D1) = 0,5436 - 0,4512 = 0,0924
Tiếp theo tính giá trị GainRatio cho từng thuộc tính:
Splf(Dl) = -∑J=1^ ∙1og2(⅛)
φ SplitInfoTuoi(DI) = - (∣1og2 ɔ + 11og2 2 + ∣1og2 2) = 1,2988
8 o 8 8 o 8 8 o 8
≠ SplitInfoGioitinh(D1) = - (ɔ1og2 8 ɔ+ 31og2 3) = 0,95448 8 8/
φ GainRatio(Tuoi) = c,,l°°"N'; = 0,0924 = 0,0711
SplitInfo Tuoi(Dl) 1,2988 ’
Gain(Gioitinft) 0,0924
φ GainRatio(Gioitinh) = s ɪɪt^fo(^^flnh^) = 00924 = 0,0968
Tương tự với 7 thuộc tính cịn lại thu được bảng sau:
Nguồn: Tác giả tự tính
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
Ta thấy chỉ số GainRatio của thuộc tính “TGCongtac” lớn nhất vì vậy chọn “TGCongtac” làm thuộc tính phân nhánh. Thuộc tính này có 2 giá trị đó là “>10nam” và “<10nam” nên ta tiếp tục tạo thành 2 nhánh mới. Với nhánh “>10nam” tất cả mẫu đều có giá trị là “False” nên ta tạo ra lá là “False”.
Còn lại 3 bộ cuối cùng thuộc vào 3 giá trị của thuộc tính “Nghenghiep”. Giá trị “LDPT” ứng với mẫu có giá trị “False”, giá trị “Giaovien” ứng với mẫu có giá trị “False”, giá trị “Kysu” ứng với mẫu có giá trị “True”.
Như vậy cây sẽ có dạng như sau:
Hình 2.4: Cây kết quả (C4.5)
Khóa luận tốt nghiệp Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội
CHƯƠNG 3: ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG XẾP HẠNG TÍN DỤNG KHÁCH HÀNG CÁ NHÂN NGÂN HÀNG TMCP HÀNG
HẢI VIỆT NAM CHI NHÁNH HÀ NỘI
Dựa trên cơ sở lý luận về khai phá dữ liệu bằng cây quyết định và lý thuyết về xếp hạng tín dụng trong chương 1 và chương 2, chương này sẽ giải quyết bài tốn xếp hạng tín dụng với việ áp dụng kỹ thuật khai phá dữ liệu bằng cây quyết định sử dụng phần mềm WEKA, áp dụng với nguồn CSDL của Ngân hàng TMCP Hàng Hải Việt Nam chi nhánh Hà Nội.