Dữ liệu huấn luyện

Một phần của tài liệu Ứng dụng cây quyết định vào xếp hạng khách hàng cá nhân tại NHTMCP hàng hải việt nam chi nhánh hà nội khoá luận tốt nghiệp 786 (Trang 49)

Thuộc tính (A) InfoA(D) Gain A SplitInfo (A) GainRatio A Hokhau 0,761 0,1203 1,761 0,068 Thunhap 0,6655 0,2158 1,2955 0,1666 Kethon 0,4349 0,4464 0,7219 0,6184 Nghenghiep 0,6 0,2813 1,8464 0,1524 TGCongtac 0,4855 0,3958 1 0,3958 TNTuluong 0,8465 0,0348 1 0,0348 TKHientai 0,8797 0,0016 0,8813 0,0018 TSThechap 0,8265 0,0548 0,469 0,1168 Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp

Thuật tốn xây dựng cây quyết định với bảng trên như sau:

- Trước tiên nút lá được khởi tạo gồm các mẫu từ 1 đến 10

Đầu tiên sẽ tính Entropy cho tồn bộ tập huấn luyện D gồm: 3 bộ có giá trị thuộc tính nhãn là “True” và 7 bộ có thuộc tính nhãn là “False”, do đó:

Info(D) = - -3 Iog23 - ɪ log2"7 = 0,8813

10 o 10 10 ° 10

Tính IG cho từng thuộc tính:

Thuộc tính “Tuoi” có 3 giá trị là “Gia”, “Trungnien”, “Thanhnien”. Căn cứ vào bảng dữ liệu ta thấy:

- Với giá trị “Gia” có 2 bộ có giá trị thuộc tính nhãn là “True” và 4 bộ có giá

trị thuộc tính nhãn là “False”.

- Với giá trị “Trungnien” có 2 bộ có giá trị thuộc tính nhãn là “False”.

- Với giá trị “Thanhnien” có 1 bộ có giá trị thuộc tính nhãn là “True” và 1 bộ

có giá trị thuộc tính nhãn là “False”. ≠ InfoTuo1(D) = ∑3=1⅛nfo (Dj)

= 6 (-!l°g2! - 4l°g2 4) + 2 (-2l°g2 2 )+ 2 (-1lθg2; x 2)

10 6 & 6 6 ð 6 10 2 ð 2 10 2 ð 2

= 0,751

Thuộc tính “Gioitinh” có 2 giá trị là “Nam”, “Nu”.

- Với giá trị “Nam” có 2 bộ có giá trị thuộc tính nhãn là “True” và 4 bộ có giá

trị thuộc tính nhãn là “False”.

- Với giá trị “Nu” có 1 bộ có giá trị thuộc tính nhãn là “True” và 3 bộ có giá trị

thuộc tính nhãn là “False”.

≠ InfoGioitinh(D) = ∑2=1⅛⅛fo (Dj)

_ 6 2 24 44 1 13 3

=10 Hl°g26 - 6l°g26 )+

10 (-4l°g24 -4l°g24) = 0,8755

φ Gain (Tuoi) = Info(D) - InfoTuoi(D) = 0,8813 - 0,751 = 0,1303

φ Gain (Gioitinh) = Info(D) - InfoGioitinh(D) = 0,8813 - 0,8755 = 0,0058

Tiếp theo tính giá trị GainRatio cho từng thuộc tính:

Đào Thị Hiền - Lớp K17HTTTB 37

Khóa luận tốt nghiệp Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội

SplitInfOA(D) = - ∑‰ιj^ * Iog2 ɑ^jɪ)

≠ SplitInfOTuoi(D) = - (-⅛log2 -6 + ⅛log2 ɪ + -⅛log2 -2) = 1,371

10 ð 10 10 ð 10 10 ð 10 ,

≠ SplitInfOGiOitinh(D) = - (6log2 -6 +-4 log2 -4) = 0,971

10 10 10 10 Gain(Tuoi) 0,1303 φ GainRatio(Tuoi) = sp,f‰ = 0⅛7Γ = 0,095 Gain(Gioitinh) 0,0058 φ GainRatio(Gioitinh) = spɪ^ɪnfθɑ0^" = ^⅛0°7 = 0,006

Tương tự với 8 thuộc tính cịn lại thu được bảng sau: Bảng 2.4: Giá trị của thuộc tính

Nguồn: Tác giả tự tính

Từ giá trị GainRatio của các thuộc tính ta thấy GainRatio max = 0,6148 là giá trị GainRatio của thuộc tính Kethon => Ta chọn Kethon làm nút gốc, hai nhánh được tạo ra lần lượt với các tên là: “Có” và “Khong”. Hơn nữa nhánh “Khong” có các mẫu {1, 7} cùng thuộc một lớp “True” nên nút lá được tạo ra với nhãn là “True”.

InfoA(Dt) Gain A SplitInfo (A) GainRatio A Hokhau 0,4512 0,0924 1,5488 0,0597 Thunhap 0,4875 0,0561 1,0613 0,0529 Nghenghiep 0,3444 0,1992 1,5613 0,1276 TGCongtac 0,3444 0,1992 0,9544 0,2087 TNTuluong 0,4512 0,0924 0,9544 0,0968 TKHientai 0,4875 0,0561 0,8113 0,0691 TSThechap 0,5177 0,0259 0,5436 0,0476 Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp

Như vậy cây sẽ có dạng như sau:

Hình 2.3: Cây sau khi chọn thuộc tính Kethon (C4.5)

Bước tiếp theo gọi thuật toán đệ quy: C4.5 (C4.5 (D1, C-{Kethon}, {d})

Tương tự để tìm điểm chia tốt nhất tại thuật tốn này, phải tính chỉ số GainRatio của 9 thuộc tính cịn lại.

Đầu tiên ta cũng sẽ tính Entropy cho bộ tập huấn luyện D1 gồm: 1 bộ {6} có giá trị thuộc tính nhãn là “True” và 7 bộ {2, 3, 4, 5, 8, 9, 10} có thuộc tính nhãn là “False”, do đó:

Info(D1) = - O1 log2OO1 - 7 log27 = 0,5436O

Tiếp theo tính IG cho từng thuộc tính (trừ thuộc tính “Kethon”):

Thuộc tính “Tuoi” có 3 giá trị là “Gia”, “Trungnien”, “Thanhnien”. Căn cứ vào bảng dữ liệu ta thấy:

- Với giá trị “Gia” có 1 bộ có giá trị thuộc tính nhãn là “True” và 4 bộ có giá

trị thuộc tính nhãn là “False”.

- Với giá trị “Trungnien” có 2 bộ có giá trị thuộc tính nhãn là “False”.

- Với giá trị “Thanhnien” có 1 bộ có giá trị thuộc tính nhãn là “False”.

≠ Into ....(DI) ∑3 ,—.Into(DIj)

1-1|D1|

= O (-⅛log2⅛ - 4log24 ) + O (-llog2l) + O (-11θg21)

O ɔ ɔ ɔ OzO 2 ZzO 1 1/

= 0,4512

Thuộc tính “Gioitinh” có 2 giá trị là “Nam”, “Nu”.

Đào Thị Hiền - Lớp K17HTTTB 39

Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp

- Với giá trị “Nam” có 1 bộ có giá trị thuộc tính nhãn là “True” và 4 bộ có giá

trị thuộc tính nhãn là “False”.

- Với giá trị “Nu” có 3 bộ có giá trị thuộc tính nhãn là “False”.

≠ InfoGioitinh(D1) = ∑2 ,—.Info (D1j) = 8 (- 1log21 - ∣10g2∣) + 3 (-310g23)

O ɔ ɔ ɔ ɔ 8 3 3

= 0,4512

φ Gain(Tuoi) = Info(D1) - InfoTuoι(D1) = 0,5436 - 0,4512 = 0,0924

≠ Gain(Gioitinh) = Info(D1) - InfoG1o1tinh(D1) = 0,5436 - 0,4512 = 0,0924

Tiếp theo tính giá trị GainRatio cho từng thuộc tính:

Splf(Dl) = -∑J=1^ ∙1og2(⅛)

φ SplitInfoTuoi(DI) = - (∣1og2 ɔ + 11og2 2 + ∣1og2 2) = 1,2988

8 o 8 8 o 8 8 o 8

≠ SplitInfoGioitinh(D1) = - (ɔ1og2 8 ɔ+ 31og2 3) = 0,95448 8 8/

φ GainRatio(Tuoi) = c,,l°°"N'; = 0,0924 = 0,0711

SplitInfo Tuoi(Dl) 1,2988 ’

Gain(Gioitinft) 0,0924

φ GainRatio(Gioitinh) = s ɪɪt^fo(^^flnh^) = 00924 = 0,0968

Tương tự với 7 thuộc tính cịn lại thu được bảng sau:

Nguồn: Tác giả tự tính

Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp

Ta thấy chỉ số GainRatio của thuộc tính “TGCongtac” lớn nhất vì vậy chọn “TGCongtac” làm thuộc tính phân nhánh. Thuộc tính này có 2 giá trị đó là “>10nam” và “<10nam” nên ta tiếp tục tạo thành 2 nhánh mới. Với nhánh “>10nam” tất cả mẫu đều có giá trị là “False” nên ta tạo ra lá là “False”.

Còn lại 3 bộ cuối cùng thuộc vào 3 giá trị của thuộc tính “Nghenghiep”. Giá trị “LDPT” ứng với mẫu có giá trị “False”, giá trị “Giaovien” ứng với mẫu có giá trị “False”, giá trị “Kysu” ứng với mẫu có giá trị “True”.

Như vậy cây sẽ có dạng như sau:

Hình 2.4: Cây kết quả (C4.5)

Khóa luận tốt nghiệp Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội

CHƯƠNG 3: ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG XẾP HẠNG TÍN DỤNG KHÁCH HÀNG CÁ NHÂN NGÂN HÀNG TMCP HÀNG

HẢI VIỆT NAM CHI NHÁNH HÀ NỘI

Dựa trên cơ sở lý luận về khai phá dữ liệu bằng cây quyết định và lý thuyết về xếp hạng tín dụng trong chương 1 và chương 2, chương này sẽ giải quyết bài tốn xếp hạng tín dụng với việ áp dụng kỹ thuật khai phá dữ liệu bằng cây quyết định sử dụng phần mềm WEKA, áp dụng với nguồn CSDL của Ngân hàng TMCP Hàng Hải Việt Nam chi nhánh Hà Nội.

3.1. Mơ tả bài tốn

Do nhu cầu sử dụng các sản phẩm, dịch vụ của ngân hàng ngày một gia tăng, số lượng khách hàng cá nhân trong ngân hàng cũng vì vậy mà tăng lên nhanh chóng. Tuy nhiên mỗi khách hàng lại có có những nhu cầu, mục đích sử dụng khác nhau nên bộ dữ liệu của ngân hàng là vô cùng nhiều. Mục tiêu của cây quyết định là đơn giản hóa tập dữ liệu và dự đoán kết quả của trường hợp chưa xảy ra với sự chính xác cao. Một tập cơ sở dữ liệu ban đầu cồng kềnh về các khoản vay với các giá tri dữ liệu đã biết về các thuộc tính như: tuổi, trình độ học vấn, tình trạng hơ nhân, số người phụ thuộc, tính chất cơng việc, thu nhập hàng tháng ... Nhiệm vụ của bài toán là sử dụng cây quyết định chấm điểm tín dụng cho từng khách hàng dựa vào các thuộc tính của khách hàng đó, qua đó quản lý được rủi ro tín dụng của khách hàng đồng thời quyết định có cho khách hàng đó vay hay khơng ?

Đầu vào: Bộ dữ liệu về thông tin khách hàng

Đầu ra: Các luật về xếp hạng tín dụng khách hàng cá nhân tại ngân hàng Công cụ sử dụng: Phần mềm WEKA, phiên bản 3.6.9.

3.2. Công cụ sử dụng

Hiện nay, các phần mềm hỗ trợ khai phá dữ liệu được phát triển nhiều, trong đó có 2 nhóm cơng cụ đó là cơng cụ mã nguồn mở và công cụ thương mại. Công cụ mã nguồn mở là phần mềm cung cấp dưới dạng mã nguồn, được sử dụng miễn phí có thể kể đến như: phần mềm khai phá dữ liệu Rapidminner, phần mềm phân tích số liệu Weka, phần mềm phân tích thống kê R. Công cụ thương mại là phần mềm thuộc bản

Khóa luận tốt nghiệp Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội

quyền của tác giả hoặc các hãng phần mềm, được cung cấp dưới dạng mã nhị phân, người dùng phải mua và khơng có quyền bán lại. Phần mềm thương mại bao gồm IBM InfoSphere Data Warehouse, Business Intelligence Development Studio của Microsoft, Oracle Data Mining. Trong phạm vi hẹp của khóa luận, việc sử dụng phần mềm mã nguồn mở là hợp lý và hiệu quả hơn. Khóa luận sẽ đề cập tới một phần mềm mã nguồn mở thông dụng và được đánh giá là hiệu quả trong việc thử nghiệm khai phá dữ liệu: phần mềm khai phá dữ liệu Weka.

Weka là môi trường thử nghiệm khai phá dữ liệu do các nhà khoa học thuộc trường Đại học Waikato, NewZeland khởi xướng và được sự đóng góp của rất nhiều nhà nghiên cứu trên thế giới. Weka là phần mềm mã nguồn mở, cung cấp công cụ trực quan và sinh động cho mọi người tìm hiểu về KPDL. Weka cịn cho phép các giải thuật học mới phát triển có thể tích hợp vào mơi trường của nó. Hệ thống được viết bằng java. Nó chạy được hầu hết trên tất cả hệ điều hành. Weka cung cấp nhiều giải thuật khác nhau với nhiều phương thức cho quá trình xử lý để ước lượng kết quả bằng sơ đồ cho bất kì một dữ liệu nào. [8]

Giao diện đồ họa của Weka:

Hình 3.1: Giao diện đồ họa của WekaCác mơi trường làm việc chính của Weka: Các mơi trường làm việc chính của Weka:

- Explorer: Cho phép làm việc với hầu hết các chức năng của Weka. Explorer

chỉ sử dụng cho những bộ dữ liệu vừa và nhỏ

- Experimeter: Cho phép tiến hành các thí nghiệm và thực hiện các kiểm tra

thống kê các mơ hình

A B C D E F G H I J K L M N O P Q R 1 STT Tuoi Trinhd

ohc TTHonnha Songuoiph TCCongvie RRNgheng TGCongta TTNhao CocauGD TNHangthiTiIetienph Oto SPDVsudu TSThechaf Tinhhinht UytinGD XHTD

2 1 3

6 TrenDH Kethon 1 Quan ly, di Thap 8 Chusohuu Hatnhan 5 1 5 2 Co 1 Co 1 1 AM

3 2 3

6 TrenDH Kethon O Quan ly,di Cao 2 Chusohuu Hatnhan 8 2 3 Co 1 Co 2 3 AAA

4 3 3

1 Daihoc Kethon 1 Quan ly,di Thap 1 Nhachung Hatnhan 8 3 2 Co 2 Co 1 1 AA

5 4 5

6 Daihoc Lidi 2 Quanly,di TB 5 2 dinVoigia Hatnhan 9 7 7 Khong 2 Co 3 2 BB

6 5 5

5 TrenDH Kethon 2 Chuyenmc Thap 0 2 Chusohuu Hatnhan 2 2 5 2 Co 1 Co 1 1 AM

7 6 3

7 Trunghoc Kethon 3 Ldthoivu Cao 2 1 Thue Hatnhan 5 1 3 Co 2 Co 4 3 BB

8 7 5

6 TrenDH Kethon 3 Quanly,di Thap 7 giVoigiadinlSongvoi 2 4 6 3 Co 1 Co 2 3 M

9 8 6

0 Duoitrung Lidi 4 Ldthoivu TB 8 2 Thue Songvoigi 9 9 7 Khong 1 Co 2 3 CC

1 0 9

3

0 Duoitrung Kethon 5 Ldduoeda TB 3 VoigiadinlSongvoigi 4 2 Khong 2 Co 5 3 CC

1 1

I

O 3 2 Trunghoc Docthan 6 Ldduoeda Cao 1 huuChuso Songvoigi 0 1 0 3 Khong 2 Co 1 1 B 1

2 1

1 6 7 Duoitrung Kethon 6 Nghihuu Khac O Thue SongvoiGI 0 1 5 Khong 2 Co 5 4 P___

1

3 2 1 8 1 Trunghoc Kethon 6 Ldthoivu Cao 1 Thue SongvoiGI 4 4 1 Khong 1 Co 5 3 P___

1

4 3 1 0 4 TrenDH Kethon 1 Quanly,di Thap 2 1 Chusohuu Hatnhan 0 2 5 1 Co 1 Co 1 1 AM

1 5

1

4 0 2 Trunghoc Lidi 1 Chuyenmc TB 1 huuChuso SongvoiGI 2 8 2 Khong 2 Co 5 4 C

1 6

1

5 2 3 Daihoe Kethon O Chuyenmc Cao 8 Nhachung Songvoigi 6 1 Co 1 Co 2 3 AA

1

7 6 1 8 3 Daihoe Kethon 5 Chuyenmc TB 0 1 VoigiadinlSongvoiGI 7 5 1 Khong 2 Khong 3 2 BB

1

8 7 1 6 5 TrenDH Doethan 3 Ldduocda Cao 4 2 Thue SongvoiGI 3 4 2 Khong 1 Khong 4 4 B

1 9

1

8 9 1 Trunghoc Kethon O Ldduoeda Cao 3 Nhachung SongvoiGI 4 2 Co 2 Khong 5 4 C

2 0

1

9 5 7 Duoitrung Lidi 1 Nghihuu Khac O huuChuso Songvoigi 9 9 7 Khong 1 Khong 5 3 D

2

1 0 2 6 3 Daihoe Docthan O Chuyenmc TB 9 Thue SongvoiGI 7 1 5 Khong 1 Co 1 1 M

2

2 1 2 8 3 TrenDH Kethon O Chuyenmc Thap 3 1 Chusohuu Hatnhan 5 1 0 1 Co 1 Co 1 1 AM

2 3 2 2 2 1 Trung hoc Kethon 4 Ldthoi vu TB 3 Thue Hatnh an 5 3 0 Khong 1 Khong 5 4 C 2 4 2

3 5 5 Duoitrung Kethon 2 Ldthoivu Thap 5 2 Chusohuu Songvoigi 9 3 3 Co 1 Co 2 3 M

2 5

2

4 4 7 Caodang Docthan O Nghihuu Khac O Thue SongvoiGI 7 6 Khong 2 Khong 5 4 P___

2

6 5— 2 9 I 2 HTrenD Lidi 1 Quanly,di Cao 4 VoigiadinlSongvoiGI 3 4 2 1 Khong 2 Khong 1 1 BBB

ΓΞ --------------*-------------

Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp

- KnowledgeFlow: Cho phép tương tác đồ họa kiểu kéo thả để thiết kế các

bước, các thành phần của một thí nghiệm

- Simple CLI: Giao diện đơn giản kiểu dịng lệnh

Hình 3.2: Giao diện của Weka ExplorerCác chức năng chính của Weka Explorer bao gồm 6 tab: Các chức năng chính của Weka Explorer bao gồm 6 tab:

-Preprocess: Cho phép mở, điều chỉnh, lưu một tập tin dữ liệu. Thẻ này chứa

các thuật toán áp dụng trong tiền xử lý dữ liệu.

- Classify: Cung cấp các mơ hình phân lớp dữ liệu hoặc hồi quy.

- Cluster: Cung cấp các mơ hình gom cụm.

- Associate: Khai thác tập phổ biến và luật kết hợp.

- SelectAttributes: Lựa chọn những thuộc tính tốt nhất từ tập dữ liệu.

- Visualize: Thể hiện dữ liệu dưới dạng biểu đồ.

Thông thường file dữ liệu dùng trong Weka là file .arff (file này do Weka tạo ra) hoặc file .csv (file dạng dữ liệu Excel).

3.3. Ứng dụng cây quyết định trong việc phân loại khách hàng

3.3.1. Thu thập dữ liệu

Đào Thị Hiền - Lớp K17HTTTB

Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp

Dữ liệu được sử dụng để xây dựng bài tốn là một tập hợp các thơng tin về khách hàng cá nhân xin cấp tín dụng tại ngân hàng Maritimebank.

Dữ liệu thu thập được bao gồm 866 bản ghi, được lưu trữ dưới dạng file excel và được chuyển thành file .csv:

ST

T Tên Kiểu giá trị Giá trị Mô tả

1 Tuoi Numberic 18,19,20, ... Tuổi (năm)

2 Trinhdohocvan Nominal TrenDH, Daihoc,

Caodang, ... Trình độ học vấn 3 TTHonnhan Nominal Kethon, Docthan Tình trạng hơn nhân 4 Songuoiphuthuoc Numeric 0,1,2,3, ... Số người phụ thuộc 5 TCCongviec Nominal Chuyenmon,Ldthoivu, ... Tính chất cơng việc 6 RRNghenghiep Nominal Cao, TB, Thap Rủi ro nghề nghiệp

Hình 3.3: Nguồn dữ liệu

Bộ dữ liệu gồm 17 thuộc tính khác nhau, mỗi thuộc tính đều có giá trị hữu hạn. Tên các thuộc tính và tập giá trị của nó được trình bày trong bảng sau:

7 TGCongtac Numberic 1,2,3,4,5, ... Thời gian cơng tác 8

TTNhao Nominal Chusohuu,

Nhachung, ...

Tình trạng nhà ở

9 CocauGD Nominal Hatnhan,

Songvoigiadinh Cơ cấu gia đình 10 TNHangthang Numberic 1,2,3, ... Thu nhập hàng tháng(triệu đồng)

11 TiletienphaitratrenTN Numberic 20,21,22, ... Tỉ lệ tiền phải trả trên thunhập (%)

12 Oto Nominal Co, Khong Có ơ tơ hay khơng?

13 SPDVsudung Nominal

Loai 1, Loai 2, Loai 3

Các sản phẩm, dịch vụ sử dụng

14 TSThechap Nominal Co, Khong Có tài sản thế chấp tại ngân hàng hay khơng? 15 THTranogocvalai Nominal Loai 1, Loai 2, Loai

3, Loai 4, Loai 5

Tình hình trả nợ gốc và lãi

16 UytinGD Nominal Loai 1, Loai 2, Loai

3, Loai 4 Uy tín giao dịch

17 XHTD Nominal AAA, AA, A, BBB,

BB, ... Xếp hạng tín dụng

Đào Thị Hiền - Lớp K17HTTTB

Khóa luận tốt nghiệp Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội

Giải thích phân loại các thuộc tính:

- Sản phẩm dịch vụ sử dụng:

• Loại 1: Tiền gửi và các dịch vụ khác

• Loại 2: Chỉ sử dụng dịch vụ thanh tốn

• Loại 3: Khơng sử dụng

- Tình hình trả nợ gốc và lãi:

Một phần của tài liệu Ứng dụng cây quyết định vào xếp hạng khách hàng cá nhân tại NHTMCP hàng hải việt nam chi nhánh hà nội khoá luận tốt nghiệp 786 (Trang 49)

Tải bản đầy đủ (DOCX)

(78 trang)
w