Click vào “OK” để hồn thành sau đó click vào “Apply” để thực hiện. Tiếp tục với hộp thoại trong mục “MathExpression”, áp dụng cho tuổi từ 56 - 60 thay bằng giá trị ‘3’. (55 < Tuổi <= 60)
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
Hình 3.9: Thiết lập thơng số cho thuộc tính tuổiTuổi từ 36 - 55 thay bằng giá trị ‘1’ (35 < Tuổi <= 55) Tuổi từ 36 - 55 thay bằng giá trị ‘1’ (35 < Tuổi <= 55)
Hình 3.10: Thiết lập thơng số cho thuộc tính tuổi Tuổi từ 26 - 35 thay bằng giá trị ‘2’ (25 < Tuổi <= 35)
No. Label Count 1 1 287 2 2 191 3 3 Tθ4 4 4 128 __________ 5_____________________________________________________156___________________________________________________
Số người phụ thuộc trong gia đình Giá trị gán nhãn
< 3 người 1 3 người 2 4 người 3 5 người 4 > 5 người 5 Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
Hình 3.11: Thiết lập thơng số cho thuộc tính tuổi Tuổi từ 20 - 25 thay bằng giá trị ‘4’ (20 <= Tuổi <= 25)
Hình 3.12: Thiết lập thơng số cho thuộc tính tuổi
Sau khi nhóm tuổi thành 5 nhóm ta chuyển đổi kiểu dữ liệu của trường Tuoi sang kiểu Nominal: sử dụng mục “NumericToNominal”. Sau đó thiết lập thơng số như hình dưới đây:
Đào Thị Hiền - Lớp K17HTTTB 52
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
Hình 3.13: Chuyển đổi kiểu dữ liệu cho thuộc tính tuổi
Sau khi nhóm tuổi thành 5 cụm và chuyển đổi dữ liệu từ thuộc tính Numeric sang Nominal ta thu được thống kê như sau:
Hình 3.14: Thống kê số lượng của 5 nhóm tuổi
Từ kết quả ta có thể thấy nhóm 1 là người có độ tuổi từ 36 đến 55 tuổi chiếm số lượng nhiều nhất là 316 người, số lượng ít nhất thuộc về nhóm 5 với 170 người.
Thực hiện tương tự với 4 thuộc tính có kiểu dữ liệu số cịn lại đó là:
- Songuoiphuthuoc
Thời gian công tác Giá trị gán nhãn >= 7 năm 1 Từ 5 đến dưới 7 năm 2 Từ 3 đến dưới 5 năm 3 Từ 1 đến dưới 3 năm 4 < 1 năm 5 Thu nhập hàng tháng Giá trị gán nhãn >= 10 triệu đồng 1 Từ 5 đến dưới 10 triệu đồng 2 Từ 3 đến dưới 5 triệu đồng 3 Từ 1 đến dưới 3 triệu đồng 4 < 1 triệu đồng 5
Tỉ lệ số tiền phải trả trên thu nhập Giá trị gán nhãn
< 30 % 1 Từ 30 % đến dưới 45 % 2 Từ 45 % đến dưới 60 % 3 Từ 60 % đến dưới 75 % 4 >= 70 % 5 Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
- TGCongtac
Bảng 3.3: Gán nhãn cho thuộc tính thời gian cơng tác
- TNHangthang
Bảng 3.4: Gán nhãn cho thuộc tính thu nhập hàng tháng
- TiletienphaitratrenTN
Sau khi đã xử lý dữ liệu xong click vào button “Save” để lưu lại bảng dữ liệu dưới tên Bankdata_MSB.arff.
TGCongtac Loai 2
UytinGD
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
3.3.3. Thực nghiệm
Sau khi đã trải qua bước tiền xử lý dữ liệu ta tiến hành phân loại dữ liệu bằng thuật toán C4.5. Trước khi tiến hành phân loại ta phải chọn chế độ kiểm thử để xây dựng tập kiểm thử và tập huấn luyện. Weka hỗ trợ 4 chế độ kiểm thử đó là:
- Use training set: Sử dụng chính tập training data để tiến hành kiểm thử.
- Supplied test set: Sử dụng tập dữ liệu khác để tiến hành kiểm thử.
- Cross-validation: Chia dữ liệu thành nhiều phần để thực hiện thành nhiều lần
đánh giá kết quả.
- Percentage split: Chia dữ liệu thành hai phần theo tỷ lệ %, một phần dùng để
xây dựng mơ hình, một phần dành cho kiểm thử.
Sử dụng chế độ kiểm thử “Use training set”. Chọn Classify -> Choose -> trees - > J48 -> Start.
Thu được kết quả như sau:
Hình 3.15: Kết quả thuật tốn dưới dạng Text
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
Loai 2 SPDVsudung Loai 2 Loai 1 P________ Songuoiphuthuoc . .. Loai 2 Lođi5 Loai 1 B Bg ■ Tuoi SPDVsudung Loai 1 TTNhao Voigiadinh Chusohui Nhachunj Thui TiIetienphaitratrenTN A
Loai1 Loai 2 Loai3 Loai4 Loai 1 Loai 2
Hình 3.16: Kết quả thuật tốn dưới dạng cây TGCongtai
Hình 3.17: Kết quả thuật toán dưới dạng cây
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
3.3.4. Đánh giá kết quả
3.3.4.1. Mơ hình cây quyết định và các luật
❖Kết quả thu được:
TGCongtac = 2 | UytinGD = Loai 1 | | Songuoiphuthuoc = 1
| | | Trinhdohocvan = TrenDH: AA (1.0) | | | Trinhdohocvan = Daihoc
| | | | SPDVsudung = Loai 1: AAA (3.0) | | | | SPDVsudung = Loai 2: AA (2.0) | | | Trinhdohocvan = Trunghoc: AA (0.0) | | | Trinhdohocvan = Duoitrunghoc: BBB (2.0) | | | Trinhdohocvan = Caodang: AA (2.0) | | Songuoiphuthuoc = 2: AA (11.0) | | Songuoiphuthuoc = 3: BBB (1.0) | | Songuoiphuthuoc = 4: AA (0.0) | | Songuoiphuthuoc = 5: A (1.0) | UytinGD = Loai 3 | | TTNhao = Chusohuu: A (6.0/2.0) | | TTNhao = Nhachung: B (2.0/1.0) | | TTNhao = Voigiadinh: B (2.0) | | TTNhao = Thue | | | SPDVsudung = Loai 1: BBB (3.0) | | | SPDVsudung = Loai 2: C (2.0/1.0) | UytinGD = Loai 2 | | SPDVsudung = Loai 1 | | | Tuoi = 1: AA (4.0/1.0) Đào Thị Hiền - Lớp K17HTTTB
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
| | | Tuoi = 2: BBB (3.0) | | | Tuoi = 3: BBB (0.0) | | | Tuoi = 4: BBB (0.0) | | | Tuoi = 5: CCC (1.0) | | SPDVsudung = Loai 2 | | | Songuoiphuthuoc = 1: BB(2.0) | | | Songuoiphuthuoc = 2: B (2.0/1.0) | | | Songuoiphuthuoc = 3: BB(0.0) | | | Songuoiphuthuoc = 4: BB(0.0) | | | Songuoiphuthuoc = 5: B (1.0) | UytinGD = Loai 4 | | SPDVsudung = Loai 1 | | | Oto = Co: BBB (2.0) | | | Oto = Khong
| | | | TSThechap = Co: A(3.0/1.0)
| | | | TSThechap = Khong:CCC(2.0)
| | SPDVsudung = Loai 2: B (7.0/4.0)
❖Các luật sinh ra từ cây quyết định:
- Luật 1: IF (TGCongtac = 1) AND (UytinGD = Loai 1) AND
(SPDVsudung = Loai 1) AND (TTNhao = Chusohuu) THEN (XHTD = AAA).
- Luật 2: IF (TGCongtac = 1) AND (UytinGD = Loai 1) AND
(SPDVsudung = Loai 1) AND (TTNhao = Thue) THEN (XHTD = AA).
- Luật 3: IF (TGCongtac = 1) AND (UytinGD = Loai 1) AND
(SPDVsudung = Loai 2) AND (Songuoiphuthuoc = 1)AND (Tuoi = 1) THEN (XHTD = AA).
- Luật 4: IF (TGCongtac = 1) AND (UytinGD = Loai 1) AND
TF Rate FF Rate Frecisicn Recall F-Eeasure ROC Area Class D-979 0.004 0.968 0.979 0.974 0,999 AA A 0.942 Ũ.D26 0.872 0.942 0.906 0,993 AA 0.807 0.032 0.74 0.Ξ07 0.772 0,983 BB 0.S07 0.032 0.728 0.Ξ07 0.766 0.985 CC 0.724 0.044 0.649 0.724 0.685 0.971 E 0.Ξ 0.002 0.947 0.Ξ 0.867 0.997 D 0.767 0.027 0.759 0.767 0.763 0.983 C 0.793 0.035 0.7Ξ7 0.793 0.79 0.979 EE E 0.52 0.007 0.813 0.52 0.634 0.985 A 0.649 0.013 0.828 0.649 0.727 0.986 CC C Weighted Avg. 0.S03 0.024 0.S06 0.Ξ03 0.801 0.986 Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
(SPDVsudung = Loai 2) AND (Songuoiphuthuoc = 1) AND (Tuoi = 2) THEN (XHTD = BBB).
- Luật 5: IF (TGCongtac = 1) AND (UytinGD = Loai 1) AND
(SPDVsudung = Loai 2) AND (Songuoiphuthuoc = 1) AND (Tuoi = 3) AND (Trinhdohocvan = Daihoc THEN (XHTD = AA).
- Luật 6: IF (TGCongtac = 2) AND (UytinGD = Loai 1) AND
(Songuoiphuthuoc = 1) AND (Trinhdohocvan = TrenDH) THEN
(XHTD = AA).
- Luật 7: IF (TGCongtac = 2) AND (UytinGD = Loai 1) AND
(Songuoiphuthuoc = 1) AND (Trinhdohocvan = Daihoc) AND
(SPDVsudung = Loai 1) THEN (XHTD = AAA).
- Luật 8: IF (TGCongtac = 2) AND (UytinGD = Loai 4) AND
(SPDVsudung = Loai 1) AND (Oto = Khong) AND (TSThechap = Khong) THEN (XHTD = CCC).
3.3.4.2. Phân tích kết quả đạt được
Bài tốn xây dựng cây quyết định xếp hạng tín dụng được thử nghiệm trên phần mềm Weka với bộ số liệu của ngân hàng MaritimeBank thu được kết quả tương đối tốt.
Dựa vào kết quả thực nghiệm ta thu được các thông tin sau:
Number of Leaves : 341
Size of the tree : 463
Time taken tc build model: 0.23 seconds
=== Evaluation on training set === === Summary ===
Correctly Classified Instances Incorrectly Classified Instances Kappa statistic
Mean absolute error Root mean squared error Relative absolute error
Root relative squared error Total Number of Instances
695 80,.254 ⅝ 171 19.746 ⅝ O .7777 0.0515 0.1604 2S.9037 ⅝ 53.7654 ⅝ S66 Đào Thị Hiền - Lớp K17HTTTB Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
Hình 3.18: Kết quả thực nghiệm
- Cây sinh ra với 341 nút lá
- Kích thước của cây là 463
- Độ chính xác đạt 80,254 %
- Các chỉ tiêu “Mean absolute error”, “Root mean squared error” .. .co giá trị
khá
nhỏ điều này chứng tỏ độ chính xác tương đối cao của phương pháp khi xây dựng mơ hình.
Hình 3.19: Bảng đo độ chính xác
Từ bảng trên ta thấy lớp ‘AAA’ có độ chính xác cao nhất với tỉ lệ các mẫu được phân lớp đúng đạt 97,9%, chỉ có 0,4% mẫu bị phân lớp sai. Tỷ lệ các mẫu thuộc lớp ‘AAA’ được phân loại đúng lần lượt chiếm 96,8%, 97,9% trên tổng số các mẫu được phân loại vào lớp ‘AAA’ và trên tổng số các mẫu có giá trị thực thuộc lớp này. Giá trị F-Measure và ROC Area càng tiến gần về 1 có nghĩa mơ hình càng tốt. Tương tự với các lớp cịn lại.
Với mơ hình cây quyết định kết quả được mô phỏng phân loại một cách trực quan, dễ hiểu đối với người sử dụng, có thể rút ra các luật một cách nhanh chóng, dễ dàng dự đốn trước được khả năng của khách hàng từ đó đưa ra được những quyết định phù hợp hơn.
3.3.4.3. Hướng phát triển và khuyến nghị
Những năm gần đây, việc khai phá dữ liệu để tìm kiếm tri thức, dự đoán xu hướng và hỗ trợ ra quyết định đã trở thành một nhu cầu cần thiết trong phân tích dữ liệu. Khóa luận cần được phát triển thêm để có thể xây dựng các ứng dụng phân tích dữ liệu mang tính thơng minh hơn.
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
Với ngân hàng, họ thường xuyên phải ra các quyết định liên quan đến quá trình cho vay của mình. Dù rằng ln mong muốn những quyết định của mình là chính xác xong thực tế khơng phải lúc nào cũng được như thế. Rủi ro là một điều hồn tồn có thể xảy ra đi kèm với các quyết định cho vay. Như vậy vấn đề không chỉ ở chỗ ra quyết định đúng mà cịn kiểm sốt được rủi ro liên quan. Sự thành công hay thất bại của một quyết định còn phụ thuộc rất lớn vào những thơng tin mà ngân hàng có được. Với cây quyết định, từ mẫu dữ liệu sẵn có, sau khi tham số hóa và chuyển đổi số liệu mẫu, chúng ta có thể đưa ra quyết định từ các yếu tố xếp hạng tín dụng, tổng thu nhập ...Với dự đốn đã thu được, khi phát sinh những khách hàng có thơng tin như các lớp khách hàng đã được dự đoán, nhà quản trị sẽ dễ dàng ra được quyết định kinh doanh hoặc giúp giảm thiểu thời gian, chi phí, dự đốn được xu hướng kết quả của thông tin.
Tuy nhiên với bộ dữ liệu thu thập được có kích thước tương đối nhỏ do đó kết quả phân loại khi sử dụng cây quyết định này đối với các trường hợp khác có thể chưa cao. Các luật đưa ra cũng chỉ cung cấp thêm thơng tin, gợi ý trong q trình xếp hạng tín dụng chứ khơng dựa vào hoàn toàn, tùy vào từng trường hợp, từng khách hàng cụ thể mà có thể áp dụng một cách linh hoạt. Nhưng với những tri thức đã rút trích được có thể khẳng định rằng phương pháp cây quyết định áp dụng trong xếp hạng tín dụng là một hướng tiếp cận tiềm năng.
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
KẾT LUẬN
Khóa luận đã trình bày được các vấn đề cơ bản của khai phá dữ liệu và cây quyết định: những vấn đề tổng quan, khái niệm, chức năng, các thuật toán cũng như ưu và nhược điểm của kỹ thuật khai phá dữ liệu. Nắm được kỹ thuật khai phá dữ liệu bằng cây quyết định, các thuật toán xây dựng cây quyết định. Xây dựng được mơ hình cây quyết định bằng phần mềm Weka dựa trên bộ dữ liệu thực tế của ngân hàng.
Trong khuôn khổ luận văn mới chỉ dừng lại ở bộ dữ liệu nhỏ tham khảo từ hệ thống xếp hạng tín dụng của các ngân hàng thương mại khác nên kết quả thực nghiệm chưa mang ý nghĩa thực tế. Đối với các thuật toán trong cây quyết định chưa thực sự phù hợp với cơ sở dữ liệu lớn của ngân hàng. Do hạn chế về mặt thời gian, kỹ thuật đặc biệt là việc thu thập dữ liệu rất khó khăn nên số lượng các chỉ tiêu chưa đủ để đáp ứng vào bài toán thực tế. Tuy nhiên có thể khẳng định cây quyết định là là một phương pháp tiềm năng.
Qua quá trình thực nghiệm và nghiên cứu lý thuyết có thể đưa ra một số kết luận như sau:
- Mỗi một giải thuật phân loại, phân cụm ... áp dụng cho một số mục tiêu và
kiểu dữ liệu nhất định.
- Khai phá dữ liệu sẽ hiệu quả hơn khi bước tiền xử ly, lựa chọn thuộc tính, mơ
hình được giải quyết tốt.
- Sử dụng cây quyết định trong xếp hạng tín dụng có ưu điểm hơn phương pháp
truyền thống là có thể thực hiện tự động, thời gian thực hiện nhanh chóng, dễ dàng đưa ra được kết quả ... tuy nhiên hiệu quả thu được chưa cao.
Một số vấn đề luận văn cần được nghiên cứu, tìm hiểu thêm:
- Cần bổ sung thêm dữ liệu cho tập huấn luyện để mơ hình cây quyết định có độ
tin cậy cao hơn và hoạt động hiệu quả hơn. Tiếp tục phát triển hoàn thiện theo hướng trở thành phần mềm khai phá dữ liệu trong tín dụng tiêu dùng nhằm hỗ trợ cho cán bộ tín dụng đưa ra quyết định cho khách hàng vay và quản trị được rủi ro tín dụng.
- Tiến hành cài đặt và tiếp tục nghiên cứu nhiều kỹ thuật khai phá dữ liệu hơn
nữa để triển khai giải quyết các bài toán cụ thể trong thực tế.
Khóa luận tốt nghiệp Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội
TÀI LIỆU THAM KHẢO
Tiếng Việt
1. Nguyễn Thị Hạnh (2008), Khai phá dữ liệu bằng cây quyết định, Sinh viên
nghiên cứu khoa học, Trường Đại học Sư phạm Hà Nội, Hà Nội.
2. Nguyễn Công Hoan (2015), Tổng quan về dữ liệu lớn (BigData), Kỷ yếu hội thảo khoa học, Hà Nội.
3. Nguyễn Phan Huy (2010), Báo cáo thực tập tổng hợp, Trường Đại học Kinh tế Quốc Dân, Hà Nội.
4. PGS.TS Tơ Ngọc Hưng (2014), Tín dụng ngân hàng, Nxb Thống Kê, Hà Nội.
5. Ngân hàng TMCP Hàng Hải Việt Nam (2010), Quy định chính sách tín
dụng của Maritimebank, Hà Nội.
6. Nguyễn Đình Tài (2013), Ứng dụng mơ hình cây quyết định vào quản trị rủi
ro tín dụng ngân hàng, Khóa luận tốt nghiệp, Học viện Ngân hàng, Hà Nội.
7. Lê Văn Triết (2010), Hoàn thiện hệ thống xếp hạng tín dụng cá nhân của
ngân hàng TMCP Á Châu, Luận văn thạc sĩ kinh tế, Trường Đại học kinh tế
TP.HCM, TP. Hồ Chí Minh.
8. Vũ Thị Xuân (2014), Ứng dụng khai phá dữ liệu hỗ trợ ra quyết định cho
vay trong hoạt động tín dụng của ngân hàng TMCP Sài Gịn (SHB), Khóa
luận tốt nghiệp, Học viện Ngân hàng, Hà Nội.
9. Bùi Thị Hải Yến (2015), Quản lý rủi ro tín dụng tại ngân hàng TMCP Hàng
Hải Việt Nam, Luận văn thạc sĩ tài chính ngân hàng, Trường Đại học Kinh
tế-Đại học Quốc Gia Hà Nội, Hà Nội.
Tiếng Anh
10. Jiawei Han and Micheline Kamber and Jian Pei (2010), Data Mining:
Concepts and Techniques, Morgan Kaufmann Publisher, 3rd Edition. 11. Max Bramer (2007), Principles of Data Mining, Springer, UK.
Website
12. Trang chủ ngân hàng TMCP Hàng Hải Việt Nam. https://www.msb.com.vn.
Đào Thị Hiền - Lớp K17HTTTB 63
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
13. Trang Wikipedia
https://vi.wikipedia.org/wiki/Khai ph%C3%A1 d%E1%BB%AF li%E1% BB%87u
14. Nghiên cứu ứng dụng công cụ khai phá dữ liệu tại các ngân hàng
https://www.sbv. gov.vn/webcenter/portal/vi/menu/trangchu/hdk/cntt/udptcn
tt/