Dùng phương pháp Hold Out [2.4.3] để đánh giá hiệu quả của thuật toán cây quyết định.
Cây quyết định trên được xây dựng dựa trên tập training set với 70 bản ghi đầu tiên. Sau đây, ta sẽ sử dụng 30 bản ghi ở tập test set để đánh giá hiệu quả của cây quyết đó.
Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 45 / 61
Kết quả đánh giá hiệu quả cây quyết định :
Bảng 4.3 Kết quả đánh giá hiệu quả cây quyết định xây dựng trên CSDL của NH TMCP Quân đội Đúng nhãn “Good” Đúng nhãn “Bad” Dự đoán nhãn “Good” 19 3 Dự đoán nhãn “Bad” 2 6 Độ chính xác của nhãn “Good” Độ chính xác của nhãn “Bad” Độ bao phủ 4.3 Nhận xét
Với cơ sở dữ liệu của ngân hàng Đức ta thấy hiệu quả đạt được là 67.67% [4.1.3.2]. Theo bảng kết quả thực nghiệm của Bastos et al [9] cho thấy cùng một cơ sở dữ liệu là của ngân hàng Đức và ngân hàng Australia, hiệu quả của việc sử dụng cây quyết định để xếp hạng tín dụng là rất cao.
Bảng 4.4 Kết quả đánh giá hiệu quả của ba mô hình MLP, SVM, BDT trong [9] Model German data Australian data
MLP 78.32% 92.34%
SVM 79.87% 92.87%
BDT 81.08% 94.03%
Theo báo cáo tổng kết nội bộ về đánh giá công cụ xếp hạng tín dụng Ngân hàng TMCP Quân đội thì hiệu quả phương pháp hiện tại đạt 75%. Trong khi đó hiệu quả sử dụng cây quyết định trong xếp hạng tín dụng đối với bộ dữ liệu khách hàng doanh nghiệp của MB là 83.33% [4.2.3.2].
Như vậy, kết quả thực nghiệm với công cụ Rapid Miner và kết quả thực nghiệm trong [9] có thể khẳng định rằng phương pháp cây quyết định áp dụng trong xếp hạng tín dụng trong ngân hàng là một hướng tiếp cận tiềm năng.
Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 46 / 61
Xếp hạng tín dụng nội bộ là một vấn đề khó và phức tạp trong việc quản lý rủi ro của Ngân hàng. Có nhiều phương pháp hỗ trợ nhằm đơn giản hóa quy trình xếp hạng tín dụng nội bộ trong ngân hàng. Trong đó cây quyết định một phương pháp phổ biến, phù hợp đối với việc xếp hạng tín dụng. Với hiệu quả của thuật toán là 67,67% với bộ dữ liệu của ngân hàng Đức và 83.33% với bộ dữ liệu của NH TMCP Quân đội, có thể khẳng định cây quyết định là một phương pháp tiềm năng giúp ngân hàng giảm thiểu đáng kể mức độ rủi ro của mình khi xét duyệt hồ sơ vay vốn của khách hàng.
Khóa luận đã trình bày được những vấn đề tổng quan về khai phá dữ liệu, khái niệm, chức năng, các thuật toán cũng như ưu và nhược điểm của kỹ thuật cây quyết định. Đồng thời, cũng trình bày những kiến thức về xếp hạng tín dụng như khái niệm, đối tượng, quy trình xếp hạng tín dụng nội bộ của NHTM cổ phần Quân đội. Chúng tôi đã áp dụng phương pháp cây quyết định trong xếp hạng tín dụng nội bộ ngân hàng. Với việc sử dụng công cụ RapidMiner được xây dựng dựa trên thuật toán xây dựng cây quyết định C4.5 với đầu vào là bộ dữ liệu đủ lớn về khách hàng cá nhân và 100 khách hàng doanh nghiệp của MB đã cho được kết quả về hiệu quả của thuật toán lần lượt là 67.67% và 83.33%.
Do hạn chế về mặt thời gian, kĩ thuật và đặc biệt là việc thu thập số liệu rất khó khăn. Bởi vì thông tin của khách hàng đối với ngân hàng phải được bảo mật, … Do đó, số lượng các chỉ tiêu chưa đủ để đáp ứng vào bài toán thực tiễn. Rõ ràng mô hình của chúng tôi cần được phát triển để đáp ứng được yêu cầu của thực tế. Đó là mục đích của hướng nghiên cứu trong tương lai.
Hiện nay, việc xếp hạng tín dụng nội bộ của các ngân hàng không chỉ dừng lại ở quyết định có cho vay hay không, mà các ngân hàng muốn cụ thể hơn về việc xếp hạng tín dụng của mình, ngân hàng phân loại khách hàng theo 10 nhóm như: AAA, AA, A, BBB, BB, B, CCC, CC, C và D. Đây cũng là mục tiêu hướng đến của cây quyết định trong tương lai của khóa luận.
Đối với các thuật toán trong cây quyết định, mặc dù C4.5 đã khắc phục được những vấn đề về liên quan đến thuộc tính số (liên tục), thuộc tính có nhiều giá trị, các vấn đề dữ liệu thiếu hoặc bị nhiễu. Hơn nữa, C4.5 cũng có bước cắt tỉa nhánh hiệu quả. Tuy nhiên, với cơ sở dữ liệu lớn thì C4.5 làm việc không hiệu quả. Do đó, mục tiêu tiếp theo hướng đến đối với kỹ thuật cây quyết định là giải quyết vấn đề bộ nhớ.
Bên cạnh việc áp dụng cây quyết định trong bài toán xếp hạng tín dụng thì còn nhiều nghiệp vụ của ngân hàng cần sự hỗ trợ của cây quyết định ví dụ như Account Planning,..., và đó là một hướng mới đối với việc ứng dụng cây quyết định trong các bài toán thực tế của ngân hàng.
Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 47 / 61
DANH MỤC TÀI LIỆU THAM KHẢO
Tiếng việt:
[1] Cẩm nang tín dụng của ngân hàng thương mại cổ phần Quân đội, 1999.
[2] Nguyễn Thị Thùy Linh (2005), Khóa luận tốt nghiệp đại học “ Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết đinh”, Đại học công nghệ - ĐH quốc gia Hà Nội, Hà Nội.
[3] Nguyễn Trần Minh Khuê (2009), Các phương pháp và kĩ thuật khai phá dữ liệu,
Hà Nội.
[4] Nguyễn Thị Hạnh (2011), Nghiên cứu khoa học “ Khai phá dữ liệu bằng cây quyết định”, Khoa công nghệ thông tin- đại học sư phạm Hà Nội, Hà Nội.
[5] Nguyễn Nhật Quang (2012), Học máy, Đại học Bách khoa, Hà Nội.
[6] PGS.TS Đỗ Phúc (2007), Bài giảng khai thác dữ liệu, Đại học Quốc gia TP.Hồ Chí Minh, TP Hồ Chí Minh.
[7] Quyết định số 493/2005/QĐ-NHNN ngày 24/04/2005 của thống đốc NHNN Việt Nam về phân loại nợ, trích lập và sử dụng dự phòng để xử lý rủi ro tín dụng trong hoạt động của các tổ chức tín dụng.
[8] TS Hồ Diệu (2001), Giáo trình tín dụng ngân hàng, Nhà xuất bản thống kê, Hà Nội.
Tiếng anh:
[9] Bastos,Joao (2008), Credit scoring with boosted decision tree, MPRA paper, No.8156,posted 14/2011.
[10] Jaiwei Han and Micheline Kamber (2001), Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers.
[11] Ho Tu Bao (1998), Introduction to Knowledge Discovery and Data Mining, Đại học khoa học tự nhiên, Hà Nội.
[12] Max Bramer (2007), Principles of Data Mining, Springer, UK.
[13] Thomas (2009), Data mining: Definittions and decision tree examples, State university of New York.
[14] Rapid – I (2009), Rapid Miner 4.4 User Guide Operator Reference Developer Tutorial, German.
Danh mục các website tham khảo:
[15] http://tailieu.vn/xem-tai-lieu/bai-20-cay-phan-cap.402123.html/(Truy cập tháng 4/2012) [16] http://rating.com.vn/home/_/Cac-phuong-phap-xep-hang-tin-dung-doanh-nghiep- dien-hinh-tren-the-gioi---Phan-1.17.482/ (Truy cập tháng 4/2012) [17] http://www.stat.uni-muenchen.de/service/datenarchiv/kredit/kredit_e.html/(Truy cập 4/2012).