5. Cấu trúc luận văn
3.3 ỨNG DỤNG ID3 ĐỂ PHÂN LỚP ĐỐI TƢỢNG KHÁCH HÀNG VAY
3.3.1. Quy trình thực nghiệm
Mô hình thực nghiệm của chƣơng trình hệ thống quyết định cho vay vốn ngân hàng.
Hình 3.5 : Quy trình thực nghiệm của quy trình quyết định cho vay vốn - Quy trình thực nghiệm với 621 mẫu dữ liệu đƣợc nạp vào hệ thống
dƣới dạng file excel Dulieuvayvon.xlsx.
- Sau khi dữ liệu đƣợc nạp vào hệ thống ta thực hiện lọc những dữ liệu trùng và những mẫu dữ liệu mâu thuẫn với nhau ta đƣợc bộ dữ liệu sau khi lọc
- Sau đó dùng thuật toán ID3 thực hiện đối với bộ dữ liệu sau khi lọc bỏ nhũng mẫu trùng và mâu thuẫn ta đƣợc mô hình cây quyết định ID3 và tập luật sinh ra từ bộ dữ liệu.
- Nạp bộ dữ liệu khách hàng mới chƣa phân loại cho vay vốn vào hệ thống. Từ tập luật và mô hình cây quyết định ID3 tập dữ liệu khách hàng mới sẽ đƣợc phân lớp dữ liệu là có đƣợc cho vay vốn hay không Tập dữ liệu vay vốn Nạp dữ liệu vào ng Dữ liệu sau khi lọc Tập luật và mô hình cây QĐ Dữ liệu khách hàngmới Thực hiện ra quyết định với khách hàng mới ID3
3.3.2. Giới thiệu bài toán
Chúng ta đang sống trong thế giới thừa thông tin thiếu tri thức – đó là nhận định của nhiều ngƣời trong thời đại bùng nổ thông tin hiện nay.
Sử dụng phƣơng pháp khai phá tri thức từ dữ liệu để dự đoán rủi ro tín dụng là một phƣơng pháp mới nhằm nâng cao chất lƣợng tín dụng của Ngân hàng.
Rủi ro tín dụng có thể đƣợc hiểu là nguy cơ một ngƣời đi vay không thể trả đƣợc gốc và/hoặc lãi đúng thời hạn quy định.
Hiện nay, để phòng ngừa rủi ro tín dụng, các chuyên gia Ngân hàng thực hiện các phƣơng pháp thu thập, phân tích và đánh giá các thông tin về khách hàng, tài sản bảo đảm của khoản vay… Phƣơng pháp truyền thống này có nhiều hạn chế do phụ thuộc vào trình độ, tâm lý và yếu tố chủ quan khác của các cán bộ thẩm định hồ sơ vay nợ của khách hàng. Chính vì vậy mà một công cụ trợ giúp thẩm định và ƣớc đoán chất lƣợng tín dụng một cách khách quan dựa trên các cơ sở khoa học là hết sức có ý nghĩa và cần thiết. Việc đề xuất cho vay hay không dựa vào các luật quyết định (phân lớp) đƣợc xây dựng thông qua cây quyết định đã đƣợc nghiên cứu. Nhờ các luật quyết định này sẽ hỗ trợ cán bộ tín dụng có quyết định cho khách hàng vay hay không.
Trong phạm vi luận văn này tôi đã tập trung nghiên cứu đối với công tác tín dụng tiêu dùng của khách hàng với tập mẫu dữ liệu bao gồm 621 mẫu dữ liệu khách hàng vay vốn tại ngân hàng Vietinbank chi nhánh Kon Tum. Dựa vào tập mẫu Dulieuvayvon.xlsx sẽ xây dựng mô hình cây quyết định, từ cây quyết định rút ra các luật quyết định. Dựa vào các luật quyết định đó ta sẽ phân lớp đƣợc tập dữ liệu mới (dữ liệu về khách hàng xin vay tiêu dùng, nhƣng chƣa đƣợc phân lớp) và tập dữ liệu sau khi đƣợc phân lớp sẽ hỗ trợ cho các cán bộ tín dụng ra quyết định cho khách hàng vay hay không.
3.3.3. Đặc tả dữ liệu
Luận văn sử dụng tập dữ liệu: Dulieuvayvon.xlsx gồm 621 đối tƣợng với 10 thuộc tính điều kiện và thuộc tính quyết định “result” quyết định một khách hàng là đƣợc vay và không đƣợc vay.
Các thuộc tính và giá trị của các thuộc tính của tập dữ liệu Dulieuvayvon đƣợc mô tả trong bảng sau:
Bảng 3.2: Bảng thuộc tính tập dữ liệu ngân hàng
Thứ tự Thuộc tính Giá trị Ý nghĩa
1 Tuoi Tre, TrungNien,
Gia Trẻ, Trung niên, già
2 Gioitinh Nam, Nu Nam, Nữ
3 Hokhau NongThon, ThiTran,
NgoaiO, ThanhPho
Nông thôn, Thị trấn, Ngoại ô, Thành phố 4 Thunhap Thap,Trungbinh, Cao Thấp, trung bình, cao
5 Kethon Co, Khong Có, không
6 SoCon Khongcon, Motcon,
Haicon, Bacon
Không con, Một con, Hai con, Ba con
7 XeOto Co, Khong Có, không
8 TaikhoaTietkiem Co, Khong Có, không
9 TaikhoanHientai Co, Khong Có, không
10 TaisanThechap Co, Khong Có, không
11 RESULT(Chovay) True, false Có (True), Không (False)
3.3.4. Cài đặt thuật toán
Ứng dụng này đƣợc viết trong môi trƣờng Visual Studio 2010, viết bằng ngôn ngữ lập trình C#. Ứng dụng này tập trung vào xây dựng và đƣa ra các quyết định và các tập luật của thuật toán ID3. Từ các cây quyết định hay các luật quyết định rút ra từ cây quyết định sẽ hỗ trợ cho các cán bộ tín dụng trong ngân hàng quyết định cho khách hàng đƣợc vay hay không.
Cài đặt ứng dụng
Chƣơng trình:
- Đầu vào: Dữ liệu đầu vào dạng file Excel Dulieuvayvon.xlsx là tập các dữ liệu mẫu chứa các thông tin đƣợc sử dụng trong mô tả bài toán.
- Đầu ra: Đầu ra của chƣơng trình là tập các luật dự đoán sắp xếp phân loại khách hàng vay vốn, mô hình cây quyết định ID3 với tập dữ liệu mẫu đầu vào và ứng dụng phân loại khách hàng vay vốn cho cán bộ tín dụng.
Chƣơng trình gồm các mô đun chính nhƣ sau:
- Đọc dữ liệu đầu vào từ file excel(Tập dữ liệu mẫu gồm 621 đối tƣợng Dulieuvayvon.xlsx)
Hình 3.7: Thực hiện nạp dữ liệu vào hệ thống - Kiểm tra dữ liệu
+ Chuẩn hóa dữ liệu(Lọc ra và loại những dữ liệu trùng, những bộ dữ liệu mâu thuẫn)
+ Cập nhật dữ liệu vào hệ thống
Hình 3.9: Cập nhật dữ liệu vào hệ thống
- Tạo luật đƣợc sinh ra từ tập dữ liệu mẫu sau khi đã chuẩn hóa + Khởi tạo dữ liệu để sinh luật với thuật toán ID3(Lấy dữ liệu
sau khi đã chuẩn hóa)
+ Các luật của kết quả tích cực đƣợc sinh ra với thuật toán ID3
Hình 3.11: Kết quả các luật đƣợc sinh ra với thuật toán ID3
- Tạo cây ID3 với bộ dữ liệu Dulieuvayvon.xlsx(Gồm 621 đối tƣợng)
- Ứng dụng ID3 quyết định cho vay vốn
Hình 3.13: Ứng dụng cho vay vốn với ID3
+ Chọn dữ liệu cần quyết định cho vay: Tập dữ liệu đƣa vào gồm 10 trƣờng thông tin của khách hàng sau khi chuẩn hóa nhƣ hình bên dƣới:
Hình 3.14: Chọn dữ liệu khách hàng mới để thực hiện quyết định cho vay + Thực hiện ra quyết định cho vay vốn hay không đối với
Hình 3.15: Kết quả sau khi thực hiện quyết định có cho khách hàng mới vay hay không
Kết quả và đánh giá thuật toán
Mô hình cây quyết định và luật tích cực sinh ra với thuật toán ID3 Với tập dữ liệu nhƣ đã trình bày (Dulieuvayvon.xlsx: 621 mẫu, 10 thuột tính, 1 thuột tính kết luận(Result), sau khi chạy với chƣơng trình demo nó sinh ra cây quyết định và các luật tích cực nhƣ sau:
Hình 3.16: Cây quyết định ứng với thuật toán ID3 Kết quả sau khi ứng dụng
Các luật tích cực quyết định ứng với cây quyết định ID3
Hình 3.17: Một số luật của cây quyết định ID3
Đánh giá thuật toán và ứng dụng của cây quyết định trong việc hỗ trợ cán bộ tín dụng:
Để đánh giá hiệu suất của một cây quyết định ngƣời ta thƣờng sử dụng một tập mẫu tách rời, tập này khác với tập dữ liệu huấn luyện, để đánh giá khả năng phân loại của cây trên các mẫu của tập này. Tập dữ liệu này gọi là tập kiểm tra. Thông thƣờng, tập dữ liệu sẵn có sẽ đƣợc chia thành 2 tập: Tập huấn luyện thƣờng chiếm 2/3 tổng số mẫu và tập kiểm tra chiếm 1/3 tổng số mẫu. Luận văn cũng sử dụng phƣơng thức này để đánh giá thuật toán ID3 theo tập dữ liệu: Dulieuvayvon.xlsx Đánh giá độ chính xác của thuật toán với số lần là 10 trên bộ dữ liệu Dulieuvayvon.xlsx.
3.4.KẾT CHƢƠNG
Trong chƣơng này đã phát biểu bài toán để kiểm chứng các thuật toán xây dựng cây quyết định ở chƣơng 2 trên bộ dữ liệu mẫu Dulieuvayvon.xlsx. Đồng thời cài đặt chƣơng trình hỗ trợ cán bộ tín dụng ra quyết định vay vốn. Dựa vào mô hình cây quyết định (các luật quyết định) đã đƣợc xây dựng, phân lớp các mẫu dữ liệu khách hàng mới.
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN
Khai phá dữ liệu là một lĩnh vực đã, đang và luôn luôn thu hút các nhà nghiên cứu bởi nó là một lĩnh vực cho phép phát hiện tri thức trong cơ sở dữ liệu khổng lồ bằng các phƣơng thức thông minh. Nghiên cứu lĩnh vực này đòi hỏi ngƣời nghiên cứu phải biết tổng hợp các kết quả nghiên cứu ở nhiều lĩnh vực của khoa học máy tính và việc ứng dụng nó trong từng nhiệm vụ của khai phá dữ liệu.
Qua hai năm học tập, tìm tòi, nghiên cứu, đặc biệt là trong khoảng thời gian làm luận văn, tác giả đã hoàn thiện luận văn với các mục tiêu đặt ra ban đầu. Cụ thể luận văn đã đạt đƣợc những kết quả sau:
1. KẾT QUẢ ĐẠT ĐƢỢC
- Trình bày các kiến thức cơ bản về khai phá dữ liệu; hệ thống hóa các kiến thức cơ bản của lý thuyết tập thô đƣợc áp dụng để xây dựng cây quyết định.
- Giới thiệu phƣơng pháp tổng quát xây dựng cây quyết định, và trình bày bốn thuật toán xây dựng cây quyết định CLS, ID3, C4.5, FLIQ[5] và một số mẫu minh họa cho các phƣơng pháp xây dựng cây quyết định cũng đƣợc trình bày.
- Cài đặt bằng Visual Studio thuật toán xây dựng cây quyết định ID3 trên cơ sở dữ liệu mẫu Dulieuvayvon hỗ trợ cán bộ tín dụng ra quyết định vay vốn.
2. HẠN CHẾ CỦA ĐỀ TÀI
- Dữ liệu còn hạn chế, mang tính chất nghiên cứu demo. - Giao diện chƣơng trình chƣa thân thiện.
3. KIẾN NGHỊ VÀ HƢỚNG PHÁT TRIỂN
Qua quá trình học tập, nghiên cứu tác giả không những tích lũy đƣợc thêm các kiến thức mà còn nâng cao đƣợc khả năng lập trình, phát triển ứng dụng. Tác giả nhận thấy luận văn đã giải quyết tốt các nội dung, yêu cầu nghiên cứu đặt ra, có các ví dụ minh họa cụ thể. Song do thời gian có hạn nên luận văn vẫn còn tồn tại một số thiếu sót, một số vấn đề mà tác giả còn phải tiếp tục nghiên cứu, tìm hiểu.
Cần bổ sung thêm dữ liệu cho tập huấn luyện để mô hình cây quyết định có độ tin cậy cao hơn và hoạt động hiệu quả hơn. Tiếp tục phát triển hoàn thiện theo hƣớng trở thành phần mềm khai phá dữ liệu trong tín dụng tiêu dùng nhằm hỗ trợ cho cán bộ tín dụng đƣa ra quyết định cho khách hàng vay hay không.
Tìm hiểu nhu cầu thực tế để từ đó cải tiến chƣơng trình, cài đặt lại bài toán theo các thuật toán đã nghiên cứu để làm việc tốt hơn với các cơ sở dữ liệu lớn và có thể có đƣợc sản phẩm trên thị trƣờng.
Hướng phát triển của đề tài là:
Về lý thuyết:
- Cần tiếp tục nghiên cứu các thuật toán khai phá dữ liệu bằng cây quyết định dựa vào tâp thô nhƣ: thuật toán ADTCCC (dựa vào CORE và đại lƣợng đóng góp phân lớp của thuộc tính), thuật toán ADTNDA (dựa vào độ phụ thuộc mới của thuộc tính), …
- Nghiên cứu các phƣơng pháp xây dựng cây quyết định trên hệ thống thông tin không đầy đủ, dữ liệu liên tục và không chắc chắn.
Về chương trình demo:
- Cần bổ sung thêm dữ liệu cho tập training để mô hình cây quyết định có độ tin cậy cao hơn và hoạt động hiệu quả hơn.
- Cần tiếp tục phát triển hoàn thiện theo hƣớng trở thành phần mềm khai phá dữ liệu trong tín dụng tiêu dùng nhằm hỗ trợ cho cán bộ tín dụng đƣa ra quyết định cho khách hàng vay hay không.
- Tìm hiểu nhu cầu thực tế để từ đó cải tiến chƣơng trình, cài đặt lại bài toán theo các thuật toán đã nghiên cứu để làm việc tốt hơn với các cơ sở dữ liệu lớn và có thể có đƣợc sản phẩm trên thị trƣờng..
DANH MỤC TÀI LIỆU THAM KHẢO
[1] G.piatctsky - Shapiro and W.J.Frawlcy, Knowledge Discovery in Databases.: AAAI/MIT Press, 1991.
[2] Ho Tu Bao, Introdution to Knowledge Discover and Data Mining.: Institute of Information Technology, 2008.
[3] Jaiwei and Micheline Kamber, Data Mining: Concepts and Techniques, ISBN 1-55860-489-8, Ed., 2001.
[4] Amos Storkey, Slide Learning from Data: Decision trees.: School of informatics university of Edinburgh, 2004.
[5] C.R.Rao, Vivekchan Reddy Ramadevi Yellasiri, Decision Tree Induction Using Rough Set Theory - Comparative Study.: Journal of Theoretical and Applied Information Technology, pp. 110-114, 2007.
[6] Wikipedia, Bách khoa toàn thư mở - Cây quyết định: https://vi.wikipedia.org/wiki/Cây_quyết_định.
[7] NingZhong Andrzej Skowron, Rough Sets in KDD.: Tutorial Notes, 2000. [8] Minghe Huang, Bin Guo, Zhimming Zhang Longjun Huang, A New
Method fos Constructing Decision Tree Based on Rough Set., 2007.
[9] Thomas, Data mining: Definittions and decision tree examples.: State university of New York, 2004.
PHỤ LỤC
VÍ DỤ MINH HỌA 1. Phát biểu bài toán
David là quản lý của một câu lạc bộ đánh golf nổi tiếng. Anh ta đang có rắc rối chuyện các thành viên đến hay không đến. Có ngày ai cũng muốn chơi golf nhƣng số nhân viên câu lạc bộ lại không đủ phục vụ. Có hôm, không hiểu vì lý do gì mà chẳng ai đến chơi, và câu lạc bộ lại thừa nhân viên.
Mục tiêu của David là tối ƣu hóa số nhân viên phục vụ mỗi ngày bằng cách dựa theo thông tin dự báo thời tiết để đoán xem khi nào ngƣời ta sẽ đến chơi golf. Để thực hiện điều đó, anh cần hiểu đƣợc tại sao khách hàng quyết định chơi và tìm hiểu xem có cách giải thích nào cho việc đó hay không.
Vậy là trong hai tuần, anh ta thu thập thông tin về: Trời (outlook) (nắng (sunny), nhiều mây (overcast) hoặc mƣa (raining). Nhiệt độ (temperature) bằng độ F. Độ ẩm (humidity). Có gió mạnh (windy) hay không. Và là số ngƣời đến chơi golf vào hôm đó. David thu đƣợc một bộ dữ liệu gồm 14 dòng và 5 cột.
Ngày Quang cảnh Nhiệt độ Độ ẩm Gió Chơi Tennis
D1 Nắng Nóng Cao Nhẹ Không D2 Nắng Nóng Cao Mạnh Không D3 Âm u Nóng Cao Nhẹ Có D4 Mƣa Ấm áp Cao Nhẹ Có D5 Mƣa Mát TB Nhẹ Có D6 Mƣa Mát TB Mạnh Không D7 Âm u Mát TB Mạnh Có D8 Nắng Ấm áp Cao Nhẹ Không D9 Nắng Mát TB Nhẹ Có D10 Mƣa Ấm áp TB Nhẹ Có D11 Nắng Ấm áp TB Mạnh Có D12 Âm u Ấm áp Cao Mạnh Có D13 Âm u Nóng TB Nhẹ Có
D14 Mƣa Ấm áp Cao Mạnh Không
Sau đó, để giải quyết bài toán của David, ngƣời ta đã đƣa ra một mô hình cây quyết định.
Hình 2.2: Mô hình cây quyết định chơi golf
Cây quyết định là một mô hình dữ liệu mã hóa phân bố của nhãn lớp (cũng là y) theo các thuộc tính dùng để dự đoán. Đây là một đồ thị có hƣớng phi chu trình dƣới dạng một cây. Nút gốc (nút nằm trên đỉnh) đại diện cho toàn bộ dữ liệu. Thuật toán cây phân loại phát hiện ra rằng cách tốt nhất để giải thích biến phụ thuộc, play (chơi), là sử dụng biến Outlook. Phân loại theo các giá trị của biến Outlook, ta có ba nhóm khác nhau: Nhóm ngƣời chơi golf khi trời nắng, nhóm chơi khi trời nhiều mây, và nhóm chơi khi trời mƣa.
2. Minh họa xây dựng cây quyết định có: S = [9+, 5-]
Entropy(S) = entropy(9+,5-)
= – p+log2p+ – p-log2p- = – (9/14)log2(9/14) – (5/14)log2(5/14) = 0.940
+ Values(Outlook) = Sunny, Overcast, Rain SSunny = [2+, 3-]
SOvercast = [4+, 0-] SRain = [3+, 2-]
{ , , } | | ( , ) ( ) ( ) | | v v v Sunny Overcast Rain
S
Gain S Outlook Entropy S Entropy S S
= Entropy(S) – (5/14)Entropy(SSunny) – (4/14)Entropy(SOvercast) – (5/14)Entropy(SRain)
Trong đó:
Entropy(S) = 0.940
Entropy(SSunny) = – (2/5)log2(2/5) – (3/5)log2(3/5) = 0.5288 + 0.4422 = 0.971
Entropy(SOvercast) = – (4/4)log2(4/4) – (0/4)log2(0/4) = 0 + 0 = 0 Entropy(SRain) = – (3/5)log2(3/5) – (2/5)log2(2/5)
= 0.4422 + 0.5288 = 0.971 Suy ra:
Gain(S, Outlook) = 0.940 – (5/14)* 0.971 – (4/14)* 0 – (5/14)* 0.971 = 0.246
+ Values(Temperature) = Hot, Mild, Cool SHot = [2+, 2-]
SMild = [4+, 2-] SCool = [3+, 1-]
{Hot, Mild, Cool}
| | ( , ) ( ) ( ) | | v v v S
Gain S Temperature Entropy S Entropy S S
= Entropy(S) – (4/14)Entropy(SHot) – (6/14)Entropy(SMild) – (4/14)Entropy(SCool)
Trong đó:
Entropy(S) = 0.940
Entropy(SHot) = – (2/4)log2(2/4) – (2/4)log2(2/4) = 0.5 + 0.5 = 1
Entropy(SMild) = – (4/6)log2(4/6) – (2/6)log2(2/6) = 0.3896 + 0.5282 = 0.9178
Entropy(SCool) = – (3/4)log2(3/4) – (1/4)log2(1/4) = 0.3112781 + 0.5 = 0.81128
Gain(S, Temperature) = 0.940 – (4/14)*1 – (6/14)*0.9178 – (4/14)*0.81128 = 0.029
+ Values(Humidity) = High, Normal SHigh = [3+, 4-]