Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng Vietinbank chi nhánh Kon Tum

26 201 0
Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng Vietinbank chi nhánh Kon Tum

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG PHẠM ĐÌNH BƠN NGHIÊN CỨU CÂY QUYẾT ĐỊNH VÀ ỨNG DỤNG ĐỂ PHÂN LOẠI KHÁCH HÀNG VAY VỐN TẠI NGÂN HÀNG VIETINBANK CHI NHÁNH KON TUM Chuyên ngành: Hệ Thống Thơng Tin Mã số: 60.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Đà Nẵng - Năm 2017 Luận văn đƣợc hoàn thành Đại học Đà Nẵng Ngƣời hƣớng dẫn khoa học: TS PHẠM ANH PHƢƠNG Phản biện 1: TS Nguyễn Trần Quốc Vinh Phản biện 2: TS Nguyễn Quang Thanh Luận văn đƣợc bảo vệ hội đồng chấm luận văn thạc sĩ Hệ thống thông tin họp Đại học Đà Nẵng vào ngày 07 tháng 01 năm 2017 Có thể tìm hiểu luận văn tại: Thƣ viện trƣờng Đại học Sƣ phạm Đại học Đà Nẵng Trung tâm Thông tin học liệu Đại học Đà Nẵng MỞ ĐẦU Tính cấp thiết đề tài Trong gần hai thập kỷ qua, hệ thống sở liệu đem lại lợi ích vơ to lớn cho nhân loại Cùng với phát triển Công nghệ Thông tin ứng dụng đời sống - kinh tế - xã hội, lƣợng liệu thu thập đƣợc ngày nhiều theo thời gian, làm xuất ngày nhiều hệ thống sở liệu có kích thƣớc lớn Ngƣời ta lƣu trữ liệu cho ẩn chứa giá trị định Tuy nhiên theo thống kê thi có lƣợng nhỏ liệu (khoảng dƣới10%) ln đƣợc phân tích, số lại họ khơng biết phải làm làm với liệu này, nhƣng họ tiếp tục thu thập lƣu trữ hy vọng liệu cung cấp cho họ thơng tin q giá cách nhanh chóng để đƣa định kịp thời vào lúc Chính vậy, phƣơng pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng đƣợc thực tế làm phát triển khuynh hƣớng kỹ thuật Kỹ thuật phát tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining) Kỹ thuật phát tri thức khai phá liệu đƣợc nghiên cứu, ứng dụng nhiều lĩnh vực khác giới, Việt Nam kỹ thuật tƣơng đối mẻ nhiên đƣợc nghiên cứu bắt đầu đƣa vào số ứng dụng thực tế Vì vậy, nƣớc ta vấn đề phát tri thức khai phá liệu thu hút đƣợc quan tâm nhiều ngƣời nhiều công ty phát triển ứng dụng Công nghệ Thông tin Đƣợc đánh giá tạo cách mạng kỷ 21, khai phá liệu ngày đƣợc ứng dụng phổ biến lĩnh vực kinh tế, xã hội: ngân hàng, truyền thông, quảng cáo… Có nhiều phƣơng pháp phân lớp đƣợc đề xuất, nhiên khơng có phƣơng pháp tiếp cận phân loại tối ƣu xác hẳn phƣơng pháp khác Dù với phƣơng pháp có lợi bất lợi riêng sử dụng Một công cụ khai phá tri thức hiệu sử dụng định để tìm luật phân lớp Với mong muốn nghiên cứu việc ứng dụng định để phân loại khách hàng Ngân hàng thƣơng mại, chọn đề tài “Nghiên cứu định ứng dụng để phân loại khách hàng vay vốn ngân hàng Vietinbank chi nhánh Kon Tum” Mục tiêu nghiên cứu - Nghiên cứu thuật toán xây dựng định ID3 - Áp dụng mơ hình định (ID3: Decision Tree) vào việc phân loại khách hàng vay vốn ngân hàng Vietinbank chi nhánh Kon Tum Đối tƣợng phạm vi nghiên cứu  Đối tượng nghiên cứu - Bài toán phân lớp liệu khai phá liệu; - Cây định;  Phạm vi nghiên cứu - Nghiên cứu thuật toán ID3; - Phân lớp liệu khách hàng, cụ thể: khách hàng vay vốn ngân hàng Vietinbank chi nhánh Kon Tum Phƣơng pháp nghiên cứu - Đọc hiểu tài liệu - Cài đặt ứng dụng chạy hệ điều hành Window Cấu trúc luận văn Báo cáo luận văn gồm phần nhƣ sau: MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU CHƢƠNG CÂY QUYẾT ĐỊNH TRONG KHAI PHÁ DỮ LIỆU CHƢƠNG ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG PHÂN LOẠI KHÁCH HÀNG VAY VỐN TẠI NGÂN HÀNG VIETINBANK CHI NHÁNH KON TUM KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU Chƣơng trình bày sơ lƣợc khai phá liệu, ứng dụng khai phá liệu, phƣơng pháp khai phá liệu thông dụng ứng dụng khai phá liệu lĩnh vực tài ngân hàng 1.1 GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Khám phá tri thức Quá trình khám phá liệu gồm bƣớc sau [1][2][9]: Bƣớc 1: Xác định vấn đề lựa chọn nguồn liệu (Problem Understanding anh Data Understanding) Bƣớc 2: Chuẩn bị liệu (Data preparation) Bƣớc 3: Khai phá liệu (Data Mining) Bƣớc 4: Đánh giá mẫu (Partern Evalution) Bƣớc 5: Biểu diễn tri thức triển khai (Knowlegde presentation and Deployment) Tóm lại: KDD q trình kết xuất tri thức từ kho liệu mà khai phá liệu công đoạn quan trọng [2], [3],[8] Hình 1.1: Quá trình phát tri thức CSDL 1.1.2 Khai phá liệu Khai phá liệu đƣợc dùng để mơ tả q trình phát tri thức CSDL Quá trình khai phá liệu bao gồm giai đoạn [1][3]: Giai đoạn 1: Gom liệu Giai đoạn 2: Trích lọc liệu Giai đoạn 3: Làm sạch, tiền xử lý chuẩn bị trước Giai đoạn 4: Chuyển đổi liệu Giai đoạn 5: Phát trích mẫu Giai đoạn 6: Đánh giá kết mẫu Quá khai phá liệu đƣợc mơ hình hóa cách tổng quát nhƣ hình vẽ dƣới [2][7]: Hình 1.2: Kiến trúc điển hình hệ thống khai phá liệu 1.2 ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU Data Mining hƣớng tiếp cận nhƣng thu hút đƣợc nhiều quan tâm nhà nghiên cứu phát triển nhờ vào ứng dụng thực tiễn Sau số lĩnh vực mà Data mining đƣợc ứng dụng rộng rãi:  Phân tích liệu tài (Financial Data Analysis)  Công nghiệp bán lẻ (Retail Industry)  Công nghiệp viễn thơng (Telecommunication Industry)  Phân tích liệu sinh học (Biological Data Analysis)  Phát xâm nhập (Intrusion Detection)  Một số ứng dụng khoa học (Scientific Applications) 1.3 CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU THÔNG DỤNG 1.3.1 Phân lớp (Classification) Ngày phân lớp liệu (classification) hƣớng nghiên cứu khai phá liệu Thực tế đặt nhu cầu từ sở liệu với nhiều thơng tin ẩn ngƣời trích rút định nghiệp vụ thông minh Phân lớp dự đốn hai dạng phân tích liệu nhằm trích rút mơ hình mơ tả lớp liệu quan trọng hay dự đoán xu hƣớng liệu tƣơng lai Phân lớp dự đoán giá trị nhãn xác định (categorical label) hay giá trị rời rạc (discrete value), có nghĩa phân lớp thao tác với đối tƣợng liệu mà có giá trị biết trƣớc Trong đó, dự đốn lại xây dựng mơ hình với hàm nhận giá trị liên tục Quá trình phân lớp liệu gồm hai bƣớc [4][5]: Bƣớc thứ (Learning) Quá trình học nhằm xây dựng mơ hình mơ tả tập lớp liệu hay khái niệm định trƣớc Đầu vào trình tập liệu có cấu trúc đƣợc mơ tả thuộc tính đƣợc tạo từ tập giá trị thuộc tính Mỗi giá trị đƣợc gọi chung phần tử liệu (data tuple), mẫu (sample), ví dụ (example), đối tƣợng (object), ghi (record) hay trƣờng hợp (case) Luận văn sử dụng thuật ngữ với nghĩa tƣơng đƣơng Trong tập liệu này, phần tử liệu đƣợc giả sử thuộc lớp định trƣớc, lớp giá trị thuộc tính đƣợc chọn làm thuộc tính gán nhãn lớp hay thuộc tính phân lớp (class label attribute) Đầu bƣớc thƣờng quy tắc phân lớp dƣới dạng luật dạng if-then, định, cơng thức logic, hay mạng nơron Q trình đƣợc mơ tả nhƣ hình 1.3 Hình 1.3 : Q trình phân lớp liệu - (a) Bƣớc xây dựng mơ hình phân lớp Bƣớc thứ hai (Classification) Bƣớc thứ hai dùng mơ hình xây dựng bƣớc trƣớc để phân lớp liệu Trƣớc tiên độ xác mang tính chất dự đốn mơ hình phân lớp vừa tạo đƣợc ƣớc lƣợng Holdout kỹ thuật đơn giản để ƣớc lƣợng độ xác Kỹ thuật sử dụng tập liệu kiểm tra với mẫu đƣợc gán nhãn lớp Các mẫu đƣợc chọn ngẫu nhiên độc lập với mẫu tập liệu đào tạo Độ xác mơ hình tập liệu kiểm tra đƣa tỉ lệ phần trăm các mẫu tập liệu kiểm tra đƣợc mơ hình phân lớp (so với thực tế) Hình 1.4: Quá trình phân lớp liệu - (b1)Ƣớc lƣợng độ xác mơ hình Hình 1.5: Q trình phân lớp liệu - (b2) Phân lớp liệu Có thể liệt kê kỹ thuật phân lớp đƣợc sử dụng năm qua:  Phân lớp định (Decision tree classification)  Bộ phân lớp Bayesian (Bayesian classifier)  Mơ hình phân lớp K-hàng xóm gần (K-nearest neighbor classifier)  Mạng nơron  Phân tích thống kê  Các thuật tốn di truyền  Phƣơng pháp tập thô (Rough set Approach) 1.3.2 Phân cụm (Clustering) Phân cụm kỹ thuật quan trọng khai phá liệu, thuộc lớp phƣơng pháp Unsupervised Learning Machine Learning Có nhiều định nghĩa khác kỹ thuật này, nhƣng chất ta hiểu phân cụm qui trình tìm cách nhóm đối tƣợng cho vào cụm (clusters), cho đối tƣợng cụm tƣơng tự (similar) đối tƣợng khác cụm khơng tƣơng tự (Dissimilar) Mục đích phân cụm tìm chất bên nhóm liệu 1.3.3 Luật kết hợp (Association Rules) Khai phá luật kết hợp đƣợc thực qua bƣớc:  Bƣớc : Tìm tất tập mục phổ biến, văn phổ biến đƣợc xác định qua độ hỗ trợ thỏa mãn độ hỗ trợ cực tiểu  Bƣớc 2: Sinh luật kết hợp mạnh từ tập mục phổ biến, luật phải thỏa mãn độ hỗ trợ cực tiểu độ tin cậy cực tiểu 1.4 ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG LĨNH VỰC NGÂN HÀNG Ngành cơng nghiệp ngân hàng tồn giới trải qua thay đổi to lớn cách thức kinh doanh Với việc thực nhiệm vụ kinh doanh đặc thù thời gian gần đây, ngân hàng có thay đổi lớn chấp nhận áp dụng công nghệ thông vào việc kinh doanh Nhƣ kết hiển nhiên, việc thực giao dịch trở nên dễ dàng đồng thời khối lƣợng liệu từ giao dịch tăng lên đáng kể Nó vƣợt khả ngƣời để phân tích số lƣợng liệu thô khổng lồ chuyển đổi thành tri thức hữu ích cho tổ chức 1.4.1 Marketing 10 vật/hiện tƣợng tới kết luận giá trị mục tiêu vật/hiện tƣợng Mỗi nút (internal node) tƣơng ứng với biến; đƣờng nối với nút thể giá trị cụ thể cho biến Mỗi nút đại diện cho giá trị dự đoán biến mục tiêu, cho trƣớc giá trị biến đƣợc biểu diễn đƣờng từ nút gốc tới nút Kỹ thuật học máy dùng định đƣợc gọi học định, hay gọi với tên ngắn gọn định[6] 2.1.2 Các kiểu định Cây định có hai tên khác:  Cây hồi quy (Regression tree): ƣớc lƣợng hàm giá có giá trị số thực thay đƣợc sử dụng cho nhiệm vụ phân loại (ví dụ: ƣớc tính giá nhà khoảng thời gian bệnh nhân nằm viện)  Cây phân loại (Classification tree): y biến phân loại nhƣ: giới tính (nam hay nữ), kết trận đấu (thắng hay thua) 2.1.3 Ƣu điểm định So với phƣơng pháp khai phá liệu khác, định phƣơng pháp có số ƣu điểm:  Cây định dễ hiểu Ngƣời ta hiểu mơ hình định sau đƣợc giải thích ngắn  Việc chuẩn bị liệu cho định không cần thiết Các kỹ thuật khác thƣờng đòi hỏi chuẩn hóa liệu, cần tạo biến phụ (dummy variable) loại bỏ giá trị rỗng  Cây định xử lý liệu có giá trị số liệu có giá trị tên thể loại Các kỹ thuật khác thƣờng chuyên để phân tích liệu gồm loại biến Chẳng hạn, luật quan hệ dùng cho biến tên, mạng nơ-ron 11 dùng cho biến có giá trị số  Cây định mơ hình hộp trắng Nếu quan sát tình cho trƣớc mơ hình, dễ dàng giải thích điều kiện logic Boolean Mạng nơ-ron ví dụ mơ hình hộp đen, lời giải thích cho kết phức tạp để hiểu đƣợc  Có thể thẩm định mơ hình kiểm tra thống kê Điều làm cho ta tin tƣởng vào mơ hình  Cây định xử lý tốt lƣợng liệu lớn thời gian ngắn Có thể dùng máy tính cá nhân để phân tích lƣợng liệu lớn thời gian đủ ngắn phép nhà chiến lƣợc đƣa định dựa phân tích định 2.2 CÁC THUẬT TỐN 2.2.1 Thuật toán CLS Thuật toán đƣợc Holland Hint giới thiệu Concept learning System (CLS) vào năm 50 kỷ 20[4] Thuật toán CLS đƣợc thiết kế theo chiến lƣợc chia để trị từ xuống Nó gồm bƣớc sau: Tạo nút T, nút gồm tất mẫu tập huấn luyện Nếu tất mẫu T có thuộc tính định mang giá trị "yes" (hay thuộc lớp), gán nhãn cho nút T "yes" dừng lại T lúc nút Nếu tất mẫu T có thuộc tính định mang giá trị "no" (hay thuộc lớp), gán nhãn cho nút T "no" dừng lại T lúc nút Trƣờng hợp ngƣợc lại mẫu tập huấn luyện thuộc hai lớp "yes" "no" thì:  Chọn thuộc tính X tập thuộc tính tập mẫu 12 liệu , X có giá trị vi,v2,  Chia tập mẫu T thành tập T1, T2, ,Tn chia theo giá trị X  Tạo n nút T; (i=1,2.n) với nút cha nút T  Tạo nhánh nối từ nút T đến nút T; (i=1,2.n) thuộc tính X Thực lặp cho nút T:(i =1,2 n) quay lại bƣớc 2.2.1 Thuật toán ID3 Thuật toán ID3 đƣợc phát biểu Quinlan (trƣờng đại học Syney, Australia) đƣợc công bố vào cuối thập niên 70 kỷ 20[4] Sau đó, thuật tốn ID3 đƣợc giới thiệu trình bày mục Induction on decision trees, machine learning năm 1986 ID3 đƣợc xem nhƣ cải tiến CLS với khả lựa chọn thuộc tính tốt để tiếp tục triển khai bƣớc ID3 xây dựng định từ trên- xuống (top -down) 2.2.2 Thuật toán C4.5 Thuật toán C4.5 Quinlan phát triển vào năm 1996 [1] [2] [3] [4] Thuật toán C4.5 thuật toán đƣợc cải tiến từ thuật toán ID3 với việc cho phép xử lý tập liệu có thuộc tính số (numeric atributes) và làm việc đƣợc với tập liệu bị thiếu bị nhiễu Nó thực phân lớp tập mẫu liệu theo chiến lƣợc ƣu tiên theo chiều sâu (Depth - First) Một số cài tiến thuật toán C4.5: Làm việc với thuộc tính đa trị Làm việc với liệu bị thiếu 2.2.3 Thuật toán SLIQ[5] Thuật toán SLIQ (Supervised Learning In Quest) đƣợc gọi thuật toán phân lớp leo thang nhanh Thuật toán áp dụng cho hai kiểu thuộc liên tục thuộc tính rời rạc[4][5] 13 Thuật tốn có sử dụng kỹ thuật tiền xử lý phân loại(Pre sorting) trƣớc xây dựng cây, giải đƣợc vấn đề nhớ cho thuật toán ID3 Thuật tốn SLIQ có sử dụng giải thuật cắt tỉa hữu hiệu Thuật tốn SLIQ phân lớp hiệu tập liệu lớn không phụ thuộc vào số lƣợng lớp, số lƣợng thuộc tính số lƣợng mẫu tập liệu 2.3 VÍ DỤ MINH HỌA 2.3.1 Phát biểu tốn David quản lý câu lạc đánh golf tiếng Anh ta có rắc rối chuyện thành viên đến hay khơng đến Có ngày muốn chơi golf nhƣng số nhân viên câu lạc lại khơng đủ phục vụ Có hơm, khơng hiểu lý mà chẳng đến chơi, câu lạc lại thừa nhân viên Mục tiêu David tối ƣu hóa số nhân viên phục vụ ngày cách dựa theo thông tin dự báo thời tiết để đoán xem ngƣời ta đến chơi golf Để thực điều đó, anh cần hiểu đƣợc khách hàng định chơi tìm hiểu xem có cách giải thích cho việc hay khơng Vậy hai tuần, thu thập thông tin về: Trời (outlook) (nắng (sunny), nhiều mây (overcast) mƣa (raining) Nhiệt độ (temperature) độ F Độ ẩm (humidity) Có gió mạnh (windy) hay khơng Và số ngƣời đến chơi golf vào hơm David thu đƣợc liệu gồm 14 dòng cột 14 Bảng 2.1: Dữ liệu chơi golf Ngày D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14 Quang cảnh Nắng Nắng Âm u Mƣa Mƣa Mƣa Âm u Nắng Nắng Mƣa Nắng Âm u Âm u Mƣa Nhiệt độ Nóng Nóng Nóng Ấm áp Mát Mát Mát Ấm áp Mát Ấm áp Ấm áp Ấm áp Nóng Ấm áp Độ ẩm Cao Cao Cao Cao TB TB TB Cao TB TB TB Cao TB Cao Gió Nhẹ Mạnh Nhẹ Nhẹ Nhẹ Mạnh Mạnh Nhẹ Nhẹ Nhẹ Mạnh Mạnh Nhẹ Mạnh Chơi Tennis Khơng Khơng Có Có Có Khơng Có Khơng Có Có Có Có Có Khơng Sau đó, để giải toán David, ngƣời ta đƣa mơ hình định Hình 2.2: Mơ hình định chơi golf Cây định mô hình liệu mã hóa phân bố nhãn lớp theo thuộc tính dùng để dự đốn Đây đồ thị có hƣớng phi chu trình dƣới dạng Nút gốc (nút nằm đỉnh) đại diện cho tồn liệu Thuật tốn phân loại phát cách tốt để giải thích biến phụ thuộc, play (chơi), sử dụng biến Outlook Phân loại theo giá trị biến Outlook, ta có ba nhóm khác nhau: Nhóm ngƣời chơi golf 15 trời nắng, nhóm chơi trời nhiều mây, nhóm chơi trời mƣa 2.3.2 Minh họa xây dựng định Cây định cần tìm cách minh họa Hình 2.7: Cây định cần tìm 2.1 KẾT CHƯƠNG Chƣơng trình bày tổng quan khai phá liệu hình thức phân lớp với định, bao gồm khái niệm phân lớp ƣu điểm định Nghiên cứu thuật toán khai phá liệu, nghiên cứu sâu thuật tốn ID3 làm tiền đề cho việc nghiên cứu thực nghiệm, đồng thời đƣa khó khăn q trình sử dụng thuật tốn ID3 Các khó khăn cần phải đƣợc giải khai phá liệu Trong chƣơng sau, luận văn trình bày ứng dụng cụ thể mà ngân hàng áp dụng để phân loại khách hàng mình, vào kết ngân hàng có thêm hỗ trợ để định có cho khách hàng vay vốn hay khơng 16 CHƯƠNG ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG PHÂN LOẠI KHÁCH HÀNG VAY VỐN TẠI NGÂN HÀNG VIETINBANK CHI NHÁNH KON TUM 3.1 GIỚI THIỆU QUY TRÌNH TÍN DỤNG TẠI NGÂN HÀNG VIETINBANK CHI NHÁNH KON TUM 3.1.1 Tổng quan quy trình tín dụng: a Khái niệm: Quy trình tín dụng bảng tổng hợp mơ tả công việc ngân hàng từ tiếp nhận hồ sơ vay vốn khách hàng định cho vay, giải ngân, thu nợ lý hợp đồng tín dụng b Vai trò: Việc xác lập quy trình tín dụng khơng ngừng hồn thiện đặc biệt quan trọng ngân hàng thƣơng mại:  Về mặt hiệu quả, quy trình tín dụng hợp lý giúp cho ngân hàng nâng cao chất lƣợng tín dụng giảm thiểu rủi ro tín đụng  Về mặt quản lý, quy trình tín dụng có tác dụng: + Làm sở cho việc phân định quyền, trách nhiệm cho phận hoạt động tín dụng + Làm sở để thiết lập hồ sơ, thủ tục vay vốn mặt hành + Chỉ rõ mối quan hệ phận liên quan hoạt động tín dụng c Nội dung quy trình tín dụng: 3.1.2 Quy trình tín dụng ngân hàng cơng thƣơng Việt Nam – Vietinbank Bƣớc 1: Phỏng vấn hƣớng dẫn khách hàng lập hồ sơ đề nghị vay vốn  Phỏng vấn trao đổi với khách hàng:  Hƣớng dẫn khách hàng lập, tiếp nhận đối chiếu hồ sơ đề nghị vay vốn Sau trao đổi thông tin với khách hàng, khách hàng chấp thuận, CBTD hƣớng dẫn khách hàng lập gửi hồ sơ vay vốn Lƣu ý: Hồ sơ phải khách hàng vay vốn lập, cán tín dụng khơn2 đƣợc lập thay 17 Bƣớc Thẩm định mức độ đáp ứng điều kiện vay vốn Bƣớc Xác định số tiền, phƣơng thức, lãi suất, thời hạn cho vay; định kỳ hạn nợ xem xét điều kiện toán Bƣớc Lập tờ trình thẩm định cho vay, soạn thảo hợp đồng tín dụng, hợp đồng bảo đảm tiền vay trình phê duyệt cho vay Bƣớc Cơng chứng chứng thực ; đăng ký gia dịch bảo đảm; giao nhận giấy tờ tài sản bảo đảm tài sản bảo đảm Bƣớc Giải ngân, thu nợ gốc, lãi kiểm tra, giám sát vay Bƣớc Cơ cấu lại thời hạn trả nợ Bƣớc Giải chấp tài sản bảo đảm, lý hợp đồng tín dụng, hợp đồng tài sản bảo đảm 3.2 THUẬT TỐN ID3 3.2.1 Giới thiệu thuật tốn ID3 Giải thuật quy nạp ID3 (gọi tắt ID3) giải thuật học đơn giản nhƣng tỏ thành công nhiều lĩnh vực ID3 giải thuật hay cách biểu diễn tri thức học đƣợc nó, tiếp cận việc quản lý tính phức tạp, heuristic dùng cho việc chọn lựa khái niệm ứng viên, tiềm việc xử lý liệu nhiễu ID3 biểu diễn khái niệm (concept) dạng định (decision tree) Biểu diễn cho phép xác định phân loại đối tƣợng cách kiểm tra giá trị số thuộc tính Nhƣ vậy, nhiệm vụ giải thuật ID3 học định từ tập mẫu rèn luyện (training example) hay gọi liệu rèn luyện (training data) Hay nói khác hơn, giải thuật có: Đầu vào: Một tập hợp mẫu Mỗi mẫu bao gồm thuộc tính mơ tả tình huống, hay đối tƣợng đó, giá trị phân loại Đầu ra: Cây định có khả phân loại đắn mẫu tập liệu rèn luyện, hy vọng phân loại cho mẫu chƣa gặp tƣơng lai 3.2.2 Giải thuật ID3 xây dựng định từ xuống ID3 xây dựng định (cây QĐ) theo cách từ xuống Lƣu ý thuộc tính nào, có 18 thể phân vùng tập hợp mẫu rèn luyện thành tập tách rời, mà mẫu phân vùng (partition) có giá trị chung cho thuộc tính ID3 chọn thuộc tính để kiểm tra nút dùng cách kiểm tra để phân vùng tập hợp mẫu; thuật tốn xây dựng theo cách đệ quy cho phân vùng Việc tiếp tục thành viên phân vùng nằm lớp; lớp trở thành nút 3.2.3 Thuộc tính dùng để phân loại định Quinlan (1983) ngƣời đề xuất việc sử dụng lý thuyết thông tin để tạo định cơng trình ơng sở cho phần trình bày Lý thuyết thơng tin Shannon (1948) cung cấp khái niệm entropy để đo tính (hay ngƣợc lại độ pha trộn) tập hợp Entropy đo tính tập huấn luyện Lƣợng thông tin thu đƣợc đo mức độ giảm entropy mong đợi Tìm kiếm khơng gian giả thuyết ID3 Đánh giá hiệu suất định Chuyển luật Ứng dụng giải thuật ID3 3.3 ỨNG DỤNG ID3 ĐỂ PHÂN LỚP ĐỐI TƯỢNG KHÁCH HÀNG VAY VỐN 3.3.1 Quy trình thực nghiệm Mơ hình thực nghiệm chƣơng trình hệ thống định cho vay vốn ngân hàng Hình 3.6: Quy trình thực nghiệm quy trình định cho vay vốn 19 - Quy trình thực nghiệm với 621 mẫu liệu đƣợc nạp vào hệ thống dƣới dạng file excel Dulieuvayvon.xlsx - Sau liệu đƣợc nạp vào hệ thống ta thực lọc liệu trùng mẫu liệu mâu thuẫn với ta đƣợc liệu sau lọc - Sau dùng thuật tốn ID3 thực liệu sau lọc bỏ nhũng mẫu trùng mâu thuẫn ta đƣợc mơ hình định ID3 tập luật sinh từ liệu - Nạp liệu khách hàng chƣa phân loại cho vay vốn vào hệ thống Từ tập luật mơ hình định ID3 tập liệu khách hàng đƣợc phân lớp liệu có đƣợc cho vay vốn hay khơng 3.3.1 Giới thiệu toán Chúng ta sống giới thừa thơng tin thiếu tri thức – nhận định nhiều ngƣời thời đại bùng nổ thông tin Sử dụng phƣơng pháp khai phá tri thức từ liệu để dự đoán rủi ro tín dụng phƣơng pháp nhằm nâng cao chất lƣợng tín dụng Ngân hàng Rủi ro tín dụng đƣợc hiểu nguy ngƣời vay trả đƣợc gốc và/hoặc lãi thời hạn quy định Trong phạm vi luận văn tập trung nghiên cứu công tác tín dụng tiêu dùng khách hàng với tập mẫu liệu bao gồm 621 mẫu liệu khách hàng vay vốn ngân hàng Vietinbank chi nhánh Kon Tum Dựa vào tập mẫu Dulieuvayvon.xlsx xây dựng mô hình định, từ định rút luật định Dựa vào luật định ta phân lớp đƣợc tập liệu (dữ liệu khách hàng xin vay tiêu dùng, nhƣng chƣa đƣợc phân lớp) tập liệu sau đƣợc phân lớp hỗ trợ cho cán tín dụng định cho khách hàng vay hay không 3.3.1 Đặc tả liệu Luận văn sử dụng tập liệu: Dulieuvayvon xlsx gồm 621 đối tƣợng với 10 thuộc tính điều kiện thuộc tính định “result” định khách hàng đƣợc vay khơng đƣợc vay Các thuộc tính giá trị thuộc tính tập liệu Dulieuvayvon đƣợc mơ tả bảng sau: 20 Thứ tự Thuộc tính Giá trị Ý nghĩa Tuoi Tre, TrungNien, Gia Trẻ, Trung niên, già Gioitinh Nam, Nu Nam, Nữ Hokhau NongThon, ThiTran, NgoaiO, ThanhPho Nông thôn, Thị trấn, Ngoại ô, Thành phố Thunhap Thap,Trungbinh, Cao Thấp, trung bình, cao Kethon Co, Khong Có, khơng SoCon Khongcon, Motcon, Haicon, Bacon Không con, Một con, Hai con, Ba XeOto Co, Khong Có, khơng TaikhoaTietkiem Co, Khong Có, khơng TaikhoanHientai Co, Khong Có, khơng 10 TaisanThechap Co, Khong Có, khơng 11 RESULT(Chovay) True, false Có (True), Khơng (False) Bảng 3.7: Bảng thuộc tính tập liệu ngân hàng 3.3.2 Cài đặt thuật toán Ứng dụng đƣợc viết môi trƣờng Visual Studio 2010, viết ngơn ngữ lập trình C# Ứng dụng tập trung vào xây dựng đƣa định tập luật thuật toán ID3 Từ định hay luật định rút từ định hỗ trợ cho cán tín dụng ngân hàng định cho khách hàng đƣợc vay hay không  Cài đặt ứng dụng Chƣơng trình: - Đầu vào: Dữ liệu đầu vào dạng file Excel Dulieuvayvon.xlsx tập liệu mẫu chứa thơng tin đƣợc sử dụng mơ tả tốn - Đầu ra: Đầu chƣơng trình tập luật dự đoán xếp phân loại khách hàng vay vốn, mơ hình định ID3 với tập liệu mẫu đầu vào ứng dụng phân loại khách hàng vay vốn cho cán tín dụng Chƣơng trình gồm mơ đun nhƣ sau: - Đọc liệu đầu vào từ file excel( Tập liệu mẫu gồm 621 đối tƣợng Dulieuvayvon.xlsx) 21 Hình 3.9: Thực nạp liệu vào hệ thống - Kiểm tra liệu + Chuẩn hóa liệu( Lọc loại liệu trùng, liệu mâu thuẫn) Hình 3.10: Chuẩn hóa liệu đầu vào - Tạo luật đƣợc sinh từ tập liệu mẫu sau chuẩn hóa 22 Hình 3.13: Kết luật đƣợc sinh với thuật toán ID3 - Tạo ID3 với liệu Dulieuvayvon.xlsx( Gồm 621 đối tƣợng) Hình 3.14: Kết ID3 với liệu Dulieuvayvon.xlsx - Ứng dụng ID3 định cho vay vốn Hình 3.17: Kết sau thực định có cho khách hàng vay hay khơng 23 3.4 KẾT CHƯƠNG Trong chƣơng phát biểu toán để kiểm chứng thuật toán xây dựng định chƣơng liệu mẫu Dulieuvayvon.xlsx Đồng thời cài đặt chƣơng trình hỗ trợ cán tín dụng định vay vốn Dựa vào mơ hình định (các luật định) đƣợc xây dựng, phân lớp mẫu liệu khách hàng KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Khai phá liệu lĩnh vực đã, ln ln thu hút nhà nghiên cứu lĩnh vực cho phép phát tri thức sở liệu khổng lồ phƣơng thức thơng minh Nghiên cứu lĩnh vực đòi hỏi ngƣời nghiên cứu phải biết tổng hợp kết nghiên cứu nhiều lĩnh vực khoa học máy tính việc ứng dụng nhiệm vụ khai phá liệu Qua hai năm học tập, tìm tòi, nghiên cứu, đặc biệt khoảng thời gian làm luận văn, tác giả hoàn thiện luận văn với mục tiêu đặt ban đầu Cụ thể luận văn đạt đƣợc kết sau: KẾT QUẢ ĐẠT ĐƢỢC - Trình bày kiến thức khai phá liệu; hệ thống hóa kiến thức lý thuyết tập thô đƣợc áp dụng để xây dựng định - Giới thiệu phƣơng pháp tổng quát xây dựng định, trình bày bốn thuật tốn xây dựng định CLS, ID3, C4.5, FLIQ[5] số mẫu minh họa cho phƣơng pháp xây dựng định đƣợc trình bày - Cài đặt Visual Studio thuật toán xây dựng định ID3 sở liệu mẫu Dulieuvayvon hỗ trợ cán tín dụng định vay vốn HẠN CHẾ CỦA ĐỀ TÀI - Dữ liệu hạn chế, mang tính chất nghiên cứu demo - Giao diện chƣơng trình chƣa thân thiện - Chƣa so sánh, đánh giá đƣợc với phƣơng pháp khác KIẾN NGHỊ VÀ HƢỚNG PHÁT TRIỂN Qua trình học tập, nghiên cứu tác giả khơng tích lũy đƣợc thêm kiến thức mà nâng cao đƣợc khả lập 24 trình, phát triển ứng dụng Tác giả nhận thấy luận văn giải tốt nội dung, yêu cầu nghiên cứu đặt ra, có ví dụ minh họa cụ thể Song thời gian có hạn nên luận văn tồn số thiếu sót, số vấn đề mà tác giả phải tiếp tục nghiên cứu, tìm hiểu Cần bổ sung thêm liệu cho tập huấn luyện để mơ hình định có độ tin cậy cao hoạt động hiệu Tiếp tục phát triển hoàn thiện theo hƣớng trở thành phần mềm khai phá liệu tín dụng tiêu dùng nhằm hỗ trợ cho cán tín dụng đƣa định cho khách hàng vay hay khơng Tìm hiểu nhu cầu thực tế để từ cải tiến chƣơng trình, cài đặt lại tốn theo thuật toán nghiên cứu để làm việc tốt với sở liệu lớn có đƣợc sản phẩm thị trƣờng Hướng phát triển đề tài là: Về lý thuyết: - Cần tiếp tục nghiên cứu thuật toán khai phá liệu định dựa vào tâp thô nhƣ: thuật tốn ADTCCC (dựa vào CORE đại lƣợng đóng góp phân lớp thuộc tính), thuật tốn ADTNDA (dựa vào độ phụ thuộc thuộc tính), … Nghiên cứu phƣơng pháp xây dựng định hệ thống thông tin không đầy đủ, liệu liên tục khơng chắn Về chương trình demo: - Cần bổ sung thêm liệu cho tập training để mơ hình định có độ tin cậy cao hoạt động hiệu - Cần tiếp tục phát triển hoàn thiện theo hƣớng trở thành phần mềm khai phá liệu tín dụng tiêu dùng nhằm hỗ trợ cho cán tín dụng đƣa định cho khách hàng vay hay khơng - Tìm hiểu nhu cầu thực tế để từ cải tiến chƣơng trình, cài đặt lại tốn theo thuật toán nghiên cứu để làm việc tốt với sở liệu lớn có đƣợc sản phẩm thị trƣờng ... ứng dụng định để phân loại khách hàng Ngân hàng thƣơng mại, chọn đề tài Nghiên cứu định ứng dụng để phân loại khách hàng vay vốn ngân hàng Vietinbank chi nhánh Kon Tum Mục tiêu nghiên cứu - Nghiên. .. ứng dụng cụ thể mà ngân hàng áp dụng để phân loại khách hàng mình, vào kết ngân hàng có thêm hỗ trợ để định có cho khách hàng vay vốn hay khơng 16 CHƯƠNG ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG PHÂN LOẠI... PHÁ DỮ LIỆU CHƢƠNG CÂY QUYẾT ĐỊNH TRONG KHAI PHÁ DỮ LIỆU CHƢƠNG ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG PHÂN LOẠI KHÁCH HÀNG VAY VỐN TẠI NGÂN HÀNG VIETINBANK CHI NHÁNH KON TUM KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN

Ngày đăng: 25/05/2019, 13:57

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan