Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 79 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
79
Dung lượng
1,85 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM TRUNG KIÊN KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM TRUNG KIÊN KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG Ngành: Kỹ Thuật Phần Mềm Chuyên ngành: Kỹ Thuật Phần Mềm Mã số: 8480103.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS TRẦN TRỌNG HIẾU Hà Nội – 2019 LỜI CAM ĐOAN Tôi xin cam đoan nghiên với đề tài “Khai thác phân tích liệu nhằm quản lý rủi ro giao dịch tín dụng” trình bày luận văn cơng trình nghiên cứu riêng hướng dẫn thầy giáo TS Trần Trọng Hiếu, không chép lại người khác Tất nguồn tài liệu tham khảo, cơng trình nghiên cứu liên quan trích dẫn cụ thể Tơi xin chịu hồn tồn trách nhiệm có phát chép mà khơng có trích dẫn tài liệu tham khảo LỜI CÁM ƠN Em xin chân thành cám ơn thầy giáo TS Trần Trọng Hiếu người nhiệt tình hướng dẫn, bảo suốt q trình hồn thành luận văn giai đoạn bắt đầu xây dựng đề cương xác định hướng nghiên cứu luận văn Em xin chân thành cám ơn toàn thể q thầy Khoa CNTT tận tình truyền đạt kiến thức quý báu tạo điều kiện thuận lợi cho em trình học tập nghiên cứu Tơi xin chân thành cám ơn ban lãnh đạo, đồng nghiệp Trung tâm Công nghệ Thông tin – Ngân hàng Vietinbank tạo nhiều điều kiện cho việc nghiên cứu thực luận văn Xin chân thành cảm ơn gia đình, học viên lớp Cao học K22 hỗ trợ cho tơi nhiều suốt q trình học tập, nghiên cứu thực đề tài luận văn thạc sĩ cách hồn chỉnh Tơi xin cám ơn đề tài cấp Đại học Quốc Gia Hà Nội mã số: QG.19.23 Hà Nội, ngày tháng năm 2019 Tác giả luận văn Phạm Trung Kiên MỤC LỤC LỜI CAM ĐOAN .i LỜI CÁM ƠN ii DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC HÌNH VẼ vii GIỚI THIỆU CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu gì? 1.2 Lợi ích Khai phá liệu 1.3 Các bước khai phá liệu 1.4 Các kỹ thuật khai phá liệu 1.4.1 Kỹ thuật phân lớp 1.4.2 Kỹ thuật phân cụm 1.4.3 Kỹ thuật phân tích luật kết hợp 1.4.4 Kỹ thuật toán hồi quy 1.4.5 Kỹ thuật dự đoán 1.4.6 Kỹ thuật phân tích chuỗi 1.4.7 Kỹ thuật phân tích độ lệch 1.5 Các thuật toán phân lớp 1.5.1 Rừng ngẫu nhiên - Random Forest 1.5.2 Hồi quy logistic - Logistic Regression .7 1.5.3 Cây định - Decision tree 1.5.4 Phân lớp sác xuất - Navie Bayes 1.5.5 Máy véc-tơ hỗ trợ - Supper Vector Machine (SVM) 1.5.6 Stochastic Gradient Descent .9 1.5.7 Láng giềng gần – (K-Nearest Neighbours) .9 1.6 Ứng dụng khai phá liệu .9 1.7 Đề tài khai phá liệu phân lớp rủi ro tín dụng 13 CHƢƠNG 2: BÀI TOÁN PHÂN LỚP DỰ BÁO RỦI RO TÍN DỤNG 14 2.1 Lý thuyết rủi ro tín dụng .14 2.1.1 Khái niệm rủi ro tín dụng 14 2.1.2 Những nguyên nhân phát sinh rủi ro tín dụng 2.1.3 Phân loại nhóm nợ 2.1.4 Điều kiện vay vốn 2.1.5 Căn xác định định mức cho vay 2.1.6 Đối tượng áp dụng 2.1.7 Mô hình lượng hóa rủi ro tín dụng cho khách hàng cá nhân 2.2.Phát biểu toán 2.3.Quy trình phân lớp xây dựng mơ hình 2.4.Mơ hình phân lớp dự báo rủi ro 2.5.Lựa chọn nghiên cứu thuật toán 2.5.1 Phân lớp Cây 2.5.1.1 Thuật toán định 2.5.1.2 Hoạt động thuật toán Cây địn 2.5.1.3 Các biện pháp lựa chọn thuộc tính 2.5.1.4 Thơng tin đạt 2.5.2 Phân lớp Naiv 2.5.2.1 Quy trình phân lớp 2.5.2.2 Phân lớp Naive Bayes gì? 2.5.2.3 Hoạt động phân lớp Naive Bayes CHƢƠNG 3: THỰC NGHIỆM TRÊN DỮ LIỆU VIETINBANK 3.1.Khảo sát hoạt động tín dụng hệ thống Vietinb 3.1.1 Tổng quan hoạt động tín dụng Vietinbank 3.1.2 Các biện pháp 3.1.2.1 Hệ thống xếp hạng tín dụng: 3.1.2.2 Cơng tác dự báo nợ có khả chuyển 3.1.2.3 Những tồn tại, hạn chế 3.2.Mơ tả tốn áp dụng KPDL hỗ trợ quản lý rủi 3.3.Mơ hình liệu Core Vietinbank 3.4.Môi trường 3.5.Thu thập liệu 3.6 Biến đổi liệu, tính tốn sinh bảng 35 3.7 Làm liệu 37 3.7.1 Giảm bớt liệu .37 3.8 Lựa chọn liệu 37 3.9 Tìm hiểu liệu 38 3.10 Lựa chọn thuật toán 39 3.11 Lựa chọn công cụ .39 3.12 Xây dựng mô hình phân lớp 40 3.12.1 Lựa chọn liệu & thuộc tính 40 3.12.2 Mô hình Cây định J48 42 3.12.2.1 Xây dựng 42 3.12.2.2 Tham số thuật toán J48 Weka 46 3.12.2.3 Tham số liệu training 46 3.12.2.4 Thực nghiệm liệu với J48 Weka 47 3.12.2.5 Đánh giá lần chạy thực nghiệm với thuật toán J48 48 3.12.3 Phân lớp Naive Bayes .49 3.12.3.1 Cấu hình tham số thuật toán Naive Bayes 49 3.12.3.2 Đánh giá lần chạy thực nghiệm thuật tốn Naive Bayes 52 3.13 Đánh giá mơ hình 52 3.13.1 So sánh kết lần chạy thuật toán 52 3.13.2 Đánh giá lần chạy J48 đạt tỷ lệ phân lớp cao 53 3.13.3 Đánh giá lần chạy Navie đạt tỷ lệ liệu tập huấn 55% 54 3.14 Triển khai tích hợp hệ thống Khai phá liệu 55 CHƢƠNG 4: KẾT LUẬN 57 4.1 Các kết đạt 57 4.2 Mục tiêu tương lai 57 TÀI LIỆU THAM KHẢO 59 NHNN TMCP VietinBank KPDL TSĐB RRTD HĐTD DANH MỤC HÌNH VẼ Hình 1.3.1: Lợi ích Khai phá liệu Hình 1.3.1: Các bước khai phá liệu Hình 1.3.2: Các bước chuẩn bị data Hình 2.3.1: Phát biểu tốn 18 Hình 2.4.1: Quy trình huấn luyện - training 20 Hình 2.4.2: Quy trình test liệu 21 Hình 2.4.3: Quy trình áp dụng mơ hình 21 Hình 2.5.1: Mơ hình phân lớp dự báo rủi ro .21 Hình 2.6.1: Cây định .23 Hình 2.6.2: luồng hoạt động định 24 Hình 2.6.3: Quy trình phân lớp 27 Hình 3.1.1: Tổng dư nợ VietinBank từ 2013 – 2017 29 Hình 3.1.2: Cơ cấu tín dụng VietinBank theo kỳ hạn từ 2012 - 2017 .30 Hình 3.1.3: So sánh tiêu tín dụng, huy động, lợi nhuận, nợ xấu 30 Hình 3.1.4: Biểu đồ kiểm sốt nợ xấu giai đoạn 2010 đến 2017 30 Hình 3.3.1: Mơ hình datawarehouse Vietinbank 33 Hình 3.4.1: Mơi trường thực nghiệm 34 Hình 3.5.1: Mơ hình thu thập liệu 34 Hình 3.8.1: Lựa chọn liệu 37 Hình 3.9.1: Biểu diễn liệu 39 Hình 3.12.2: Đặt khoảng cho thuộc tính định mức vay 41 Hình 3.12.3: Đặt khoảng cho thuộc tính định mức vay 41 Hình 3.12.4: Đặt khoảng cho thuộc tính Tuổi 42 Hình 3.12.5: Chọn cơng cụ chạy bảng độ lợi thơng tin Weka 43 Hình 3.12.6: Bảng độ lợi thông tin Weka 43 Hình 3.12.7: Biểu đồ Gain – độ lợi thơng tin 44 Hình 3.12.8: Hướng dẫn vào hình tham số J48 Weka 46 Hình 3.12.9: Hướng dẫn cấu hình tham số xuất liệu Weka 46 Hình 3.12.11: Biểu đồ xác suất J48 48 Hình 3.12.12: Cấu hình tham số thuật tốn Naive Bayes 49 Hình 3.12.13: Kết chạy thuật tốn Naive Bayes Weka .50 Hình 3.12.14: Biểu đồ phân lớp Naïve Bayes 51 Hình 3.12.15: Biểu đồ tỷ lệ xác Navie Bayes 52 Hình 3.13.1: Biểu đồ so sánh tỷ lệ phân lớp J48 & Navie bayes .52 Hình 3.13.2: kết lần chạy phù hợp J48 .53 Hình 3.13.3: kết lần chạy phù hợp Navie Bayes 55 Hình 3.14.1: Màn hình login 3600 55 Hình 3.14.2: Màn hình giao diện 56 Hình 3.14.3: Màn hình kết 56 47 Thuộc tính Percentage split: Tỷ lệ phân chia cho biết số mẫu chọn cho tập huấn luyện (training set) số mẫu chọn cho tập kiểm tra (test set) Ví dụ: Percentage split = 66% nghĩa 66% mẫu dùng tập huấn luyện 34% mẫu dùng kiểm tra 3.12.2.4 Thực nghiệm liệu với J48 Weka Dữ liệu thực nghiệm chia thành phần, huấn luyện kiểm thử Tiến hành dùng liệu huấn luyện để tạo mẫu, dùng liệu kiểm thử để dự đoán xác định kết Tốt, Xấu Thực nghiệm tiến hành 05 lần với tỷ lệ sau: L1 : Sử dụng J48 cắt tỉa tập liệu với tỷ lệ huấn luyện 55% L2 : Sử dụng J48 cắt tỉa tập liệu với tỷ lệ huấn luyện 66% (giá trị mặc định Weka) L3 : Sử dụng J48 cắt tỉa tập liệu với tỷ lệ huấn luyện 70% L4 : Sử dụng J48 cắt tỉa tập liệu tỷ lệ huấn luyện 85% L5 : Sử dụng J48 cắt tỉa tập liệu tỷ lệ huấn luyện 90% Kết lần chạy ta có bảng sau: Bảng 2: Thống kê lần chạy thực nghiệm với J48 Weka Tỷ lệ h Lần luyện/k chạy 55/45 66/34 70/30 85/15 90/10 48 Biểu đồ thực nghiệm theo Số phân lớp/Phân lớp đúng/Phân lớp sai: 16000 14000 13358 12000 10000 8000 6000 4000 2000 Hình 3.12.10: Biểu đồ phân lớp J48 3.12.2.5 Đánh giá lần chạy thực nghiệm với thuật toán J48 Tỷ lệ phân lớp 82,10% 82,00% 81,90% 81,80% 81,70% 81,60% 81,50% 81,40% 81,30% 81,44% 81,20% 81,10% 55/45 66/34 70/30 85/15 Hình 3.12.11: Biểu đồ xác suất J48 90/10 49 Từ lần chạy thực nghiệm thực hiện, lần chạy L1 đạt hiệu phân lớp 82.0000 % cao lần thử Như lần chạy L2 với tỷ lệ huấn luyện 55% lựa chọn phù hợp 3.12.3 Phân lớp Naive Bayes Phân lớp Naive Bayes (Naive Bayes Classification) thuật toán dựa lý thuyết xác suất để đưa phán đoán phân loại liệu dựa liệu quan sát thống kê Thuật toán Naive Bayes ứng dụng nhiều lĩnh vực Machine Learning, dùng để đưa dự đốn xác dự tập liệu thu thập, thuật tốn dễ hiểu độ xác cao Naive Bayes thuộc vào nhóm Supervised Machine Learning Algorithms (học có giám sát), tức máy học từ ví dụ từ mẫu liệu có 3.12.3.1 Cấu hình tham số thuật tốn Naive Bayes Hình 3.12.12: Cấu hình tham số thuật tốn Naive Bayes 50 Tiến hành chạy thuật tốn Hình 3.12.13: Kết chạy thuật toán Naive Bayes Weka Thuật toán chạy lần với tỷ lệ tham số sau: L1 : Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 55% L2 : Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 66% L3 : Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 70% L4 : Sử dụng phân lớp Naive Bayes tập liệu tỷ lệ huấn luyện 85% L5 : Sử dụng phân lớp Naive Bayes tập liệu tỷ lệ huấn luyện 90% 51 Kết lần chạy: Tỷ lệ huấ Lần luyện/kiể chạy thử 55/45 66/34 70/30 85/15 90/10 Bảng 3: Thống kê lần chạy thực nghiệm phân lớp Naive Bayes Weka Biểu đồ kết lần chạy theo Tổng số phân lớp/Phân lớp đúng/Phân lớp sai 16000 14000 12000 10000 8000 6000 4000 2000 Hình 3.12.14: Biểu đồ phân lớp Nạve Bayes 52 3.12.3.2 Đánh giá lần chạy thực nghiệm thuật toán Naive Bayes Tỷ lệ phân lớp 74,00% 73,90% 73,80% 73,70% 73,60% 73,50% 73,40% 73,30% 73,20% 55/45 66/34 70/30 85/15 90/10 Hình 3.12.15: Biểu đồ tỷ lệ xác Navie Bayes Từ lần chạy thực nghiệm thực hiện, ta thấy lần chạy L2 đạt hiệu cao với tỷ lệ phân lớp 73,95 % Như chạy thực nghiệm liệu với tỷ lệ huấn luyện 66% Naive Bayes lựa chọn phù hợp 3.13 Đánh giá mơ hình 3.13.1 So sánh kết lần chạy thuật toán Biểu đồ so sánh tỷ lệ phân lớp J48 & Navie bayes 84,00% 82,00% 80,00% 78,00% 76,00% 74,00% 72,00% 70,00% 68,00% Hình 3.13.1: Biểu đồ so sánh tỷ lệ phân lớp J48 & Navie bayes 53 Tất thí nghiệm tiến hành với liệu, từ lần chạy thực nghiệm J48 Naive Bayes Weka ta chọn tỷ lệ hợp lý cho thuật toán: + J48 lựa chọn tỷ lệ huấn luyện 82% + Naive Bayes chọn tỷ lệ huấn luyện 73,95% Từ lần chạy thử, nhận thấy tỉ lệ thực J48 cao Naive Bayes, thuật tốn J48 có hiệu phân lớp đạt 82,00 %, lớp sai 18,00 % Trong Naive Bayes lớp đạt 73,95 %, sai 26,15 % Như thuật toán J48 lựa chọn phù hợp & tỷ lệ liệu tập huấn phù hợp 55% 3.13.2 Đánh giá lần chạy J48 đạt tỷ lệ phân lớp cao Lần chạy đạt tỷ lệ phân lớp cao nhất: Giải thuật: J48 Tỷ lệ liệu huấn luyện: 55% Mơ hình định xây dựng: Cây định kích cỡ: 63 Số lượng lá: 57 Bảng thơng số kết chạy thuật tốn: Hình 3.13.2: kết lần chạy phù hợp J48 Ý nghĩa giá trị quan trọng: TPrate (tỷ lệ mẫu tích cực - Positive): Cao 54 TP=TP/(TP+FN) Example: TP(a)=291/(291+ 1820)=0.138 FPrate (tỷ lệ mẫu tích cực sai): Thấp FP=FP/(FP + TN) Example: FP(a)=0/(0+7982)=0 FP(b)=1820/(1820 + 291)=0.862 Precision (Giá trị dự đốn mẫu tích cực đúng): Cao Precision= TP / (TP + FP) Recall (Giá trị biểu diễn tỷ lệ mẫu cần thực lại): Cao F- measure: Biểu diễn trung bình điều hịa recall precision F-measure = 2TP / (2TP + FP + FN) Confusion Matrix - Ma trận nhầm lẫn: Dây ma trận vng với kích thước chiều số lượng lớp liệu (Giá trị hàng thứ 2, cột thứ a số lượng điểm lẽ thuộc vào lớp a lại dự đoán thuộc vào lớp b) Nhìn vào bảng ma trận trên, ta thấy liệu thu thập dịng b (Xấu) cột a (Tốt) có 04 lớp có khả nghi xếp nhầm 3.13.3 Đánh giá lần chạy Navie đạt tỷ lệ liệu tập huấn 55% Lần chạy đạt tỷ lệ phân lớp cao nhất: Giải thuật: Navie bayes Tỷ lệ liệu huấn luyện: 55% 55 Bảng thơng số kết chạy thuật tốn Hình 3.13.3: kết lần chạy phù hợp Navie Bayes 3.14 Triển khai tích hợp hệ thống Khai phá liệu Weka cung cấp ứng dụng chạy độc lập, cịn cung cấp API để doanh nghiệp tích hợp vào ứng dụng Trong luận văn này, tác giả thực nghiệm tích hợp Weka API vào hệ thống Portal: “Khảo sát tín dụng 360o” Ngân hàng Vietinbank Màn hình chức Hình 3.14.1: Màn hình login 3600 56 Màn hình giao diện Hình 3.14.2: Màn hình giao diện Màn hình kết chạy với J48 Hình 3.14.3: Màn hình kết 57 CHƢƠNG 4: KẾT LUẬN 4.1 Các kết đạt đƣợc Với ý tưởng nghiên cứu ứng dụng khai phá liệu việc cải tiến quy trình quản lý rủi ro tín dụng, đề tài “KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG” đạt mục tiêu sau: Luận văn trình bày kiến thức tổng quan đánh giá rủi ro tín dụng ngân hàng VietinBank Làm rõ tầm quan trọng việc không ngừng nâng cao ứng dụng công nghệ công tác đánh giá rủi ro tín dụng nhằm tăng tính ổn định hiệu hoạt động VietinBank Đề tài làm rõ thực trạng công tác đánh giá rủi ro tín dụng khách hàng cá nhân ngân hàng VietinBank, qua thấy điểm cịn hạn chế đề xuất giải pháp phù hợp Đề tài hệ thống hóa sở lý thuyết khai phá liệu phân tích tổng hợp nghiên cứu liên quan nhằm lựa chọn kỹ thuật quy trình khai phá liệu phù hợp áp dụng cho đề tài Bên cạnh bước đầu xây dựng module “Khai phá liệu” tích hợp vào hệ thống Khảo sát tín dụng 3600 Ngân hàng Vietinbank 4.2 Mục tiêu tƣơng lai Với nhiều ứng dụng thực tế khai phá liệu ngành tài ngân hàng, đặc biệt phân tích dự báo rủi ro tín dụng Với thời gian có hạn luận văn nghiên cứu thực nghiệm thuật tốn, u cầu với tốn tương lai áp dụng thuật toán khác hồi quy dự báo, áp dụng mạng noron xây dựng mơ hình dự báo… Với ứng dụng rộng rãi khai phá liệu ngành tài ngân hàng trình bày cịn nhiều tốn tìm hiểu nghiên cứu thêm tương lai như: Bài toán bán chéo sản phẩm tín dụng, rủi ro giao dịch ngân hàng điện tử, mua bán nợ, dự đoán xu hướng giao dịch chứng khoán phái sinh kết nối qua ngân hàng v.v 58 TÀI LIỆU THAM KHẢO [1] Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Khai phá liệu Web, Nhà xuất Giáo dục, 2009 [2] PGS.TS Hà Quang Thụy, Bài giảng Khai phá liệu, Đại học Công Nghệ-Đại Học Quốc gia Hà Nội [3] Tài liệu lưu hành nội bộ, 2016 - Sổ tay nghiệp vụ rủi ro VietinBank [4] Tài liệu lưu hành nội bộ, 2016 - Quy định Rủi ro tín dụng VietinBank [5] Báo cáo quản trị tài Vietinbank 2016 [6] Phí Trọng Hiển, 2005 Ngân hàng nhà nước Việt Nam- Quản trị rủi ro ngân hàng: Cơ sở lý thuyết, thách thức thực tiễn giải pháp cho hệ thống ngân hàng thương mại Việt Nam [7] John Ross Quinlan, 1993 Chương trình học máy, nhà xuất Morgan Kaufmann [8] Jiawei Han Micheline Kamber, 2012 Khái niệm kỹ thuật khai phá liệu, ấn thứ ba, nhà xuất ed Elsevier Inc [9] WILLIAM W COOPER - DATA ENVELOPMENT ANALYSIS - A Comprehensive Text with Models, Applications, References and DEA-Solver Software [10].Ron Kohavi, J Ross Quinlan, Decision Tree Discovery, 1999 [11] A complete guide to dealing with Big Data using MongoDB [12] BigData in Complex Systems Challenges and Opportunities [13] Ivan Idris - Python Data Analysis [14] Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques, Second Edition ... bào phụ protein 13 1.7 Đề tài khai phá liệu phân lớp rủi ro tín dụng Trong phạm vi luận văn, tác giả đề cập đến ứng dụng khai phá liệu để phân lớp rủi ro tín dụng Đánh giá rủi ro tín dụng môt... .9 1.6 Ứng dụng khai phá liệu .9 1.7 Đề tài khai phá liệu phân lớp rủi ro tín dụng 13 CHƢƠNG 2: BÀI TỐN PHÂN LỚP DỰ BÁO RỦI RO TÍN DỤNG 14 2.1 Lý thuyết rủi ro tín dụng .14... dựng mơ hình quản lý rủi ro phương pháp khai phá liệu Mơ hình đáp ứng sở tri thức để hỗ trợ công tác quản lý rủi ro phương diện: Phân loại rủi ro & dự đốn rủi ro Và từ tính chất liệu cho vay,