Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 68 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
68
Dung lượng
2,77 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM TRUNG KIÊN KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM TRUNG KIÊN KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG Ngành: Kỹ Thuật Phần Mềm Chuyên ngành: Kỹ Thuật Phần Mềm Mã số: 8480103.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS TRẦN TRỌNG HIẾU Hà Nội – 2019 LỜI CAM ĐOAN Tôi xin cam đoan nghiên với đề tài “Khai thác phân tích liệu nhằm quản lý rủi ro giao dịch tín dụng” trình bày luận văn cơng trình nghiên cứu riêng hướng dẫn thầy giáo TS Trần Trọng Hiếu, không chép lại người khác Tất nguồn tài liệu tham khảo, cơng trình nghiên cứu liên quan trích dẫn cụ thể Tơi xin chịu hồn tồn trách nhiệm có phát chép mà khơng có trích dẫn tài liệu tham khảo LỜI CÁM ƠN Em xin chân thành cám ơn thầy giáo TS Trần Trọng Hiếu người nhiệt tình hướng dẫn, bảo suốt q trình hồn thành luận văn giai đoạn bắt đầu xây dựng đề cương xác định hướng nghiên cứu luận văn Em xin chân thành cám ơn toàn thể q thầy Khoa CNTT tận tình truyền đạt kiến thức quý báu tạo điều kiện thuận lợi cho em trình học tập nghiên cứu Tơi xin chân thành cám ơn ban lãnh đạo, đồng nghiệp Trung tâm Công nghệ Thông tin – Ngân hàng Vietinbank tạo nhiều điều kiện cho việc nghiên cứu thực luận văn Xin chân thành cảm ơn gia đình, học viên lớp Cao học K22 hỗ trợ cho tơi nhiều suốt q trình học tập, nghiên cứu thực đề tài luận văn thạc sĩ cách hồn chỉnh Tơi xin cám ơn đề tài cấp Đại học Quốc Gia Hà Nội mã số: QG.19.23 Hà Nội, ngày tháng năm 2019 Tác giả luận văn Phạm Trung Kiên MỤC LỤC LỜI CAM ĐOAN i LỜI CÁM ƠN ii DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC HÌNH VẼ vii GIỚI THIỆU CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu gì? 1.2 Lợi ích Khai phá liệu 1.3 Các bước khai phá liệu 1.4 Các kỹ thuật khai phá liệu 1.4.1 Kỹ thuật phân lớp 1.4.2 Kỹ thuật phân cụm 1.4.3 Kỹ thuật phân tích luật kết hợp 1.4.4 Kỹ thuật toán hồi quy 1.4.5 Kỹ thuật dự đoán 1.4.6 Kỹ thuật phân tích chuỗi 1.4.7 Kỹ thuật phân tích độ lệch 1.5 Các thuật toán phân lớp 1.5.1 Rừng ngẫu nhiên - Random Forest 1.5.2 Hồi quy logistic - Logistic Regression 1.5.3 Cây định - Decision tree 1.5.4 Phân lớp sác xuất - Navie Bayes 1.5.5 Máy véc-tơ hỗ trợ - Supper Vector Machine (SVM) 1.5.6 Stochastic Gradient Descent 1.5.7 Láng giềng gần – (K-Nearest Neighbours) 1.6 Ứng dụng khai phá liệu 1.7 Đề tài khai phá liệu phân lớp rủi ro tín dụng 13 CHƢƠNG 2: BÀI TỐN PHÂN LỚP DỰ BÁO RỦI RO TÍN DỤNG 14 2.1 Lý thuyết rủi ro tín dụng 14 2.1.1 Khái niệm rủi ro tín dụng 14 2.1.2 Những nguyên nhân phát sinh rủi ro tín dụng 14 2.1.3 Phân loại nhóm nợ 14 2.1.4 Điều kiện vay vốn 15 2.1.5 Căn xác định định mức cho vay 16 2.1.6 Đối tượng áp dụng 16 2.1.7 Mơ hình lượng hóa rủi ro tín dụng cho khách hàng cá nhân 16 2.2 Phát biểu toán 18 2.3 Quy trình phân lớp xây dựng mơ hình 19 2.4 Mơ hình phân lớp dự báo rủi ro 21 2.5 Lựa chọn nghiên cứu thuật toán 22 2.5.1 Phân lớp Cây định 22 2.5.1.1 Thuật toán định 22 2.5.1.2 Hoạt động thuật toán Cây định 23 2.5.1.3 Các biện pháp lựa chọn thuộc tính 24 2.5.1.4 Thông tin đạt 24 2.5.1.5 Tỷ lệ tăng 25 2.5.1.6 số Gini 25 2.5.2 Phân lớp Naive Bayes 26 2.5.2.1 Quy trình phân lớp 26 2.5.2.2 Phân lớp Naive Bayes gì? 27 2.5.2.3 Hoạt động phân lớp Naive Bayes 28 CHƢƠNG 3: THỰC NGHIỆM TRÊN DỮ LIỆU VIETINBANK 29 3.1 Khảo sát hoạt động tín dụng hệ thống Vietinbank 29 3.1.1 Tổng quan hoạt động tín dụng Vietinbank 29 3.1.2 Các biện pháp quản trị nợ xấu áp dụng VietinBank 31 3.1.2.1 Hệ thống xếp hạng tín dụng: 31 3.1.2.2 Cơng tác dự báo nợ có khả chuyển xấu: 31 3.1.2.3 Những tồn tại, hạn chế 31 3.2 Mơ tả tốn áp dụng KPDL hỗ trợ quản lý rủi ro tín dụng 32 3.3 Mơ hình liệu Core Vietinbank 33 3.4 Môi trường 34 3.5 Thu thập liệu 34 3.6 Biến đổi liệu, tính tốn sinh bảng 35 3.7 Làm liệu 37 3.7.1 Giảm bớt liệu 37 3.8 Lựa chọn liệu 37 3.9 Tìm hiểu liệu 38 3.10 Lựa chọn thuật toán 39 3.11 Lựa chọn công cụ 39 3.12 Xây dựng mơ hình phân lớp 40 3.12.1 Lựa chọn liệu & thuộc tính 40 3.12.2 Mơ hình Cây định J48 42 3.12.2.1 Xây dựng 42 3.12.2.2 Tham số thuật toán J48 Weka 46 3.12.2.3 Tham số liệu training 46 3.12.2.4 Thực nghiệm liệu với J48 Weka 47 3.12.2.5 Đánh giá lần chạy thực nghiệm với thuật toán J48 48 3.12.3 Phân lớp Naive Bayes 49 3.12.3.1 Cấu hình tham số thuật toán Naive Bayes 49 3.12.3.2 Đánh giá lần chạy thực nghiệm thuật toán Naive Bayes 52 3.13 Đánh giá mơ hình 52 3.13.1 So sánh kết lần chạy thuật toán 52 3.13.2 Đánh giá lần chạy J48 đạt tỷ lệ phân lớp cao 53 3.13.3 Đánh giá lần chạy Navie đạt tỷ lệ liệu tập huấn 55% 54 3.14 Triển khai tích hợp hệ thống Khai phá liệu 55 CHƢƠNG 4: KẾT LUẬN 57 4.1 Các kết đạt 57 4.2 Mục tiêu tương lai 57 TÀI LIỆU THAM KHẢO 59 DANH MỤC CÁC TỪ VIẾT TẮT NHNN Ngân hàng nhà nước Việt Nam TMCP Thương mại cổ phần VietinBank Ngân hàng TMCP Công thương Việt Nam KPDL Khai phá liệu TSĐB Tài sản đảm bảo RRTD Rủi ro tín dụng HĐTD Hoạt động tín dụng DANH MỤC HÌNH VẼ Hình 1.3.1: Lợi ích Khai phá liệu Hình 1.3.1: Các bước khai phá liệu Hình 1.3.2: Các bước chuẩn bị data Hình 2.3.1: Phát biểu tốn 18 Hình 2.4.1: Quy trình huấn luyện - training 20 Hình 2.4.2: Quy trình test liệu 21 Hình 2.4.3: Quy trình áp dụng mơ hình 21 Hình 2.5.1: Mơ hình phân lớp dự báo rủi ro 21 Hình 2.6.1: Cây định 23 Hình 2.6.2: luồng hoạt động định 24 Hình 2.6.3: Quy trình phân lớp 27 Hình 3.1.1: Tổng dư nợ VietinBank từ 2013 – 2017 29 Hình 3.1.2: Cơ cấu tín dụng VietinBank theo kỳ hạn từ 2012 - 2017 30 Hình 3.1.3: So sánh tiêu tín dụng, huy động, lợi nhuận, nợ xấu 30 Hình 3.1.4: Biểu đồ kiểm soát nợ xấu giai đoạn 2010 đến 2017 30 Hình 3.3.1: Mơ hình datawarehouse Vietinbank 33 Hình 3.4.1: Môi trường thực nghiệm 34 Hình 3.5.1: Mơ hình thu thập liệu 34 Hình 3.8.1: Lựa chọn liệu 37 Hình 3.9.1: Biểu diễn liệu 39 Hình 3.12.2: Đặt khoảng cho thuộc tính định mức vay 41 Hình 3.12.3: Đặt khoảng cho thuộc tính định mức vay 41 Hình 3.12.4: Đặt khoảng cho thuộc tính Tuổi 42 Hình 3.12.5: Chọn cơng cụ chạy bảng độ lợi thông tin Weka 43 Hình 3.12.6: Bảng độ lợi thơng tin Weka 43 Hình 3.12.7: Biểu đồ Gain – độ lợi thông tin 44 Hình 3.12.8: Hướng dẫn vào hình tham số J48 Weka 46 Hình 3.12.9: Hướng dẫn cấu hình tham số xuất liệu Weka 46 Hình 3.12.11: Biểu đồ xác suất J48 48 Hình 3.12.12: Cấu hình tham số thuật tốn Naive Bayes 49 Hình 3.12.13: Kết chạy thuật toán Naive Bayes Weka 50 Hình 3.12.14: Biểu đồ phân lớp Naïve Bayes 51 Hình 3.12.15: Biểu đồ tỷ lệ xác Navie Bayes 52 Hình 3.13.1: Biểu đồ so sánh tỷ lệ phân lớp J48 & Navie bayes 52 Hình 3.13.2: kết lần chạy phù hợp J48 53 Hình 3.13.3: kết lần chạy phù hợp Navie Bayes 55 Hình 3.14.1: Màn hình login 3600 55 Hình 3.14.2: Màn hình giao diện 56 Hình 3.14.3: Màn hình kết 56 44 cắt tỉa tạo gốc, cành, dựa vào giá trị cột Gain Ratio (độ lợi thông tin) từ cao xuống thấp sau: Bảng 1: Bảng độ lợi thông tin Gain Ratio Thuộc Tính 0.0149 NGHE_NGHIEP 0.01335 VI_TRI_CONG_TAC 0.00721 DINH_MUC_DUOC_VAY 0.00368 GT_DAM_BAO 0.00282 MUC_DICH_VAY 0.00219 TUOI 0.00203 THOI_HAN_KHOAN_VAY 0.00194 T_THAI_CU_TRU 0.00122 TT_HON_NHAN 10 10 XEP_LOAI_KHACH_HANG 11 11 THU_NHAP_CO_DINH 0,016 0,0149 0,014 0,01335 0,012 0,01 0,008 0,00721 0,006 0,004 0,00368 0,00282 0,002 0,00219 0,00203 0,00194 0,00122 0 Gain Ratio Thuộc Tính Hình 3.12.7: Biểu đồ Gain – độ lợi thông tin 10 11 45 Chỉ số Gain đƣợc tính dựa thuật tốn sau: a Tính Entropy liệu phân lớp ( ) ∑ ( ) ( ) C={Tốt, Xấu}, Tốt: 23526 ghi, Xấu: 6158 ghi P(c) – tỷ số thuộc tính theo phân lớp tổng số ghi Áp dụng cơng thức ( ) b Tính information Gain & Entropy cho thuộc tính đặc trƣng Tính Entropy chi tiết cho Dữ liệu đặc trưng Thuộc tính Mariage {DaKetHon, ChuaKetHon= 8160} DaKetHon= 21524(Tot: 17264, Xau: 4260) ChuaKetHon= 8160(Tot: 6262, Xau: 1898) ( ) { ( ) ( ) Tính trung bình Entropy cho thuộc tính Mariage (Tình trạng kết hơn) ( ) ( ( ) ∑ () () ) c Tính số Gain Gain(A) = H(S) – I(A) Gain(Mariage) = 0.73658 – 0.73536 = 0.00122 d Lặp lại bƣớc b & c để thực tính hết số Gain cho tất thuộc tính đặc trƣng 46 Tham số thuật tốn J48 Weka 3.12.2.2 Hình 3.12.8: Hướng dẫn vào hình tham số J48 Weka Bảng ý nghĩa tham số J48 Weka 3.8.0 Mơ tả Tham số Có sử dụng phân tích nhị phân thuộc tính binarySplits nominal xây dựng hay khơng? reducedErrorPruning Có xem tỉa giảm bớt lỗi sử dụng thay xén tỉa C4.5 Nếu thiết lập true, phân lớp xảy thơng tin Debug bổ sung tới hình console minNumObj Số lượng nhỏ thể nút numFolds Xác định rõ lượng liệu sử dụng cho việc giảm bớt lỗi xén tỉa Mỗi fold sử dụng cho việc xén tỉa, phần lại sử dụng cho việc phát triển confidenceFactor Mức tin tưởng để định xem có xén tỉa hay khơng? Với liệu đầu vào cho thực nghiệm chấp nhận giá trị mặc định bên trên, ngoại trừ thuộc tính saveInstanceData đổi thành true (cho phép tìm thấy mẫu phân loại sau xây dựng xong) 3.12.2.3 Tham số liệu training Hình 3.12.9: Hướng dẫn cấu hình tham số xuất liệu Weka 47 Thuộc tính Percentage split: Tỷ lệ phân chia cho biết số mẫu chọn cho tập huấn luyện (training set) số mẫu chọn cho tập kiểm tra (test set) Ví dụ: Percentage split = 66% nghĩa 66% mẫu dùng tập huấn luyện 34% mẫu dùng kiểm tra 3.12.2.4 Thực nghiệm liệu với J48 Weka Dữ liệu thực nghiệm chia thành phần, huấn luyện kiểm thử Tiến hành dùng liệu huấn luyện để tạo mẫu, dùng liệu kiểm thử để dự đoán xác định kết Tốt, Xấu Thực nghiệm tiến hành 05 lần với tỷ lệ sau: L1 : Sử dụng J48 cắt tỉa tập liệu với tỷ lệ huấn luyện 55% L2 : Sử dụng J48 cắt tỉa tập liệu với tỷ lệ huấn luyện 66% (giá trị mặc định Weka) L3 : Sử dụng J48 cắt tỉa tập liệu với tỷ lệ huấn luyện 70% L4 : Sử dụng J48 cắt tỉa tập liệu tỷ lệ huấn luyện 85% L5 : Sử dụng J48 cắt tỉa tập liệu tỷ lệ huấn luyện 90% Kết lần chạy ta có bảng sau: Bảng 2: Thống kê lần chạy thực nghiệm với J48 Weka Lần chạy Tỷ lệ huấn luyện/kiểm thử 55/45 66/34 70/30 85/15 90/10 Tổng số ghi 29684 29684 29684 29684 29684 Tổng số lớp 13358 10093 8905 4453 2968 Số mẫu phân lớp 10954 8273 7293 3644 2417 Số mẫu Phân lớp sai 2404 1820 1612 809 551 Tỷ lệ phân lớp Tỷ lệ phân lớp sai 82.0033 % 81.9677 % 81.8978 % 81.8325 % 81.4353 % 17.9967 % 18.0323 % 18.1022 % 18.1675 % 18.5647 % 48 Biểu đồ thực nghiệm theo Số phân lớp/Phân lớp đúng/Phân lớp sai: 16000 14000 12000 13358 10000 [VALUE] 10093 8000 8905 8273 7293 6000 4000 4453 3644 2000 2968 2404 1820 1612 2417 809 551 55/45 66/34 Tổng số lớp 70/30 Số mẫu phân lớp 85/15 90/10 Số mẫu Phân lớp sai Hình 3.12.10: Biểu đồ phân lớp J48 3.12.2.5 Đánh giá lần chạy thực nghiệm với thuật toán J48 Tỷ lệ phân lớp 82,10% 82,00% 81,90% 81,80% 81,70% 81,60% 81,50% 81,40% 81,30% 81,20% 81,10% 82,00% 81,97% 81,90% 81,83% 81,44% 55/45 66/34 70/30 85/15 90/10 Hình 3.12.11: Biểu đồ xác suất J48 49 Từ lần chạy thực nghiệm thực hiện, lần chạy L1 đạt hiệu phân lớp 82.0000 % cao lần thử Như lần chạy L2 với tỷ lệ huấn luyện 55% lựa chọn phù hợp 3.12.3 Phân lớp Naive Bayes Phân lớp Naive Bayes (Naive Bayes Classification) thuật toán dựa lý thuyết xác suất để đưa phán đoán phân loại liệu dựa liệu quan sát thống kê Thuật toán Naive Bayes ứng dụng nhiều lĩnh vực Machine Learning, dùng để đưa dự đốn xác dự tập liệu thu thập, thuật tốn dễ hiểu độ xác cao Naive Bayes thuộc vào nhóm Supervised Machine Learning Algorithms (học có giám sát), tức máy học từ ví dụ từ mẫu liệu có 3.12.3.1 Cấu hình tham số thuật tốn Naive Bayes Hình 3.12.12: Cấu hình tham số thuật tốn Naive Bayes 50 Tiến hành chạy thuật tốn Hình 3.12.13: Kết chạy thuật tốn Naive Bayes Weka Thuật toán chạy lần với tỷ lệ tham số sau: L1 : Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 55% L2 : Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 66% L3 : Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 70% L4 : Sử dụng phân lớp Naive Bayes tập liệu tỷ lệ huấn luyện 85% L5 : Sử dụng phân lớp Naive Bayes tập liệu tỷ lệ huấn luyện 90% 51 Kết lần chạy: Tỷ lệ huấn Lần luyện/kiểm chạy thử Tổng số Tổng số ghi lớp Số mẫu Số mẫu Tỷ lệ phân lớp Phân lớp phân lớp sai Tỷ lệ phân lớp sai 55/45 29684 13358 9875 3483 73.9257 % 26.0743 % 66/34 29684 11874 8781 3093 73.9515 % 26.0485 % 70/30 29684 8905 6583 2322 73.9248 % 26.0752 % 85/15 29684 4453 3293 1160 73.9501 % 26.0499 % 90/10 29684 2968 2181 787 73.4838 % 26.5162 % Bảng 3: Thống kê lần chạy thực nghiệm phân lớp Naive Bayes Weka Biểu đồ kết lần chạy theo Tổng số phân lớp/Phân lớp đúng/Phân lớp sai 16000 14000 13358 11874 12000 10000 9875 8905 8781 8000 6583 6000 4453 3483 4000 3293 3093 2968 2322 2181 2000 1160 787 55/45 66/34 Tổng số lớp 70/30 Số mẫu phân lớp 85/15 Số mẫu Phân lớp sai Hình 3.12.14: Biểu đồ phân lớp Naïve Bayes 90/10 52 3.12.3.2 Đánh giá lần chạy thực nghiệm thuật toán Naive Bayes Tỷ lệ phân lớp 74,00% 73,93% 73,90% 73,95% 73,92% 73,95% 73,80% 73,70% 73,60% 73,50% 73,40% 73,30% 73,20% 73,48% 55/45 66/34 70/30 85/15 90/10 Hình 3.12.15: Biểu đồ tỷ lệ xác Navie Bayes Từ lần chạy thực nghiệm thực hiện, ta thấy lần chạy L2 đạt hiệu cao với tỷ lệ phân lớp 73,95 % Như chạy thực nghiệm liệu với tỷ lệ huấn luyện 66% Naive Bayes lựa chọn phù hợp 3.13 Đánh giá mơ hình 3.13.1 So sánh kết lần chạy thuật toán Biểu đồ so sánh tỷ lệ phân lớp J48 & Navie bayes 84,00% 82,00% 82,00% 81,97% 81,90% 81,83% 73,93% 73,95% 73,92% 73,95% 81,44% 80,00% 78,00% 76,00% 74,00% 73,48% 72,00% 70,00% 68,00% 55/45 66/34 J48 70/30 Navie 85/15 90/10 Hình 3.13.1: Biểu đồ so sánh tỷ lệ phân lớp J48 & Navie bayes 53 Tất thí nghiệm tiến hành với liệu, từ lần chạy thực nghiệm J48 Naive Bayes Weka ta chọn tỷ lệ hợp lý cho thuật toán: + J48 lựa chọn tỷ lệ huấn luyện 82% + Naive Bayes chọn tỷ lệ huấn luyện 73,95% Từ lần chạy thử, nhận thấy tỉ lệ thực J48 cao Naive Bayes, thuật tốn J48 có hiệu phân lớp đạt 82,00 %, lớp sai 18,00 % Trong Naive Bayes lớp đạt 73,95 %, sai 26,15 % Như thuật toán J48 lựa chọn phù hợp & tỷ lệ liệu tập huấn phù hợp 55% 3.13.2 Đánh giá lần chạy J48 đạt tỷ lệ phân lớp cao Lần chạy đạt tỷ lệ phân lớp cao nhất: Giải thuật: J48 Tỷ lệ liệu huấn luyện: 55% Mơ hình định xây dựng: Cây định kích cỡ: 63 Số lượng lá: 57 Bảng thơng số kết chạy thuật tốn: Hình 3.13.2: kết lần chạy phù hợp J48 Ý nghĩa giá trị quan trọng: TPrate (tỷ lệ mẫu tích cực - Positive): Cao 54 TP=TP/(TP+FN) Example: TP(a)=291/(291+ 1820)=0.138 FPrate (tỷ lệ mẫu tích cực sai): Thấp FP=FP/(FP + TN) Example: FP(a)=0/(0+7982)=0 FP(b)=1820/(1820 + 291)=0.862 Precision (Giá trị dự đốn mẫu tích cực đúng): Cao Precision= TP / (TP + FP) Recall (Giá trị biểu diễn tỷ lệ mẫu cần thực lại): Cao F- measure: Biểu diễn trung bình điều hịa recall precision F-measure = 2TP / (2TP + FP + FN) Confusion Matrix - Ma trận nhầm lẫn: Dây ma trận vng với kích thước chiều số lượng lớp liệu (Giá trị hàng thứ 2, cột thứ a số lượng điểm lẽ thuộc vào lớp a lại dự đoán thuộc vào lớp b) Nhìn vào bảng ma trận trên, ta thấy liệu thu thập dịng b (Xấu) cột a (Tốt) có 04 lớp có khả nghi xếp nhầm 3.13.3 Đánh giá lần chạy Navie đạt tỷ lệ liệu tập huấn 55% Lần chạy đạt tỷ lệ phân lớp cao nhất: Giải thuật: Navie bayes Tỷ lệ liệu huấn luyện: 55% 55 Bảng thơng số kết chạy thuật tốn Hình 3.13.3: kết lần chạy phù hợp Navie Bayes 3.14 Triển khai tích hợp hệ thống Khai phá liệu Weka cung cấp ứng dụng chạy độc lập, cịn cung cấp API để doanh nghiệp tích hợp vào ứng dụng Trong luận văn này, tác giả thực nghiệm tích hợp Weka API vào hệ thống Portal: “Khảo sát tín dụng 360o” Ngân hàng Vietinbank Màn hình chức Hình 3.14.1: Màn hình login 3600 56 Màn hình giao diện Hình 3.14.2: Màn hình giao diện Màn hình kết chạy với J48 Hình 3.14.3: Màn hình kết 57 CHƢƠNG 4: KẾT LUẬN 4.1 Các kết đạt đƣợc Với ý tưởng nghiên cứu ứng dụng khai phá liệu việc cải tiến quy trình quản lý rủi ro tín dụng, đề tài “KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG” đạt mục tiêu sau: Luận văn trình bày kiến thức tổng quan đánh giá rủi ro tín dụng ngân hàng VietinBank Làm rõ tầm quan trọng việc không ngừng nâng cao ứng dụng công nghệ công tác đánh giá rủi ro tín dụng nhằm tăng tính ổn định hiệu hoạt động VietinBank Đề tài làm rõ thực trạng công tác đánh giá rủi ro tín dụng khách hàng cá nhân ngân hàng VietinBank, qua thấy điểm cịn hạn chế đề xuất giải pháp phù hợp Đề tài hệ thống hóa sở lý thuyết khai phá liệu phân tích tổng hợp nghiên cứu liên quan nhằm lựa chọn kỹ thuật quy trình khai phá liệu phù hợp áp dụng cho đề tài Bên cạnh bước đầu xây dựng module “Khai phá liệu” tích hợp vào hệ thống Khảo sát tín dụng 3600 Ngân hàng Vietinbank 4.2 Mục tiêu tƣơng lai Với nhiều ứng dụng thực tế khai phá liệu ngành tài ngân hàng, đặc biệt phân tích dự báo rủi ro tín dụng Với thời gian có hạn luận văn nghiên cứu thực nghiệm thuật tốn, u cầu với tốn tương lai áp dụng thuật toán khác hồi quy dự báo, áp dụng mạng noron xây dựng mơ hình dự báo… Với ứng dụng rộng rãi khai phá liệu ngành tài ngân hàng trình bày cịn nhiều tốn tìm hiểu nghiên cứu thêm tương lai như: Bài toán bán chéo sản phẩm tín dụng, rủi ro giao dịch ngân hàng điện tử, mua bán nợ, dự đoán xu hướng giao dịch chứng khoán phái sinh kết nối qua ngân hàng v.v 58 TÀI LIỆU THAM KHẢO [1] Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Khai phá liệu Web, Nhà xuất Giáo dục, 2009 [2] PGS.TS Hà Quang Thụy, Bài giảng Khai phá liệu, Đại học Công Nghệ-Đại Học Quốc gia Hà Nội [3] Tài liệu lưu hành nội bộ, 2016 - Sổ tay nghiệp vụ rủi ro VietinBank [4] Tài liệu lưu hành nội bộ, 2016 - Quy định Rủi ro tín dụng VietinBank [5] Báo cáo quản trị tài Vietinbank 2016 [6] Phí Trọng Hiển, 2005 Ngân hàng nhà nước Việt Nam- Quản trị rủi ro ngân hàng: Cơ sở lý thuyết, thách thức thực tiễn giải pháp cho hệ thống ngân hàng thương mại Việt Nam [7] John Ross Quinlan, 1993 Chương trình học máy, nhà xuất Morgan Kaufmann [8] Jiawei Han Micheline Kamber, 2012 Khái niệm kỹ thuật khai phá liệu, ấn thứ ba, nhà xuất ed Elsevier Inc [9] WILLIAM W COOPER - DATA ENVELOPMENT ANALYSIS - A Comprehensive Text with Models, Applications, References and DEA-Solver Software [10].Ron Kohavi, J Ross Quinlan, Decision Tree Discovery, 1999 [11] A complete guide to dealing with Big Data using MongoDB [12] BigData in Complex Systems Challenges and Opportunities [13] Ivan Idris - Python Data Analysis [14] Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques, Second Edition ... bào phụ protein 13 1.7 Đề tài khai phá liệu phân lớp rủi ro tín dụng Trong phạm vi luận văn, tác giả đề cập đến ứng dụng khai phá liệu để phân lớp rủi ro tín dụng Đánh giá rủi ro tín dụng mơt... Neighbours) 1.6 Ứng dụng khai phá liệu 1.7 Đề tài khai phá liệu phân lớp rủi ro tín dụng 13 CHƢƠNG 2: BÀI TOÁN PHÂN LỚP DỰ BÁO RỦI RO TÍN DỤNG 14 2.1 Lý thuyết rủi ro tín dụng ... dựng mơ hình quản lý rủi ro phương pháp khai phá liệu Mơ hình đáp ứng sở tri thức để hỗ trợ công tác quản lý rủi ro phương diện: Phân loại rủi ro & dự đoán rủi ro Và từ tính chất liệu cho vay,