Khai thác và phân tích dữ liệu nhằm quản lý rủi ro trong giao dịch tín dụng

68 15 0
Khai thác và phân tích dữ liệu nhằm quản lý rủi ro trong giao dịch tín dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM TRUNG KIÊN KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM TRUNG KIÊN KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG Ngành: Kỹ Thuật Phần Mềm Chuyên ngành: Kỹ Thuật Phần Mềm Mã số: 8480103.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS TRẦN TRỌNG HIẾU Hà Nội – 2019 LỜI CAM ĐOAN Tôi xin cam đoan nghiên với đề tài “Khai thác phân tích liệu nhằm quản lý rủi ro giao dịch tín dụng” trình bày luận văn cơng trình nghiên cứu riêng hướng dẫn thầy giáo TS Trần Trọng Hiếu, không chép lại người khác Tất nguồn tài liệu tham khảo, cơng trình nghiên cứu liên quan trích dẫn cụ thể Tơi xin chịu hồn tồn trách nhiệm có phát chép mà khơng có trích dẫn tài liệu tham khảo LỜI CÁM ƠN Em xin chân thành cám ơn thầy giáo TS Trần Trọng Hiếu người nhiệt tình hướng dẫn, bảo suốt q trình hồn thành luận văn giai đoạn bắt đầu xây dựng đề cương xác định hướng nghiên cứu luận văn Em xin chân thành cám ơn toàn thể q thầy Khoa CNTT tận tình truyền đạt kiến thức quý báu tạo điều kiện thuận lợi cho em trình học tập nghiên cứu Tơi xin chân thành cám ơn ban lãnh đạo, đồng nghiệp Trung tâm Công nghệ Thông tin – Ngân hàng Vietinbank tạo nhiều điều kiện cho việc nghiên cứu thực luận văn Xin chân thành cảm ơn gia đình, học viên lớp Cao học K22 hỗ trợ cho tơi nhiều suốt q trình học tập, nghiên cứu thực đề tài luận văn thạc sĩ cách hồn chỉnh Tơi xin cám ơn đề tài cấp Đại học Quốc Gia Hà Nội mã số: QG.19.23 Hà Nội, ngày tháng năm 2019 Tác giả luận văn Phạm Trung Kiên MỤC LỤC LỜI CAM ĐOAN i LỜI CÁM ƠN ii DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC HÌNH VẼ vii GIỚI THIỆU CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu gì? 1.2 Lợi ích Khai phá liệu 1.3 Các bước khai phá liệu 1.4 Các kỹ thuật khai phá liệu Kỹ thuật phân lớp Kỹ thuật phân cụm Kỹ thuật phân tích luật kết hợp Kỹ thuật toán hồi quy Kỹ thuật dự đoán Kỹ thuật phân tích chuỗi Kỹ thuật phân tích độ lệch 1.5 Các thuật toán phân lớp Rừng ngẫu nhiên - Random Forest Hồi quy logistic - Logistic Regression Cây định - Decision tree Phân lớp sác xuất - Navie Bayes Máy véc-tơ hỗ trợ - Supper Vector Machine (SVM) Stochastic Gradient Descent Láng giềng gần – (K-Nearest Neighbours) 1.6 Ứng dụng khai phá liệu 1.7 Đề tài khai phá liệu phân lớp rủi ro tín dụng 13 CHƯƠNG 2: BÀI TOÁN PHÂN LỚP DỰ BÁO RỦI RO TÍN DỤNG 14 2.1 Lý thuyết rủi ro tín dụng 14 Khái niệm rủi ro tín dụng 14 Những nguyên nhân phát sinh rủi ro tín dụng 14 Phân loại nhóm nợ 14 Điều kiện vay vốn 15 Căn xác định định mức cho vay 16 Đối tượng áp dụng 16 Mơ hình lượng hóa rủi ro tín dụng cho khách hàng cá nhân 16 2.2 Phát biểu toán 18 2.3 Quy trình phân lớp xây dựng mơ hình 19 2.4 Mơ hình phân lớp dự báo rủi ro 21 2.5 Lựa chọn nghiên cứu thuật toán 22 Phân lớp Cây định 22 2.5.1.1 Thuật toán định 22 2.5.1.2 Hoạt động thuật toán Cây định 23 2.5.1.3 Các biện pháp lựa chọn thuộc tính 24 2.5.1.4 Thông tin đạt 24 2.5.1.5 Tỷ lệ tăng 25 2.5.1.6 số Gini 25 Phân lớp Naive Bayes 26 2.5.2.1 Quy trình phân lớp 26 2.5.2.2 Phân lớp Naive Bayes gì? 27 2.5.2.3 Hoạt động phân lớp Naive Bayes 28 CHƯƠNG 3: THỰC NGHIỆM TRÊN DỮ LIỆU VIETINBANK 29 3.1 Khảo sát hoạt động tín dụng hệ thống Vietinbank 29 Tổng quan hoạt động tín dụng Vietinbank 29 Cáthuật toán dễ hiểu độ xác cao Naive Bayes thuộc vào nhóm Supervised Machine Learning Algorithms (học có giám sát), tức máy học từ ví dụ từ mẫu liệu có 3.12.3.1 Cấu hình tham số thuật tốn Naive Bayes Hình 3.12.12: Cấu hình tham số thuật toán Naive Bayes 50 Tiến hành chạy thuật tốn Hình 3.12.13: Kết chạy thuật tốn Naive Bayes Weka Thuật toán chạy lần với tỷ lệ tham số sau: L1 : Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 55% L2 : Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 66% L3 : Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 70% L4 : Sử dụng phân lớp Naive Bayes tập liệu tỷ lệ huấn luyện 85% L5 : Sử dụng phân lớp Naive Bayes tập liệu tỷ lệ huấn luyện 90% 51 Kết lần chạy: Tỷ lệ huấn Lần luyện/kiểm chạy thử Tổng số Tổng số ghi lớp Số mẫu Số mẫu Tỷ lệ phân lớp Phân lớp phân lớp sai Tỷ lệ phân lớp sai 55/45 29684 13358 9875 3483 73.9257 % 26.0743 % 66/34 29684 11874 8781 3093 73.9515 % 26.0485 % 70/30 29684 8905 6583 2322 73.9248 % 26.0752 % 85/15 29684 4453 3293 1160 73.9501 % 26.0499 % 90/10 29684 2968 2181 787 73.4838 % 26.5162 % Bảng 3: Thống kê lần chạy thực nghiệm phân lớp Naive Bayes Weka Biểu đồ kết lần chạy theo Tổng số phân lớp/Phân lớp đúng/Phân lớp sai 16000 14000 13358 11874 12000 10000 9875 8905 8781 8000 6583 6000 4453 3483 4000 3293 3093 2968 2322 2181 2000 1160 787 55/45 66/34 Tổng số lớp 70/30 Số mẫu phân lớp 85/15 Số mẫu Phân lớp sai Hình 3.12.14: Biểu đồ phân lớp Naïve Bayes 90/10 52 3.12.3.2 Đánh giá lần chạy thực nghiệm thuật toán Naive Bayes Tỷ lệ phân lớp 74.00% 73.93% 73.90% 73.95% 73.92% 73.95% 73.80% 73.70% 73.60% 73.50% 73.40% 73.30% 73.20% 73.48% 55/45 66/34 70/30 85/15 90/10 Hình 3.12.15: Biểu đồ tỷ lệ xác Navie Bayes Từ lần chạy thực nghiệm thực hiện, ta thấy lần chạy L2 đạt hiệu cao với tỷ lệ phân lớp 73,95 % Như chạy thực nghiệm liệu với tỷ lệ huấn luyện 66% Naive Bayes lựa chọn phù hợp 3.13 Đánh giá mơ hình So sánh kết lần chạy thuật toán Biểu đồ so sánh tỷ lệ phân lớp J48 & Navie bayes 84.00% 82.00% 82.00% 81.97% 81.90% 81.83% 73.93% 73.95% 73.92% 73.95% 81.44% 80.00% 78.00% 76.00% 74.00% 73.48% 72.00% 70.00% 68.00% 55/45 66/34 J48 70/30 Navie 85/15 90/10 Hình 3.13.1: Biểu đồ so sánh tỷ lệ phân lớp J48 & Navie bayes 53 Tất thí nghiệm tiến hành với liệu, từ lần chạy thực nghiệm J48 Naive Bayes Weka ta chọn tỷ lệ hợp lý cho thuật toán: + J48 lựa chọn tỷ lệ huấn luyện 82% + Naive Bayes chọn tỷ lệ huấn luyện 73,95% Từ lần chạy thử, nhận thấy tỉ lệ thực J48 ln cao Naive Bayes, thuật tốn J48 có hiệu phân lớp đạt 82,00 %, lớp sai 18,00 % Trong Naive Bayes lớp đạt 73,95 %, sai 26,15 % Như thuật toán J48 lựa chọn phù hợp & tỷ lệ liệu tập huấn phù hợp 55% Đánh giá lần chạy J48 đạt tỷ lệ phân lớp cao Lần chạy đạt tỷ lệ phân lớp cao nhất:  Giải thuật: J48  Tỷ lệ liệu huấn luyện: 55% Mơ hình định xây dựng:  Cây định kích cỡ: 63  Số lượng lá: 57 Bảng thông số kết chạy thuật tốn: Hình 3.13.2: kết lần chạy phù hợp J48 Ý nghĩa giá trị quan trọng:  TPrate (tỷ lệ mẫu tích cực - Positive): Cao ... ý tưởng nghiên cứu ứng dụng khai phá liệu việc cải tiến quy trình quản lý rủi ro tín dụng, đề tài ? ?KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG” đạt mục tiêu sau:... Neighbours) 1.6 Ứng dụng khai phá liệu 1.7 Đề tài khai phá liệu phân lớp rủi ro tín dụng 13 CHƯƠNG 2: BÀI TOÁN PHÂN LỚP DỰ BÁO RỦI RO TÍN DỤNG 14 2.1 Lý thuyết rủi ro tín dụng ... HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM TRUNG KIÊN KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG Ngành: Kỹ Thuật Phần Mềm Chuyên ngành: Kỹ Thuật Phần Mềm

Ngày đăng: 09/03/2021, 17:39

Mục lục

  • TÀI LIỆU THAM KHẢO 59

  • TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan