1. Trang chủ
  2. » Luận Văn - Báo Cáo

luận văn khai thác và phân tích dư liệu nhằm quản lý rủi ro: dựa trên dữ liệu viettinbank

64 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 64
Dung lượng 2,81 MB

Nội dung

MỤC LỤC LỜI CAM ĐOAN i LỜI CÁM ƠN ii DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC HÌNH VẼ vii GIỚI THIỆU CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu gì? 1.2 Lợi ích Khai phá liệu 1.3 Các bước khai phá liệu 1.4 Các kỹ thuật khai phá liệu Kỹ thuật phân lớp Kỹ thuật phân cụm Kỹ thuật phân tích luật kết hợp Kỹ thuật toán hồi quy Kỹ thuật dự đoán Kỹ thuật phân tích chuỗi Kỹ thuật phân tích độ lệch 1.5 Các thuật toán phân lớp Rừng ngẫu nhiên - Random Forest Hồi quy logistic - Logistic Regression Cây định - Decision tree Phân lớp sác xuất - Navie Bayes Máy véc-tơ hỗ trợ - Supper Vector Machine (SVM) Stochastic Gradient Descent Láng giềng gần – (K-Nearest Neighbours) 1.6 Ứng dụng khai phá liệu 1.7 Đề tài khai phá liệu phân lớp rủi ro tín dụng 13 CHƯƠNG 2: BÀI TỐN PHÂN LỚP DỰ BÁO RỦI RO TÍN DỤNG 14 2.1 Lý thuyết rủi ro tín dụng 14 Khái niệm rủi ro tín dụng 14 Những nguyên nhân phát sinh rủi ro tín dụng 14 Phân loại nhóm nợ 14 Điều kiện vay vốn 15 Căn xác định định mức cho vay 16 Đối tượng áp dụng 16 Mơ hình lượng hóa rủi ro tín dụng cho khách hàng cá nhân 16 2.2 Phát biểu toán 18 2.3 Quy trình phân lớp xây dựng mơ hình 19 2.4 Mơ hình phân lớp dự báo rủi ro 21 2.5 Lựa chọn nghiên cứu thuật toán 22 Phân lớp Cây định 22 2.5.1.1 Thuật toán định 22 2.5.1.2 Hoạt động thuật toán Cây định 23 2.5.1.3 Các biện pháp lựa chọn thuộc tính 24 2.5.1.4 Thơng tin đạt 24 2.5.1.5 Tỷ lệ tăng 25 2.5.1.6 số Gini 25 Phân lớp Naive Bayes 26 2.5.2.1 Quy trình phân lớp 26 2.5.2.2 Phân lớp Naive Bayes gì? 27 2.5.2.3 Hoạt động phân lớp Naive Bayes 28 CHƯƠNG 3: THỰC NGHIỆM TRÊN DỮ LIỆU VIETINBANK 29 3.1 Khảo sát hoạt động tín dụng hệ thống Vietinbank 29 Tổng quan hoạt động tín dụng Vietinbank 29 Các biện pháp quản trị nợ xấu áp dụng VietinBank 31 3.1.2.1 Hệ thống xếp hạng tín dụng: 31 3.1.2.2 Cơng tác dự báo nợ có khả chuyển xấu: 31 3.1.2.3 Những tồn tại, hạn chế 31 3.2 Mơ tả tốn áp dụng KPDL hỗ trợ quản lý rủi ro tín dụng 32 3.3 Mơ hình liệu Core Vietinbank 33 3.4 Môi trường 34 3.5 Thu thập liệu 34 3.6 Biến đổi liệu, tính tốn sinh bảng 35 3.7 Làm liệu 37 Giảm bớt liệu 37 3.8 Lựa chọn liệu 37 3.9 Tìm hiểu liệu 38 3.10 Lựa chọn thuật toán 39 3.11 Lựa chọn công cụ 39 3.12 Xây dựng mô hình phân lớp 40 Lựa chọn liệu & thuộc tính 40 Mơ hình Cây định J48 42 3.12.2.1 Xây dựng 42 3.12.2.2 Tham số thuật toán J48 Weka 46 3.12.2.3 Tham số liệu training 46 3.12.2.4 Thực nghiệm liệu với J48 Weka 47 3.12.2.5 Đánh giá lần chạy thực nghiệm với thuật toán J48 48 Phân lớp Naive Bayes 49 3.12.3.1 Cấu hình tham số thuật tốn Naive Bayes 49 3.12.3.2 Đánh giá lần chạy thực nghiệm thuật toán Naive Bayes 52 3.13 Đánh giá mơ hình 52 So sánh kết lần chạy thuật toán 52 Đánh giá lần chạy J48 đạt tỷ lệ phân lớp cao 53 Đánh giá lần chạy Navie đạt tỷ lệ liệu tập huấn 55% 54 3.14 Triển khai tích hợp hệ thống Khai phá liệu 55 CHƯƠNG 4: KẾT LUẬN 57 4.1 Các kết đạt 57 4.2 Mục tiêu tương lai 57 TÀI LIỆU THAM KHẢO 59 DANH MỤC CÁC TỪ VIẾT TẮT NHNN Ngân hàng nhà nước Việt Nam TMCP Thương mại cổ phần VietinBank Ngân hàng TMCP Công thương Việt Nam KPDL Khai phá liệu TSĐB Tài sản đảm bảo RRTD Rủi ro tín dụng HĐTD Hoạt động tín dụng DANH MỤC HÌNH VẼ Hình 1.3.1: Lợi ích Khai phá liệu Hình 1.3.1: Các bước khai phá liệu Hình 1.3.2: Các bước chuẩn bị data Hình 2.3.1: Phát biểu toán 18 Hình 2.4.1: Quy trình huấn luyện - training 20 Hình 2.4.2: Quy trình test liệu 21 Hình 2.4.3: Quy trình áp dụng mơ hình 21 Hình 2.5.1: Mơ hình phân lớp dự báo rủi ro 21 Hình 2.6.1: Cây định 23 Hình 2.6.2: luồng hoạt động định 24 Hình 2.6.3: Quy trình phân lớp 27 Hình 3.1.1: Tổng dư nợ VietinBank từ 2013 – 2017 29 Hình 3.1.2: Cơ cấu tín dụng VietinBank theo kỳ hạn từ 2012 - 2017 30 Hình 3.1.3: So sánh tiêu tín dụng, huy động, lợi nhuận, nợ xấu 30 Hình 3.1.4: Biểu đồ kiểm sốt nợ xấu giai đoạn 2010 đến 2017 30 Hình 3.3.1: Mơ hình datawarehouse Vietinbank 33 Hình 3.4.1: Mơi trường thực nghiệm 34 Hình 3.5.1: Mơ hình thu thập liệu 34 Hình 3.8.1: Lựa chọn liệu 37 Hình 3.9.1: Biểu diễn liệu 39 Hình 3.12.2: Đặt khoảng cho thuộc tính định mức vay 41 Hình 3.12.3: Đặt khoảng cho thuộc tính định mức vay 41 Hình 3.12.4: Đặt khoảng cho thuộc tính Tuổi 42 Hình 3.12.5: Chọn cơng cụ chạy bảng độ lợi thông tin Weka 43 Hình 3.12.6: Bảng độ lợi thơng tin Weka 43 Hình 3.12.7: Biểu đồ Gain – độ lợi thông tin 44 Hình 3.12.8: Hướng dẫn vào hình tham số J48 Weka 46 Hình 3.12.9: Hướng dẫn cấu hình tham số xuất liệu Weka 46 Hình 3.12.11: Biểu đồ xác suất J48 48 Hình 3.12.12: Cấu hình tham số thuật toán Naive Bayes 49 Hình 3.12.13: Kết chạy thuật tốn Naive Bayes Weka 50 Hình 3.12.14: Biểu đồ phân lớp Naïve Bayes 51 Hình 3.12.15: Biểu đồ tỷ lệ xác Navie Bayes 52 Hình 3.13.1: Biểu đồ so sánh tỷ lệ phân lớp J48 & Navie bayes 52 Hình 3.13.2: kết lần chạy phù hợp J48 53 Hình 3.13.3: kết lần chạy phù hợp Navie Bayes 55 Hình 3.14.1: Màn hình login 3600 55 Hình 3.14.2: Màn hình giao diện 56 Hình 3.14.3: Màn hình kết 56 GIỚI THIỆU Hoạt động tín dụng (HĐTD) ngành ngân hàng đặc biệt quan trọng việc đánh giá phân loại rủi ro nhiệm vụ hàng đầu quản trị vận hành Vì lẽ nên hầu hết ngân hàng giới nói chung Việt Nam nói riêng có hệ thống hỗ trợ việc phân loại & đánh giá rủi ro Hiện ngân hàng hầu hết sử dụng mơ hình chấm điểm tín dụng để hỗ trợ đánh giá rủi ro xếp hạng tín dụng, để từ làm sở có định cho khách hàng vay hay không Các ngân hàng khác khác cấu trúc & cách vận hành hệ thống xếp hạng tín dụng, ví dụ như: cấu trọng số tiêu, ước tính mức rủi ro gắn liền với mức xếp hạng, số lượng mức xếp hạng, hay sách khách hàng, sách tín dụng áp dụng v.v [6] Hầu hết Ngân hàng sử dụng bảng tiêu (bảng danh sách thang điểm tín dụng ứng với thơng tin hồ sơ khách hàng, như: thu nhập, nghề nghiệp, tài sản chấp…) dùng để tổng hợp chấm điểm tín dụng khách hàng, thang điểm tốt khách hàng tiếp cận với khoản vay tương ứng Từ thực tế cho thấy, quy trình xét duyệt cho vay gặp phải nhiều vấn đề như:  Chất lượng thẩm định tín dụng phụ thuộc vào trình độ phân tích, chủ quan đánh giá cán tín dụng  Các NHTM sử dụng mơ hình phải bỏ nhiều nguồn lực & thời gian để thẩm định thông tin khách hàng, địi hỏi cán tín dụng phải có tính chun nghiệp, có thâm niên, kỹ  Đặc biệt mơ hình chấm điểm chưa có khả dự báo rủi ro mà đánh giá phần rủi ro nhờ điểm xếp hạng (dựa thơng tin có hệ thống) Tác giả công tác Ngân hàng TMCP Vietinbank với vị trí cơng việc cán IT có trách nhiệm hỗ trợ module nghiệp vụ có module Tín dụng Từ hạn chế mơ hình chấm điểm xếp hạng tín dụng phụ thuộc vào yếu tố con người, với mong muốn đề xuất giải pháp cải tiến hoạt động quản lý rủi ro tín dụng Vậy nên, tác giả xin đề xuất hướng nghiên cứu luận văn là: Ứng dụng khai phá liệu nhằm hỗ trợ đánh giá dự đốn phân loại rủi ro tín dụng khoản vay Với mục tiêu xây dựng mơ hình phân lớp làm sở tri thức để dự đoán phân loại nợ tốt/xấu với tập khách hàng mới, phạm vi toán khuôn khổ luận văn tập trung vào mảng nghiệp vụ “Cho vay tín dụng với khách hàng cá nhân” Luận văn tổ chức thành chương gồm: Chương 1: Trình bày tổng quan khai phá liệu, bước quy trình khai phá liệu phương pháp khai phá liệu Các ứng dụng phổ biến khai phá liệu Chương 2: Nghiên cứu quy trình quản lý hoạt động rủi ro tín dụng Ngân hàng Từ hạn chế thực tế vận hành quy trình quản lý rủi ro tín dụng, tác giả đề xuất xây dựng mơ hình quản lý rủi ro phương pháp khai phá liệu Mơ hình đáp ứng sở tri thức để hỗ trợ công tác quản lý rủi ro phương diện: Phân loại rủi ro & dự đốn rủi ro Và từ tính chất liệu cho vay, tác giả chọn tìm hiểu chi tiết thuật toán dùng để áp dụng là: Cây định, Navie Bayes Chương 3: ứng dụng nghiên cứu liệu thực nghiệm Ngân hàng Vietinbank Trong chương tác giả thực nội dung:  Thu thập liệu  Phân tích liệu  Xây dựng mơ hình phân lớp dự báo rủi ro  Tích hợp Module Khai phá liệu hệ thống Khảo sát tín dụng 3600 Ngân hàng Vietinbank Chương 4: Tóm tắt kết chưa đạt được, từ đưa mục tiêu hướng tiếp cận tương lai CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu gì? Khai phá liệu trình phân lớp, xếp tập hợp liệu lớn để xác định mẫu thiết lập mối liên hệ nhằm giải vấn đề nhờ phân tích liệu Các cơng cụ khai phá liệu cho phép doanh nghiệp dự đốn xu hướng tương lai [1][2] 1.2 Lợi ích Khai phá liệu Lợi ích Khai phá liệu nằm khả phát mẫu mối liên hệ tiềm ẩn sở liệu Hay nói cách khác giúp ta làm chủ kho liệu lớn, mơ hình tri thức xây dựng dựa nguồn liệu có sẵn, Khai phá liệu đem lại nhiều giá trị như:  Lịch sử bán hàng hành vi khách hàng sử dụng để xây dựng mơ hình dự báo doanh số, sản phẩm dịch vụ cho tương lai  Các cơng ty ngành tài sử dụng công cụ Khai phá liệu để xây dựng mơ hình phát rủi ro gian lận  Trong Lĩnh vực sản xuất công nghiệp sử dụng Khai phá liệu việc cải thiện an toàn sản phẩm, xác định vấn đề chất lượng, quản lý chuỗi cung ứng cải thiện hoạt động vận hành sản xuất Hình 1.3.1: Lợi ích Khai phá liệu 1.3 Các bước khai phá liệu Dữ liệu thực tế Tìm hiểu nghiệp vụ Tập hợp liệu Tìm hiểu liệu Triển khai Chuẩn bị liệu Làm liệu Xây dựng mơ hình Chuyển đổi liệu Chọn lọc liệu Kiểm thử & Đánh giá mơ hình Dữ liệu dùng để Khai phá Hình 1.3.1: Các bước khai phá liệu Bước 1: Tìm hiểu nghiệp vụ - Business Understanding Bước 2: Tìm hiểu liệu - Data Understanding Bước 3: Chuẩn bị liệu - Data preparation Việc chuẩn bị liệu bao gồm bước Dữ liệu thực tế Tập hợp liệu Làm liệu Chuyển đổi liệu Chọn lọc liệu Dữ liệu dùng để Khai phá Hình 1.3.2: Các bước chuẩn bị data Bước 4: Xây dựng mơ hình hóa - Model Building Bước 5: Kiểm thử đánh giá mơ hình - Testing and Evaluation 44 cắt tỉa tạo gốc, cành, dựa vào giá trị cột Gain Ratio (độ lợi thông tin) từ cao xuống thấp sau: Bảng 1: Bảng độ lợi thông tin Gain Ratio Thuộc Tính 0.0149 NGHE_NGHIEP 0.01335 VI_TRI_CONG_TAC 0.00721 DINH_MUC_DUOC_VAY 0.00368 GT_DAM_BAO 0.00282 MUC_DICH_VAY 0.00219 TUOI 0.00203 THOI_HAN_KHOAN_VAY 0.00194 T_THAI_CU_TRU 0.00122 TT_HON_NHAN 10 10 XEP_LOAI_KHACH_HANG 11 11 THU_NHAP_CO_DINH 0.016 0.0149 0.014 0.01335 0.012 0.01 0.008 0.00721 0.006 0.004 0.00368 0.00282 0.002 0.00219 0.00203 0.00194 0.00122 0 Gain Ratio Thuộc Tính Hình 3.12.7: Biểu đồ Gain – độ lợi thông tin 10 11 45 Chỉ số Gain tính dựa thuật tốn sau: a Tính Entropy liệu phân lớp H(S) = − ∑ P(c) log P(c) c∈C C={Tốt, Xấu}, Tốt: 23526 ghi, Xấu: 6158 ghi P(c) – tỷ số thuộc tính theo phân lớp tổng số ghi Áp dụng công thức H(S) = − 23526 23526 6158 6158 ∗ log − ∗ log = 0.73658 29684 29684 29684 29684 b Tính information Gain & Entropy cho thuộc tính đặc trưng Tính Entropy chi tiết cho Dữ liệu đặc trưng Thuộc tính Mariage {DaKetHon, ChuaKetHon= 8160}  DaKetHon= 21524(Tot: 17264, Xau: 4260)  ChuaKetHon= 8160(Tot: 6262, Xau: 1898) 17264 17264 4260 4260 E(DaKetHon) = − ∗ log − ∗ log = 0.71774 21524 21524 21524 21524 H(S, Mariage) = { 6262 6262 1898 1898 E(ChuaKetHon) = − ∗ log − ∗ log = 0.78251 8160 8160 8160 8160 Tính trung bình Entropy cho thuộc tính Mariage (Tình trạng kết hôn) I(A) = H(T) = ∑ P(t) ∗ H(t) t ∈T I(Mariage) = 21524 8160 ∗ 0.71774 + ∗ 0.78251 = 0.73554 29684 29684 c Tính số Gain Gain(A) = H(S) – I(A) Gain(Mariage) = 0.73658 – 0.73536 = 0.00122 d Lặp lại bước b & c để thực tính hết số Gain cho tất thuộc tính đặc trưng 46 3.12.2.2 Tham số thuật tốn J48 Weka Hình 3.12.8: Hướng dẫn vào hình tham số J48 Weka Bảng ý nghĩa tham số J48 Weka 3.8.0 Tham số Mơ tả Có sử dụng phân tích nhị phân thuộc tính binarySplits nominal xây dựng hay khơng? reducedErrorPruning Có xem tỉa giảm bớt lỗi sử dụng thay xén tỉa C4.5 Debug Nếu thiết lập true, phân lớp xảy thơng tin bổ sung tới hình console minNumObj Số lượng nhỏ thể nút numFolds Xác định rõ lượng liệu sử dụng cho việc giảm bớt lỗi xén tỉa Mỗi fold sử dụng cho việc xén tỉa, phần lại sử dụng cho việc phát triển confidenceFactor Mức tin tưởng để định xem có xén tỉa hay khơng? Với liệu đầu vào cho thực nghiệm chấp nhận giá trị mặc định bên trên, ngoại trừ thuộc tính saveInstanceData đổi thành true (cho phép tìm thấy mẫu phân loại sau xây dựng xong) 3.12.2.3 Tham số liệu training Hình 3.12.9: Hướng dẫn cấu hình tham số xuất liệu Weka 47 Thuộc tính Percentage split: Tỷ lệ phân chia cho biết số mẫu chọn cho tập huấn luyện (training set) số mẫu chọn cho tập kiểm tra (test set) Ví dụ: Percentage split = 66% nghĩa 66% mẫu dùng tập huấn luyện 34% mẫu dùng kiểm tra 3.12.2.4 Thực nghiệm liệu với J48 Weka Dữ liệu thực nghiệm chia thành phần, huấn luyện kiểm thử Tiến hành dùng liệu huấn luyện để tạo mẫu, dùng liệu kiểm thử để dự đoán xác định kết Tốt, Xấu Thực nghiệm tiến hành 05 lần với tỷ lệ sau: L1 : Sử dụng J48 cắt tỉa tập liệu với tỷ lệ huấn luyện 55% L2 : Sử dụng J48 cắt tỉa tập liệu với tỷ lệ huấn luyện 66% (giá trị mặc định Weka) L3 : Sử dụng J48 cắt tỉa tập liệu với tỷ lệ huấn luyện 70% L4 : Sử dụng J48 cắt tỉa tập liệu tỷ lệ huấn luyện 85% L5 : Sử dụng J48 cắt tỉa tập liệu tỷ lệ huấn luyện 90% Kết lần chạy ta có bảng sau: Bảng 2: Thống kê lần chạy thực nghiệm với J48 Weka Lần chạy Tỷ lệ huấn luyện/kiểm thử 55/45 66/34 70/30 85/15 90/10 Tổng số ghi 29684 29684 29684 29684 29684 Tổng số lớp 13358 10093 8905 4453 2968 Số mẫu phân lớp 10954 8273 7293 3644 2417 Số mẫu Phân lớp sai 2404 1820 1612 809 551 Tỷ lệ phân lớp Tỷ lệ phân lớp sai 82.0033 % 81.9677 % 81.8978 % 81.8325 % 81.4353 % 17.9967 % 18.0323 % 18.1022 % 18.1675 % 18.5647 % 48 Biểu đồ thực nghiệm theo Số phân lớp/Phân lớp đúng/Phân lớp sai: 16000 14000 12000 13358 10000 10954 10093 8000 8905 8273 7293 6000 4000 4453 3644 2000 2968 2404 1820 1612 2417 809 551 55/45 66/34 Tổng số lớp 70/30 Số mẫu phân lớp 85/15 90/10 Số mẫu Phân lớp sai Hình 3.12.10: Biểu đồ phân lớp J48 3.12.2.5 Đánh giá lần chạy thực nghiệm với thuật toán J48 Tỷ lệ phân lớp 82.10% 82.00% 81.90% 81.80% 81.70% 81.60% 81.50% 81.40% 81.30% 81.20% 81.10% 82.00% 81.97% 81.90% 81.83% 81.44% 55/45 66/34 70/30 85/15 90/10 Hình 3.12.11: Biểu đồ xác suất J48 49 Từ lần chạy thực nghiệm thực hiện, lần chạy L1 đạt hiệu phân lớp 82.0000 % cao lần thử Như lần chạy L2 với tỷ lệ huấn luyện 55% lựa chọn phù hợp Phân lớp Naive Bayes Phân lớp Naive Bayes (Naive Bayes Classification) thuật toán dựa lý thuyết xác suất để đưa phán đoán phân loại liệu dựa liệu quan sát thống kê Thuật toán Naive Bayes ứng dụng nhiều lĩnh vực Machine Learning, dùng để đưa dự đốn xác dự tập liệu thu thập, thuật tốn dễ hiểu độ xác cao Naive Bayes thuộc vào nhóm Supervised Machine Learning Algorithms (học có giám sát), tức máy học từ ví dụ từ mẫu liệu có 3.12.3.1 Cấu hình tham số thuật tốn Naive Bayes Hình 3.12.12: Cấu hình tham số thuật tốn Naive Bayes 50 Tiến hành chạy thuật tốn Hình 3.12.13: Kết chạy thuật toán Naive Bayes Weka Thuật toán chạy lần với tỷ lệ tham số sau: L1 : Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 55% L2 : Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 66% L3 : Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 70% L4 : Sử dụng phân lớp Naive Bayes tập liệu tỷ lệ huấn luyện 85% L5 : Sử dụng phân lớp Naive Bayes tập liệu tỷ lệ huấn luyện 90% 51 Kết lần chạy: Tỷ lệ huấn Lần luyện/kiểm chạy thử Tổng số Tổng số ghi lớp Số mẫu Số mẫu Tỷ lệ phân lớp Phân lớp phân lớp sai Tỷ lệ phân lớp sai 55/45 29684 13358 9875 3483 73.9257 % 26.0743 % 66/34 29684 11874 8781 3093 73.9515 % 26.0485 % 70/30 29684 8905 6583 2322 73.9248 % 26.0752 % 85/15 29684 4453 3293 1160 73.9501 % 26.0499 % 90/10 29684 2968 2181 787 73.4838 % 26.5162 % Bảng 3: Thống kê lần chạy thực nghiệm phân lớp Naive Bayes Weka Biểu đồ kết lần chạy theo Tổng số phân lớp/Phân lớp đúng/Phân lớp sai 16000 14000 13358 11874 12000 10000 9875 8905 8781 8000 6583 6000 4453 3483 4000 3293 3093 2968 2322 2181 2000 1160 787 55/45 66/34 Tổng số lớp 70/30 Số mẫu phân lớp 85/15 Số mẫu Phân lớp sai Hình 3.12.14: Biểu đồ phân lớp Naïve Bayes 90/10 52 3.12.3.2 Đánh giá lần chạy thực nghiệm thuật toán Naive Bayes Tỷ lệ phân lớp 74.00% 73.93% 73.90% 73.95% 73.92% 73.95% 73.80% 73.70% 73.60% 73.50% 73.40% 73.30% 73.20% 73.48% 55/45 66/34 70/30 85/15 90/10 Hình 3.12.15: Biểu đồ tỷ lệ xác Navie Bayes Từ lần chạy thực nghiệm thực hiện, ta thấy lần chạy L2 đạt hiệu cao với tỷ lệ phân lớp 73,95 % Như chạy thực nghiệm liệu với tỷ lệ huấn luyện 66% Naive Bayes lựa chọn phù hợp 3.13 Đánh giá mơ hình So sánh kết lần chạy thuật toán Biểu đồ so sánh tỷ lệ phân lớp J48 & Navie bayes 84.00% 82.00% 82.00% 81.97% 81.90% 81.83% 73.93% 73.95% 73.92% 73.95% 81.44% 80.00% 78.00% 76.00% 74.00% 73.48% 72.00% 70.00% 68.00% 55/45 66/34 J48 70/30 Navie 85/15 90/10 Hình 3.13.1: Biểu đồ so sánh tỷ lệ phân lớp J48 & Navie bayes 53 Tất thí nghiệm tiến hành với liệu, từ lần chạy thực nghiệm J48 Naive Bayes Weka ta chọn tỷ lệ hợp lý cho thuật toán: + J48 lựa chọn tỷ lệ huấn luyện 82% + Naive Bayes chọn tỷ lệ huấn luyện 73,95% Từ lần chạy thử, nhận thấy tỉ lệ thực J48 cao Naive Bayes, thuật tốn J48 có hiệu phân lớp đạt 82,00 %, lớp sai 18,00 % Trong Naive Bayes lớp đạt 73,95 %, sai 26,15 % Như thuật toán J48 lựa chọn phù hợp & tỷ lệ liệu tập huấn phù hợp 55% Đánh giá lần chạy J48 đạt tỷ lệ phân lớp cao Lần chạy đạt tỷ lệ phân lớp cao nhất:  Giải thuật: J48  Tỷ lệ liệu huấn luyện: 55% Mơ hình định xây dựng:  Cây định kích cỡ: 63  Số lượng lá: 57 Bảng thơng số kết chạy thuật tốn: Hình 3.13.2: kết lần chạy phù hợp J48 Ý nghĩa giá trị quan trọng:  TPrate (tỷ lệ mẫu tích cực - Positive): Cao 54 TP=TP/(TP+FN) Example: TP(a)=291/(291+ 1820)=0.138  FPrate (tỷ lệ mẫu tích cực sai): Thấp FP=FP/(FP + TN) Example: FP(a)=0/(0+7982)=0 FP(b)=1820/(1820 + 291)=0.862  Precision (Giá trị dự đốn mẫu tích cực đúng): Cao Precision= TP / (TP + FP)  Recall (Giá trị biểu diễn tỷ lệ mẫu cần thực lại): Cao  F- measure: Biểu diễn trung bình điều hịa recall precision F-measure = 2TP / (2TP + FP + FN)  Confusion Matrix - Ma trận nhầm lẫn: Dây ma trận vng với kích thước chiều số lượng lớp liệu (Giá trị hàng thứ 2, cột thứ a số lượng điểm lẽ thuộc vào lớp a lại dự đoán thuộc vào lớp b) Nhìn vào bảng ma trận trên, ta thấy liệu thu thập dịng b (Xấu) cột a (Tốt) có 04 lớp có khả nghi xếp nhầm Đánh giá lần chạy Navie đạt tỷ lệ liệu tập huấn 55% Lần chạy đạt tỷ lệ phân lớp cao nhất:  Giải thuật: Navie bayes  Tỷ lệ liệu huấn luyện: 55% 55 Bảng thơng số kết chạy thuật tốn Hình 3.13.3: kết lần chạy phù hợp Navie Bayes 3.14 Triển khai tích hợp hệ thống Khai phá liệu Weka ngồi cung cấp ứng dụng chạy độc lập, cịn cung cấp API để doanh nghiệp tích hợp vào ứng dụng Trong luận văn này, tác giả thực nghiệm tích hợp Weka API vào hệ thống Portal: “Khảo sát tín dụng 360o” Ngân hàng Vietinbank Màn hình chức Hình 3.14.1: Màn hình login 3600 56 Màn hình giao diện Hình 3.14.2: Màn hình giao diện Màn hình kết chạy với J48 Hình 3.14.3: Màn hình kết 57 CHƯƠNG 4: KẾT LUẬN 4.1 Các kết đạt Với ý tưởng nghiên cứu ứng dụng khai phá liệu việc cải tiến quy trình quản lý rủi ro tín dụng, đề tài “KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG” đạt mục tiêu sau: Luận văn trình bày kiến thức tổng quan đánh giá rủi ro tín dụng ngân hàng VietinBank Làm rõ tầm quan trọng việc không ngừng nâng cao ứng dụng công nghệ công tác đánh giá rủi ro tín dụng nhằm tăng tính ổn định hiệu hoạt động VietinBank Đề tài làm rõ thực trạng cơng tác đánh giá rủi ro tín dụng khách hàng cá nhân ngân hàng VietinBank, qua thấy điểm cịn hạn chế đề xuất giải pháp phù hợp Đề tài hệ thống hóa sở lý thuyết khai phá liệu phân tích tổng hợp nghiên cứu liên quan nhằm lựa chọn kỹ thuật quy trình khai phá liệu phù hợp áp dụng cho đề tài Bên cạnh bước đầu xây dựng module “Khai phá liệu” tích hợp vào hệ thống Khảo sát tín dụng 3600 Ngân hàng Vietinbank 4.2 Mục tiêu tương lai Với nhiều ứng dụng thực tế khai phá liệu ngành tài ngân hàng, đặc biệt phân tích dự báo rủi ro tín dụng Với thời gian có hạn luận văn nghiên cứu thực nghiệm thuật tốn, u cầu với tốn tương lai áp dụng thuật toán khác hồi quy dự báo, áp dụng mạng noron xây dựng mơ hình dự báo… Với ứng dụng rộng rãi khai phá liệu ngành tài ngân hàng trình bày cịn nhiều tốn tìm hiểu nghiên cứu thêm tương lai như: Bài toán bán chéo sản phẩm tín dụng, rủi ro giao dịch ngân hàng điện tử, mua bán nợ, dự đoán xu hướng giao dịch chứng khoán phái sinh kết nối qua ngân hàng v.v 58 TÀI LIỆU THAM KHẢO [1] Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Khai phá liệu Web, Nhà xuất Giáo dục, 2009 [2] PGS.TS Hà Quang Thụy, Bài giảng Khai phá liệu, Đại học Công Nghệ-Đại Học Quốc gia Hà Nội [3] Tài liệu lưu hành nội bộ, 2016 - Sổ tay nghiệp vụ rủi ro VietinBank [4] Tài liệu lưu hành nội bộ, 2016 - Quy định Rủi ro tín dụng VietinBank [5] Báo cáo quản trị tài Vietinbank 2016 [6] Phí Trọng Hiển, 2005 Ngân hàng nhà nước Việt Nam- Quản trị rủi ro ngân hàng: Cơ sở lý thuyết, thách thức thực tiễn giải pháp cho hệ thống ngân hàng thương mại Việt Nam [7] John Ross Quinlan, 1993 Chương trình học máy, nhà xuất Morgan Kaufmann [8] Jiawei Han Micheline Kamber, 2012 Khái niệm kỹ thuật khai phá liệu, ấn thứ ba, nhà xuất ed Elsevier Inc [9] WILLIAM W COOPER - DATA ENVELOPMENT ANALYSIS - A Comprehensive Text with Models, Applications, References and DEA-Solver Software [10].Ron Kohavi, J Ross Quinlan, Decision Tree Discovery, 1999 [11] A complete guide to dealing with Big Data using MongoDB [12] BigData in Complex Systems Challenges and Opportunities [13] Ivan Idris - Python Data Analysis [14] Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques, Second Edition

Ngày đăng: 15/01/2023, 14:54

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w