Luận văn thạc sĩ công nghệ thông tin phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản và word2vec

68 0 0
Luận văn thạc sĩ công nghệ thông tin phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản và word2vec

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ận Lu PHẠM TRUNG KIÊN n vă th ạc KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM sĩ QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG ng Cơ hệ ng ơn th LUẬN VĂN THẠC SĨ CƠNG NGHỆ THÔNG TIN g tin Hà Nội – 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM TRUNG KIÊN ận Lu vă KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM n ạc th QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG sĩ Cơ Ngành: Kỹ Thuật Phần Mềm Chuyên ngành: Kỹ Thuật Phần Mềm ng Mã số: 8480103.01 hệ ng ôn th LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN g tin NGƯỜI HƯỚNG DẪN KHOA HỌC: TS TRẦN TRỌNG HIẾU Hà Nội – 2019 LỜI CAM ĐOAN Tôi xin cam đoan nghiên với đề tài “Khai thác phân tích liệu nhằm quản lý rủi ro giao dịch tín dụng” trình bày luận văn cơng trình nghiên cứu riêng hướng dẫn thầy giáo TS Trần Trọng Hiếu, không chép lại người khác Tất nguồn tài liệu tham khảo, cơng trình nghiên cứu liên quan trích dẫn cụ thể ận Lu Tơi xin chịu hồn tồn trách nhiệm có phát chép mà khơng có trích dẫn tài liệu tham khảo n vă ạc th sĩ ng Cô hệ ng g ôn th tin LỜI CÁM ƠN Em xin chân thành cám ơn thầy giáo TS Trần Trọng Hiếu người nhiệt tình hướng dẫn, bảo suốt q trình hồn thành luận văn giai đoạn bắt đầu xây dựng đề cương xác định hướng nghiên cứu luận văn Em xin chân thành cám ơn tồn thể q thầy Khoa CNTT tận tình truyền đạt kiến thức quý báu tạo điều kiện thuận lợi cho em trình học tập nghiên cứu ận Lu Tôi xin chân thành cám ơn ban lãnh đạo, đồng nghiệp Trung tâm Công nghệ Thông tin – Ngân hàng Vietinbank tạo nhiều điều kiện cho việc nghiên cứu thực luận văn vă n Xin chân thành cảm ơn gia đình, học viên lớp Cao học K22 hỗ trợ cho tơi nhiều suốt q trình học tập, nghiên cứu thực đề tài luận văn thạc sĩ cách hồn chỉnh ạc th Tơi xin cám ơn đề tài cấp Đại học Quốc Gia Hà Nội mã số: QG.19.23 sĩ ng Cô Hà Nội, ngày tháng năm 2019 Tác giả luận văn hệ ng th Phạm Trung Kiên g ôn tin MỤC LỤC LỜI CAM ĐOAN i LỜI CÁM ƠN ii DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC HÌNH VẼ vii GIỚI THIỆU CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU Lu 1.1 Khai phá liệu gì? ận 1.2 Lợi ích Khai phá liệu vă 1.3 Các bước khai phá liệu n 1.4 Các kỹ thuật khai phá liệu th Kỹ thuật phân lớp ạc Kỹ thuật phân cụm sĩ Kỹ thuật phân tích luật kết hợp Cơ Kỹ thuật tốn hồi quy Kỹ thuật dự đoán ng Kỹ thuật phân tích chuỗi ng Kỹ thuật phân tích độ lệch hệ 1.5 Các thuật toán phân lớp Rừng ngẫu nhiên - Random Forest th ôn Hồi quy logistic - Logistic Regression Cây định - Decision tree g tin Phân lớp sác xuất - Navie Bayes Máy véc-tơ hỗ trợ - Supper Vector Machine (SVM) Stochastic Gradient Descent Láng giềng gần – (K-Nearest Neighbours) 1.6 Ứng dụng khai phá liệu 1.7 Đề tài khai phá liệu phân lớp rủi ro tín dụng 13 CHƯƠNG 2: BÀI TỐN PHÂN LỚP DỰ BÁO RỦI RO TÍN DỤNG 14 2.1 Lý thuyết rủi ro tín dụng 14 Khái niệm rủi ro tín dụng 14 Những nguyên nhân phát sinh rủi ro tín dụng 14 Phân loại nhóm nợ 14 Điều kiện vay vốn 15 Căn xác định định mức cho vay 16 Đối tượng áp dụng 16 Mơ hình lượng hóa rủi ro tín dụng cho khách hàng cá nhân 16 2.2 Phát biểu toán 18 2.3 Quy trình phân lớp xây dựng mơ hình 19 Lu 2.4 Mô hình phân lớp dự báo rủi ro 21 ận 2.5 Lựa chọn nghiên cứu thuật toán 22 vă Phân lớp Cây định 22 n 2.5.1.1 Thuật toán định 22 th 2.5.1.2 Hoạt động thuật toán Cây định 23 ạc 2.5.1.3 Các biện pháp lựa chọn thuộc tính 24 sĩ 2.5.1.4 Thông tin đạt 24 Cô 2.5.1.5 Tỷ lệ tăng 25 ng 2.5.1.6 số Gini 25 Phân lớp Naive Bayes 26 ng 2.5.2.1 Quy trình phân lớp 26 hệ 2.5.2.2 Phân lớp Naive Bayes gì? 27 th 2.5.2.3 Hoạt động phân lớp Naive Bayes 28 ôn CHƯƠNG 3: THỰC NGHIỆM TRÊN DỮ LIỆU VIETINBANK 29 g 3.1 Khảo sát hoạt động tín dụng hệ thống Vietinbank 29 tin Tổng quan hoạt động tín dụng Vietinbank 29 Các biện pháp quản trị nợ xấu áp dụng VietinBank 31 3.1.2.1 Hệ thống xếp hạng tín dụng: 31 3.1.2.2 Công tác dự báo nợ có khả chuyển xấu: 31 3.1.2.3 Những tồn tại, hạn chế 31 3.2 Mô tả toán áp dụng KPDL hỗ trợ quản lý rủi ro tín dụng 32 3.3 Mơ hình liệu Core Vietinbank 33 3.4 Môi trường 34 3.5 Thu thập liệu 34 3.6 Biến đổi liệu, tính tốn sinh bảng 35 3.7 Làm liệu 37 Giảm bớt liệu 37 3.8 Lựa chọn liệu 37 3.9 Tìm hiểu liệu 38 3.10 Lựa chọn thuật toán 39 3.11 Lựa chọn công cụ 39 3.12 Xây dựng mơ hình phân lớp 40 Mơ hình Cây định J48 42 ận Lu Lựa chọn liệu & thuộc tính 40 vă 3.12.2.1 Xây dựng 42 n 3.12.2.2 Tham số thuật toán J48 Weka 46 th 3.12.2.3 Tham số liệu training 46 ạc 3.12.2.4 Thực nghiệm liệu với J48 Weka 47 sĩ 3.12.2.5 Đánh giá lần chạy thực nghiệm với thuật tốn J48 48 Cơ Phân lớp Naive Bayes 49 ng 3.12.3.1 Cấu hình tham số thuật tốn Naive Bayes 49 3.12.3.2 Đánh giá lần chạy thực nghiệm thuật toán Naive Bayes 52 ng 3.13 Đánh giá mơ hình 52 hệ So sánh kết lần chạy thuật toán 52 th Đánh giá lần chạy J48 đạt tỷ lệ phân lớp cao 53 Triển khai tích hợp hệ thống Khai phá liệu 55 g 3.14 ôn Đánh giá lần chạy Navie đạt tỷ lệ liệu tập huấn 55% 54 tin CHƯƠNG 4: KẾT LUẬN 57 4.1 Các kết đạt 57 4.2 Mục tiêu tương lai 57 TÀI LIỆU THAM KHẢO 59 DANH MỤC CÁC TỪ VIẾT TẮT Ngân hàng nhà nước Việt Nam TMCP Thương mại cổ phần VietinBank Ngân hàng TMCP Công thương Việt Nam KPDL Khai phá liệu TSĐB Tài sản đảm bảo RRTD Rủi ro tín dụng HĐTD Hoạt động tín dụng ận Lu NHNN n vă ạc th sĩ ng Cô hệ ng g ơn th tin DANH MỤC HÌNH VẼ Hình 1.3.1: Lợi ích Khai phá liệu Hình 1.3.1: Các bước khai phá liệu Hình 1.3.2: Các bước chuẩn bị data Hình 2.3.1: Phát biểu tốn 18 Hình 2.4.1: Quy trình huấn luyện - training 20 Lu Hình 2.4.2: Quy trình test liệu 21 ận Hình 2.4.3: Quy trình áp dụng mơ hình 21 Hình 2.5.1: Mơ hình phân lớp dự báo rủi ro 21 vă Hình 2.6.1: Cây định 23 n th Hình 2.6.2: luồng hoạt động định 24 ạc Hình 2.6.3: Quy trình phân lớp 27 sĩ Hình 3.1.1: Tổng dư nợ VietinBank từ 2013 – 2017 29 Cơ Hình 3.1.2: Cơ cấu tín dụng VietinBank theo kỳ hạn từ 2012 - 2017 30 ng Hình 3.1.3: So sánh tiêu tín dụng, huy động, lợi nhuận, nợ xấu 30 Hình 3.1.4: Biểu đồ kiểm soát nợ xấu giai đoạn 2010 đến 2017 30 ng Hình 3.3.1: Mơ hình datawarehouse Vietinbank 33 hệ Hình 3.4.1: Mơi trường thực nghiệm 34 th Hình 3.5.1: Mơ hình thu thập liệu 34 ôn Hình 3.8.1: Lựa chọn liệu 37 g Hình 3.9.1: Biểu diễn liệu 39 tin Hình 3.12.2: Đặt khoảng cho thuộc tính định mức vay 41 Hình 3.12.3: Đặt khoảng cho thuộc tính định mức vay 41 Hình 3.12.4: Đặt khoảng cho thuộc tính Tuổi 42 Hình 3.12.5: Chọn cơng cụ chạy bảng độ lợi thông tin Weka 43 Hình 3.12.6: Bảng độ lợi thơng tin Weka 43 Hình 3.12.7: Biểu đồ Gain – độ lợi thông tin 44 Hình 3.12.8: Hướng dẫn vào hình tham số J48 Weka 46 Hình 3.12.9: Hướng dẫn cấu hình tham số xuất liệu Weka 46 Hình 3.12.11: Biểu đồ xác suất J48 48 Hình 3.12.12: Cấu hình tham số thuật toán Naive Bayes 49 Hình 3.12.13: Kết chạy thuật tốn Naive Bayes Weka 50 Hình 3.12.14: Biểu đồ phân lớp Naïve Bayes 51 Hình 3.12.15: Biểu đồ tỷ lệ xác Navie Bayes 52 Hình 3.13.1: Biểu đồ so sánh tỷ lệ phân lớp J48 & Navie bayes 52 Hình 3.13.2: kết lần chạy phù hợp J48 53 Lu Hình 3.13.3: kết lần chạy phù hợp Navie Bayes 55 ận Hình 3.14.1: Màn hình login 3600 55 vă Hình 3.14.2: Màn hình giao diện 56 n Hình 3.14.3: Màn hình kết 56 ạc th sĩ ng Cô hệ ng g ôn th tin 44 cắt tỉa tạo gốc, cành, dựa vào giá trị cột Gain Ratio (độ lợi thông tin) từ cao xuống thấp sau: Bảng 1: Bảng độ lợi thơng tin Gain Ratio Thuộc Tính 0.0149 NGHE_NGHIEP 0.01335 VI_TRI_CONG_TAC 0.00721 DINH_MUC_DUOC_VAY 0.00368 GT_DAM_BAO Lu 0.00282 MUC_DICH_VAY ận 0.00219 TUOI 0.00203 THOI_HAN_KHOAN_VAY 0.00194 T_THAI_CU_TRU 0.00122 TT_HON_NHAN 10 11 n vă th ạc 10 XEP_LOAI_KHACH_HANG sĩ 11 THU_NHAP_CO_DINH Cô 0.016 ng 0.0149 0.014 ng 0.01335 0.012 hệ 0.01 th 0.008 ôn 0.00721 0.006 g 0.004 0.00368 tin 0.00282 0.002 0.00219 0.00203 0.00194 0.00122 0 Gain Ratio Thuộc Tính Hình 3.12.7: Biểu đồ Gain – độ lợi thông tin 10 11 45 Chỉ số Gain tính dựa thuật tốn sau: a Tính Entropy liệu phân lớp H(S) = − ∑ P(c) log P(c) c∈C C={Tốt, Xấu}, Tốt: 23526 ghi, Xấu: 6158 ghi P(c) – tỷ số thuộc tính theo phân lớp tổng số ghi Áp dụng công thức H(S) = − Lu 23526 23526 6158 6158 ∗ log − ∗ log = 0.73658 29684 29684 29684 29684 ận b Tính information Gain & Entropy cho thuộc tính đặc trưng Tính Entropy chi tiết cho Dữ liệu đặc trưng vă Thuộc tính Mariage {DaKetHon, ChuaKetHon= 8160} n DaKetHon= 21524(Tot: 17264, Xau: 4260)  ChuaKetHon= 8160(Tot: 6262, Xau: 1898) ạc th  sĩ 17264 17264 4260 4260 E(DaKetHon) = − ∗ log − ∗ log = 0.71774 21524 21524 21524 21524 H(S, Mariage) = { 6262 6262 1898 1898 E(ChuaKetHon) = − ∗ log − ∗ log = 0.78251 8160 8160 8160 8160 Cô ng Tính trung bình Entropy cho thuộc tính Mariage (Tình trạng kết hôn) t ∈T hệ I(Mariage) = ng I(A) = H(T) = ∑ P(t) ∗ H(t) 21524 8160 ∗ 0.71774 + ∗ 0.78251 = 0.73554 29684 29684 g Gain(Mariage) = 0.73658 – 0.73536 = 0.00122 ôn Gain(A) = H(S) – I(A) th c Tính số Gain tin d Lặp lại bước b & c để thực tính hết số Gain cho tất thuộc tính đặc trưng 46 3.12.2.2 Tham số thuật toán J48 Weka Lu Hình 3.12.8: Hướng dẫn vào hình tham số J48 Weka ận Bảng ý nghĩa tham số J48 Weka 3.8.0 Tham số Có sử dụng phân tích nhị phân thuộc tính n vă binarySplits Mô tả th nominal xây dựng hay khơng? ạc reducedErrorPruning Có xem tỉa giảm bớt lỗi sử dụng thay xén tỉa C4.5 Nếu thiết lập true, phân lớp xảy thông tin sĩ Debug Cô bổ sung tới hình console Số lượng nhỏ thể nút numFolds Xác định rõ lượng liệu sử dụng cho việc giảm bớt lỗi ng minNumObj ng xén tỉa Mỗi fold sử dụng cho việc xén tỉa, phần Mức tin tưởng để định xem có xén tỉa hay khơng? th confidenceFactor hệ lại sử dụng cho việc phát triển ôn Với liệu đầu vào cho thực nghiệm chấp nhận giá trị mặc định bên trên, ngoại trừ thuộc tính saveInstanceData đổi thành true (cho phép tìm thấy Tham số liệu training tin 3.12.2.3 g mẫu phân loại sau xây dựng xong) Hình 3.12.9: Hướng dẫn cấu hình tham số xuất liệu Weka 47 Thuộc tính Percentage split: Tỷ lệ phân chia cho biết số mẫu chọn cho tập huấn luyện (training set) số mẫu chọn cho tập kiểm tra (test set) Ví dụ: Percentage split = 66% nghĩa 66% mẫu dùng tập huấn luyện 34% mẫu dùng kiểm tra 3.12.2.4 Thực nghiệm liệu với J48 Weka ận Lu Dữ liệu thực nghiệm chia thành phần, huấn luyện kiểm thử Tiến hành dùng liệu huấn luyện để tạo mẫu, dùng liệu kiểm thử để dự đoán xác định kết Tốt, Xấu Thực nghiệm tiến hành 05 lần với tỷ lệ sau: n vă L1 : Sử dụng J48 cắt tỉa tập liệu với tỷ lệ huấn luyện 55% ạc th L2 : Sử dụng J48 cắt tỉa tập liệu với tỷ lệ huấn luyện 66% (giá trị mặc định Weka) L3 : Sử dụng J48 cắt tỉa tập liệu với tỷ lệ huấn luyện 70% sĩ L4 : Sử dụng J48 cắt tỉa tập liệu tỷ lệ huấn luyện 85% Cô L5 : Sử dụng J48 cắt tỉa tập liệu tỷ lệ huấn luyện 90% ng Kết lần chạy ta có bảng sau: ng Bảng 2: Thống kê lần chạy thực nghiệm với J48 Weka Tổng số lớp Số mẫu Phân lớp sai 2404 1820 1612 809 551 Tỷ lệ phân lớp Tỷ lệ phân lớp sai 82.0033 % 81.9677 % 81.8978 % 81.8325 % 81.4353 % 17.9967 % 18.0323 % 18.1022 % 18.1675 % 18.5647 % g tin 13358 10093 8905 4453 2968 Số mẫu phân lớp 10954 8273 7293 3644 2417 ôn Tổng số ghi 29684 29684 29684 29684 29684 th Tỷ lệ huấn luyện/kiểm thử 55/45 66/34 70/30 85/15 90/10 hệ Lần chạy 48 Biểu đồ thực nghiệm theo Số phân lớp/Phân lớp đúng/Phân lớp sai: 16000 14000 12000 13358 10954 10000 10093 8000 8905 8273 7293 4000 ận Lu 6000 2968 2404 1820 n 3644 vă 2000 4453 66/34 th 55/45 1612 70/30 551 85/15 Số mẫu phân lớp 90/10 Số mẫu Phân lớp sai ạc Tổng số lớp 2417 809 sĩ Hình 3.12.10: Biểu đồ phân lớp J48 Đánh giá lần chạy thực nghiệm với thuật tốn J48 ng Cơ 3.12.2.5 Tỷ lệ phân lớp 82.00% hệ ng 81.97% 81.90% th 82.10% 82.00% 81.90% 81.80% 81.70% 81.60% 81.50% 81.40% 81.30% 81.20% 81.10% g ôn 81.83% tin 81.44% 55/45 66/34 70/30 85/15 90/10 Hình 3.12.11: Biểu đồ xác suất J48 49 Từ lần chạy thực nghiệm thực hiện, lần chạy L1 đạt hiệu phân lớp 82.0000 % cao lần thử Như lần chạy L2 với tỷ lệ huấn luyện 55% lựa chọn phù hợp Phân lớp Naive Bayes Phân lớp Naive Bayes (Naive Bayes Classification) thuật toán dựa lý thuyết xác suất để đưa phán đoán phân loại liệu dựa liệu quan sát thống kê ận Lu Thuật toán Naive Bayes ứng dụng nhiều lĩnh vực Machine Learning, dùng để đưa dự đốn xác dự tập liệu thu thập, thuật tốn dễ hiểu độ xác cao Cấu hình tham số thuật tốn Naive Bayes ạc th 3.12.3.1 n vă Naive Bayes thuộc vào nhóm Supervised Machine Learning Algorithms (học có giám sát), tức máy học từ ví dụ từ mẫu liệu có sĩ ng Cơ hệ ng g ơn th Hình 3.12.12: Cấu hình tham số thuật toán Naive Bayes tin 50 Tiến hành chạy thuật toán ận Lu n vă ạc th sĩ Cơ Hình 3.12.13: Kết chạy thuật toán Naive Bayes Weka ng Thuật toán chạy lần với tỷ lệ tham số sau: L1 : Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 55% ng L2 : Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 66% hệ L3 : Sử dụng phân lớp Naive Bayes tập liệu với tỷ lệ huấn luyện 70% th L4 : Sử dụng phân lớp Naive Bayes tập liệu tỷ lệ huấn luyện 85% ôn L5 : Sử dụng phân lớp Naive Bayes tập liệu tỷ lệ huấn luyện 90% g tin 51 Kết lần chạy: Tỷ lệ huấn Lần luyện/kiểm chạy thử Tổng số Tổng số ghi lớp Số mẫu Số mẫu Tỷ lệ phân lớp Phân lớp phân lớp sai Tỷ lệ phân lớp sai 55/45 29684 13358 9875 3483 73.9257 % 26.0743 % 66/34 29684 11874 8781 3093 73.9515 % 26.0485 % 70/30 29684 8905 6583 2322 73.9248 % 26.0752 % 85/15 29684 4453 3293 1160 73.9501 % 26.0499 % 90/10 29684 2968 2181 787 73.4838 % 26.5162 % Lu ận Bảng 3: Thống kê lần chạy thực nghiệm phân lớp Naive Bayes Weka Biểu đồ kết lần chạy theo Tổng số phân lớp/Phân lớp đúng/Phân lớp sai n th 14000 vă 16000 13358 ạc 11874 12000 sĩ 10000 9875 ng 8000 8905 Cô 8781 6583 6000 3293 hệ 3093 ng 3483 4000 4453 2968 2322 2000 2181 1160 55/45 66/34 Số mẫu phân lớp 85/15 90/10 g Tổng số lớp 70/30 ôn th 787 Số mẫu Phân lớp sai tin Hình 3.12.14: Biểu đồ phân lớp Naïve Bayes 52 3.12.3.2 Đánh giá lần chạy thực nghiệm thuật toán Naive Bayes Tỷ lệ phân lớp 74.00% 73.93% 73.90% 73.95% 73.92% 73.95% 73.80% 73.70% 73.60% 73.50% 73.40% 73.30% 73.20% ận Lu 73.48% 55/45 66/34 vă 70/30 85/15 90/10 n ạc th Hình 3.12.15: Biểu đồ tỷ lệ xác Navie Bayes sĩ Từ lần chạy thực nghiệm thực hiện, ta thấy lần chạy L2 đạt hiệu cao với tỷ lệ phân lớp 73,95 % Như chạy thực nghiệm liệu với tỷ lệ huấn luyện 66% Naive Bayes lựa chọn phù hợp ng Cô 3.13 Đánh giá mơ hình ng So sánh kết lần chạy thuật toán hệ Biểu đồ so sánh tỷ lệ phân lớp J48 & Navie bayes 82.00% 81.97% 81.90% 73.93% 73.95% 73.92% 81.83% 80.00% tin 78.00% 76.00% 74.00% 81.44% g 82.00% ôn th 84.00% 73.95% 73.48% 72.00% 70.00% 68.00% 55/45 66/34 J48 70/30 Navie 85/15 90/10 Hình 3.13.1: Biểu đồ so sánh tỷ lệ phân lớp J48 & Navie bayes 53 Tất thí nghiệm tiến hành với liệu, từ lần chạy thực nghiệm J48 Naive Bayes Weka ta chọn tỷ lệ hợp lý cho thuật toán: + J48 lựa chọn tỷ lệ huấn luyện 82% + Naive Bayes chọn tỷ lệ huấn luyện 73,95% Đánh giá lần chạy J48 đạt tỷ lệ phân lớp cao ận Lu Từ lần chạy thử, nhận thấy tỉ lệ thực J48 ln cao Naive Bayes, thuật tốn J48 có hiệu phân lớp đạt 82,00 %, lớp sai 18,00 % Trong Naive Bayes lớp đạt 73,95 %, sai 26,15 % Như thuật toán J48 lựa chọn phù hợp & tỷ lệ liệu tập huấn phù hợp 55% vă Lần chạy đạt tỷ lệ phân lớp cao nhất: n  Giải thuật: J48 ạc th  Tỷ lệ liệu huấn luyện: 55% Mơ hình định xây dựng: sĩ  Cây định kích cỡ: 63 ng Cô  Số lượng lá: 57 Bảng thông số kết chạy thuật tốn: hệ ng g ơn th tin Hình 3.13.2: kết lần chạy phù hợp J48 Ý nghĩa giá trị quan trọng:  TPrate (tỷ lệ mẫu tích cực - Positive): Cao 54 TP=TP/(TP+FN) Example: TP(a)=291/(291+ 1820)=0.138  FPrate (tỷ lệ mẫu tích cực sai): Thấp FP=FP/(FP + TN) Example: FP(a)=0/(0+7982)=0 Lu FP(b)=1820/(1820 + 291)=0.862 ận  Precision (Giá trị dự đoán mẫu tích cực đúng): Cao vă Precision= TP / (TP + FP) n  Recall (Giá trị biểu diễn tỷ lệ mẫu cần thực lại): Cao th ạc  F- measure: Biểu diễn trung bình điều hịa recall precision sĩ F-measure = 2TP / (2TP + FP + FN) Cô  Confusion Matrix - Ma trận nhầm lẫn: ng Dây ma trận vng với kích thước chiều số lượng lớp liệu (Giá trị hàng thứ 2, cột thứ a số lượng điểm lẽ thuộc vào lớp a lại dự đốn thuộc vào lớp b) Nhìn vào bảng ma trận trên, ta thấy liệu thu thập dịng b (Xấu) cột a (Tốt) có 04 lớp có khả nghi xếp nhầm hệ ng th Đánh giá lần chạy Navie đạt tỷ lệ liệu tập huấn 55% tin  Tỷ lệ liệu huấn luyện: 55% g  Giải thuật: Navie bayes ôn Lần chạy đạt tỷ lệ phân lớp cao nhất: 55 Bảng thơng số kết chạy thuật tốn ận Lu n vă Hình 3.13.3: kết lần chạy phù hợp Navie Bayes th 3.14 Triển khai tích hợp hệ thống Khai phá liệu ạc sĩ Weka cung cấp ứng dụng chạy độc lập, cung cấp API để doanh nghiệp tích hợp vào ứng dụng Cơ hệ ng Màn hình chức ng Trong luận văn này, tác giả thực nghiệm tích hợp Weka API vào hệ thống Portal: “Khảo sát tín dụng 360o” Ngân hàng Vietinbank g ơn th tin Hình 3.14.1: Màn hình login 3600 56 Màn hình giao diện ận Lu n vă th ạc Hình 3.14.2: Màn hình giao diện sĩ Màn hình kết chạy với J48 ng Cô hệ ng g ôn th tin Hình 3.14.3: Màn hình kết 57 CHƯƠNG 4: KẾT LUẬN 4.1 Các kết đạt Với ý tưởng nghiên cứu ứng dụng khai phá liệu việc cải tiến quy trình quản lý rủi ro tín dụng, đề tài “KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG” đạt mục tiêu sau: ận Lu Luận văn trình bày kiến thức tổng quan đánh giá rủi ro tín dụng ngân hàng VietinBank Làm rõ tầm quan trọng việc không ngừng nâng cao ứng dụng công nghệ công tác đánh giá rủi ro tín dụng nhằm tăng tính ổn định hiệu hoạt động VietinBank n vă Đề tài làm rõ thực trạng công tác đánh giá rủi ro tín dụng khách hàng cá nhân ngân hàng VietinBank, qua thấy điểm cịn hạn chế đề xuất giải pháp phù hợp th ạc Đề tài hệ thống hóa sở lý thuyết khai phá liệu phân tích tổng hợp nghiên cứu liên quan nhằm lựa chọn kỹ thuật quy trình khai phá liệu phù hợp áp dụng cho đề tài sĩ Cô Mục tiêu tương lai ng 4.2 ng Bên cạnh bước đầu xây dựng module “Khai phá liệu” tích hợp vào hệ thống Khảo sát tín dụng 3600 Ngân hàng Vietinbank hệ Với nhiều ứng dụng thực tế khai phá liệu ngành tài ngân hàng, đặc biệt phân tích dự báo rủi ro tín dụng Với thời gian có hạn luận văn nghiên cứu thực nghiệm thuật tốn, u cầu với tốn tương lai áp dụng thuật toán khác hồi quy dự báo, áp dụng mạng noron xây dựng mơ hình dự báo… g ơn th tin Với ứng dụng rộng rãi khai phá liệu ngành tài ngân hàng trình bày cịn nhiều tốn tìm hiểu nghiên cứu thêm tương lai như: Bài tốn bán chéo sản phẩm tín dụng, rủi ro giao dịch ngân hàng điện tử, mua bán nợ, dự đoán xu hướng giao dịch chứng khoán phái sinh kết nối qua ngân hàng v.v 58 TÀI LIỆU THAM KHẢO [1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Khai phá liệu Web, Nhà xuất Giáo dục, 2009 [2] PGS.TS Hà Quang Thụy, Bài giảng Khai phá liệu, Đại học Công Nghệ-Đại Học Quốc gia Hà Nội [3] Tài liệu lưu hành nội bộ, 2016 - Sổ tay nghiệp vụ rủi ro VietinBank [4] Tài liệu lưu hành nội bộ, 2016 - Quy định Rủi ro tín dụng VietinBank Lu [5] Báo cáo quản trị tài Vietinbank 2016 ận [6] Phí Trọng Hiển, 2005 Ngân hàng nhà nước Việt Nam- Quản trị rủi ro ngân hàng: Cơ sở lý thuyết, thách thức thực tiễn giải pháp cho hệ thống ngân hàng thương mại Việt Nam vă n [7] John Ross Quinlan, 1993 Chương trình học máy, nhà xuất Morgan Kaufmann th ạc [8] Jiawei Han Micheline Kamber, 2012 Khái niệm kỹ thuật khai phá liệu, ấn thứ ba, nhà xuất ed Elsevier Inc sĩ [9] WILLIAM W COOPER - DATA ENVELOPMENT ANALYSIS - A Comprehensive Text with Models, Applications, References and DEA-Solver Software ng Cô [10].Ron Kohavi, J Ross Quinlan, Decision Tree Discovery, 1999 ng [11] A complete guide to dealing with Big Data using MongoDB th [13] Ivan Idris - Python Data Analysis hệ [12] BigData in Complex Systems Challenges and Opportunities g ôn [14] Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques, Second Edition tin

Ngày đăng: 06/11/2023, 16:11

Tài liệu cùng người dùng

Tài liệu liên quan