TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN NGUYỄN TIẾN LONG NGHIÊN CỨU VỀ PHƯƠNG PHÁP SUPPORT VECTOR MACHINE VÀ BIẾN ĐỔI DỮ LIỆU TRONG VIỆC PHÁT HIỆN GIAN LẬN GIAO DỊCH THẺ TÍN DỤNG LUẬN VĂN THẠC SĨ KINH TẾ (TOÁ[.]
TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN NGUYỄN TIẾN LONG NGHIÊN CỨU VỀ PHƯƠNG PHÁP SUPPORT VECTOR MACHINE VÀ BIẾN ĐỔI DỮ LIỆU TRONG VIỆC PHÁT HIỆN GIAN LẬN GIAO DỊCH THẺ TÍN DỤNG LUẬN VĂN THẠC SĨ KINH TẾ (TOÁN KINH TẾ) HÀ NỘI, 2022 TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN NGUYỄN TIẾN LONG NGHIÊN CỨU VỀ PHƯƠNG PHÁP SUPPORT VECTOR MACHINE VÀ BIẾN ĐỔI DỮ LIỆU TRONG VIỆC PHÁT HIỆN GIAN LẬN GIAO DỊCH THẺ TÍN DỤNG Chuyên ngành: Toán kinh tế Mã số: 9310101 LUẬN VĂN THẠC SĨ KINH TẾ (TOÁN KINH TẾ) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN QUANG HUY HÀ NỘI, 2022 LỜI CAM ĐOAN Tôi đọc hiểu hành vi vi phạm trung thực học thuật Tôi cam kết danh dự cá nhân nghiên cứu tự thực không vi phạm yêu cầu trung thực học thuật Hà Nội, ngày … tháng … năm 2022 Học viên Nguyễn Tiến Long DANH MỤC BẢNG BẢNG 3.1: MÔ TẢ CÁC BIẾN TRONG TẬP DỮ LIỆU 26 BẢNG 3.2: PHÂN PHỐI 'CLASS' SAU KHI BIẾN ĐỔI 30 BẢNG 4.1: CHỈ SỐ ĐÁNH GIÁ 36 BẢNG 4.2: CHỈ SỐ ĐÁNH GIÁ 37 BẢNG 4.3: CHỈ SỐ ĐÁNH GIÁ 38 BẢNG 4.4: CHỈ SỐ ĐÁNH GIÁ 39 BẢNG 4.5: CHỈ SỐ ĐÁNH GIÁ 40 BẢNG 4.6: CHỈ SỐ ĐÁNH GIÁ 41 BẢNG 4.7: CHỈ SỐ ĐÁNH GIÁ 42 BẢNG 4.8: CHỈ SỐ ĐÁNH GIÁ 43 BẢNG 4.9: CHỈ SỐ ĐÁNH GIÁ 44 BẢNG 4.10: CHỈ SỐ ĐÁNH GIÁ 45 BẢNG 4.11: CHỈ SỐ ĐÁNH GIÁ 46 BẢNG 4.12: CHỈ SỐ ĐÁNH GIÁ 47 BẢNG 4.13: CHỈ SỐ ĐÁNH GIÁ 48 BẢNG 4.14: CHỈ SỐ ĐÁNH GIÁ 49 BẢNG 4.15: CHỈ SỐ ĐÁNH GIÁ 50 BẢNG 4.16: CHỈ SỐ ĐÁNH GIÁ 51 BẢNG 4.17: CHỈ SỐ ĐÁNH GIÁ 52 BẢNG 4.18: CHỈ SỐ ĐÁNH GIÁ 53 BẢNG 4.19: CHỈ SỐ ĐÁNH GIÁ 54 BẢNG 4.20: CHỈ SỐ ĐÁNH GIÁ 55 BẢNG 4.21: TỔNG HỢP KẾT QUẢ PHÂN LOẠI CLASS 56 DANH MỤC BIỂU ĐỒ BIỂU ĐỒ 2.1: VÍ DỤ VỀ BIỂU ĐỒ AUCROC 22 BIỂU ĐỒ 2.2: VÍ DỤ VỀ BIỂU ĐỒ AUC-PR (SCIKIT-LEARN) 23 BIỂU ĐỒ 3.1: MINH HOẠ THỂ HIỆN SỰ MẤT CÂN ĐỐI DỮ LIỆU 25 BIỂU ĐỒ 3.2: PHÂN PHỐI BIẾN 'TIME' VÀ ‘AMOUNT’ 26 BIỂU ĐỒ 3.3: PHÂN PHỐI GIỮA 'CLASS' VÀ 'AMOUNT' 27 BIỂU ĐỒ 3.4: PHÂN PHỐI 'CLASS' SAU KHI LẤY LẠI MẪU 29 BIỂU ĐỒ 4.1: CONFUSION MATRIX 36 BIỂU ĐỒ 4.2: ĐƯỜNG AUC-ROC 36 BIỂU ĐỒ 4.3: ĐƯỜNG AUC-PR 36 BIỂU ĐỒ 4.4: CONFUSION MATRIX 37 BIỂU ĐỒ 4.5: ĐƯỜNG AUC-ROC 37 BIỂU ĐỒ 4.6: ĐƯỜNG AUC-PR 37 BIỂU ĐỒ 4.7: CONFUSION MATRIX 38 BIỂU ĐỒ 4.8: ĐƯỜNG AUC-ROC 38 BIỂU ĐỒ 4.9: ĐƯỜNG AUC-PR 38 BIỂU ĐỒ 4.10: CONFUSION MATRIX 39 BIỂU ĐỒ 4.11: ĐƯỜNG AUC-ROC 39 BIỂU ĐỒ 4.12: ĐƯỜNG AUC-PR 39 BIỂU ĐỒ 4.13: CONFUSION MATRIX 40 BIỂU ĐỒ 4.14: ĐƯỜNG AUC-ROC 40 BIỂU ĐỒ 4.15: ĐƯỜNG AUC-PR 40 BIỂU ĐỒ 4.16: CONFUSION MATRIX 41 BIỂU ĐỒ 4.17: ĐƯỜNG AUC-ROC 41 BIỂU ĐỒ 4.18: ĐƯỜNG AUC-PR 41 BIỂU ĐỒ 4.19: CONFUSION MATRIX 42 BIỂU ĐỒ 4.20: ĐƯỜNG AUC-ROC 42 BIỂU ĐỒ 4.21: ĐƯỜNG AUC-PR 42 BIỂU ĐỒ 4.22: CONFUSION MATRIX 43 BIỂU ĐỒ 4.23: ĐƯỜNG AUC-ROC 43 BIỂU ĐỒ 4.24: ĐƯỜNG AUC-PR 43 BIỂU ĐỒ 4.25: CONFUSION MATRIX 44 BIỂU ĐỒ 4.26: ĐƯỜNG AUC-ROC 44 BIỂU ĐỒ 4.27: ĐƯỜNG AUC-PR 44 BIỂU ĐỒ 4.28: CONFUSION MATRIX 45 BIỂU ĐỒ 4.29: ĐƯỜNG AUC-ROC 45 BIỂU ĐỒ 4.30: ĐƯỜNG AUC-PR 45 BIỂU ĐỒ 4.31: CONFUSION MATRIX 46 BIỂU ĐỒ 4.32: ĐƯỜNG AUC-ROC 46 BIỂU ĐỒ 4.33: ĐƯỜNG AUC-PR 46 BIỂU ĐỒ 4.34: CONFUSION MATRIX 47 BIỂU ĐỒ 4.35: ĐƯỜNG AUC-ROC 47 BIỂU ĐỒ 4.36: ĐƯỜNG AUC-PR 47 BIỂU ĐỒ 4.37: CONFUSION MATRIX 48 BIỂU ĐỒ 4.38: ĐƯỜNG AUC-ROC 48 BIỂU ĐỒ 4.39: ĐƯỜNG AUC-PR 48 BIỂU ĐỒ 4.40: CONFUSION MATRIX 49 BIỂU ĐỒ 4.41: ĐƯỜNG AUC-ROC 49 BIỂU ĐỒ 4.42: ĐƯỜNG AUC-PR 49 BIỂU ĐỒ 4.43: CONFUSION MATRIX 50 BIỂU ĐỒ 4.44: ĐƯỜNG AUC-ROC 50 BIỂU ĐỒ 4.45: ĐƯỜNG AUC-PR 50 BIỂU ĐỒ 4.46: CONFUSION MATRIX 51 BIỂU ĐỒ 4.47: ĐƯỜNG AUC-ROC 51 BIỂU ĐỒ 4.48: ĐƯỜNG AUC-PR 51 BIỂU ĐỒ 4.49: CONFUSION MATRIX 52 BIỂU ĐỒ 4.50: ĐƯỜNG AUC-ROC 52 BIỂU ĐỒ 4.51: ĐƯỜNG AUC-PR 52 BIỂU ĐỒ 4.52: CONFUSION MATRIX 53 BIỂU ĐỒ 4.53: ĐƯỜNG AUC-ROC 53 BIỂU ĐỒ 4.54: ĐƯỜNG AUC-PR 53 BIỂU ĐỒ 4.55: CONFUSION MATRIX 54 BIỂU ĐỒ 4.56: ĐƯỜNG AUC-ROC 54 BIỂU ĐỒ 4.57: ĐƯỜNG AUC-PR 54 BIỂU ĐỒ 4.58: CONFUSION MATRIX 55 BIỂU ĐỒ 4.59: ĐƯỜNG AUC-ROC 55 BIỂU ĐỒ 4.60: ĐƯỜNG AUC-PR 55 DANH MỤC THUẬT NGỮ VÀ VIẾT TẮT Thuật ngữ SVM TP FP TN FN SMOTE Ý nghĩa Thuật toán Support Vector Machine True Positive, dương tính thật False Positive, dương tính giả True Negative, âm tính thật False Negative, âm tính giả Kỹ thuật bốc mẫu giả lập cho lớp thiểu sổ (Synthetic Minority Over-sampling Techniques) MỤC LỤC LỜI CAM ĐOAN II DANH MỤC BẢNG III DANH MỤC BIỂU ĐỒ IV DANH MỤC THUẬT NGỮ VÀ VIẾT TẮT VI MỤC LỤC CHƯƠNG VII GIỚI THIỆU 1.1 Hiện trạng gian lận thẻ ngành tài 1.2 Trở ngại việc phát gian lận 1.3 Mục tiêu 1.4 Đối tượng phạm vi nghiên cứu 1.5 Cấu trúc luận văn CHƯƠNG CƠ SỞ LÝ LUẬN 2.1 Các nghiên cứu học máy phát gian lận thẻ 2.2 Phương pháp học máy 2.3 Thuật toán Support Vector Machine 12 2.4 Đánh giá mơ hình phân loại 19 2.5 Kết luận chương 23 CHƯƠNG PHƯƠNG PHÁP NGHIÊN CỨU 25 3.1 Mô tả liệu 25 3.2 Tiền xử lý liệu 28 3.3 Huấn luyện kiểm thử mơ hình 30 3.4 Đánh giá mơ hình 32 3.5 Công cụ sử dụng 34 3.6 Kết luận chương 34 CHƯƠNG KẾT QUẢ VÀ ĐÁNH GIÁ 36 4.1 Tập liệu gốc 36 4.2 Tập liệu biến đổi sử dụng phương pháp Oversampling ngẫu nhiên 40 4.3 Tập liệu biến đổi sử dụng phương pháp Undersampling ngẫu nhiên 44 4.4 Tập liệu biến đổi sử dụng phương pháp SMOTE 48 4.5 Tập liệu biến đổi sử dụng phương pháp gỡ bỏ Tomek link 51 4.6 Khuyến nghị việc áp dụng mơ hình 59 4.7 Thiếu sót luận văn 60 4.8 Kết luận chương 60 CHƯƠNG KẾT LUẬN VÀ ĐỀ XUẤT HƯỚNG NGHIÊN CỨU TIẾP THEO 61 5.1 Kết luận chung 61 5.2 Đề xuất hướng nghiên cứu 61 DANH MỤC THAM KHẢO 63 PHỤ LỤC 66 Code xây dựng mơ hình 66 TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN NGUYỄN TIẾN LONG NGHIÊN CỨU VỀ PHƯƠNG PHÁP SUPPORT VECTOR MACHINE VÀ BIẾN ĐỔI DỮ LIỆU TRONG VIỆC PHÁT HIỆN GIAN LẬN GIAO DỊCH THẺ TÍN DỤNG Chuyên ngành: Toán kinh tế Mã số: 9310101 LUẬN VĂN THẠC SĨ KINH TẾ (TOÁN KINH TẾ) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN QUANG HUY HÀ NỘI, 2022