1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên Cứu Về Phương Pháp Support Vector Machine Và Biến Đổi Dữ Liệu Trong Việc Phát Hiện Gian Lận Giao Dịch Thẻ Tín Dụng.docx

109 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Về Phương Pháp Support Vector Machine Và Biến Đổi Dữ Liệu Trong Việc Phát Hiện Gian Lận Giao Dịch Thẻ Tín Dụng
Tác giả Nguyễn Tiến Long
Người hướng dẫn TS. Nguyễn Quang Huy
Trường học Trường Đại Học Kinh Tế Quốc Dân
Chuyên ngành Toán Kinh Tế
Thể loại Luận Văn Thạc Sĩ Kinh Tế
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 109
Dung lượng 3,61 MB

Nội dung

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN NGUYỄN TIẾN LONG NGHIÊN CỨU VỀ PHƯƠNG PHÁP SUPPORT VECTOR MACHINE VÀ BIẾN ĐỔI DỮ LIỆU TRONG VIỆC PHÁT HIỆN GIAN LẬN GIAO DỊCH THẺ TÍN DỤNG LUẬN VĂN THẠC SĨ KINH TẾ (TOÁ[.]

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN NGUYỄN TIẾN LONG NGHIÊN CỨU VỀ PHƯƠNG PHÁP SUPPORT VECTOR MACHINE VÀ BIẾN ĐỔI DỮ LIỆU TRONG VIỆC PHÁT HIỆN GIAN LẬN GIAO DỊCH THẺ TÍN DỤNG LUẬN VĂN THẠC SĨ KINH TẾ (TOÁN KINH TẾ) HÀ NỘI, 2022 TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN NGUYỄN TIẾN LONG NGHIÊN CỨU VỀ PHƯƠNG PHÁP SUPPORT VECTOR MACHINE VÀ BIẾN ĐỔI DỮ LIỆU TRONG VIỆC PHÁT HIỆN GIAN LẬN GIAO DỊCH THẺ TÍN DỤNG Chuyên ngành: Toán kinh tế Mã số: 9310101 LUẬN VĂN THẠC SĨ KINH TẾ (TOÁN KINH TẾ) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN QUANG HUY HÀ NỘI, 2022 LỜI CAM ĐOAN Tôi đọc hiểu hành vi vi phạm trung thực học thuật Tôi cam kết danh dự cá nhân nghiên cứu tự thực không vi phạm yêu cầu trung thực học thuật Hà Nội, ngày … tháng … năm 2022 Học viên Nguyễn Tiến Long DANH MỤC BẢNG BẢNG 3.1: MÔ TẢ CÁC BIẾN TRONG TẬP DỮ LIỆU 26 BẢNG 3.2: PHÂN PHỐI 'CLASS' SAU KHI BIẾN ĐỔI 30 BẢNG 4.1: CHỈ SỐ ĐÁNH GIÁ 36 BẢNG 4.2: CHỈ SỐ ĐÁNH GIÁ 37 BẢNG 4.3: CHỈ SỐ ĐÁNH GIÁ 38 BẢNG 4.4: CHỈ SỐ ĐÁNH GIÁ 39 BẢNG 4.5: CHỈ SỐ ĐÁNH GIÁ 40 BẢNG 4.6: CHỈ SỐ ĐÁNH GIÁ 41 BẢNG 4.7: CHỈ SỐ ĐÁNH GIÁ 42 BẢNG 4.8: CHỈ SỐ ĐÁNH GIÁ 43 BẢNG 4.9: CHỈ SỐ ĐÁNH GIÁ 44 BẢNG 4.10: CHỈ SỐ ĐÁNH GIÁ 45 BẢNG 4.11: CHỈ SỐ ĐÁNH GIÁ 46 BẢNG 4.12: CHỈ SỐ ĐÁNH GIÁ 47 BẢNG 4.13: CHỈ SỐ ĐÁNH GIÁ 48 BẢNG 4.14: CHỈ SỐ ĐÁNH GIÁ 49 BẢNG 4.15: CHỈ SỐ ĐÁNH GIÁ 50 BẢNG 4.16: CHỈ SỐ ĐÁNH GIÁ 51 BẢNG 4.17: CHỈ SỐ ĐÁNH GIÁ 52 BẢNG 4.18: CHỈ SỐ ĐÁNH GIÁ 53 BẢNG 4.19: CHỈ SỐ ĐÁNH GIÁ 54 BẢNG 4.20: CHỈ SỐ ĐÁNH GIÁ 55 BẢNG 4.21: TỔNG HỢP KẾT QUẢ PHÂN LOẠI CLASS 56 DANH MỤC BIỂU ĐỒ BIỂU ĐỒ 2.1: VÍ DỤ VỀ BIỂU ĐỒ AUCROC 22 BIỂU ĐỒ 2.2: VÍ DỤ VỀ BIỂU ĐỒ AUC-PR (SCIKIT-LEARN) 23 BIỂU ĐỒ 3.1: MINH HOẠ THỂ HIỆN SỰ MẤT CÂN ĐỐI DỮ LIỆU 25 BIỂU ĐỒ 3.2: PHÂN PHỐI BIẾN 'TIME' VÀ ‘AMOUNT’ 26 BIỂU ĐỒ 3.3: PHÂN PHỐI GIỮA 'CLASS' VÀ 'AMOUNT' 27 BIỂU ĐỒ 3.4: PHÂN PHỐI 'CLASS' SAU KHI LẤY LẠI MẪU 29 BIỂU ĐỒ 4.1: CONFUSION MATRIX 36 BIỂU ĐỒ 4.2: ĐƯỜNG AUC-ROC 36 BIỂU ĐỒ 4.3: ĐƯỜNG AUC-PR 36 BIỂU ĐỒ 4.4: CONFUSION MATRIX 37 BIỂU ĐỒ 4.5: ĐƯỜNG AUC-ROC 37 BIỂU ĐỒ 4.6: ĐƯỜNG AUC-PR 37 BIỂU ĐỒ 4.7: CONFUSION MATRIX 38 BIỂU ĐỒ 4.8: ĐƯỜNG AUC-ROC 38 BIỂU ĐỒ 4.9: ĐƯỜNG AUC-PR 38 BIỂU ĐỒ 4.10: CONFUSION MATRIX 39 BIỂU ĐỒ 4.11: ĐƯỜNG AUC-ROC 39 BIỂU ĐỒ 4.12: ĐƯỜNG AUC-PR 39 BIỂU ĐỒ 4.13: CONFUSION MATRIX 40 BIỂU ĐỒ 4.14: ĐƯỜNG AUC-ROC 40 BIỂU ĐỒ 4.15: ĐƯỜNG AUC-PR 40 BIỂU ĐỒ 4.16: CONFUSION MATRIX 41 BIỂU ĐỒ 4.17: ĐƯỜNG AUC-ROC 41 BIỂU ĐỒ 4.18: ĐƯỜNG AUC-PR 41 BIỂU ĐỒ 4.19: CONFUSION MATRIX 42 BIỂU ĐỒ 4.20: ĐƯỜNG AUC-ROC 42 BIỂU ĐỒ 4.21: ĐƯỜNG AUC-PR 42 BIỂU ĐỒ 4.22: CONFUSION MATRIX 43 BIỂU ĐỒ 4.23: ĐƯỜNG AUC-ROC 43 BIỂU ĐỒ 4.24: ĐƯỜNG AUC-PR 43 BIỂU ĐỒ 4.25: CONFUSION MATRIX 44 BIỂU ĐỒ 4.26: ĐƯỜNG AUC-ROC 44 BIỂU ĐỒ 4.27: ĐƯỜNG AUC-PR 44 BIỂU ĐỒ 4.28: CONFUSION MATRIX 45 BIỂU ĐỒ 4.29: ĐƯỜNG AUC-ROC 45 BIỂU ĐỒ 4.30: ĐƯỜNG AUC-PR 45 BIỂU ĐỒ 4.31: CONFUSION MATRIX 46 BIỂU ĐỒ 4.32: ĐƯỜNG AUC-ROC 46 BIỂU ĐỒ 4.33: ĐƯỜNG AUC-PR 46 BIỂU ĐỒ 4.34: CONFUSION MATRIX 47 BIỂU ĐỒ 4.35: ĐƯỜNG AUC-ROC 47 BIỂU ĐỒ 4.36: ĐƯỜNG AUC-PR 47 BIỂU ĐỒ 4.37: CONFUSION MATRIX 48 BIỂU ĐỒ 4.38: ĐƯỜNG AUC-ROC 48 BIỂU ĐỒ 4.39: ĐƯỜNG AUC-PR 48 BIỂU ĐỒ 4.40: CONFUSION MATRIX 49 BIỂU ĐỒ 4.41: ĐƯỜNG AUC-ROC 49 BIỂU ĐỒ 4.42: ĐƯỜNG AUC-PR 49 BIỂU ĐỒ 4.43: CONFUSION MATRIX 50 BIỂU ĐỒ 4.44: ĐƯỜNG AUC-ROC 50 BIỂU ĐỒ 4.45: ĐƯỜNG AUC-PR 50 BIỂU ĐỒ 4.46: CONFUSION MATRIX 51 BIỂU ĐỒ 4.47: ĐƯỜNG AUC-ROC 51 BIỂU ĐỒ 4.48: ĐƯỜNG AUC-PR 51 BIỂU ĐỒ 4.49: CONFUSION MATRIX 52 BIỂU ĐỒ 4.50: ĐƯỜNG AUC-ROC 52 BIỂU ĐỒ 4.51: ĐƯỜNG AUC-PR 52 BIỂU ĐỒ 4.52: CONFUSION MATRIX 53 BIỂU ĐỒ 4.53: ĐƯỜNG AUC-ROC 53 BIỂU ĐỒ 4.54: ĐƯỜNG AUC-PR 53 BIỂU ĐỒ 4.55: CONFUSION MATRIX 54 BIỂU ĐỒ 4.56: ĐƯỜNG AUC-ROC 54 BIỂU ĐỒ 4.57: ĐƯỜNG AUC-PR 54 BIỂU ĐỒ 4.58: CONFUSION MATRIX 55 BIỂU ĐỒ 4.59: ĐƯỜNG AUC-ROC 55 BIỂU ĐỒ 4.60: ĐƯỜNG AUC-PR 55 DANH MỤC THUẬT NGỮ VÀ VIẾT TẮT Thuật ngữ SVM TP FP TN FN SMOTE Ý nghĩa Thuật toán Support Vector Machine True Positive, dương tính thật False Positive, dương tính giả True Negative, âm tính thật False Negative, âm tính giả Kỹ thuật bốc mẫu giả lập cho lớp thiểu sổ (Synthetic Minority Over-sampling Techniques) MỤC LỤC LỜI CAM ĐOAN II DANH MỤC BẢNG III DANH MỤC BIỂU ĐỒ IV DANH MỤC THUẬT NGỮ VÀ VIẾT TẮT VI MỤC LỤC CHƯƠNG VII GIỚI THIỆU 1.1 Hiện trạng gian lận thẻ ngành tài 1.2 Trở ngại việc phát gian lận 1.3 Mục tiêu 1.4 Đối tượng phạm vi nghiên cứu 1.5 Cấu trúc luận văn CHƯƠNG CƠ SỞ LÝ LUẬN 2.1 Các nghiên cứu học máy phát gian lận thẻ 2.2 Phương pháp học máy 2.3 Thuật toán Support Vector Machine 12 2.4 Đánh giá mơ hình phân loại 19 2.5 Kết luận chương 23 CHƯƠNG PHƯƠNG PHÁP NGHIÊN CỨU 25 3.1 Mô tả liệu 25 3.2 Tiền xử lý liệu 28 3.3 Huấn luyện kiểm thử mơ hình 30 3.4 Đánh giá mơ hình 32 3.5 Công cụ sử dụng 34 3.6 Kết luận chương 34 CHƯƠNG KẾT QUẢ VÀ ĐÁNH GIÁ 36 4.1 Tập liệu gốc 36 4.2 Tập liệu biến đổi sử dụng phương pháp Oversampling ngẫu nhiên 40 4.3 Tập liệu biến đổi sử dụng phương pháp Undersampling ngẫu nhiên 44 4.4 Tập liệu biến đổi sử dụng phương pháp SMOTE 48 4.5 Tập liệu biến đổi sử dụng phương pháp gỡ bỏ Tomek link 51 4.6 Khuyến nghị việc áp dụng mơ hình 59 4.7 Thiếu sót luận văn 60 4.8 Kết luận chương 60 CHƯƠNG KẾT LUẬN VÀ ĐỀ XUẤT HƯỚNG NGHIÊN CỨU TIẾP THEO 61 5.1 Kết luận chung 61 5.2 Đề xuất hướng nghiên cứu 61 DANH MỤC THAM KHẢO 63 PHỤ LỤC 66 Code xây dựng mơ hình 66 TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN NGUYỄN TIẾN LONG NGHIÊN CỨU VỀ PHƯƠNG PHÁP SUPPORT VECTOR MACHINE VÀ BIẾN ĐỔI DỮ LIỆU TRONG VIỆC PHÁT HIỆN GIAN LẬN GIAO DỊCH THẺ TÍN DỤNG Chuyên ngành: Toán kinh tế Mã số: 9310101 LUẬN VĂN THẠC SĨ KINH TẾ (TOÁN KINH TẾ) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN QUANG HUY HÀ NỘI, 2022

Ngày đăng: 19/07/2023, 12:42

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Quy trình phát hiện gian lận - Nghiên Cứu Về Phương Pháp Support Vector Machine Và Biến Đổi Dữ Liệu Trong Việc Phát Hiện Gian Lận Giao Dịch Thẻ Tín Dụng.docx
Hình 1.1 Quy trình phát hiện gian lận (Trang 13)
Hình 2.2: Ví dụ về việc sử dụng undersampling - Nghiên Cứu Về Phương Pháp Support Vector Machine Và Biến Đổi Dữ Liệu Trong Việc Phát Hiện Gian Lận Giao Dịch Thẻ Tín Dụng.docx
Hình 2.2 Ví dụ về việc sử dụng undersampling (Trang 19)
Hình 2.3: Ví dụ về việc sử dụng oversampling - Nghiên Cứu Về Phương Pháp Support Vector Machine Và Biến Đổi Dữ Liệu Trong Việc Phát Hiện Gian Lận Giao Dịch Thẻ Tín Dụng.docx
Hình 2.3 Ví dụ về việc sử dụng oversampling (Trang 20)
Hình 2.4: Mô tả loại bỏ dữ liệu sử dụng Tomek link - Nghiên Cứu Về Phương Pháp Support Vector Machine Và Biến Đổi Dữ Liệu Trong Việc Phát Hiện Gian Lận Giao Dịch Thẻ Tín Dụng.docx
Hình 2.4 Mô tả loại bỏ dữ liệu sử dụng Tomek link (Trang 20)
Hình 2.5: So sánh giữa SMOTE và oversampling ngẫu nhiên - Nghiên Cứu Về Phương Pháp Support Vector Machine Và Biến Đổi Dữ Liệu Trong Việc Phát Hiện Gian Lận Giao Dịch Thẻ Tín Dụng.docx
Hình 2.5 So sánh giữa SMOTE và oversampling ngẫu nhiên (Trang 21)
Hình 2.6: Ví dụ của một bài toán phân loại trên mặt phẳng hai chiều - Nghiên Cứu Về Phương Pháp Support Vector Machine Và Biến Đổi Dữ Liệu Trong Việc Phát Hiện Gian Lận Giao Dịch Thẻ Tín Dụng.docx
Hình 2.6 Ví dụ của một bài toán phân loại trên mặt phẳng hai chiều (Trang 22)
Hình 2.7: Slack variable trong SVM biên mềm - Nghiên Cứu Về Phương Pháp Support Vector Machine Và Biến Đổi Dữ Liệu Trong Việc Phát Hiện Gian Lận Giao Dịch Thẻ Tín Dụng.docx
Hình 2.7 Slack variable trong SVM biên mềm (Trang 24)
Hình 2.8: Minh hoạ kernel Linear - Nghiên Cứu Về Phương Pháp Support Vector Machine Và Biến Đổi Dữ Liệu Trong Việc Phát Hiện Gian Lận Giao Dịch Thẻ Tín Dụng.docx
Hình 2.8 Minh hoạ kernel Linear (Trang 27)
Hình 2.9: Minh hoạ kernel Polynomial với degree=3 - Nghiên Cứu Về Phương Pháp Support Vector Machine Và Biến Đổi Dữ Liệu Trong Việc Phát Hiện Gian Lận Giao Dịch Thẻ Tín Dụng.docx
Hình 2.9 Minh hoạ kernel Polynomial với degree=3 (Trang 28)
Hình 2.10: Minh hoạ kernel Radial Basic Function - Nghiên Cứu Về Phương Pháp Support Vector Machine Và Biến Đổi Dữ Liệu Trong Việc Phát Hiện Gian Lận Giao Dịch Thẻ Tín Dụng.docx
Hình 2.10 Minh hoạ kernel Radial Basic Function (Trang 28)
Hình 2.11: Minh hoạ kernel Sigmoid - Nghiên Cứu Về Phương Pháp Support Vector Machine Và Biến Đổi Dữ Liệu Trong Việc Phát Hiện Gian Lận Giao Dịch Thẻ Tín Dụng.docx
Hình 2.11 Minh hoạ kernel Sigmoid (Trang 29)
Hình 2.12: Confusion matrix - Nghiên Cứu Về Phương Pháp Support Vector Machine Và Biến Đổi Dữ Liệu Trong Việc Phát Hiện Gian Lận Giao Dịch Thẻ Tín Dụng.docx
Hình 2.12 Confusion matrix (Trang 30)
Hình 3.13: Ma trận phân bổ tương quan - Nghiên Cứu Về Phương Pháp Support Vector Machine Và Biến Đổi Dữ Liệu Trong Việc Phát Hiện Gian Lận Giao Dịch Thẻ Tín Dụng.docx
Hình 3.13 Ma trận phân bổ tương quan (Trang 38)
Bảng 3.2: Phân phối 'Class' sau khi biến đổi - Nghiên Cứu Về Phương Pháp Support Vector Machine Và Biến Đổi Dữ Liệu Trong Việc Phát Hiện Gian Lận Giao Dịch Thẻ Tín Dụng.docx
Bảng 3.2 Phân phối 'Class' sau khi biến đổi (Trang 40)
Hình 3.15: 5-fold cross validation - Nghiên Cứu Về Phương Pháp Support Vector Machine Và Biến Đổi Dữ Liệu Trong Việc Phát Hiện Gian Lận Giao Dịch Thẻ Tín Dụng.docx
Hình 3.15 5-fold cross validation (Trang 42)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w