Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 37 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
37
Dung lượng
605,72 KB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KINH TẾ - LUẬT ĐỒ ÁN CUỐI KỲ - HK2 (2022-2023) MƠN HỌC PHÂN TÍCH DỮ LIỆU ĐỀ TAI: PHÂN TÍCH VÀ TRỰC QUAN HĨA DỮ LIỆU VÀ XÂY DỰNG MƠ HÌNH PHAT HIÊN GIAN LÂN GIAO DỊCH QUA THẺ TIN DỤNG Mã lớp học phần: 222MI2101 Nhóm thực hiện: Nhóm ACCTV Giảng viên hướng dẫn: TS Nguyễn Thơn Dã Thành phố Hồ Chí Minh, tháng năm 2023 DANH SÁCH THÀNH VIÊN Ma số sinh viên Ho và tên Địa chỉ email K214142056 Trần Tất Anh anhtt21414@st.uel.edu.vn K214142057 Lê Phước Hồng Cẩm camlph21414@st.uel.edu.vn K214142058 Nguyễn Đình Chương chuongnd21414@st.uel.edu.vn K214142091 Trần Bảo Trân trantb21414@st.uel.edu.vn K214142100 Trần Ý Vy vyty21414@st.uel.edu.vn MỤC ̣ LỤC ̣ DANH MỤC ̣ BẢNG .1 DANH MỤC ̣ HINH ẢNH TOM TẮT PHẦN 1: GIỚI THIỆU 1.1 Lý chọn đề tài 1.2 Mục đích nghiên cứu .4 1.3 Phương pháp nghiên cứu .4 PHẦN 2: CAC NGHIÊN CỨU LIÊN QUAN PHẦN 3: NỀN TẢNG LÝ THUYÊT 3.1 Hoc may (Machine Learning) 3.2 Phương phap cân bằng dữ liệu SMOTE 3.3 Mô hình K-Nearest Neighbors Classifier .9 3.4 Mô hình Decision Tree Classifier 3.5 Mô hình Random Forest Classifier 10 3.6 Mô hình XGBoost 10 PHẦN 4: PHÂN TICH VA TRƯC QUAN HOA DƯ LIÊU 11 4.1 Hiểu dữ̃ liệUu 11 4.2 Xử lý dữ̃ liệUu 12 4.3 Khai phá dữ̃ liệUu 12 4.3.1 Phần trăm điểm liệu giao dịch gian lận 12 4.3.2 Khám phá liệu “amt” 13 4.3.3 Khám phá liệu thời gian giao dịch 15 4.3.4 Khám phá liệu “gender” 18 4.3.5 Khám phá liệu “age” 19 4.3.6 Khám phá liệu “job” 20 4.3.7 Khám phá liệu “category” 21 PHẦN 5: XÂY DỰNG CÁC MƠ HÌNH PHÁT HIỆN GIAO DỊ CH GIAN LẬN 22 ̣ 5.1 Cân bằ̀ng dữ̃ liệUu 22 5.2 So sánh mô hì̀nh 22 5.2.1 Ưu điểm mơ hình XGBoost 25 5.2.2 Nhược điểm mô hình XGBoost 26 5.2.3 Hướng phát triển 26 PHÂN 6: KÊT LUÂN 28 TÀI LIỆU THAM KHẢ̉O 29 DANH MỤC ̣ BẢNG Bả̉ ng 4.3.2: Bảng thống kê mô tả dữ liệu ‘amt’ 13 Bả̉ ng 5.2: So sanh cac mô hình .22 Bả̉ ng 5.2: So sanh cac mô hình .23 DANH MỤC ̣ HINH ẢNH Hì̀nh 4.1 Biểu đồ̀ cột số́ lầ̀n giao dịch bì̀nh thường - gian lận 13 Hì̀nh 4.2 Biểu đồ̀ cột khai phá dữ̃ liệUu “amt” .14 Hì̀nh 4.3 Biểu đồ̀ cột thời gian giao dịch theo ngày .15 Hì̀nh 4.4 Biểu đồ̀ cột thời gian giao dịch theo ngày tuầ̀n 16 Hì̀nh 4.5 Biểu đồ̀ cột thời gian giao dịch theo tháng năm 17 Hì̀nh 4.6 Biểu đồ̀ cột khai phá dữ̃ liệUu “gender” 18 Hì̀nh 4.7 Biểu đồ̀ cột khai phá dữ̃ liệUu “age” .19 Hì̀nh 4.8 Biểu đồ̀ cột khai phá dữ̃ liệUu “job” 20 Hì̀nh 4.9 Biểu đồ̀ cột khai phá dữ̃ liệUu “category” 21 Hì̀nh 5.1 Biểu đồ̀ cột cân bằ̀ng dữ̃ liệUu vớ́i SMOTE 22 TOM TẮT Trong thơi đại công nghệ hóa – hiện đại hóa cang phat triên, hoạt đông toan qua thẻ tin dung đã dần thay thế phương thưc toan truyên thống, trở tiện ich tất yếu đơi sống hằng Chỉ với môt tấm thẻ nhỏ lòng ban tay, khach hang có thê thực hiện giao dich ở moi lúc, moi nơi cho toan bô hoạt đông mua sắm cua mình Tuy nhiên, kèm với những tiện lợi đó la rui ro tiêm ẩn gây tổn thất tai chinh lớn bởi doanh nghiệp ban hang không thê kiêm tra ở đầu thẻ bên có phải chu thẻ hay môt khac Hơn thế nữa, số lượng phạm công nghệ cao tăng nhanh chóng mặt với nhiêu thu đoạn tinh vi, lợi dung lỗ hổng cua hang rao bảo mât thẻ tin dung non trẻ nhằm chiếm đoạt tai sản Trong bai nghiên cưu nay, nhóm đã tâp trung xây dựng mô hình phat hiện giao dich qua thẻ tin dung bằng phương phap SMOTE, cac mô hình K-Nearest Neighbors Classifier, Random Forest Classifier, Decision Tree Classifier, XGBoost nhằm lựa chon mô hình phù hợp dựa so sanh hiệu quả phat hiện gian lân Kết quả cho thấy mô hình XGBoost Classifier có chỉ số F1-Score cao nhất (tới 0.9946) va la mơ hình tới ưu nhất Từ khóa: Giao dịch gian lận, gian lận thẻ̉ tín dụng, phân tích dữ̃ liệUu, trựUc quan hó́ a dữ̃ liệUu, học máy, mô hì̀nh PHẦN 1: GIỚI THIỆU 1.1 Lý chọn đề tà̀ i Vớ́i sựU phát triển vượUt bậc hệU thố́ng công nghệU thông tin, hì̀nh thức toán ngân hàng ngày trở̉ nên đa dạ ng Trong đó́ , thẻ̉ tín dụng đượUc coi U phương thức toán nhanh chó́ ng, tiệUn lợUi phổ̉ biế́n nhấ́t vớ́i người Song, phát triển cù̀ ng vớ́i hì̀nh thức toán hì̀nh thức lừa đả̉ o, gian lận giao dịch tinh vi Hì̀nh thức gian lận giao dịch thường lừa đả̉ o để đánh cắ́p thơng tin thẻ̉ tín dụng khách hàng để mua sắ́m, rú́ t tiền hoặUc thựUc hiệUn giao dịch chuyển tiền trựUc tuyế́n, Điều không nhữ̃ng gây rủi ro cho người dù̀ ng thẻ̉ mấ́t tiền, để lộ thông tin cá nhân thông tin quan trọng khác; mà cò̀ n gây ả̉ nh hưở̉ng to lớ́n đế́n tính an toàn khả̉ bả̉ o mật hệU thớ́ng tốn ngân hàng Vì̀ nhữ̃ng lý trên, nhó́ m tác giả̉ đã̃ chọn đề tài “Phân tích, trựUc quan hó́ a dữ̃ liệUu xây dựUng mô hì̀nh phát hiệUn gian lận giao dịch qua thẻ̉ tín dụng” để nghiên cứu phát hiệUn nhữ̃ng dấ́u hiệUu đặUc trưng thường có́ giao dịch gian lận 1.2 Mục đích nghiên cứu Mục đích đề tài xây dựUng hệU thố́ng phát hiệUn gian lận giao dịch qua thẻ̉ tín dụng hiệUu quả̉ giả̉ m thiểu tở̉n thấ́t tài tiế́t kiệUm thời gian công sức việUc xử lý vụ gian lận HệU thố́ng giú́ p cho ngân hàng tở̉ chức tài có́ thể nhanh chó́ ng phát hiệUn giao dịch có́ nghi vấ́n gian lận kịp thời ngăn chặUn hành vi lừa đả̉ o 1.3 Phương pháp nghiên cứu Nhó́ m tác giả̉ áp dụng phương pháp nghiên cứu phân tích dữ̃ liệUu xây dựUng mơ hì̀nh học máy để phát hiệUn nhữ̃ng đặUc trưng điển hì̀nh giao dịch gian lận qua thẻ̉ tín dụng Phương pháp sử dụng kỹ thuật phân tích, trựUc quan hó́ a dữ̃ liệUu học máy để xác định điểm gian lận phát hiệUn giao dịch bấ́t thường PHẦN 2: CAC NGHIÊN CỨU LIÊN QUAN Gian lận giao dịch thẻ̉ tín dụng vấ́n đề nhức nhớ́i, ả̉ nh hưở̉ng đế́n tính bả̉ o mật hệU thớ́ng tốn Do đó́ , rấ́t nhiều nghiên cứu đã̃ đượUc thựUc hiệUn chủ đề Các nghiên cứu đáng chú́ ý bao gờ̀m: “GBG sử dụng máy học trí ṭU nhân tạ oU để phát hiệUn gian lận giao dịch thẻ̉ tín dụng tốn kỹ thuật sớ́” (Vietnam+, 2020): Trong viế́t này, GBG sử dụng máy học trí tuệU nhân tạoU để phát hiệUn gian lận thẻ̉ tín dụng HệU thớ́ng máy học GBG đã̃ đượUc sử dụng thành công để cả̉ nh báo khách hàng gian lận cả̉ i thiệUn khả̉ phát hiệUn gian lận bị bỏ̉ só́ t “Phương pháp học máy phát hiệUn gian lận thẻ̉ tín dụng - nghiên cứu thựUc nghiệUm” (Nguyễ̃n Thị Liên et al., 2018): Nghiên cứu tập trung vào cách sử dụng máy học giao dịch thẻ̉ để phát hiệUn gian lận thẻ̉ tín dụng tơi ở̉ Bài viế́t trì̀nh bày nghiên cứu thựUc nghiệUm sử dụng kỹ thuật máy học Naive Bayes, KNearest Neighbors (KNN) Support Vector Machine (SVM) Kế́t quả̉ nghiên cứu cho thấ́y kỹ thuật máy học có́ thể phát hiệUn gian lận cách hiệUu quả̉ “Làm thế́ Machine Learning có́ thể cả̉ i thiệUn phát hiệUn gian lận thời gian thựUc” (Hồ̀ Quang Thái, 2018): Bài viế́t tập trung vào lợUi ích máy học phát hiệUn gian lận giao dịch thẻ̉ tín dụng Nó́ đề cập đế́n việUc sử dụng máy học để chủ động phát hiệUn gian lận cả̉ i thiệUn độ xác việUc phát hiệUn gian lận “Máy học ngân hàng” (akaBot, 2022): Bài viế́t tì̀m hiểu việUc sử dụng máy học ngành ngân hàng để cả̉ i thiệUn độ xác việUc phát hiệUn gian lận giao dịch thẻ̉ tín dụng Điều nhấ́n mạnh U cách học máy có́ thể giú́ p tiế́t kiệUm thời gian cả̉ i thiệUn trả̉ i nghiệUm khách hàng “Một số́ thuật toán ứng dụng phát hiệUn gian lận tốn thẻ̉ tín dụng” (Ngũ̃n Thị Hờ̀ng Loan, 2018): Khai phá dữ̃ liệUu nhữ̃ng kỹ thuật đượUc ứng dụng hệU thố́ng ngân hàng Bài báo trì̀nh bày sớ́ thuật tốn khai phá đượUc đánh giá hiệUu quả̉ nhấ́t hệU thố́ng phát hiệUn gian lận giao dịch thẻ̉ tín dụng “Phương pháp học máy phát hiệUn gian lận thẻ̉ tín dụng - nghiên cứu thựUc nghiệUm” (Nguyễ̃n Thị Liên, Nguyễ̃n Thị Thu Trang, Nguyễ̃n Chiế́n Thắ́ng, 2018): Nghiên cứu giớ́i thiệUu phương pháp thố́ng kê học máy để phát hiệUn gian lận thẻ̉ tín dụng tạiU ngân hàng thương mại.U Nghiên cứu ứng dụng mô hì̀nh mô hì̀nh Logistic, mạng U Bayes (Bayesian Network), quyế́t định (Decision trees), phương pháp Stacking (Stacked generalization) Ngoài ra, nghiên cứu đưa số́ cách xử lý trường hợUp dữ̃ liệUu mấ́t cân bằ̀ng Thông qua kế́t quả̉ so sánh mô hì̀nh xử lý dữ̃ liệUu mấ́t cân bằ̀ng “A supervised machine learning algorithm for detecting and predicting fraud in credit card transactions A supervised machine learning algorithm for detecting and predicting fraud in credit card transactions” (Jonathan Kwaku Afriyie a et al., 2023): Bài viế́t đề xuấ́t phương pháp học máy có́ giám sát để phát hiệUn gian lận giao dịch thẻ̉ tín dụng Nghiên cứu tập trung vào việUc áp dụng thuật toán Random Forests để xử lý gian lận xác định độ xác phương pháp “Credit Card Fraud Detection using Machine Learning Algorithms.” (Vaishnavi Nath Dornadula & S Geetha, 2019): Bài viế́t đề xuấ́t phương pháp học máy có́ giám sát để phát hiệUn gian lận giao dịch thẻ̉ tín dụng Nghiên cứu tập trung vào việUc áp dụng thuật toán Random Forests để xử lý gian lận xác định độ xác phương pháp “Review of Anomaly Detection Techniques and Recent Advances” (Waleed Hilal et al., 2022): Bài viế́t tập trung vào việUc áp dụng phương pháp học máy có́ giám sát việUc phát hiệUn gian lận giao dịch thẻ̉ tín dụng Nghiên cứu đề xuấ́t mô hì̀nh kế́t hợUp dựUa Support Vector Machine (SVM) Bayesian Optimization để tăng cường hiệUu suấ́t phát hiệUn gian lận giao dịch thẻ̉ tín dụng Ngồi ra, viế́t