Khoá luận tốt nghiệp chuyên ngành phân tích dữ liệu lớn trong kinh tế và kinh doanh ứng dụng phân lớp dữ liệu mất cân bằng trong dự đoán hành vi gian lận thẻ tín dụng tại ngân hàng
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 67 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
67
Dung lượng
1,47 MB
Nội dung
HỌC VIỆN CHÍNH SÁCH VÀ PHÁT TRIỂN KHOA KINH TẾ SỐ KHÓA LUẬN TỐT NGHIỆP Đề tài : ỨNG DỤNG PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG TRONG PHÁT HIỆN HÀNH VI GIAN LẬN THẺ TÍN DỤNG CỦA KHÁCH HÀNG TẠI NGÂN HÀNG Giảng viên hướng dẫn : TS Nguyễn Hữu Xuân Trường Sinh viên thực : Phan Thị Ngà Mã sinh viên : 7103101335 Khóa : 10 Khoa : Kinh tế số Chuyên ngành : Phân tích liệu lớn kinh tế kinh doanh HÀ NỘI – NĂM 2023 LỜI CAM KẾT Em xin cam đoan, Khóa luận tốt nghiệp với đề tài “ỨNG DỤNG PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG TRONG PHÁT HIỆN HÀNH VI GIAN LẬN THẺ TÍN DỤNG CỦA KHÁCH HÀNG TẠI NGÂN HÀNG” sản phẩm nghiên cứu em hướng dẫn TS Nguyễn Hữu Xn Trường Trong q trình làm Khóa luận, kết tính tốn, phân tích số liệu, đánh giá thực trạng nhận xét mang tính trung thực Việc tham khảo tài liệu thực trích dẫn ghi nguồn tham khảo theo quy định Sinh viên, Phan Thị Ngà ii LỜI CẢM ƠN Để hồn thành Khóa luận tốt nghiệp cách hoàn chỉnh, bên cạnh nỗ lực cố gắng thân cịn có hướng dẫn nhiệt tình Thầy ủng hộ bạn bè suốt trình nghiên cứu thực báo cáo Em xin chân thành bày tỏ lòng biết ơn đến Thầy TS Nguyễn Hữu Xuân Trường – người hết lòng giúp đỡ tạo điều kiện tốt cho em hồn thành Khóa luận Xin chân thành bày tỏ lịng biết ơn đến tồn thể Thầy cô Khoa Kinh tế số, Thầy cô Học viện Chính sách Phát triển tận tình truyền đạt kiến thức quý báu tạo điều kiện thuận lợi cho em suốt trình học tập, nghiên cứu hồn thành Khóa luận Do kiến thức kỹ khả tiếp cận nguồn tài liệu cịn hạn chế nên Khóa luận khơng tránh khỏi thiếu sót Em mong nhận góp ý Thầy cô để báo cáo em hoàn thiện Xin chân thành cảm ơn! Hà Nội, tháng 04 năm 2023 Sinh viên thực hiện, Phan Thị Ngà iii MỤC LỤC LỜI CAM KẾT ii LỜI CẢM ƠN iii DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT vii DANH MỤC HÌNH ẢNH viii DANH MỤC BẢNG BIỂU x LỜI MỞ ĐẦU 1 Tính cấp thiết đề tài Mục đích nghiên cứu Đối tượng nghiên cứu Phạm vi nghiên cứu Phương pháp nghiên cứu Kết cấu khóa luận CHƯƠNG 1: CƠ SỞ LÝ LUẬN VỀ PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG 1.1 Phân lớp liệu 1.1.1 Khái niệm phân lớp liệu toán phân lớp liệu 1.1.2 Quy trình thực phân lớp liệu 1.1.3 Các độ đo đánh giá mơ hình phân lớp liệu 1.2 Phân lớp liệu cân 10 1.2.1 Khái niệm liệu cân 10 1.2.2 Các đặc điểm phân lớp liệu cân 11 iv Các ứng dụng phân lớp liệu cân 11 1.2.3 1.3 Kết luận chương 13 CHƯƠNG 2: PHƯƠNG PHÁP PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG TRONG PHÁT HIỆN GIAN LẬN TÍN DỤNG TẠI NGÂN HÀNG 14 2.1 Vấn đề cân liệu phát gian lận ngân hàng 14 2.2 Tổng quan kỹ thuật xử lý liệu cân 15 Hướng tiếp cận mức độ liệu 16 2.2.1 2.2.1.1 Phương pháp sinh thêm phần tử (Over – sampling) 16 2.2.1.2 Phương pháp loại bỏ phần tử (Under – sampling) 31 Hướng tiếp cận mức độ thuật toán 33 2.2.2 2.2.2.1 Sử dụng số đánh giá phù hợp: 38 2.2.2.2 Sử dụng K - fold Cross - Validation cách 39 2.2.2.3 Tập hợp tập liệu lấy mẫu khác 39 2.2.2.4 Lấy mẫu với tỷ lệ khác 40 2.3 Kết luận chương 40 CHƯƠNG 3: ỨNG DỤNG VÀ THỰC NGHIỆM 41 3.1 Tiêu chí đánh giá 41 3.1.1 Ma trận nhầm lẫn (Confusion Matrix) 41 3.1.2 F-measure 43 3.1.3 G-mean 44 3.2 Phương pháp thực 44 3.3 Thực nghiệm đánh giá 46 3.3.1 Dữ liệu Credit Card Fraud Detection 47 v 3.3.2 Dữ liệu Default of credit card clients 49 3.3.3 Dữ liệu German Credit Data 51 3.4 Kết luận chương 54 KẾT LUẬN 56 TÀI LIỆU THAM KHẢO 57 vi DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT STT Viết tắt AUC AUPRC BSO CSDL FDR Tiếng Anh Tiếng Việt Diện tích nằm đường cong ROC Area Under the Curve Area Under the Precision Khu vực đường cong thu Recall Curve hồi xác Borderline SMOTE Cơ sở liệu False Discovery Rate Tỷ lệ đốn dương tính sai False Negative Số lượng phần tử lớp thiểu số bị phân loại nhầm phần tử lớp đa số FN FNR False Negative Rate Tỷ lệ dương tính giả FOR False Omission Rate Tỷ lệ đốn âm tính sai False Positive Số lượng phần tử lớp đa số bị phân loại nhầm phần tử lớp đa số FP 10 FPR False Positive Rate Tỷ lệ âm tính giả 11 KNN K-nearest neighbors K láng giềng gần 12 NPV Negative Predictive Value Tỷ lệ âm tính đốn 13 PPV Positive Predictive Value Tỷ lệ dương tính đoán 14 ROS Random over-sampling Sinh thêm phần tử ngẫu nhiên 15 RUS Random under-sampling Loại bỏ phần tử ngẫu nhiên 16 SMOTE 17 SVM Synthetic Minority Over- Kỹ thuật sinh thêm phần tử sampling Technique nhân tạo lớp thiểu số Support Vector Machines Máy véc tơ hỗ trợ vii 18 TN 19 TNR 20 TP 21 TPR True Negative Số lượng phần tử lớp đa số phân loại xác True Negative Rate Tỷ lệ âm tính thực True Positive Số lượng phần tử lớp thiểu số phân loại xác True Positive Rate Tỷ lệ dương tính thực DANH MỤC HÌNH ẢNH Tên hình ảnh Trang Hình 1.1 Mơ hình mơ tả tốn phân lớp liệu Hình 1.2 Quá trình phân lớp liệu - Bước xây dựng mơ hình phân lớp Hình 1.3 Quá trình phân lớp liệu - Ước lượng độ xác mơ hình Hình 1.4 Quá trình phân lớp liệu - Phân lớp liệu Hình 2.1 Sinh thêm phần tử cách ngẫu nhiên 17 Hình 2.2 Ví dụ minh họa việc sinh phần tử nhân tạo 19 Hình 2.3 Các phần tử nhân tạo (màu tím) 20 Hình 2.4 Ví dụ phần tử biên lớp thiểu số 24 Hình 2.5 Các phần tử nhân tạo sinh Borderline-SMOTE1 24 Hình 2.6 Các phần tử nhân tạo sinh Borderline-SMOTE2 24 Hình 2.7 Phần tử nhân tạo xác định theo thuật toán Safe- 28 Level-SMOTE viii Hình 2.8 Các phần tử nhân tạo sinh Add-Border- 31 SMOTE Hình 2.9 Minh họa phương pháp loại bỏ phần tử cách ngẫu 31 nhiên Hình 2.10 Minh họa phương pháp SMOTE + Tomek links 33 Hình 2.11 Ví dụ phân lớp định 34 Hình 2.12 Ví dụ phân lớp dự liệu SVM 36 Hình 2.13 Ví dụ phân lớp liệu sử dụng K-NN 38 Hình 3.1 Hình minh họa trình thực 10-fold Cross 46 Validation Hình 3.2 Biểu đồ so sánh giá trị G-mean thuật toán phân lớp 49 liệu Credit Card Fraud Detection Hình 3.3 Biểu đồ so sánh giá trị G-mean thuật toán phân lớp 51 liệu Default of credit card clients Hình 3.4 Biểu đồ so sánh giá trị G-mean thuật toán phân lớp liệu German Credit Data ix 53 DANH MỤC BẢNG BIỂU Tên bảng Trang Bảng 3.1 Ma trận nhầm lẫn 42 Bảng 3.2 Một số liệu thực nghiệm 48 Bảng 3.3 Kết liệu Credit Card Fraud Detection 49 Bảng 3.4 Các giá trị P-value so sánh giá trị G-mean cao phân lớp giải thuật SVM, KNN Naivebayes liệu 50 Credit Card Fraud Detection Bảng 3.5 Kết liệu Default of credit card clients 51 Bảng 3.6 Các giá trị P-value so sánh giá trị G-mean cao phân lớp giải thuật SVM, KNN Naivebayes liệu 52 Default of credit card clients Bảng 3.7 Kết liệu German Credit Data 53 Bảng 3.8 Các giá trị P-value so sánh giá trị G-mean cao phân lớp giải thuật SVM, KNN Naivebayes liệu German Credit Data x 54 không phát trường hợp gian lận độ xác tổng thể cao Mặc dù, số trường hợp gian lận tài chiếm tỷ lệ nhỏ, việc phân loại sai trường hợp gây thất thoát số tiền lớn Do đó, giá trị quan trọng tỷ lệ phần tử lớp thiểu số phân loại xác, tương ứng với phần trăm trường hợp gian lận phân loại xác Các giá trị phải đạt cao tỷ lệ phần tử lớp thiểu số bị phân loại sai, tương ứng với trường hợp gian lận phân loại hợp pháp phải nhỏ 3.1.2 F-measure Precision (Positive Predictive Value: Tỷ lệ dương tính đốn đúng): Trong tất các dự đốn Positive đưa ra, dự đốn xác? Chỉ số tính theo cơng thức: 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑃𝑃𝑉 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑃 Recall (True Positive Rate: Độ nhạy – Tỷ lệ dương tính thực): Trong tất trường hợp Positive, trường hợp dự đốn xác? Chỉ số tính theo cơng thức: 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃𝑅 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 Giả sử có tập liệu gồm 100 người với 90 người khơng gian lận thẻ tín dụng ngân hàng (Negative) 10 người gian lận thẻ tín dụng ngân hàng (Positive) mơ hình dự đốn 2/10 người gian lận thẻ tín dụng ngân hàng, tức đưa dự đoán người gian lận thẻ tín dụng ngân hàng dự đốn xác Như vậy, số Precision dự đốn lớp gian lận thẻ tín dụng ngân hàng Tuy nhiên, 8/10 người lại bị bỏ qua, từ số Recall 43 0.2 - số thấp Để đánh giá độ tin cậy chung mơ hình, người ta kết hợp số Precision Recall thành số nhất: F-measure hay F - score, tính theo công thức: 𝐹 − 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 = ∗ 𝑅𝑒𝑐𝑎𝑙𝑙 ∗ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑅𝑒𝑐𝑎𝑙𝑙 + 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 Một mơ hình có số F - score cao số Precision Recall cao Trường hợp xấu số Precision Recall kéo F- score 0, tốt F - score Việc sử dụng số F - score, cho biết thước đo đáng tin cậy hiệu mơ hình tốn phân loại, đặc biệt liệu lớp lớn gấp nhiều lần so với liệu lớp lại 3.1.3 G-mean G-mean là độ đo sử dụng chủ yếu đánh giá hiệu phân lớp liệu cân G-mean xác định công thức sau: 𝐺 − 𝑚𝑒𝑎𝑛 = √𝑇𝑃𝑅 ∗ 𝑇𝑁𝑅 G-mean độ đo biểu diễn cân hài hòa hiệu nhận dạng phần tử hai lớp đa số thiểu số Nếu tỉ lệ phân lớp phần tử hai lớp cao giá trị G-mean cao Như vậy, thuật tốn phân lớp khơng làm cho hiệu nhận dạng lớp thiểu số cao giá trị Gmean khơng cao nghĩa mơ hình xây dựng dùng để nhận dạng phần tử Phương pháp thực 3.2 Để đánh giá hiệu thuật toán chương 2, ta tiến hành thực nghiệm phân lớp liệu có sẵn Bộ liệu chia thành hai phần: liệu huấn luyện liệu kiểm tra - Dữ liệu huấn luyện (trainning dataset): dùng cho trình học để xây dựng hệ thống phân lớp 44 - Dữ liệu kiểm tra (test dataset): dùng để đánh giá hiệu phân lớp Trong luận văn này, tiến hành đánh giá phương pháp k-fold cross-validation, cụ thể với k =10 (10-fold) Ngôn ngữ sử dụng để cài đặt chạy chương trình ngơn ngữ Python Bộ liệu chia làm 10 phần có kích thước xấp xỉ nhau, phần gọi fold Mỗi lần số 10 lần lặp, phần sử dụng làm liệu kiểm tra phần lại sử dụng làm liệu huấn luyện Quá trình thực 10-fold Cross Validation minh họa hình 3.1 Hình 3.1 Hình minh họa trình thực 10-fold Cross Validation Mỗi lần lặp, liệu huấn luyện ban đầu áp dụng phương pháp điều chỉnh phân bố liệu Random Over-sampling (ROS), Random Under-sampling (RUS), SMOTE, Borderline SMOTE (BSO) Sau liệu huấn luyện dùng để xây dựng mơ hình phân lớp thuật toán phân lớp K-NN, SVM Naivebayes Tiếp theo, mơ hình phân lớp đánh giá liệu kiểm tra Từ xác định số lượng mẫu phân 45 lớp số lượng mẫu phân lớp sai lần lặp để xác định giá trị độ đo đánh giá Các giá trị TPR, TNR, G-mean lần 10fold trung bình cộng giá trị TPR, TNR, G-mean 10 lần lặp Phương pháp k-fold cross-validation phù hợp liệu vừa nhỏ Việc áp dụng phương pháp đánh giá để tránh việc trùng lặp tập kiểm tra (một số phần tử liệu xuất số tập kiểm tra khác nhau) Kết đánh giá phương pháp 10-fold cross-validation phụ thuộc vào việc chia liệu ban đầu thành 10 tập con, việc chia ngẫu nhiên Do đó, để kết đánh giá xác ta tiến hành nhiều lần 10fold tốt Để đánh giá xác hiệu mơ hình phân lớp, trình thực nghiệm thực 20 lần 10-fold Kết phân lớp cuối liệu trung bình cộng của giá trị q trình thực 20 lần 10-fold Ngồi ra, để so sánh xem giá trị G-mean phương pháp phân lớp cao hơn, tác giả sử dụng kiểm định t-test để kiểm tra khác biệt Kiểm định t-test trả lại trị số P-value số xác suất Theo từ điển toán kinh tế thống kê, trị số P định nghĩa sau: “P – value (hoặc giá trị xác suất) P giá trị mức ý nghĩa thống kê thấp mà giá trị quan sát thống kê kiểm định có ý nghĩa” Nếu trị số P thấp 0.05 xem khác biệt có có ý nghĩa thống kê 3.3 Thực nghiệm đánh giá Để đánh giá hiệu phương pháp phân lớp liệu cân theo tiêu chí đánh giá nêu, tác giả tiến hành thực nghiệm với ba liệu, có ba liệu tín dụng ngân hàng Bộ liệu thứ Credit Card Fraud Detection lấy từ kho liệu Kaggle, liệu Default of credit card clients German Credit Data lấy từ kho liệu UCI Thông tin 46 liệu thể bảng 3.2 Bảng 3.2 Một số liệu thực nghiệm Tên liệu Tỷ lệ lớp Số ví dụ Số thuộc tính Credit Card Fraud Detection 284807 31 1:58 Default of credit card clients 30000 24 1:3 German Credit Data 1000 20 1:3 thiểu số: đa số Các liệu bảng liệu có cân lớp Dữ liệu gán nhãn hai lớp, lớp đa số gán nhãn Negative thiểu số gán nhãn Positive Trong đó, liệu German Credit Data Default of credit card clients có tỉ lệ cân 1:3, liệu Credit Card Fraud Detection có tỉ lệ cân lớn 1:58 3.3.1 Dữ liệu Credit Card Fraud Detection Bộ liệu chứa giao dịch thực thẻ tín dụng vào tháng năm 2013 chủ thẻ châu Âu Bộ liệu trình bày giao dịch xảy hai ngày, 492 (chiếm 0,172%) vụ gian lận tổng số 284.807 giao dịch - liệu cân Bộ số liệu chứa biến số đầu vào kết phép biến đổi PCA Các biến V1, V2,…V28 thành phần có PCA Biến ‘Time’ chứa số giây trôi qua giao dịch giao dịch tập liệu Biến ‘Amount’ Số tiền giao dịch, tính sử dụng cho việc học nhạy cảm với chi phí phụ thuộc vào ví dụ Biến mục tiêu ‘Class’ = cho biết giao dịch không gian lận ‘Class’ = cho biết giao dịch hóa gian lận 47 Bảng 3.3 Kết liệu Credit Card Fraud Detection SVM KNN Naivebayes Phương pháp TPR TNR G-mean TPR TNR G-mean TPR TNR G-mean Dữ liệu gốc 18.70 92.93 41.62 17.28 91.36 39.14 23.46 89.91 45.85 ROS 48.70 72.04 59.19 55.86 67.18 61.14 38.52 78.49 54.95 RUS 54.51 70.27 61.84 55.12 72.04 62.97 58.27 68.69 63.22 SMOTE 67.22 57.24 62.01 54.63 77.42 65.00 44.07 77.00 58.22 BSO 63.40 59.89 61.61 61.67 68.78 65.09 38.27 81.93 55.93 Bảng 3.3 kết phân lớp liệu Credit Card Fraud Detection thuật toán phân lớp SVM, KNN, Naivebayes trước sau điều chỉnh liệu ROS, RUS, SMOTE, BSO Sau điều chỉnh liệu, hiệu phân lớp tăng lên rõ rệt, giá trị G-mean cao nhiều so với phương pháp khác Phương pháp RUS cho kết tốt với thuật toán phân lớp N aivebayes Hình 3.2 Biểu đồ so sánh giá trị G-mean thuật toán phân lớp liệu Credit Card Fraud Detection Sự khác biệt giá trị G-mean trung bình phương pháp phân lớp liệu Credit Card Fraud Detection sử dụng phương pháp điều chỉnh liệu khác thể giá trị P-value bảng 3.4 48 Bảng 3.4 Các giá trị P-value so sánh giá trị G-mean cao phân lớp giải thuật SVM, KNN Naivebayes liệu Credit Card Fraud Detection Dữ liệu gốc SVM KNN Naivebayes ROS RUS ROS 2.2E-16 RUS 2.2E-16 0.000133 SMOTE 2.2E-16 9.73E-06 0.3863 BSO 2.2E-16 4.57E-05 0.3477 ROS 3.414E-14 RUS 2.497e-14 0.0141 SMOTE 2.368e-14 4.48E-06 0.000464 BSO 2.29E-14 0.00024 0.04041 ROS 3.133E-14 RUS 2.2E-16 1.66E-15 SMOTE 2.2E-16 2.62E-05 1.20E-09 BSO 2.469E-15 0.09399 2.91E-13 SMOTE 0.2029 0.0294 0.001863 3.3.2 Dữ liệu Default of credit card clients Đây liệu thẻ hành vi gian lận tháng đầu năm 2005 ngân hàng thuộc Đài Loan Bộ liệu bao gồm 30000 liệu với 24 biến thuộc tính Trong đó, biến mục tiêu default_payment_next_month (Yes = 1, No = 0) Bộ liệu xảy tượng cân nghiêm trọng với tỷ lệ 23364:6636 Bảng 3.5 Kết liệu Default of credit card clients SVM KNN Naivebayes Phương pháp TPR Dữ liệu gốc 0.00 TNR G-mean TPR TNR G-mean TPR TNR G-mean 100.00 0.00 0.65 99.61 3.12 23.70 99.62 48.37 49 ROS 56.30 91.57 71.73 46.74 96.21 66.90 35.43 99.34 59.27 RUS 71.30 62.53 66.65 68.04 59.95 63.72 80.00 68.50 73.96 SMOTE 49.78 95.07 68.73 31.30 95.34 54.45 32.17 98.85 56.29 BSO 73.26 76.35 74.76 73.26 79.01 76.04 79.78 70.46 74.95 Bảng 3.5 kết phân lớp liệu Default of credit card clients thuật toán SVM, KNN Naivebayes trước (dữ liệu gốc) sau điều chỉnh liệu ROS, RUS, SMOTE Khi sử dụng giải thuật phân lớp SVM K-NN với liệu Default of credit card clients ban đầu, giá trị TPR G-mean xấp xỉ 0% Như vậy, trường hợp này, sử dụng giải thuật phân lớp liệu gốc, gần không phát tường hợp gian lận độ xác dự đốn trường hợp khơng gian lận xấp xỉ 100% Sau áp dụng phương pháp điều chỉnh liệu, hiệu phân lớp tăng lên rõ rệt Trong đó, giá trị G-mean phương pháp Mask đạt giá trị lớn so với phương pháp cịn lại Do đó, khả dự đốn xác trường hợp gian lận khơng gian lận tăng lên 70.00% G-mean 60.00% 50.00% Dữ liệu gốc 40.00% ROS 30.00% RUS SMOTE 20.00% BSO 10.00% 0.00% SVM KNN Naivebayes Hình 3.3 Biểu đồ so sánh giá trị G-mean thuật toán phân lớp liệu Default of credit card clients 50 Hình 3.3 biểu đồ so sánh giá trị G-mean thuật toán phân lớp liệu Default of credit card clients Sự khác biệt giá trị G-mean trung bình phương pháp phân lớp liệu Default of credit card clients sử dụng phương pháp điều chỉnh liệu khác thể giá trị P-value bảng 3.6 Dựa vào kết trên, thấy sử dụng giải thuật phân lớp, phương pháp KNN phương pháp đạt kết tốt vượt trội so với phương pháp khác thuật toán phân lớp SVM Naivebayes Bảng 3.6 Các giá trị P-value so sánh giá trị G-mean cao phân lớp giải thuật SVM, KNN Naivebayes liệu Default of credit card clients Dữ liệu gốc SVM KNN Naivebayes ROS RUS ROS 2.2E-16 RUS 2.2E-16 2.51E-06 SMOTE 2.2E-16 0.002706 0.01472 BSO 2.2E-16 4.57E-05 0.3477 ROS 2.2E-16 RUS 2.2E-16 0.989 SMOTE 2.2E-16 1.654E-10 1.22E-08 BSO 2.2E-16 1.10E-08 1.02E-14 ROS 2.688e-10 RUS 2.2E-16 2.20E-16 SMOTE 3.91E-07 0.002562 2.20E-16 BSO 2.2E-16 2.20E-16 0.0882 SMOTE 0.2029 2.20E-16 2.20E-16 3.3.3 Dữ liệu German Credit Data Dữ liệu tín dụng Đức chứa liệu 20 biến số phân loại xem người nộp đơn coi có rủi ro tín dụng Tốt (Good) hay Xấu (Bad) 1000 người xin vay vốn Một mơ hình dự đốn phát 51 triển liệu dự kiến cung cấp hướng dẫn cho người quản lý ngân hàng để đưa định có chấp thuận khoản vay cho người đăng ký tiềm hay không dựa hồ sơ họ Bảng 3.7 Kết liệu German Credit Data SVM KNN Naivebayes Phương pháp TPR TNR G-mean TPR TNR G-mean TPR TNR G-mean Dữ liệu gốc 39.75 91.53 60.30 47.62 83.70 63.10 41.90 91.76 62.00 ROS 67.72 74.56 71.05 52.62 76.87 63.58 50.82 87.38 66.63 RUS 73.48 68.92 71.16 65.57 65.74 65.63 73.37 69.38 71.34 SMOTE 69.83 71.49 70.65 56.05 73.14 64.00 56.65 82.24 68.25 BSO 65.55 75.64 70.41 50.32 80.65 63.68 48.38 87.80 65.17 Bảng 3.7 kết phân lớp liệu German Credit Data thuật toán SVM, KNN Naivebayes trước (dữ liệu gốc) sau điều chỉnh liệu ROS, RUS, SMOTE, BSO Kết cho thấy, liệu German Credit Data sau áp dụng phương pháp điều chỉnh liệu, hiệu phân lớp tăng lên đáng kể Hình 3.4 biểu đồ so sánh giá trị G-mean thuật toán phân lớp liệu German Credit Data 52 Hình 3.4 Biểu đồ so sánh giá trị G-mean thuật toán phân lớp liệu German Credit Data Các giá trị P-value so sánh giá trị G-mean cao phân lớp giải thuật SVM, KNN Naivebayes thể bảng 3.8 Nếu giá trị P-value nhỏ 0.05 giá trị G-mean trung bình thuật tốn có ý nghĩa thống kê Từ đó, cho thấy phương pháp điều chỉnh liệu RUS đạt hiệu tốt thuật toán phân lớp SVM, KNN Naivebayes vượt trội hẳn so với thuật toán khác phân lớp SVM Các kết cho thấy, sử dụng phương pháp RUS giá trị G-mean cao so với phương pháp khác sử dụng giải thuật phân lớp SVM, KNN Naivebayes Như vậy, độ xác dự đoán trường hợp gian lận (phần tử lớp thiểu số) trường hợp không gian lận (phần tử lớp đa số) tăng lên Bảng 3.8 Các giá trị P-value so sánh giá trị G-mean cao phân lớp giải thuật SVM, KNN Naivebayes liệu German Credit Data 53 Dữ liệu gốc SVM KNN Naivebayes ROS RUS ROS 2.2E-16 RUS 2.2E-16 0.3173 SMOTE 2.2E-16 0.0725 0.02546 BSO 2.2E-16 0.007695 0.00151 ROS 0.184 RUS 5.714e-06 9.24E-06 SMOTE 0.04273 0.168 0.00015 BSO 0.1351 0.4067 1.95E-05 ROS 2.2E-16 RUS 2.2E-16 2.20E-16 SMOTE 2.2E-16 1.67E-07 4.18E-14 BSO 8.235E-14 1.88E-06 2.20E-16 SMOTE 0.1842 0.2338 1.35E-14 Như vậy, thấy, việc điều chỉnh liệu với phân lớp liệu SVM, KNN Naivebayes Các phương pháp ROS, RUS, SMOTE, Borderline SMOTE làm thay đổi kích thước liệu, tăng cường phần tử lớp đa số, làm giảm tính cân liệu nâng cao hiệu phân lớp Đối với phân lớp liệu phát gian lận tín dụng ngân hàng, sử dụng tiêu chí đánh giá hiệu phân lớp nêu Hiệu phân lớp tăng, có nghĩa khả phát trường hợp gian lận tài tăng Các kết cho thấy, sử dụng phương pháp phân lớp liệu cân nâng cao khả phát gian lận tín dụng ngân hàng 3.4 Kết luận chương Trong chương này, tác giả trình bày số tiêu chí đánh giá hiệu phân lớp liệu cân bằng, phương pháp tiến hành thực nghiệm liệu sử dụng trình thực nghiệm Thực nghiệm tiến hành để đánh giá hiệu giải thuật phân lớp SVM, KNN Naivebayes 54 Kết thực nghiệm cho thấy, liệu sử dụng phát gian lận tín dụng ngân hàng, sử dụng phương pháp phân lớp liệu cân để điều chỉnh liệu tín dụng cân nâng cao khả phát gian lận tín dụng ngân hàng 55 KẾT LUẬN Kết đạt Khóa luận Với mục tiêu nghiên cứu số kỹ thuật để nâng cao hiệu phân lớp liệu tập liệu cân ứng dụng, luận văn đạt số kết sau: - Nghiên cứu tổng quan toán phân lớp liệu vấn đề liên quan - Khảo sát tổng quan liệu cân - Khảo sát hướng tiếp cận liệu hướng tiếp cận thuật toán để nâng cao hiệu phân lớp liệu liệu cân - Khảo sát liệu giao dịch thực thẻ tín dụng UCI Kaggle - Thực thử nghiệm phân lớp liệu liệu chứa giao dịch thực thẻ tín dụng ngân hàng - Kết thử nghiệm cho thấy hiệu phân lớp liệu sau sử dụng thuật toán khảo sát Tuy nhiên, hạn chế mặt thời gian, luận văn chưa tiến hành thử nghiệm với liệu lớn Do đó, hiệu thử nghiệm chưa cao Hướng phát triển Trên sở nghiên cứu kết đạt được, đề tài luận văn phát triển sau: - Tiếp tục hoàn thiện kết có để xây dựng mơ hình phân lớp liệu cân với liệu thực tế thường có kích thước lớn, thuộc tính phần tử liệu thường bao gồm dạng số dạng phi số - Nghiên cứu thêm kỹ thuật trích chọn đặc trưng cho liệu cân nhằm nâng cao hiệu cho mơ hình phân lớp 56 TÀI LIỆU THAM KHẢO Genesis (2018), SMOTE (Synthetic Minority Oversampling Technique) Nghiêm Thị Toàn (2016), Mask: Phương pháp nâng cao hiệu phát gian lận tài chính, Khoa Cơng nghệ thơng tin, Trường Đại học Sư phạm Hà Nội, Hà Nội Nguyễn Minh Hà (2020), NGHIÊN CỨU PHÂN LỚP TRÊN DỮ LIỆU MẤT CÂN BẰNG VÀ ỨNG DỤNG, Học viện Công nghệ Bưu Viễn thơng, Hà Nội Phamdinhkhanh (2020), Mất cân liệu (imbalanced dataset) https://phamdinhkhanh.github.io/2020/02/17/ImbalancedData.html TRANG WEB https://archive.ics.uci.edu/ml/datasets.php https://www.kaggle.com/search?q=credit+card 57