Bài viết đề xuất một phương pháp mới, Mask, nhằm đổi nhãn các phần tử lớp đa số dựa trên phân phối mật độ của các phần tử lớp thiểu số. Mời các bạn cùng tham khảo bài viết để nắm chi tiết hơn nội dung nghiên cứu.
Tạp chí Khoa học Kỹ thuật - Học viện KTQS - Số 184 (06-2017) MASK: PHƯƠNG PHÁP MỚI NÂNG CAO HIỆU QUẢ PHÁT HIỆN GIAN LẬN TÀI CHÍNH Nghiêm Thị Toàn1 , Nghiêm Thị Lịch2 , Bùi Dương Hưng3 , Đặng Xuân Thọ1 Tóm tắt Hiện nay, gian lận tài ngày phổ biến gây hậu nghiêm trọng Do đó, phát ngăn chặn gian lận tài thu hút quan tâm lớn từ nhà nghiên cứu Bài tốn phát gian lận tài giải với hỗ trợ kỹ thuật khai phá liệu, cụ thể phân lớp phương pháp học có giám sát áp dụng phổ biến Tuy nhiên, đặc thù liệu tài chính, số lượng mẫu xác định gian lận nhiều so với mẫu hợp lệ, dẫn đến tình trạng khó khăn phân lớp liệu cân Một số phương pháp tiếng giải vấn đề SMOTE, Borderline-SMOTE, SPY đạt kết tích cực, số trường hợp lại khơng đạt kết mong đợi Trong báo này, đề xuất phương pháp mới, Mask, nhằm đổi nhãn phần tử lớp đa số dựa phân phối mật độ phần tử lớp thiểu số Kết thực nghiệm liệu chuẩn quốc tế UCSD-FICO (cuộc thi data mining contest 2009), German Credit, Australian Credit, Yeast (từ kho liệu chuẩn UCI) phương pháp hiệu nâng cao độ xác phát gian lận tài so với phương pháp ROS, RUS, SMOTE, Borderline- SMOTE, SPY Nowadays, financial fraud is increasingly popular and causes serious consequences Therefore, detecting and preventing financial fraud has attracted great attention from researchers The problem of financial fraud detection can be solved with the support of data mining techniques, such as classification is one of supervised learning methods that is applied most commonly However, in financial data, the number of samples defined fraud is much fewer than the valid samples, which implies more difficulty of the classification problem Some well-known methods of solving this problem such as SMOTE, Borderline-SMOTE, and SPY have achieved positive results, but in some cases they cannot improve or sometimes reduce classification performance In this paper, we propose a new method, MASK, to change the label of a majority class samples based on the density distribution in the minority class samples The experimental results on international standard datasets such as UCSD-FICO (Data mining Contest 2009), German Credit, Australian Credit, and Yeast (from UCI) also showed that the new method is effective and improves the accuracy of classification of financial data comparing to ROS, RUS, SMOTE, Borderline- SMOTE, and SPY Từ khóa Phát gian lận tài chính, phân lớp, liệu cân bằng, Mask Đại học sư phạm Hà Nội, Đại học thương mại, Đại học công đồn Chun san Cơng nghệ thơng tin Truyền thông - Số 10 (06-2017) Giới thiệu 1.1 Gian lận tài Có nhiều hình thức gian lận tài khác như: gian lận thẻ tín dụng, gian lận rửa tiền, gian lận bảo hiểm xe ô tô, gian lận bảo hiểm y tế, gian lận tiếp thị, gian lận doanh nghiệp, thể hình [1] Sự phát triển khoa học cơng nghệ làm cho hình thức gian lận trở nên phổ biến phức tạp Số lượng báo cáo cố gian lận thẻ tín dụng, lừa đảo doanh nghiệp, gian lận rửa tiền tăng nhanh mức báo động Do đó, việc phát ngăn chặn giao dịch tài gian lận ngày trở nên quan trọng Hình Các loại gian lận tài 1.2 Phát gian lận tài Phát gian lận tài (Financial fraud detection - FFD) ngày trở nên quan trọng Để phát sớm giao dịch bất thường, người ta thường phân tích thơng tin sở liệu giao dịch có Bằng cách xác định giao dịch khơng giống với giao dịch thực trước Ngày nay, tốn phát gian lận giải với hỗ trợ kỹ thuật khai phá liệu Trong đó, phân lớp phương pháp học có giám sát áp dụng phổ biến nhất, đặc biệt phù hợp với lĩnh vực phát gian lận quản lý rủi ro tín dụng [2] Kỹ thuật phân lớp sử dụng giải thuật học để xây dựng mơ hình phân loại dựa tập liệu huấn luyện Đối với ứng dụng phát gian lận, tập liệu huấn luyện sử dụng bao gồm ghi giao dịch thật giao dịch bất thường Sau đó, tập liệu thử nghiệm dùng để ước tính độ xác mơ hình phân loại Nếu độ xác chấp nhận mơ hình sử dụng để phân loại mẫu liệu xác định giao dịch gian lận Tuy nhiên, việc việc phát triển phương pháp phát gian lận tài hiệu gặp khơng khó khăn Tạp chí Khoa học Kỹ thuật - Học viện KTQS - Số 184 (06-2017) 1.3 Khó khăn phát gian lận tài Một khó khăn lớn khơng sẵn có liệu sử dụng phát gian lận tài [3] Những liệu liên quan đến thông tin “nhạy cảm” cá nhân, tổ chức, chẳng hạn liệu giao dịch khách hàng Do đó, liệu liên quan đến gian lận tài thường khơng cơng bố cơng khai Mặt khác, liệu sử dụng để phát gian lận thường xảy chênh lệch lớn số lượng phần tử lớp, điều làm cho thuật tốn phân loại gặp nhiều khó khăn Các giải thuật phân lớp thường đạt độ xác cao lớp đa số, đó, với lớp thiểu số hồn tồn ngược lại Nhiều phân loại thường xem liệu thường xuyên hiếm, nhiễu Do đó, phần tử lớp thiểu số thường bị bỏ qua bị phân loại sai thường xuyên mẫu phổ biến độ xác tổng thể lớn [4] Giả sử liệu gồm 20 phần tử, 15 phần tử thể giao dịch hợp pháp phần tử thể giao dịch gian lận Trong trường hợp này, xảy cân liệu số lượng giao dịch hợp pháp chênh lệch lớn so với số lượng giao dịch gian lận Khi áp dụng giải thuật phân lớp chuẩn, mơ hình phân lớp dự đốn xác tất 15 trường hợp hợp pháp không dự đốn xác trường hợp gian lận có độ xác 75% Tuy nhiên, việc phân loại sai trường hợp gian lận gây ảnh hưởng nghiêm trọng so với việc phân loại sai trường hợp không gian lận thành gian lận Điều dẫn đến tổn thất lớn mặt kinh tế Vì vậy, áp dụng giải thuật phân lớp truyền thống định, máy vec-t h tr, Naăve Bayes cha th xõy dng c phân lớp tốt Do đó, phịng chống phát gian lận liệu tài cân trở thành thách thức lớn nhà nghiên cứu Phương pháp phân lớp liệu cân phát gian lận tài 2.1 Một số hướng giải vấn đề cân liệu Mất cân liệu xảy có chênh lệch lớn số lượng phần tử lớp Nghĩa là, số lượng phần tử đại diện cho lớp lớn nhiều so với lớp khác Đối với trường hợp hai lớp (nhị phân) tỷ lệ 1:10, 1:100, 1:1000 [4] [5] Lớp chiếm số đông phần tử gọi lớp đa số (negative), ngược lại lớp có phần tử gọi lớp thiểu số (positive) Các giải thuật phân lớp thường đạt độ xác cao với lớp đa số với lớp thiểu số ngược lại [4] [6] Trong thực tế, vấn đề cân liệu giải theo nhiều phương pháp khác Trong đó, có hai hướng tiếp cận chính: hướng tiếp cận mức độ liệu hướng tiếp cận mức độ giải thuật Hướng tiếp cận mức độ giải thuật, thuật toán phân lớp điều chỉnh để tăng cường việc học lớp thiểu số Bằng cách điều chỉnh chi phí lỗi, Chuyên san Công nghệ thông tin Truyền thông - Số 10 (06-2017) mẫu lớp thiểu số bị phân loại sai (các trường hợp gian lận phân loại không gian lận) gán trọng số cao so mẫu lớp đa số bị phân loại sai (các trường hợp không gian lận phân loại gian lận) [4] [7] [8] [9] Hướng tiếp cận mức độ liệu, bao gồm phương pháp điều chỉnh phân bố liệu cách tăng số lượng phần tử lớp thiểu số, giảm số lượng phần tử lớp đa số kết hợp hai phương pháp Cả ba phương pháp hướng đến mục tiêu cân phân bố liệu Ưu điểm phương pháp tiếp cận mức độ liệu linh hoạt, liệu sử dụng để huấn luyện phân loại khác [4] [10] [6] [11] Phương pháp sinh thêm phần tử tạo tập liệu lớn tập liệu ban đầu [10] Có nhiều cách khác để sinh thêm phần tử liệu: sinh thêm phần tử cách ngẫu nhiên (Random Over-Sampling - ROS [12]), lựa chọn phần tử để sinh thêm sinh thêm phần tử nhân tạo (SMOTE [13], Borderline SMOTE [14], Safe-level SMOTE [15], ADASYN [16]) Trong đó, ADASYN sinh thêm phần tử nhân tạo theo chế thuật toán SMOTE ưu điểm sử dụng phân bố mật độ phần tử lớp thiểu số để xác định số lượng phần tử nhân tạo Phương pháp loại bỏ phần tử tạo tập tập liệu ban đầu cách giảm bớt số lượng phần tử lớp đa số [10] Phương pháp đơn giản loại bỏ phần tử lớp đa số cách ngẫu nhiên (Random Under-Sampling - RUS [12]) Mặc dù, phương pháp làm giảm tính cân liệu Nhưng loại bỏ bớt phần tử cách ngẫu nhiên làm thơng tin quan trọng có lợi cho việc xây dựng mơ hình Do đó, số phương pháp loại bỏ phần tử theo mục tiêu đề xuất [7][11] [17] Mặc dù phương pháp sinh thêm phần tử lớp thiểu số cân phân bố lớp số vấn đề liên quan đến liệu cân chưa giải Chẳng hạn, cụm lớp khơng có ranh giới rõ ràng số phần tử lớp đa số nằm lẫn không gian lớp thiểu số Ngược lại, phần tử nhân tạo sinh nằm sâu không gian lớp đa số Do đó, SMOTE+IPF [17] phương pháp kết hợp hai cách sử dụng Ngoài ra, số phương pháp cân liệu cách đổi nhãn phần tử lớp đa số thành nhãn lớp thiểu số mà khơng thay đổi kích thước liệu Phương pháp đổi nhãn phần tử lớp đa số dựa vào lý thuyết tập thô [18] hay phương pháp SPY [19] đổi nhãn phần tử đa số k-láng giềng gần Kết thực nghiệm nhóm phương pháp đạt hiệu tương đối tốt, đặc biệt phương pháp SPY có tư tưởng rõ ràng, trực quan, nhiên, số trường hợp số lượng phần tử lựa chọn đổi nhãn chưa thực tương ứng với nhu cầu phân bố vùng liệu cụ thể Chính vậy, số trường hợp số lượng phần tử sinh thêm không phù hợp dẫn đến SPY không nâng cao hiệu phân lớp mà số trường hợp cịn giảm độ xác Tạp chí Khoa học Kỹ thuật - Học viện KTQS - Số 184 (06-2017) 2.2 Phương pháp đề xuất Mask Dựa phân tích ưu, nhược điểm số hướng tiếp cận SPY ADASYN, đề xuất phương pháp Mask tăng cường phần tử lớp thiểu số cách thay đổi nhãn lớp số phần tử lớp đa số thành nhãn lớp thiểu số theo phân bố liệu Đối với phương pháp này, số lượng phần tử lớp đa số đổi nhãn phụ thuộc vào hai yếu tố Thứ nhất, tổng số các phần tử lớp đa số đổi nhãn phụ thuộc vào chênh lệch số lượng phần tử lớp đa số số lượng phần tử lớp thiểu số Thứ hai, với phần tử lớp thiểu số, số láng giềng gần xung quanh lựa chọn để đổi nhãn khác Điều phụ thuộc vào chênh lệnh số lượng phần tử láng giềng gần thuộc lớp đa số số lượng láng giềng gần thuộc lớp thiểu số Nếu giá trị lớn số láng giềng gần lớp thuộc lớp đa số đổi nhãn nhiều ngược lại Như vậy, Mask khơng làm giảm tính cân liệu mà tăng cường phần tử biên lớp thiểu số Đầu tiên, số lượng phần tử lớp đa số đổi nhãn áp dụng Mask tỷ lệ với chênh lệch số lượng phần tử hai lớp tính theo cơng thức sau: G = (nmaj − nmin ) ∗ β Trong đó, nmaj nmin tương ứng số lượng phần tử lớp đa số số lượng phần tử lớp thiểu số β tỉ lệ phần trăm số lượng phần tử chọn để đổi nhãn dựa chênh lệch phần tử lớp đa số lớp thiểu số (nmaj − nmin ) Trong đó, β∈ [0, 0.5] sử dụng để xác định tỉ lệ cân mong muốn, đặc biệt, β=0.5 nghĩa liệu cân tạo sau đổi nhãn số phần tử lớp đa số sang thiểu số Sau đó, với phần tử lớp thiểu số, tìm k láng giềng gần tồn tập liệu huấn luyện tính tỷ lệ số lượng láng giềng gần lớp đa số số k láng giềng gần, ký hiệu ri = xki (với xi số lượng phần tử lớp đa số k láng giềng) Tiếp theo, xác định phân bố mật độ phần tử lớp thiểu số: ri = ri nmin i=1 ri Từ xác định số lượng phần tử cần đổi nhãn xung quanh phần tử lớp thiểu số theo công thức sau: gi = ri ∗ G Thuật tốn Mask mơ tả theo bước cụ thể sau: Chuyên san Công nghệ thông tin Truyền thông - Số 10 (06-2017) Bảng Ma trận nhầm lẫn Dự đoán Negative FN TN Dự đoán Positive TP FP Thực tế Positive Thực tế Negative Thuật toán Mask (T, β, k) Đầu vào: Tập liệu huấn luyện T gồm nmaj phần tử lớp đa số nmin phần tử lớp thiểu số, tham số β k Đầu ra: Tập liệu huấn luyện T’ • Bước 1: Tính số lượng phần tử lớp đa số cần đổi nhãn lớp theo công thức G = (nmaj - nmin )*β Trong đó, β tỷ lệ phần trăm phần tử lớp đa số chọn đổi nhãn lớp, tính theo chênh lệch số lượng phần tử hai lớp • Bước 2: Với phần tử lớp thiểu số pi , tìm k láng giềng gần tính ri = xki Trong đó, xi số lượng phần tử lớp đa số k láng giềng gần pi , i=1,2, , nmin Do ri ∈ [0, 1] • Bước 3: Chuẩn hóa ri theo công thức ri = độ i ri = ri nmin i=1 ri , ri phân bố mật • Bước 4: Với phần tử lớp thiểu số, tính số lượng láng giềng gần thuộc lớp đa số cần đổi nhãn theo cơng thức gi = ri ∗ G • Bước 5: Đổi nhãn gi láng giềng gần thuộc lớp đa số phần tử lớp thiểu số thành nhãn lớp thiểu số Ý tưởng phương pháp Mask sử dụng phân bố mật độ ri làm tiêu chí lựa chọn số lượng phần tử lớp đa số cần đổi nhãn phần tử lớp thiểu số Như vậy, phương pháp Mask không điều chỉnh phân bố lớp (theo tham số β) mà tăng cường các phần tử biên lớp thiểu số Sau áp dụng Mask, số lượng phần tử lớp thiểu số tăng lên số lượng phần tử lớp đa số giảm Độ phức tạp thuật toán Mask O(n2 )) đó, n số lượng phần tử lớp thiểu số Thực nghiệm 3.1 Tiêu chí đánh giá Có nhiều độ đo khác để đánh giá hiệu phân lớp xây dựng dựa ma trận nhầm lẫn bảng [20] 10 Tạp chí Khoa học Kỹ thuật - Học viện KTQS - Số 184 (06-2017) Bảng Dữ liệu thực nghiệm Dữ liệu UCSD - FICO German Credit Data Australian Credit Approval Yeast Số ví dụ 500 1,000 690 1,484 TP + TN + FP + TN + FN (SP) = FP TN + TN Accuracy = TP Specificity Số thuộc tính 19 20 14 Tỷ lệ thiểu số : đa số 1: 20.74 1: 2.33 : 1.25 : 28.10 Sensitivity (SE) = Recall = √ G − mean = SE ∗ SP TP TP + FN Trong cộng đồng khai phá liệu, toán phân lớp liệu cân bằng, sensitivity (SE) specificity (SP) hai độ đo sử dụng để đánh giá hiệu phân lớp SE đánh giá tỉ lệ positive thực tế phân loại đúng, đó, SP định nghĩa tỉ lệ negative dự đoán Độ đo G-mean đề xuất để đánh giá cân SE SP, sử dụng phổ biến để đánh giá hiệu phân lớp liệu cân [4] [12] [19] Do vậy, báo sử dụng G-mean độ đo quan trọng để đánh giá hiệu phân lớp liệu cân 3.2 Dữ liệu Để đánh giá hiệu phương pháp Mask theo tiêu chí đánh giá nêu, chúng tơi tiến hành thực nghiệm với ba liệu tài German Credit Data, Australian Credit Approval, UCSD-FICO Để minh chứng cho khả áp dụng Mask thực nghiệm thêm liệu y sinh học (Yeast) có tỉ lệ cân lớn Trong đó, ba liệu German Credit Data, Australian Credit Approval Yeast lấy từ kho liệu UCI [21] Bộ liệu UCSD-FICO lấy từ thi “UCSD-FICO data mining contest 2009” Thông tin liệu thể bảng Bốn liệu nêu có cân lớp Trong đó, liệu UCSD-FICO Yeast có tỷ lệ cân cao tương ứng 1:20.74 1:28.10, liệu German Credit Data với tỷ lệ cân 1:2.33, cuối Australian Credit Approval với tỷ lệ cân 1: 1.25 Lớp đa số gán nhãn Negative lớp thiểu số gán nhãn Positive 3.3 Kết thực nghiệm Để so sánh hiệu phương pháp giải vấn đề cân liệu trình bày trên, trình thực nghiệm sử dụng thuật toán phân lớp SVM, Random Forest, C5.0 Hiệu mơ hình phân lớp đánh giá phương pháp k-fold cross-valiadation, với k = 10 Ngôn ngữ sử dụng để cài đặt chạy chương trình ngơn ngữ R Bộ liệu chia làm 10 phần có kích thước xấp xỉ nhau, phần gọi fold Mỗi lần số 10 lần lặp, phần sử dụng làm liệu 11 Chuyên san Công nghệ thông tin Truyền thông - Số 10 (06-2017) kiểm tra phần lại sử dụng làm liệu huấn luyện Mỗi lần lặp, liệu huấn luyện ban đầu áp dụng phương pháp điều chỉnh phân bố liệu ROS, RUS, SMOTE, Borderline SMOTE1, SPY, Mask Sau liệu huấn luyện dùng để xây dựng mơ hình phân lớp thuật tốn phân lớp SVM, Random Forest, C5.0 Tiếp theo, mơ hình phân lớp đánh giá liệu kiểm tra Từ xác định số lượng mẫu phân lớp số lượng mẫu phân lớp sai lần lặp để xác định giá trị độ đo đánh giá Các giá trị sensitivity (SE), specificity (SP), G-mean lần 10-fold trung bình cộng giá trị sensitivity, specificity G-mean 10 lần lặp Kết phân lớp cuối liệu trung bình cộng trình thực 20 lần 10-fold Ngồi ra, để so sánh xem giá trị G-mean phương pháp phân lớp cao hơn, sử dụng kiểm định t-test để kiểm tra khác biệt Đối với liệu tác giả tiến hành thực nghiệm với phương pháp điều chỉnh liệu: Random Over-sampling (ROS), Random Under-sampling (RUS), SMOTE, Borderline SMOTE1 (BSO1), SPY, Mask Sau áp dụng phương pháp điều chỉnh liệu, liệu phân lớp giải thuật phân lớp Support Vector Machine (SVM), C5.0, Random Forest, kết thể bảng Kết thực nghiệm hai liệu German Credit Data UCSD–FICO cho thấy phương pháp Mask đạt giá trị G-mean cao so với liệu ban đầu liệu sau điều chỉnh thuật toán ROS, RUS, SMOTE, BSO1, SPY Cụ thể, với liệu UCSD–FICO, sử dụng giải thuật phân lớp SVM, phương pháp SPY đạt giá trị g-mean 73.31% cao so với liệu gốc (0%), ROS (71.73%), RUS (66.65%), SMOTE (68.73%), BSO1 (67.60%), nhiên, Mask đạt hiệu cao hẳn so với SPY 74.76% Tương tự, thực phân lớp C5.0 hay RF Mask (76.04%, 74.95%) đạt hiệu cao hẳn liệu gốc (3.12%, 48.37%), ROS (66.90%, 59.27%), RUS (63.72%, 73.96%), SMOTE (54.45%, 56.29%), BSO1 (59.02%, 56.86%), SPY (74.07%, 73.97%) Như vậy, trường hợp này, sử dụng giải thuật phân lớp liệu gốc, gần không phát tường hợp gian lận độ xác dự đốn trường hợp khơng gian lận xấp xỉ 100% Sau áp dụng phương pháp điều chỉnh liệu, hiệu phân lớp tăng lên rõ rệt Trong đó, giá trị g-mean phương pháp Mask đạt giá trị lớn so với phương pháp lại Để minh chứng cho khả áp dụng Mask thực nghiệm thêm liệu y sinh học Yeast, kết Mask đạt hiệu cao hơn, cụ thể thực phân lớp SVM, Mask đạt giá trị g-mean 83.52% cao hẳn SPY (80.98%), liệu gốc (19.55%), ROS (75.22%), RUS (76.63%), SMOTE (74.10%), BSO1 (64.34%) Tương tự, với việc sử dụng phân lớp C5.0 RF, Mask cho kết tốt Các giá trị p-value so sánh giá trị G-mean cao phân lớp giải thuật SVM, C5.0, RF thể bảng 4, bảng bảng Nếu giá trị p-value nhỏ 0.05 giá trị G-mean trung bình thuật tốn có ý nghĩa thống kê 12 Tạp chí Khoa học Kỹ thuật - Học viện KTQS - Số 184 (06-2017) Bảng So sánh giá trị sensitivity (SE), specificity (SP), G-mean Dữ liệu gốc ROS RUS SMOTE BSO1 SPY Mask (β=0.3) SE 39.75 67.72 73.48 69.83 65.55 70.23 70.08 SVM SP 91.53 74.56 68.92 71.49 75.64 72.26 73.67 G-mean 60.30 71.05 71.16 70.65 70.41 71.22 71.85 SE 47.62 52.62 65.57 56.05 50.32 63.13 60.35 C5.0 SP 83.70 76.87 65.74 73.14 80.65 69.53 72.81 G-mean 63.10 63.58 65.63 64.00 63.68 66.24 66.27 SE 41.90 50.82 73.37 56.65 48.38 71.02 69.82 RF SP 91.76 87.38 69.38 82.24 87.80 70.61 73.11 G-mean 62.00 66.63 71.34 68.25 65.17 70.81 71.44 Dữ liệu gốc ROS RUS UCSD-FICO SMOTE BSO1 SPY Mask (β=0.2) 0.00 56.30 71.30 49.78 48.26 73.26 73.26 100.00 91.57 62.53 95.07 95.21 73.44 76.35 0.00 71.73 66.65 68.73 67.60 73.31 74.76 0.65 46.74 68.04 31.30 37.39 73.04 73.26 99.61 96.21 59.95 95.34 94.62 75.31 79.01 3.12 66.90 63.72 54.45 59.02 74.07 76.04 23.70 35.43 80.00 32.17 32.83 68.70 79.78 99.62 99.34 68.50 98.85 98.95 79.77 70.46 48.37 59.27 73.96 56.29 56.86 73.97 74.95 Dữ liệu gốc ROS RUS SMOTE BSO1 SPY Mask (β=0.2) 88.83 89.40 91.40 90.86 91.74 91.78 89.02 82.51 82.48 80.43 80.55 80.09 79.96 82.90 85.61 85.87 85.74 85.55 85.72 85.66 85.91 82.10 79.07 84.97 83.57 84.17 83.84 82.59 86.97 87.00 85.00 85.30 85.85 86.14 87.17 84.49 82.93 84.98 84.43 85.00 84.97 84.84 85.36 83.94 87.79 87.17 87.31 87.10 86.03 87.92 89.28 86.31 86.66 87.15 87.15 88.09 86.63 86.57 87.04 86.91 87.23 87.13 87.05 Dữ liệu gốc ROS RUS SMOTE BSO1 SPY Mask (β=0.15) 3.73 62.45 62.06 58.73 42.45 70.59 85.39 99.98 90.69 94.69 93.60 97.60 92.92 81.70 19.55 75.22 76.63 74.10 64.34 80.98 83.52 26.76 41.76 65.98 62.06 30.39 70.49 90.39 99.14 96.65 93.42 92.51 99.04 92.19 73.76 51.33 63.45 78.48 75.73 54.78 80.60 81.63 14.12 31.08 51.47 54.80 24.41 68.73 84.02 99.73 98.93 96.11 95.99 99.06 92.11 83.05 37.39 55.41 70.29 72.51 49.10 79.54 83.52 Dữ liệu German Credit Data Australian Credit Approval Yeast Phương pháp Ví dụ, liệu UCSD–FICO, giá trị p-value so sánh giá trị G-mean liệu ban đầu phương pháp điều chỉnh liệu ROS, RUS, SMOTE, BSO1, SPY tương ứng (2.2E-16, 2.2E-16, 2.2E-16, 2.2E-16 2.2E-16) với Mask 2.2E-16 Hơn nữa, dễ dàng nhận thấy rằng, phương pháp Mask hiệu ROS, RUS, SMOTE, BSO1, SPY với giá trị p-value tương ứng 7.76E-04, 5.13E-13, 1.56E-08, 2.32E-06, 1.67E-02 Các giá trị bảng bảng 4, bảng bảng 6, cho thấy phương pháp điều chỉnh liệu Mask đạt hiệu tốt vượt trội hẳn so với thuật toán khác phân lớp SVM Mặt khác, liệu có tỷ lệ cân nhỏ Australian Credit Approval phương pháp Mask không làm giảm hiệu phân lớp Các kết cho thấy, sử dụng phương pháp Mask giá trị g-mean cao so với phương pháp khác sử dụng giải thuật phân lớp SVM, C5.0, RF vượt trội so với phương pháp khác thuật tốn phân lớp SVM Từ đó, thấy, việc điều chỉnh liệu theo phương pháp Mask phù hợp với phân lớp liệu SVM, C5.0, RF Như vậy, độ xác dự đốn trường hợp gian lận (phần tử lớp thiểu số) trường hợp không gian lận (phần tử lớp đa số) tăng 13 Chuyên san Công nghệ thông tin Truyền thông - Số 10 (06-2017) Bảng Các giá trị p-value so sánh G-mean trung bình phân lớp SVM Dữ liệu SVM Phương pháp German Credit Data UCSD -FICO Australian Credit Approval Yeast ROS RUS SMOTE BSO1 SPY Mask ROS RUS SMOTE BSO1 SPY Mask ROS RUS SMOTE BSO1 SPY Mask ROS RUS SMOTE BSO1 SPY Mask Dữ liệu gốc 2.20E-16 2.20E-16 2.20E-16 2.20E-16 2.20E-16 2.20E-16 2.20E-16 2.20E-16 2.20E-16 2.20E-16 2.20E-16 2.20E-16 8.30E-02 2.10E-01 3.58E-01 2.49E-01 3.59E-01 4.27E-02 1.09E-09 2.20E-16 2.20E-16 2.20E-16 2.20E-16 2.20E-16 ROS RUS SMOTE BSO1 SPY 3.17E-01 7.25E-02 7.70E-03 2.72E-01 1.84E-03 2.55E-02 1.51E-03 4.19E-01 3.84E-03 1.84E-01 2.83E-02 4.70E-05 2.71E-03 1.27E-06 1.43E-02 2.51E-06 2.71E-03 2.36E-03 3.81E-02 7.76E-04 1.47E-02 2.34E-01 6.90E-11 5.13E-13 2.03E-01 2.07E-06 1.56E-08 4.67E-05 2.32E-06 1.67E-02 1.84E-01 1.47E-02 1.49E-01 9.34E-01 4.01E-01 4.17E-02 4.25E-01 7.81E-01 8.50E-02 6.15E-02 1.18E-01 2.22E-03 7.13E-01 6.24E-02 1.61E-02 2.70E-02 7.77E-02 1.05E-08 1.90E-10 1.56E-13 4.72E-04 1.43E-09 1.31E-09 3.15E-14 7.21E-08 2.23E-12 6.98E-15 9.29E-12 1.27E-12 6.66E-08 Bảng Các giá trị p-value so sánh G-mean trung bình phân lớp C5.0 Dữ liệu German Credit Data UCCD -FISO Australian Credit Approval Yeast 14 C50 Phương pháp ROS RUS SMOTE BSO1 SPY Mask ROS RUS SMOTE BSO1 SPY Mask ROS RUS SMOTE BSO1 SPY Mask ROS RUS SMOTE BSO1 SPY Mask Dữ liệu gốc 1.84E-01 5.71E-06 4.27E-02 1.35E-01 2.36E-07 1.04E-06 2.20E-16 2.20E-16 2.20E-16 2.20E-16 2.20E-16 2.20E-16 6.53E-06 4.09E-02 3.87E-01 4.60E-02 6.97E-02 2.95E-01 6.00E-12 2.20E-16 2.20E-16 3.74E-03 2.20E-16 2.20E-16 ROS RUS SMOTE BSO1 SPY 9.24E-06 1.68E-01 4.07E-01 2.58E-07 2.67E-06 1.50E-04 1.95E-05 7.43E-02 9.62E-02 2.34E-01 3.82E-06 2.91E-05 5.31E-07 5.00E-06 4.76E-01 9.89E-01 1.65E-10 1.63E-04 2.65E-06 1.10E-08 1.22E-08 8.00E-03 2.58E-11 1.02E-14 1.25E-02 2.20E-16 2.20E-16 3.48E-09 5.37E-10 2.66E-02 4.64E-09 7.92E-07 1.16E-08 7.97E-08 1.38E-07 2.35E-03 4.68E-01 5.07E-01 3.05E-01 5.82E-03 1.78E-02 4.10E-02 5.33E-01 2.95E-01 3.39E-01 2.20E-16 1.50E-15 1.43E-10 2.20E-16 2.20E-16 3.07E-04 2.20E-16 4.55E-04 5.18E-06 2.20E-16 8.28E-09 1.65E-10 2.20E-16 2.20E-16 2.38E-02 Tạp chí Khoa học Kỹ thuật - Học viện KTQS - Số 184 (06-2017) Bảng Các giá trị p-value so sánh G-mean trung bình phân lớp RF Dữ liệu German Credit Data UCSD -FICO Australian Credit Approval Yeast RF Phương pháp ROS RUS SMOTE BSO1 SPY Mask ROS RUS SMOTE BSO1 SPY Mask ROS RUS SMOTE BSO1 SPY Mask ROS RUS SMOTE BSO1 SPY Mask Dữ liệu gốc 2.20E-16 2.20E-16 2.20E-16 8.24E-14 2.20E-16 2.20E-16 2.69E-10 2.20E-16 3.91E-07 1.80E-07 2.20E-16 2.20E-16 3.43E-01 2.47E-03 3.43E-01 2.48E-05 3.00E-04 1.13E-01 2.20E-16 2.20E-16 2.20E-16 3.12E-15 2.20E-16 2.20E-16 ROS SMOTE BSO1 4.18E-14 2.20E-16 9.32E-01 2.39E-01 1.35E-14 7.21E-12 6.81E-14 2.20E-16 2.20E-16 1.98E-02 2.20E-16 2.56E-03 1.52E-02 2.20E-16 2.20E-16 2.20E-16 2.20E-16 4.95E-01 8.82E-02 3.14E-01 2.20E-16 2.20E-16 2.20E-16 2.20E-16 1.02E-01 2.87E-03 5.00E-01 7.12E-05 5.35E-04 2.55E-03 2.87E-03 9.63E-02 2.79E-01 4.70E-01 7.12E-05 5.35E-04 2.55E-03 7.70E-01 1.13E-01 6.92E-01 2.20E-16 2.20E-16 6.11E-09 2.20E-16 2.20E-16 8.13E-04 2.20E-16 3.53E-16 2.20E-16 2.20E-16 6.68E-16 2.20E-16 2.20E-16 2.20E-16 8.10E-10 2.20E-16 1.67E-07 1.88E-06 2.20E-16 2.20E-16 RUS SPY lên Các phương pháp ROS, RUS, SMOTE, BOS1 làm thay đổi kích thước liệu Với phương pháp Mask, kích thước liệu khơng thay đổi tăng cường phần tử lớp đa số, làm giảm tính cân liệu nâng cao hiệu phân lớp Kết luận Khai phá liệu ứng dụng rộng rãi phát gian lận tài chính, phân lớp kỹ thuật sử dụng phổ biến với nhiều giải thuật phân lớp khác đề xuất Tuy nhiên, giải thuật phân lớp chuẩn thường gặp khó khăn liệu không cân đặc biệt phát gian lận tài số lượng trường hợp gian lận thường nhỏ nhiều so với trường hợp khơng gian lận Chính vậy, nghiên cứu này, nghiên cứu đề xuất phương pháp mới, Mask, nhằm đổi nhãn phần tử lớp đa số dựa phân phối mật độ lớp thiểu số Các kết thực nghiệm với liệu tài y sinh học cho thấy, phương pháp đề xuất Mask đạt hiệu so với phương pháp điều chỉnh liệu Random Over-sampling, Random Under-sampling, SMOTE, Borderline SMOTE1, SPY Mở rộng hơn, nhận thấy phần tử nằm đường biên gần đường biên đóng vai trị quan trọng việc phân lớp so với phần tử xa đường biên [14] Do vậy, thời gian tới, nghiên cứu cải tiến phương pháp Mask nhằm tăng cường phần tử biên lớp thiểu số theo phân bố liệu Tài liệu tham khảo [1] F H M J I and S S , "A Two-Tier Classification Model for Financial Fraud Detection," International Journal of Computer Applications, vol 118, no 19, pp 1-8, 2015 15 Chuyên san Công nghệ thông tin Truyền thông - Số 10 (06-2017) [2] A S and P K P , "A Review of Financial Accounting Fraud Detection based on Data Mining Techniques," International Journal of Computer Applications, vol 39, no 1, pp 37-47, 2012 [3] M Z and P S , "Application of Credit Card Fraud Detection: Based on Bagging Ensemble Classifier," in International Conference on Computer, Communication and Convergence (ICCC 2015), 2015 [4] S Yanmin, W Andrew K.C and K Mohamed S., "Classfiaction of imbalanced data: A Review," International Journal of Pattern Recognition and Artificial Intelligence, vol 23, p 687–719, 2009 [5] Bartosz Krawczyk, "Learning from imbalanced data: open challenges and future directions," Progress in Artificial Intelligence, vol 5, no 4, p 221–232, 2016 [6] Z Sun, Q Song, X Zhu, H Sun, B Xu and Y Zhou, "A novel ensemble method for classifying imbalanced data," Pattern Recognit, vol 48, p 1623–1637, 2015 [7] Patel, Harshita and Ghanshyam Singh Thakur, "Classification of Imbalanced Data using a Modified FuzzyNeighbor Weighted Approach," International Journal of Intelligent Engineering and Systems 10.1 , pp 56-64, 2017 [8] C Beyan and R B Fisher, "Classifying Imbalanced Data Sets using Similarity Based Hierarchical Decomposition," Pattern Recognit, vol 48, p 1653–1672, 2014 [9] S Vluymans, I Triguero, C Cornelis and Y Saeys, "EPRENNID: An evolutionary prototype reduction based ensemble for nearest neighbor classification of imbalanced data," Neurocomputing, p 596–610, 2016 [10] E R Y C R B and F H , "SMOTE-RSB*: a hybrid preprocessing approach based on oversampling and undersampling for high imbalanced datasets using SMOTE and rough sets theory," Knowledge and Information Systems, vol 33, no 2, pp 245-265, 2011 [11] J Błaszczy´nski and J Stefanowsk, "Neighbourhood sampling in bagging for imbalanced data," Neuro computing, vol 150, pp 529-542, 2015 [12] Haibo He and Edwardo A Garcia, "Learning from Imbalanced Data," IEEE Transactions on Knowledge and Data Engineering, vol 21, no 9, pp 1263 - 1284, 2009 [13] C Nitesh V., B Kevin W., O H Lawrence and K W Philip, "SMOTE: Synthetic Minority Over-sampling Technique," Artificial Intelligence Research, vol 16, p 321–357, 2002 [14] H Hui, W Wen-Yuan and M Bing-Huan, "Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning," in ICIC 2005, 2005 [15] C B K S and C L , "Safe-Level-SMOTE: Safe-Level-Synthetic Minority Over-Sampling TEchnique for Handling the Class Imbalanced Problem," in Advances in Knowledge Discovery and Data Mining, vol 5476, Springer-Verlag Berlin Heidelberg, 2009, pp 475-482 [16] Haibo He, Yang Bai, Edwardo A, Garcia and Shutao Li, "ADASYN: Adaptive synthetic sampling approach for imbalanced learning," IEEE INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS, pp 1322-1328, 2008 [17] Sáez, José A and et al., "SMOTE–IPF: Addressing the noisy and borderline examples problem in imbalanced classification by a re-sampling method with filtering," Information Sciences 291, pp 184-203, 2015 [18] J S and S W , "Rough Sets for Handling Imbalanced Data: Combining Filtering and Rule-based Classifiers," Fundamenta Informaticae - SPECIAL ISSUE Fundamenta Informaticae - Special issue on concurrency specification and programming (CSP 2005), vol 72, no 1-3, pp 379-391, 2006 [19] X T D D H T O Hirose and K Satou, "SPY: A Novel Resampling Method for Improving Classification Performance in Imbalanced Data," in Knowledge and Systems Engineering (KSE), 2015 Seventh International Conference on, 2015 [20] I T "Two Modifications of CNN," Transactions on Systems Man and Communications, vol 6, no 11, pp 769-772, 1976 [21] Lichman, Artist, UCI Machine Learning Repository [http://archive.ics.uci.edu/ml] Irvine, CA: University of California, School of Information and Computer Science [Art] 2013 Ngày nhận 06-4-2017; Ngày chấp nhận đăng 23-8-2017 16 Tạp chí Khoa học Kỹ thuật - Học viện KTQS - Số 184 (06-2017) Nghiêm Thị Toàn tốt nghiệp Khoa CNTT Trường Đại học Sư Phạm Hà Nội năm 2013 Bảo vệ luận văn thạc sĩ CNTT Đại học Sư Phạm Hà Nội tháng 6/2016 Nơi công tác: Trường THPT Lý Nhân Tơng, Bắc Ninh Hướng nghiên cứu chính: Khai phá liệu E-mail: toannt.kinhbac@gmail.com Nghiêm Thị Lịch tốt nghiệp Khoa CNTT Trường Đại học Sư Phạm Hà Nội năm 2007 Năm 2009, nhận thạc sĩ CNTT Đại học Sư Phạm Hà Nội Nơi công tác: Khoa Hệ thống thông tin Kinh tế, Trường Đại học Thương Mại Hướng nghiên cứu chính: Khai phá liệu, tính tốn mềm E-mail: lichnt72@gmail.com Bùi Dương Hưng tốt nghiệp đại học Trường ĐHBK Hà nội năm 2000 Thạc sỹ Học viện KTQS năm 2010; nghiên cứu sinh khoá 2015, Học viện Cơng nghệ Bưu Viễn thơng Nơi cơng tác: Khoa Tin học, Trường ĐH Cơng đồn Hướng nghiên cứu chính: Data Mining, Hệ thống thông tin, Xử lý ảnh sinh tin E-mail: hungbd@dhcd.edu.vn Đặng Xuân Thọ tốt nghiệp Khoa CNTT Trường Đại học Sư Phạm Hà Nội năm 2007 Năm 2009, nhận thạc sĩ CNTT Đại học Sư Phạm Hà Nội Năm 2013, nhận Tiến sĩ Trường Đại học Tổng hợp Kanazawa, Nhật Bản Nơi công tác: Khoa CNTT Trường Đại học Sư Phạm Hà Nội Hướng nghiên cứu chính: Khai phá liệu, Học máy, Tin sinh học E-mail: thodx@hnue.edu.vn 17 ... Giới thiệu 1.1 Gian lận tài Có nhiều hình thức gian lận tài khác như: gian lận thẻ tín dụng, gian lận rửa tiền, gian lận bảo hiểm xe ô tô, gian lận bảo hiểm y tế, gian lận tiếp thị, gian lận doanh... phát ngăn chặn giao dịch tài gian lận ngày trở nên quan trọng Hình Các loại gian lận tài 1.2 Phát gian lận tài Phát gian lận tài (Financial fraud detection - FFD) ngày trở nên quan trọng Để phát. .. dịch gian lận Tuy nhiên, việc việc phát triển phương pháp phát gian lận tài hiệu gặp khơng khó khăn Tạp chí Khoa học Kỹ thuật - Học viện KTQS - Số 184 (06-2017) 1.3 Khó khăn phát gian lận tài