Đánh giá số thuật tốn học máy khơng giám sát sử dụng phát gian lận thẻ tín dụng Thẻ tín dụng ngày tr nên phổ biến, điều kéo theo phát triển nhiều hành vi gian lận giao d ịch loại hình tốn Tóm tắt: Thẻ tín dụng ngày trở nên phổ biến, điều kéo theo phát triển nhiều hành vi gian lận giao dịch loại hình tốn Các ngân hàng cần xây dựng hệ thống nhận diện cảnh báo giao dịch gian lận nhằm hạn chế thất tài Trong viết này, tác giả xây dựng mơ hình phán đốn giao d ịch gian lận dựa bốn thuật tốn học máy khơng giám sát: One -class Support Vector Machine (One -class SVM), K-means, rừng cô lập (Isolation forest) Local outlier factor (LOF) Từ đưa so sánh, đánh giá v ề thời gian thực hiệu thuật toán Từ khóa: Gian lận thẻ tín dụng, học máy khơng giám sát Giới thiệu Thẻ tín dụng ngày tr nên phổ biến hình thức giao dịch online offline Đi v ới phát triển thịnh hành loại hình tốn loại tội phạm lừa đảo sử dụng công nghệ cao Nhận diện giao dịch lừa đảo liên quan tới tốn thẻ tín dụng chủ đề nghiên cứu quan tâm lĩnh vực trí tuệ nhân tạo khoa học liệu Đồng thời, hoạt động đóng vai trị quan tr ọng ngân hàng, giúp ngân hàng gi ảm thiểu thất thoát lừa đảo giao dịch Nhiều kỹ thuật đưa thu kết khả quan, nhiên, đ ộ xác tốc độ xử lý thách thức lớn nhất, liệu thường phân bố lệch thay đổi theo thời gian Các kỹ thuật học máy có giám sát khơng có giám sát đư ợc áp dụng phát lừa đảo giao dịch thẻ tín dụng Học máy có giám sát hay cịn g ọi học có thầy, thuật tốn dự đốn nhãn/đầu liệu dựa tập liệu huấn luyện mà mẫu liệu gán nhãn Khi đó, thơng qua m ột q trình huấn luyện, mơ hình xây dựng dự đoán dự đốn bị sai mơ hình tinh chỉnh lại Việc huấn luyện tiếp tục mơ hình đ ạt mức độ xác mong mu ốn liệu huấn luyện Trái với học máy có giám sát, h ọc khơng giám sát t huật toán dự đoán nhãn liệu dựa tập liệu huấn luyện mà đó, tất mẫu liệu chưa gán nhãn hay nói cách khác ta khơng biết câu trả lời xác cho m ỗi liệu đầu vào Khi đó, m ục tiêu thuật tốn khơng gi ám sát khơng phải tìm đầu xác mà hướng tới việc tìm cấu trúc liên hệ liệu để thực cơng việc Mơ hình học máy có giám sát thư ờng thực tốt với liệu cân (số lượng liệu lớp tương đương nhau) Tuy nhiên, đ ối với liệu không cân bằng, tức có chênh lệch lớn mặt số lượng lớp, nhiều thời gian để phân cụm giao dịch bình thường, phát liệu ngoại lệ vấn đề trọng tâm Trong đó, thu ật tốn học máy khơng giám sát có th ể xử lý tốt trường hợp liệu cân không đủ nhãn Một ưu điểm khác học máy không giám sát th ời gian cập nhật mơ hình ngắn, phù hợp để sử dụng phát gian lận giao dịch Chính vậy, vi ết này, tác giả lựa chọn bốn thuật tốn học máy khơng có giám sát: One-class SVM, K-means, Isolation forest LOF để đánh giá hiệu chúng phát lừa đảo giao dịch thẻ tín dụng dựa liệu giao dịch thẻ tín dụng trang Kaggle (một trang web chuyên khoa học liệu) Đóng góp c viết đưa so sánh thuật toán học máy cách đưa độ đo hiệu thực liệu Một số thuật tốn học máy khơng có giám sát Thuật tốn One-class SVM Đây thuật toán dùng để phân chia liệu thành nhóm riêng bi ệt cách xây dựng siêu phẳng (hyperplane) V ề mặt ý tưởng, Oneclass SVM sử dụng thuật toán để ánh xạ tập liệu ban đầu vào không gian nhiều chiều Khi ánh xạ sang không gian nhiều chiều, Oneclass SVM xem xét chọn siêu phẳng phù hợp để phân lớp tập liệu Scholkopf giới thiệu thuật tốn One-class SVM (OC-SVM) vào năm 2001 Đây thuật toán mở rộng SVM Về bản, thuật toán thực tách tất điểm liệu khỏi điểm gốc (trong không gian đ ặc trưng F) tối đa khoảng cách từ siêu phẳng đến điểm gốc Việc phán đoán ngoại lệ dựa vào hàm nhị phân Hàm thu th ập vùng không gian đầu vào nơi mật độ xác suất liệu tồn trả giá trị +1 điểm nằm vùng thu th ập điểm liệu huấn luyện -1 vùng khác Thuật toán K-means K-means thuật toán đơn giản phổ biến số thuật tốn học máy khơng giám sát Mục đích thuật tốn phân chia đối tượng cho vào cụm khác nhau, s ố lượng cụm cho trước Công việc phân cụm xác lập dựa nguyên lý: Các ểm liệu cụm phải có số tính chất định Tức điểm cụm phải có liên quan lẫn Đối với máy tính điểm cụm điểm liệu gần Thuật toán Isolation forest Thuật toán đư ợc đề xuất Fei Tony Liu, Kai Ming Ting and Zhi Hua Zhou vào năm 2006 H ầu hết kỹ thuật dùng để phát dị thường thường dựa định nghĩa “thế bình thư ờng” Từ đó, khơng nằm bình thường coi dị thường Trong đó, thuật tốn Isolation forest l ại dùng cách tiếp cận khác: Thay xây dựng mơ hình nhận diện bình thường, tìm cách l ập dị thường tập liệu Ưu điểm cách tiếp cận tốc độ xử lý nhanh đòi hỏi nhớ Thuật tốn LOF LOF Markus M Breunig, Hans -Peter Kriegel, Raymond T Ng Jor g Sander giới thiệu vào năm 2000 Mục đích thuật tốn tìm điểm dị thường cách đo độ lệch cục điểm liệu điểm lân cận LOF dùng chung m ột số kỹ thuật giống thuật toán DBSCAN OPTICS, chẳng hạn khái niệm khoảng cách cốt lõi (core distance) khoảng cách tiếp cận (reachability distance) Dữ liệu phương pháp đánh giá Phương pháp thực Để đánh giá hiệu thuật toán phát giao dịch thẻ tín dụng, tác giả đề xuất bước thực sau: Bước 1: Thực tiền xử lý liệu; Bước 2: Tách liệu giao dịch thành hai tập: huấn luyện kiểm tra; Bước 3: Thực thuật toán với tập liệu huấn luyện để đưa mô hình phán đốn gian l ận; Bước 4: Sử dụng tập liệu kiểm tra để tìm độ xác mơ hình (Hình 1) Dữ liệu Trong viết này, liệu giao dịch thẻ tín dụng hai ngày vào tháng 9/2013 khách hàng khu vực châu Âu sử dụng để đánh giá thuật toán Tập liệu khai thác trang Kaggle Bộ liệu bao gồm 31 trường, bao gồm: Các trường đặt tên từ V1 đến V28 nhằm che giấu thông tin nhạy cảm, cột Time, Amount Class (cột Class thể giao dịch hợp lệ hay gian lận) Bộ liệu phân bố lệch, có 492 giao d ịch ghi nhận gian lận (chiếm 0,172%) tổng số 284.807 giao dịch (Hình 2) Các độ đo Có nhiều độ đo khác để đánh giá hiệu thuật toán Các độ đo dựa số lượng giao dịch phát sai: False Positive (FP), False Negative (FN), True Positive (TP) True Nagative (TN) - True Positive: số lượng giao dịch gian lận phân loại xác vào lớp gian lận - True Negative: số lượng giao dịch hợp lệ phát - False Positive: số lượng giao dịch gian lận bị phân loại nhầm vào lớp gian lận - False Negative: số lượng giao dịch gian lận bị phân loại nhầm vào giao dịch hợp lệ Accuracy tỷ lệ số điểm dự đoán tổng số điểm tập liệu kiểm thử Precision Precision tỷ lệ giao dịch gian lận thật tổng số giao dịch phán đốn gian lận Recall hay cịn gọi độ nhạy Recall tỷ lệ giao dịch phán đoán gian l ận tổng số gian lận thực tế F1-score Đối với tập liệu khơng cân (có chênh lệch lớn số lượng giao dịch hợp lệ giao dịch gian lận) Accuracry, Precision hay Recall khơng phản ánh độ xác hiệu thuật toán Do vậy, cần sử dụng độ đo mới, số F1-score Receiver Operating Characteristic (ROC) Để tránh chủ quan lựa chọn ngưỡng để đánh giá mơ hình, có cách duyệt qua hết tất ngưỡng quan sát ảnh hưởng lên tỷ lệ dự báo TPR FPR Khi đó, s ẽ dựng đường cong ROC chứa tất điểm TPR FPR (Hình 3) Hình Minh họa độ đo ROC Đối với liệu lệch, độ xác khơng đủ để đánh giá tính hi ệu thuật toán Do vậy, nội dung viết này, tác giả sử dụng độ đo F1-score ROC Đánh giá Sau thực thuật toán để xây dựng mơ hình dự đốn tảng phần cứng, ta thấy khác biệt lớn thời gian thực thuật tốn (Hình 4) One-class SVM cần nhiều thời gian để huấn luyện nhất, thuật tốn Isolation forest t ốn thời gian huấn luyện Thời gian dự đốn K-means On -class SVM tốn nhiều thời gian để đưa kết dự đoán Xét hiệu thuật toán, Isolation forest thu ật tốn có hiệu tốt với ROC = 90,2% F1 -score = 5,2% Đề xuất hệ thống kiểm tra gian lận giao dịch thẻ tín dụng Với thời gian dự đốn tính xác nêu phần trên, thuật tốn học máy khơng giám sát có th ể ứng dụng vào xây dựng hệ thống giám sát gian lận giao dịch thẻ tín dụng nhằm giảm thiểu công sức người Tác giả đề xuất hệ thống nhận diện gian lận có hoạt động Hình Trong hệ thống này, liệu giao dịch lịch sử đưa vào kho để làm tập liệu huấn luyện Từ thuật toán học máy lựa chọn tập liệu huấn luyện, hệ thống đưa mơ hình nhận diện gian lận Mỗi có phát sinh giao dịch mới, hệ thống vào liệu giao dịch dùng mơ hình nhận diện gian lận để phán đốn, sau module quy ết định xác định giao dịch hợp lệ hay gian lận Để cải thiện độ xác hệ thống, liệu giao dịch cập nhật định kỳ vào kho để huấn luyện lại mơ hình Kết luận Trong phát gian lận, thuật toán học máy khơng giám sát ti ến hành mơ hình phân bố liệu vào lớp nhận diện xem liệu kiểm thử (dữ liệu giao dịch) có thuộc vào lớp hay khơng Theo k ết thực nghiệm, thời gian xây dựng mơ hình phán đoán gian l ận thuật toán nêu ngắn độ xác cao Trong số bốn thuật tốn học máy thực nghiệm Isolation forest có đ ộ xác cao (với ROC = 90,2%) Tuy nhiên, t ỷ lệ phát gian lận chưa phải tỷ lệ tốt nhất, cần phải làm giàu liệu huấn luyện có cải tiến để đạt kết cao ... nhãn Một ưu điểm khác học máy không giám sát th ời gian cập nhật mơ hình ngắn, phù hợp để sử dụng phát gian lận giao dịch Chính vậy, vi ết này, tác giả lựa chọn bốn thuật tốn học máy khơng có giám. .. thuật toán học máy khơng giám sát có th ể ứng dụng vào xây dựng hệ thống giám sát gian lận giao dịch thẻ tín dụng nhằm giảm thiểu cơng sức người Tác giả đề xuất hệ thống nhận diện gian lận có... liệu) Đóng góp c viết đưa so sánh thuật toán học máy cách đưa độ đo hiệu thực liệu Một số thuật toán học máy khơng có giám sát Thuật tốn One-class SVM Đây thuật toán dùng để phân chia liệu thành