Bài viết Phát hiện mẫu bất thường cho trong doanh nghiệp bán lẻ bằng phân tích motif khai phá motif cho chuỗi thời gian và phát hiện bất thường bằng thuật toán học máy rừng ngẫu nhiên được đề xuất. Một mô hình xác định các mẫu hành vi gian lận và phân loại các đối tượng trong bài toán phát hiện bất thường ở cấp độ tài khoản được mô hình hoá.
TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC (ISSN: 1859 - 4557) PHÁT HIỆN MẪU BẤT THƯỜNG CHO TRONG DOANH NGHIỆP BÁN LẺ BẰNG PHÂN TÍCH MOTIF FRAUD PATTERN DETECTION BY MOTIF DISCOVERY IN RETAIL BUSINESS Phạm Ngọc Quang Anh1,2, Vũ Thành Nam1, Hồng Văn Đơng1, Lê Anh Ngọc3, Nguyễn Thị Ngọc Anh1 Viện Toán ứng dụng Tin học, Đại học Bách khoa Hà Nội Viện nghiên cứu ứng dụng Công nghệ CMC Đại học FPT, Việt Nam Ngày nhận bài: 12/11/2021, Ngày chấp nhận đăng: 06/06/2022, Phản biện: TS Nguyễn Thị Thanh Tân Tóm tắt: Những khách hàng xấu thực hành vi gian lận giao dịch tài gây thiệt hại kinh tế mối nguy hiểm cho công ty, tổ chức Trong thời gian gần đây, giao dịch bùng nổ phát triển giao dịch tài qua mạng di động tồn giới Vì vậy, việc xử lý giao dịch phát hành vi bất thường từ hàng trăm ngàn giao dịch với vô số loại hành vi khác không cịn phù hợp với phương thức xử lý thủ cơng Trong báo việc khai phá motif cho chuỗi thời gian phát bất thường thuật toán học máy rừng ngẫu nhiên đề xuất Một mô hình xác định mẫu hành vi gian lận phân loại đối tượng toán phát bất thường cấp độ tài khoản mơ hình hố Mơ hình đề xuất thử nghiệm sau sử dụng để phát khách hàng bất thường liệu hoạt động bán lẻ Bằng thực nghiệm mơ hình có độ xác F1 75% Từ khóa: Phát bất thường, khai phá mơ-típ, nhận dạng mẫu, học máy Abstract: Bad customers fraud behavior in financial transactions is cause of economic losses and the threat for companies and organizations Transactions exploded recently because of the development of mobile, online transactions in whole the world Therefore, transaction processing and detecting anomalous behavior from hundreds of thousands of transactions with various types of behavior are no longer suitable for manual processing In this paper, motif discovery for time series and anomaly detection by machine learning are proposed A model that identifies fraudulent behavior patterns and classifies objects in the account level anomaly detection problem is modeled The proposed model is experimented and then used to discover anomalies in retail activity data Experimentally, the model has an accuracy of F1 of 75% Keywords: Fraud detection, motif discovery, pattern recognition, machine learning Giới thiệu chung Bài toán phát gian lận chủ đề quan trọng công ty, tổ chức ngân hàng, bảo hiểm, doanh nghiệp Số 29 bán lẻ [1] Những gian lận tài ảnh hưởng đến uy tín, gây tổn thất cho tổ chức Bài tốn 30 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC (ISSN: 1859 - 4557) nhiều nhà nghiên cứu quan tâm thực hàng loạt cơng trình nghiên cứu hai thập [1],[2],[3],[4],[5] Các giao dịch tài bùng nổ gần phát triển giao dịch tài qua mạng di động Các hình thức giao dịch có chi phí thấp nhanh chóng, tiện lợi Từ phát triển này, việc xử lý giao dịch từ hàng trăm ngàn giao dịch với vô số loại hành vi khác khơng cịn phù hợp với phương thức xử lý thủ cơng Nhiều ứng dụng phân tích liệu trí tuệ nhân tạo áp dụng để giải vấn đề phân lớp, phân nhóm, hồi quy, phát ngoại lai, dự đốn mơ [1] Việc tiếp cận tốn phát gian lận chia vào mức độ: cấp độ giao dịch, cấp độ tài khoản, cấp độ mạng Thứ nhất, cấp độ giao dịch tiếp cận chủ yếu giao dịch thuộc tính Thứ hai, cấp độ tài khoản chủ yếu đặc điểm thống kê hành vi tài khoản (người, công ty, tổ chức) giao dịch Thứ ba, cấp độ mạng, mạng đồ thị thể mối quan hệ tài khoản giao dịch mẫu hành vi bất thường kẻ xấu, đồng thời tạo hệ thống phân loại để sử dụng mẫu hành vi vào trình đánh giá đối tượng khác Khi chuyên gia phân tích đánh giá rủi ro đối tượng đó, cách họ thường sử dụng xem xét trình hoạt động đối tượng khứ Họ tổng kết kinh nghiệm có từ đối tượng gian lận, sử dụng kinh nghiệm để đối chiếu với đối tượng xét phân tích xem liệu hành vi đối tượng có giống với hành vi đáng ngờ hay khơng Q trình hoạt động đối tượng mô tả chuỗi thời gian, hành vi mà đối tượng thực chuỗi chúng Do đó, muốn thực ý tưởng nêu ra, ta phải tìm cách để xây dựng tập chứa 31 kỉ gần Mục tiêu báo đề xuất mơ hình khai phá mẫu hành vi, thói quen đáng nghi ngờ mà đối tượng gian lận thực q trình hoạt động bán lẻ Từ phân lớp đối tượng vào lớp bất thường (có khả thực hành vi gian lận) bình thường Mơ hình áp dụng phạm vi đối tượng khách hàng có hoạt động mua bán nhiều mặt hàng khác nhau, có giao dịch với cơng ty bán lẻ nhiều chi nhánh khác Nội dung báo trình bày phần (i) Phần giới thiệu chung phát bất thường giao dịch (ii) Phần trình bày phương pháp xây dựng mơ hình hệ thống phát bất thường Các thuật tốn tìm kiếm mẫu hành vi đáng ngờ chuỗi thời gian, sử dụng thuật toán học máy rừng ngẫu nhiên tiến hành phân lớp đối tượng (iii) Phần áp dụng mơ hình đưa với liệu khách hàng (iv) Phần kết Số 29 TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC (ISSN: 1859 - 4557) luận nêu hướng nghiên cứu báo Phương pháp luận 2.1.Tổng quan mơ hình đề xuất thiên giá trị giao dịch, ta xây dựng chuỗi thời gian đơn theo thuộc tính tổng giá trị giao dịch theo tháng Mặt khác, muốn thể tổng lợi nhuận số lượng giao dịch đối tượng, ta xây dựng chuỗi thời gian hai chiều Kết bước tiền xử lý hành vi gian lận thể trực quan chuỗi thời gian Bài toán phát gian lận ban đầu chuyển thành tìm motif lặp lại chuỗi thời gian đối tượng xấu Trong trình tìm kiếm motif cho chuỗi thời gian, hành vi đối tượng xấu thường thực hành vi bị đánh dấu xấu từ trước lọc ra, tổng hợp lại thành tập mẫu hành vi đáng ngờ Tập mẫu thu sở để so sánh, đánh giá đối tượng khác bước Cuối cùng, ta tiến hành phân lớp đối tượng tập liệu thành hai lớp: bất thường bình thường Tiêu chuẩn đặt để kết luận nhãn cho đối tượng mức độ tương đồng hành vi với hành vi nằm tập mẫu hành vi đáng ngờ Do đó, ta phải đưa phương thức so sánh độ tương tự mẫu hành vi dạng chuỗi chuỗi thời gian với Áp dụng độ đo tương tự, trình so sánh mẫu hành vi cho ta thuộc tính đối tượng Trong đó, thuộc tính đại diện cho độ tương tự hành vi đối tượng với hành vi tập mẫu đáng nghi Bộ thuộc tính sử dụng để xác định tương đồng đối tượng gian lận đối tượng kiểm tra Sử dụng thuật tốn phân lớp, ta tìm doanh nghiệp có nhiều tương đồng với doanh nghiệp có hành vi gian lận mua Hình 1: Tổng quan mơ hình đề xuất Để tìm kịch gian lận ẩn liệu sẵn có, ta cần xét chuỗi giao dịch liên tiếp đối tượng thực Một chuỗi giao dịch gọi hành vi Như vậy, yêu cầu đặt cho hệ thống tìm mẫu chung hành vi đối tượng gian lận thực trước giao dịch phát sinh gian lận Trước hết, tập liệu cần tiền xử lý cách nhóm theo đối tượng xếp lại theo trình tự thời gian để tạo thành chuỗi thời gian mơ tả q trình hoạt động chủ thể giao dịch Chuỗi thời gian xây dựng mô tả nhiều mặt giao dịch (tương ứng với chuỗi thời gian đơn chuỗi thời gian đa chiều) Lấy ví dụ, trường hợp xét đến biến Số 29 32 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC (ISSN: 1859 - 4557) hàng gán nhãn bất thường cho doanh nghiệp tương ứng Quá trình thực cụ thể bước kể thể chi tiết mục 2.2 Mơ hình hóa liệu thành chuỗi thời gian Một chuỗi thời gian 𝑇= {𝑥0 , 𝑥1 , , 𝑥𝑚 } dãy thứ tự theo thời gian {𝑡0 , 𝑡1 , , 𝑡𝑚 } 𝑚 biến giá trị thực [6] Trong phạm vi báo, ta xét loại chuỗi thời gian có tập mốc thời gian cố định Kí hiệu tập mốc thời gian 𝛤 = {𝑡𝑗 }0≤𝑗≤𝑚 Giả sử ta có tập liệu chứa liệu giao dịch rời rạc n đối tượng 𝑥1 , 𝑥2 , , 𝑥𝑛 thuộc tập đối tượng thực Với đối tượng 𝑥𝑖 , ta nhóm giao dịch 𝑥𝑖 thực lại xếp chúng theo thứ tự thời gian Khi đó, ta có chuỗi thời gian tổng qt mơ tả hoạt động 𝑥𝑖 với điểm liệu vector thuộc tính giao dịch 𝑥𝑖 thực Trong nhiều trường hợp, một vài thuộc tính giao dịch xét Ngồi ra, việc phát đối tượng bất thường cần phải tổng hợp thông tin giao dịch khoảng thời gian định Vì vậy, việc xây dựng chuỗi thời gian không dựa thời điểm giao dịch mà dựa mốc thời gian cố định (chẳng hạn, chuỗi thời gian thể thay đổi kê khai mã nhóm hàng hóa doanh nghiệp theo tháng) Như vậy, với đối tượng 𝑥𝑖 , ta thành lập chuỗi thời gian tương ứng với tập mốc thời gian 𝛤, kí hiệu 𝑇𝑆𝑖 Ở 33 Trong đó, giá trị 𝑣𝑗 𝑖 thống kê thuộc tính xét giao dịch đối tượng 𝑥𝑖 thực phát sinh khoảng thời gian [𝑡𝑗 , 𝑡𝑗+1 ) Chuỗi thời gian thể hành vi thay đổi tần suất giao dịch, giá trị giao dịch, Có nhiều loại chuỗi thời gian với độ phức tạp khác thể mức độ thay đổi hành vi Trong khuôn khổ báo, ta xét chuỗi thời gian đơn giản Định nghĩa Một chuỗi thời gian S gọi chuỗi thời gian đơn giản thỏa mãn điều kiện sau: Chuỗi 𝑍 = 𝑧1 , 𝑧2 , , 𝑧𝑚 với 𝑧𝑗 = 𝑣𝑗+1 − 𝑣𝑗 phép trừ chuỗi chuỗi thời gian S Hình mơ tả chuỗi thời gian đơn giản phép trừ chuỗi chuỗi thời gian Ký hiệu 𝑇𝑆 tập liệu chuỗi thời gian tập đối tượng Hình 2: Mơ tả chuỗi thời gian đơn giản: (a) Chuỗi thời gian (b) Phép trừ chuỗi chuỗi thời gian Số 29 TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC (ISSN: 1859 - 4557) 2.3 Khai phá mẫu bất thường Chuỗi thời gian xây dựng phần mơ hình hóa có thơng tin hành vi thói quen đối tượng q khứ Ta tiếp tục phân tích thơng tin này, cụ thể tìm mẫu hành vi bất thường đối tượng gian lận Hình mơ tả lại quy trình khai phá mẫu sơ đồ tổng quan pháp tiếp cận mã hoá chuỗi thời gian thành chuỗi rời rạc đơn giản mà giữ thông tin biến động, chẳng hạn mã hoá thành chuỗi ký tự theo thuật tốn SAX [7] Hình : Quy trình khai phá mẫu Hình 4: Chuyển đổi phép trừ chuỗi chuỗi thời gian đơn giản chuỗi ký hiệu Định nghĩa Chuỗi ký hiệu thu gọn biểu diễn rút gọn cho chuỗi ký hiệu thông thường Trong chuỗi này, ký hiệu kèm với số cho biết ký hiệu lặp lại lần Xét tập hợp tập hợp chuỗi thời gian tương ứng với đối tượng gian lận Mục tiêu khai phá mẫu xây dựng tập chứa hành động đáng nghi để làm tảng cho trình phân loại tiếp sau Ý tưởng đưa là: hành vi nhiều đối tượng gian lận hay thực đáng nghi Nói cách khác, ta phải phân tích chuỗi thời gian đối tượng xấu để tìm mẫu hành vi xuất nhiều lần Nhiều nghiên cứu theo cách tiếp cận sử dụng biểu diễn rời rạc chuỗi thời gian Ý tưởng phương Số 29 Với đối tượng 𝑥𝑖 , chuỗi 𝑍𝑖 chuỗi thời gian 𝑇𝑆𝑖 chuỗi số thuộc {−1,0,1}, ta chuyển đổi vào chuỗi ký hiệu 𝑆 với 𝑢 , 𝑙 −1 𝑑 Hình mơ tả q trình chuyển từ chuỗi thời gian thành chuỗi ký hiệu Định nghĩa Dạng chuỗi ký hiệu thu gọn chuỗi ký hiệu chuỗi ký hiệu thu gọn lược bỏ số Lấy ví dụ, 𝑢2 𝑙4 𝑑3 chuỗi ký hiệu thu gọn 𝑢 − 𝑢 − 𝑙 − 𝑙 − 𝑙 − 𝑙 − 𝑑 − 𝑑 − 𝑑 Dạng 𝑢2 𝑙4 𝑑3 𝑢 − 𝑙 − 𝑑 34 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC (ISSN: 1859 - 4557) Trong khuôn khổ báo, để đơn giản ta gọi dạng chuỗi ký hiệu thu gọn dạng Tập chuỗi thời gian 𝑇𝑆 chuyển đổi thành tập chuỗi ký hiệu thu gọn 𝑆′ Tương ứng với dạng, chuỗi chuỗi ký hiệu thu thập đưa vào tập chuỗi ký hiệu Với tập, tất chuỗi so sánh độ đo khoảng cách sau: Định nghĩa Cho hai chuỗi X X’ hai chuỗi ký hiệu thu gọn với dạng: Khoảng cách X X’ là: Kết phép so sánh thể ma trận khoảng cách Ở bước này, ta định nghĩa ngưỡng tương đồng 𝑅, hai chuỗi có khoảng cách nhỏ 𝑅 hai chuỗi tương đồng có mẫu Với mẫu có chuỗi trung tâm mẫu đại diện cho thỏa mãn: ● Là chuỗi có số lượng chuỗi ký hiệu thu gọn lớn mà chuỗi chúng tương đồng với chuỗi xét ● Nếu có nhiều chuỗi thỏa mãn điều kiện chuỗi trung tâm mẫu chuỗi có tổng khoảng cách tới tất chuỗi tương đồng với nhỏ Nếu thỏa mãn hai điều kiện ta chọn ngẫu nhiên chuỗi trung tâm mẫu từ chuỗi Ví dụ, xét chuỗi ký hiệu sau: Sử dụng công thức khoảng cách định nghĩa 𝑆𝑆𝑆1 𝑆𝑆𝑆2 𝑆𝑆𝑆3 𝑆𝑆𝑆4 𝑆𝑆𝑆5 𝑆𝑆𝑆1 0.5 1.12 0.71 1.22 𝑆𝑆𝑆2 0.5 0.71 0.5 0.87 𝑆𝑆𝑆3 1.12 0.71 0.87 0.5 𝑆𝑆𝑆4 0.71 0.5 0.87 0.71 𝑆𝑆𝑆5 1.22 0.87 0.5 0.71 Bảng 1: Ma trận khoảng cách Trong bảng 1, ta chọn ngưỡng tương đồng 0.75 𝑆𝑆𝑆1 , 𝑆𝑆𝑆2, 𝑆𝑆𝑆3 𝑆𝑆𝑆4 có mẫu giống nhau, 𝑆𝑆𝑆5 riêng biệt Chuỗi trung tâm mẫu tương đồng 𝑆𝑆𝑆2 Có thể có nhiều mẫu tập, sau tìm chuỗi trung tâm mẫu, tất chuỗi tương đồng với chuỗi loại bỏ Sau đó, ta tìm mẫu khơng có chuỗi thỏa mãn điều kiện trung tâm mẫu Trong tập mẫu thu được, có mẫu xuất số Vì vậy, để đảm bảo tập mẫu bất thường đại diện cho hành vi đáng ngờ đối tượng gian lận, ta tiếp tục chọn lọc mẫu dựa điểm số mẫu Điểm số mẫu tỉ lệ số chuỗi thời gian có chuỗi tương đồng với chuỗi trung tâm mẫu tất chuỗi thời gian xét Chỉ có mẫu có điểm số lớn ngưỡng định chọn Quy trình khai phá mẫu trình bày thuật tốn 35 Số 29 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC (ISSN: 1859 - 4557) Thuật toán 1: Thuật toán khai phá mẫu chuỗi thời gian INPUT: Tập chuỗi thời gian 𝑇𝑆, mốc khoảng cách R OUTPUT Tập mẫu hành vi đáng nghi Lọc tập chuỗi thời gian đối tượng gian lận từ 𝑇𝑆 Mã hoá chuỗi thời gian thành chuỗi ký hiệu thu gọn Xác định dãy kí tự mã hố lặp lại chuỗi thời gian theo dạng Xây dựng ma trận khoảng cách từ chuỗi có dãy kí tự mã hố tìm bước Tìm kiếm chuỗi trung tâm mẫu phần tử mẫu Loại bỏ chuỗi thuộc mẫu vừa tìm lặp lại bước 3, khơng tìm dãy kí tự lặp lại, chuyển sang bước 7 Dừng thuật toán, kết luận tập mẫu thường khả 𝑥𝑖 gian lận cao Ngược lại, mức độ nghi ngờ 𝑥𝑖 thấp Với mẫu 𝑝𝑗 thuộc tập mẫu , độ tương tự 𝑝𝑗 với hành vi thể 𝑠𝑖 , kí hiệu 𝑓 𝑖 𝑗 , khoảng cách tối thiểu 𝑝𝑗 đến chuỗi 𝑠𝑖 Dựa khoảng cách từ định nghĩa 4, ta tính khoảng cách 𝑝𝑗 với chuỗi 𝑇𝑆𝑖 chứa mẫu giống 𝑝1 lấy giá trị nhỏ cho giá trị 𝑓 𝑖 Tương tự cho 𝑓 𝑖 , 𝑓 𝑖 , , ta có tập thuộc tính đối tượng $x_i$ thể tương đồng hành vi đối tượng với hành vi đối tượng gian lận Ký hiệu 𝐹𝑛𝑒𝑤 𝑖 = {𝑓 𝑖 , 𝑓 𝑖 , , 𝑓 𝑖 𝑘 } Hình mơ tả ví dụ tính giá trị thuộc tính bất thường Thuật tốn trích rút thơng tin hành vi xuất lặp lại phổ biến đối tượng xấu gán nhãn bất thường từ trước Sau thực q trình khai phá mẫu, ta có mẫu đại diện cho hành vi lặp lại nhóm đối tượng gian lận Ký hiệu tập mẫu = {𝑝1 , 𝑝2 , , 𝑝𝑘 } Tập mẫu sử dụng làm sở cho việc phân loại bước sau Hình 5: Tính tốn giá trị thuộc tính Các thuộc tính 𝐹𝑛𝑒𝑤 𝑖 số thực khơng âm biểu diễn độ tương đồng hành vi đối tượng 𝑥𝑖 với hành vi gian lận Sau thuộc tính sử dụng để phân loại 2.4 Phân loại 2.4.1 Thuộc tính bất thường 2.4.2 Phân loại Xét đối tượng 𝑥𝑖 bất kỳ, chuỗi thời gian 𝑇𝑆𝑖 tương ứng đối tượng chứa nhiều chuỗi tương tự với chuỗi tập mẫu bất Cây định thuật toán máy học phổ biến thường dùng toán phân lớp với tốn hồi quy Thuật tốn Số 29 36 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC (ISSN: 1859 - 4557) thuộc nhóm thuật tốn học có giám sát Cây định cấu trúc mà nút biểu diễn đặc trưng(tính chất), nhánh biểu diễn quy luật biểu diễn kết Rừng ngẫu nhiên (Random Forest) thuật toán phân lớp với nhiều định Mỗi định rừng huấn luyện tập khác tập luyện sinh từ liệu gốc có nhãn phương pháp đóng bao (bagging) Cho tập luyện 𝐷 = {𝑥1 , 𝑥2 , , 𝑥𝑛 } Với 𝑚 = 1,2, , 𝑚, ta chọn tập ngẫu nhiên ký hiệu luyện tập với định 𝐷𝑇𝑚 Sau luyện, kết dự đốn cho mẫu khơng nhãn 𝑥′ định lấy trung bình dự đốn từ tất hồi quy riêng lẻ 𝑥′: tổng hợp kết phân loại việc bình chọn theo đa số (majority voting) 2.5 Đánh giá kết phân loại bất thường 2.5.1 Ma trận nghi ngờ (Confusion matrix) Ma trận nghi ngờ cho biết có số lượng phân loại phân loại phân loại sai vào lớp (bất thường hay khơng bất thường) Hình mơ tả kết phân loại đối tượng vào hai lớp '0' '1' Ma trận cho biết có 70 đối tượng phân vào lớp '0',12 đối tượng phân vào lớp '1' 12 đối tượng bị phân 37 nhầm lớp (thực tế lớp '0' bị phân loại '1' ngược lại) Hình 6: Minh họa ma trận nghi ngờ 2.5.2 Precision Recall Ta xét đến số sau: ● TP (True Positive): Số lượng doanh nghiệp dự đoán bất thường thực tế bất thường ● FP (False Positive): Số lượng doanh nghiệp dự đoán bất thường thực tế không bất thường ● FN (False Negative): Số lượng doanh nghiệp dự đốn khơng bất thường thực tế bất thường ● TN (True Negative): Số lượng doanh nghiệp dự đốn khơng bất thường thực tế không bất thường Khi đó, yếu tố đánh giá Precision đánh giá công thức: 𝑇𝑃 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = (4) 𝑇𝑃 + 𝐹𝑃 Yếu tố đánh giá Recall tính cơng thức: 𝑇𝑃 𝑅𝑒𝑐𝑎𝑙𝑙 = (5) 𝑇𝑃 + 𝐹𝑁 Từ công thức trên, ta thấy yếu tố Precision thể tỷ lệ số lượng dự đoán thực bất thường số lượng dự đoán bất thường mơ hình Số 29 TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC (ISSN: 1859 - 4557) Yếu tố Recall thể tỷ lệ số lượng dự đoán thực bất thường số lượng nhãn bất thường thực tế 2.5.3 Độ đo 𝐹1 Độ đo 𝐹1 xác định công thức: 2⨉𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛⨉𝑅𝑒𝑐𝑎𝑙𝑙 𝐹1 = 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙 𝐹1 có giá trị nằm (0,1] 𝐹1 cao, phân lớp tốt Hàm 𝐹 đại diện số thay đổi địa điểm kê khai hoạt động xuất nhập giai đoạn (𝑡𝑗 , 𝑡𝑗+1 ] 𝑇𝑆𝑖 chuỗi thời gian doanh nghiệp 𝑥𝑖 có: Thí nghiệm kết 3.1 Cài đặt thí nghiệm 3.1.1 Dữ liệu Dữ liệu thu thập từ hoạt động mua hàng khách hàng vòng năm Bộ liệu gồm thông tin giao dịch 801 khách hàng với 70 khách hàng xác định có hành vi gian lận hoạt động mua hàng, chiếm 8.74% 3.1.2 Mơ hình hóa Dữ liệu tiền xử lý để thu chuỗi thời gian thay đổi địa điểm mua hàng tương ứng với khách hàng Từ khách hàng bị gán nhãn bất thường, ta xây dựng mơ hình tìm kiếm mẫu bất thường Với giai đoạn 𝑛 = năm, ta phân chia thành 35 phân đoạn tập 𝑇 = {𝑡0 , 𝑡1 , , 𝑡35 } Ta xem xét doanh nghiệp 𝑥𝑖 tập doanh nghiệp , phân đoạn thời gian hai điểm 𝑡𝑗 𝑡𝑗+1 , 𝐺𝑗 𝑖 tập địa điểm doanh nghiệp kê khai Ta có : Hình 7: Chuỗi thời gian thể thay đổi địa điểm doanh nghiệp năm Sau xây dựng tập chuỗi thời gian cho doanh nghiệp, sử dụng thuật tốn 1, ta thực q trình khai phá mẫu Từ thực nghiệm, ngưỡng điểm số mẫu 20% cho kết tối ưu (hay ta xét mẫu xuất 20% chuỗi thời gian ) Áp dụng với liệu hoạt động mua hàng, ta chọn ngưỡng tương đồng 0.75, thu 30 mẫu bất thường Một vài mẫu đưa bảng Dạng u Số 29 Mẫu(SSS) Điểm số mẫu(%) 𝑢2 81.82 38 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC (ISSN: 1859 - 4557) u 𝑢3 45.46 u 𝑢4 25.45 ul 𝑢1 𝑙7 75.81 ul 𝑢2 𝑙2 72.73 ul 𝑢2 𝑙5 38.18 ul 𝑢4 𝑙1 21.82 ul 𝑢3 𝑙3 16.36 ul 𝑢2 𝑙8 18.18 lu 𝑙2 𝑢2 60 lu 𝑙5 𝑢2 29.09 lu 𝑙8 𝑢2 21.82 lu 𝑙1 𝑢4 23.64 lu 𝑙3 𝑢3 21.82 Bảng 2: Dãy số mẫu hành vi đáng nghi 3.2 Kết Ta tính tốn giá trị thuộc tính lập tập giá trị thuộc tính tương ứng với doanh nghiệp Sau sử dụng thuật tốn rừng ngẫu nhiên để Kết luận Trong báo này, tơi tìm hiểu nghiên cứu tốn phát bất thường, khai phá mẫu bất thường chuỗi thời gian, xây dựng mơ hình nhận dạng mẫu bất thường ứng dụng học máy vào việc phát khách hàng bất thường liệu khách hàng bán lẻ Kết đạt báo sau: 39 huấn luyện liệu Hình mơ tả kết phân lớp theo ma trận nghi ngờ Hình 9: Ma trận nghi ngờ tập kiểm thử gồm 121 doanh nghiệp Precision Recall 𝑭𝟏 -score 0.75 0.75 0.75 Bảng 3: Bảng độ đo 𝑭𝟏 , precision recall Trong bảng 3, tỷ lệ khách hàng gian lận nhỏ (chiếm 6.6 %) mơ hình phát 75% khách hàng gian lận ● Đề xuất kỹ thuật khai phá mẫu bất thường ● Xây dựng mơ hình khai phá mẫu sử dụng thuật toán rừng ngẫu nhiên để phân lớp khách hàng từ tìm khách hàng có hành vi mua hàng bất thường Lời cảm ơn Tơi xin có lời cảm ơn tới Viện nghiên cứu Ứng dụng Công nghệ CMC đóng góp hỗ trợ báo Số 29 TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC (ISSN: 1859 - 4557) Tài liệu tham khảo [1] E Ngai, Y Hu, Y Wong, Y Chen, X Sun, The application of data mining techniques in financial fraud detection: A classification framework and an academic review of literature, Decision Support Systems 50 (3) (2011) 559–569, on quantitative methods for detection of financial fraud doi:https://doi.org/10.1016/j.dss.2010.08.006 URL https://www.sciencedirect.com/science/article/pii/S0167923610001302 [2] J Wu, W Zeng, Z Chen, X.-F Tang, Hierarchical temporal memory method for time-series-based anomaly detection, in: 2016 IEEE 16th International Conference on Data Mining Work-shops (ICDMW), 2016, pp 1167–1172 doi:10.1109/ICDMW.2016.0168 [3] J Jurgovsky, M Granitzer, K Ziegler, S Calabretto, P.-E Portier, L He-Guelton, O Caelen, Sequence classification for credit-card fraud detection, Expert Systems with Applications 100 (2018) 234–245 doi: https://doi.org/10.1016/j.eswa.2018.01.037 URL https://www.sciencedirect.com/science/article/pii/S0957417418300435 [4] P Rousseeuw, D Perrotta, M Riani, M Hubert, Robust monitoring of time series with application to fraud detection, Econometrics and Statistics (2019) 108– 121.doi:https://doi.org/10.1016/j.ecosta.2018.05.001 URL https://www.sciencedirect.com/science/article/pii/S2452306218300303 [5] S Bhattacharyya, S Jha, K Tharakunnel, J C Westland, Data mining for credit card fraud: A comparative study, Decision Support Systems 50 (3) (2011) 602–613, on quantitative methods for detection of financial fraud doi: https://doi.org/10.1016/j.dss.2010.08.008 URL https://www.sciencedirect.com/science/article/pii/S0167923610001326 [6] B Chiu, E Keogh, S Lonardi, Probabilistic discovery of time series motifs, in: Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’03, Association for Computing Machinery, New York, NY, USA, 2003, p 493–498 doi: 10.1145/956750.956808 URL https://doi.org/10.1145/956750.956808 [7] Y Tanaka, K Iwamoto, K Uehara, Discovery of time-series motif from multi-dimensional data based on mdl principle, Machine Learning 58 (2005) 269–300 [8] L Breiman, Bagging predictors, Mach Learn 24 (2) (1996) 123–140 doi:10.1023/A:1018054314350 URL https://doi.org/10.1023/A:1018054314350 [9] L Breiman, Random forests, Machine Learning 45 (2004) 5–32 Giới thiệu tác giả: Tác giả Phạm Ngọc Quang Anh tốt nghiệp đại học ngành Toán tin Trường Đại học Bách khoa Hà Nội năm 2020; nhận Thạc sĩ năm 2022 ngành Toán tin Tác giả nghiên cứu viên Viện ứng dụng công nghệ CMC Lĩnh vực nghiên cứu: Phát bất thường, hệ khuyến nghị Ảnh tác giả (3 cm x cm) Số 29 40 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC (ISSN: 1859 - 4557) Tác giả Vũ Thành Nam tiến sĩ Toán tin Trường Đại học Bách Khoa Hà Nội Tác giả trưởng mơn Tốn –Tin, Trường Đại học Bách khoa Hà Nội Lĩnh vực nghiên cứu: Mã hóa bảo mật, Blockchain, lý thuyết mã Ảnh tác giả (3 cm x cm) Tác giả Hồng Văn Đơng tốt nghiệp đại học ngành Tốn tin Trường Đại học Bách khoa Hà Nội năm 2018; nhận Thạc sĩ năm 2019 ngành Toán tin NCS đại học Thâm Quyến, Trung Quốc Tác giả đồng thời giảng viên khoa CNTT, Đại học Thuỷ Lợi Lĩnh vực nghiên cứu: AI phát bất thường, Phương pháp số, cấu trúc liệu giải thuật Tác giả Lê Anh Ngọc tốt nghiệp đại học ngành toán tin học Trường Đại học Vinh Trường Đại học Khoa học tự nhiên – Đại học Quốc gia Hà Nội năm 1996 1998 Nhận Thạc sĩ Công nghệ thông tin Trường Đại học Bách Khoa Hà Nội năm 2001; nhận Tiến sĩ Đại học Quốc gia Kyungpook – Hàn Quốc, chuyên ngành kỹ thuật thông tin truyền thông năm 2009 Hiện tác giả giảng viên Giám đốc Swinburne Innovation Space Swinburne Việt Nam thuộc Đại học FPT Hướng nghiên cứu chính: Hệ thống thời gian thực, mạng truyền thông, Internet of Things, hệ thống thông minh IoT Tác giả Nguyễn Thị Ngọc Anh, giảng viên Bộ mơn Tốn ứng dụng, Viện Tốn ứng dụng Tin học, Trường Đại học Bách khoa Hà Nội (SAMIHUST) Tác giả nhận Tiến sĩ Khoa học Máy tính Đại học Pierre et Marie Curie (Paris 6), Cộng hịa Pháp năm 2014 Lĩnh vực phân tích liệu, mơ hình mơ phỏng, dự báo, phát bất thường 41 Số 29 ... lượng doanh nghiệp dự đoán bất thường thực tế bất thường ● FP (False Positive): Số lượng doanh nghiệp dự đoán bất thường thực tế không bất thường ● FN (False Negative): Số lượng doanh nghiệp. .. cứu toán phát bất thường, khai phá mẫu bất thường chuỗi thời gian, xây dựng mơ hình nhận dạng mẫu bất thường ứng dụng học máy vào việc phát khách hàng bất thường liệu khách hàng bán lẻ Kết đạt... nhãn bất thường, ta xây dựng mơ hình tìm kiếm mẫu bất thường Với giai đoạn