Khai phá motif cho đa chuỗi thời gian và phát hiện bất thường bằng các phương pháp học máy

77 3 0
Khai phá motif cho đa chuỗi thời gian và phát hiện bất thường bằng các phương pháp học máy

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Khai phá motif cho đa chuỗi thời gian phát bất thường phương pháp học máy PHẠM NGỌC QUANG ANH Anh.PNQ202959M@sis.hust.edu.vn Chuyên ngành: Toán Tin Giảng viên hướng dẫn: TS Nguyễn Thị Ngọc Anh Viện: Toán ứng dụng Tin học HÀ NỘI, 10/2022 Chữ ký GVHD CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Phạm Ngọc Quang Anh Đề tài luận văn: Khai phá motif cho đa chuỗi thời gian phát bất thường phương pháp học máy Chuyên ngành: Toán tin Mã số SV: 20202959M Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 31/10/2022 với nội dung sau: ● Bổ sung thêm phần lời mở đầu ● Chỉnh sửa lỗi soạn thảo, câu chữ trang 11, 14, 15, 18, 23, 29 ● Chỉnh sửa lại hình mơ hình tổng quan 2.1 trang 19 Ngày 31 tháng 10 năm 2022 Giáo viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG ĐỀ TÀI LUẬN VĂN Tên học viên: Phạm Ngọc Quang Anh Mã học viên: 20202959M Tên đề tài: Khai phá motif cho đa chuỗi thời gian phát bất thường phương pháp học máy Mã đề tài: 2020BTOANTIN-KH14 Hệ : Thạc sĩ khoa học Ngành: Toán Tin Cán hướng dẫn: TS Nguyễn Thị Ngọc Anh Đơn vị: Viện Toán ứng dụng Tin học, Trường Đại học Bách khoa Hà Nội Chữ ký GVHD Lời cảm ơn Trước vào nội dung luận văn, em xin có lời cảm ơn chân thành đến TS Nguyễn Thị Ngọc Anh trợ giúp tận tình hướng dẫn em hồn thành tốt luận văn Em xin gừi lời cảm ơn đến thầy Viện Tốn ứng dụng Tin học, trường Đại học Bách khoa Hà Nội giảng dạy kiến thức bổ ích cho em suốt trình học tập cao học Ngồi ra, em gửi lời cảm ơn tới đồng nghiệp ban lãnh đạo Viện Nghiên cứu Ứng dụng công nghệ CMC hỗ trợ tạo điều kiện thuận lợi cho em để hoàn thiện luận văn, đặc biệt anh Hoàng Văn Đơng giúp đỡ em nhiều q trình thực luận văn Cuối cùng, em xin gửi lời cảm ơn đến tất thành viên gia đình em quan tâm tạo động lực cố gắng để em hoàn thành luận văn Hà Nội, ngày 24 tháng 10 năm 2022 Học viên thực Phạm Ngọc Quang Anh Mục lục Danh mục ký hiệu, chữ viết tắt Danh sách hình vẽ Danh sách bảng Danh sách thuật toán Mở đầu Giới thiệu chung 1.1 Bài toán phát bất thường 1.1.1 Nguồn liệu đầu vào 1.1.2 Các loại bất thường 1.1.3 Nhãn liệu 1.1.4 Đầu toán 1.2 Bài toán phân lớp số thuật toán học 1.2.1 Bài toán phân lớp 1.2.2 Một số thuật toán học máy máy Xây dựng mơ hình khai phá motif cho chuỗi thời gian bất thường 2.1 Mơ hình tổng quan 2.2 Mơ hình hóa liệu thành chuỗi thời gian 2.3 Khai phá motif 2.3.1 Xây dựng chuỗi ký hiệu 2.3.2 Tìm kiếm motif bất thường 2.4 Xây dựng thuộc tính bất thường phân lớp 2.5 Đánh giá kết phân lớp 2.5.1 Ma trận nghi ngờ 12 12 12 13 14 14 14 14 15 phát 17 17 19 22 22 25 28 31 31 LUẬN VĂN THẠC SĨ 2.5.2 2.5.3 PHẠM NGỌC QUANG ANH Precision Recall Độ đo F1 Ứng dụng mơ hình phát bất thường vào liệu hoạt mua hàng 3.1 Mô tả liệu 3.2 Mơ hình hóa 3.3 Kết 31 32 động 33 33 34 38 Tài liệu tham khảo 46 Phụ lục 50 A Công bố khoa học liên quan 51 Danh mục ký hiệu, chữ viết tắt T tập mốc thời gian O tập đối tượng D tập liệu giao dịch đối tượng TS tập chuỗi thời gian Z phép trừ chuỗi thời gian SB tập chuỗi ký hiệu S tập chuỗi chuỗi ký hiệu A tập chuỗi ký hiệu giao dịch đối tượng gian lận R ngưỡng tương đồng P tập motif hành vi F tập thuộc tính KN N K-nearest neighbor (K láng giềng gần nhất) SAX Symbolic Aggregate approXimation DT W Dynamic Time Warping score Chỉ số chọn mẫu TP True Positive FP False Positive TN True Negative LUẬN VĂN THẠC SĨ FN False Negative P re Precision Rec Recall F1 độ đo F1 PHẠM NGỌC QUANG ANH Danh sách hình vẽ 2.1 2.2 2.3 2.4 2.5 2.6 2.7 3.1 3.2 3.3 3.4 3.5 3.6 Sơ đồ tổng quan mô hình phân tích hành vi chuỗi thời gian Mô tả chuỗi thời gian đơn giản: (a) Chuỗi thời gian (b) Phép trừ chuỗi chuỗi thời gian Các hành vi đối tượng mô tả dựa chuỗi thời gian đơn giản Quy trình khai phá motif Chuyển đổi phép trừ chuỗi chuỗi thời gian đơn giản thành chuỗi ký hiệu Tính tốn giá trị thuộc tính Minh họa ma trận nghi ngờ Dữ liệu hoạt động mua hàng Chuỗi thời gian thể hành vi thay đổi địa điểm mua hàng khách hàng năm Chuyển đổi chuỗi thời gian hành vi khách hàng thành chuỗi ký hiệu Biểu đồ hộp đánh giá kết phân lớp từ hành vi thay đổi địa điểm theo thuật toán Biểu đồ hộp đánh giá kết phân lớp từ hành vi thay đổi hàng hóa mua theo thuật toán Biểu đồ hộp đánh giá kết phân lớp từ hành vi thay đổi địa điểm hàng hóa mua theo thuật tốn 19 21 22 23 24 29 31 34 36 37 40 41 42 Danh sách bảng 2.1 2.2 2.3 Minh họa ma trận khoảng cách với chuỗi ký hiệu Ma trận khoảng cách Tìm kiếm chuỗi trung tâm motif 26 27 27 3.1 3.2 3.3 3.4 Mô tả liệu hoạt động mua hàng motif hành vi đáng nghi với R = 0.75 Kết phát bất thường dựa hành vi thay đổi địa điểm Kết phát bất thường dựa hành vi thay đổi hàng hóa mua Kết phát bất thường dựa hành vi thay đổi địa điểm hàng hóa mua Thời gian chạy trung bình thuật toán Kịch 4: Kết phát bất thường dựa việc tổng hợp điểm đánh giá từ thuật toán Random Forest Kịch 5: Kết phát bất thường dựa việc tổng hợp điểm đánh giá từ thuật toán học máy Thời gian chạy trung bình kịch 33 38 39 3.5 3.6 3.7 3.8 3.9 40 41 42 43 43 43 N T N Anh et al / A novel approach for anomaly detection in automatic meter intelligence system – Archiving applied anomaly pattern for machine learning model – Fitfully proposed a model combining SAX, imbalance technique and random forest to anomaly detection – Achieving applied proposal model in automatic meter intelligence system in Vietnam F According to the experimental result, our proposed model has better performance than using well-known machine learning models The cause of better results are chosen complex and dynamic anomaly patterns in meter intelligence system In future work, more sensor anomaly detection applications are researched base on the proposed model The advanced SAX to find a new pattern will be investigated The anomaly detection of subsequent of normal symbolic patterns is necessary to study PR O O Fig Evaluation metric precision score of the three methods Acknowledgment TE D We want to thank CMC Institute of Science and Technology for supporting this paper R EC Fig Confusion matrix of proposed model with the best F score and precision C O R random forest model, the proposed model gives us many superior results Three precision of three methods is described in Fig Once more time, the proposed model, the average precision from 39.9% much better than two other method decision tree with average precision 11% and 30.5% Thus, comparing the average precision of three methods decision tree and random forest model, the proposed model gives high performance References [1] [2] [3] [4] [5] Conclusions and discussions A new proposal model integrates SAX and imbalance for prepare processing, random forest for anomaly detection sensor systems are addressed in our research Concretely, the contributions of our paper are as follows: – Successful finding complicated and dynamic anomaly patterns using SAX for time series data [6] [7] [8] V Chandola, A Banerjee and V Kumar, Anomaly detection: A survey, ACM Comput Surv 41(3), July 2009 G Di Gravio Elena Quatrini, F Costantino and R Patriarca, Machine learning for anomaly detection and process phase classification to improve safety and maintenance activities, Journal of Manufacturing Systems: SME 56 (2020), 117–132 L Erhan, M Ndubuaku, M Di Mauro, W Song, M Chen, G Fortino, O Bagdasar and A Liotta, Experiencing sax: a novel symbolic representation of time series, Data Mining and Knowledge Discovery 15 (2007), 107–144 L Erhan, M Ndubuaku, M Di Mauro, W Song, M Chen, G Fortino, O Bagdasar and A Liotta, Smart anomaly detection in sensor systems: A multi-perspective review, Information Fusion 67 (2021), 64–79 A Gonzalez-Vidal, J Cuenca-Jara and A.F Skarmeta, Iot for water management: Towards intelligent anomaly detection, In 2019 IEEE 5th World Forum on Internet of Things (WF-IoT), pages 858–863, 2019 F Guigou, P Collet and P Parrend, Scheda: Lightweight euclidean-like heuristics for anomaly detection in periodic time series, Applied Soft Computing 82 (2019), 105594 A Dahbi, A El Hannani, A Aqqal and A Haidine, Power audit: an estimation model-based tool as a support for monitoring power consumption in a distributed network infrastructure, International Journal of Advanced Intelligence Paradigms (IJAIP), 13, 2019 M Hasan, Md M Islam, Md Ishrak I Zarif and M.M.A Hashem, Attack and anomaly detection in iot sensors in iot [12] [13] [17] [18] [19] [20] [21] C O R R EC TE D [14] [16] I Gethzi Ahila Poornima and B Paramasivan, Anomaly detection in wireless sensor network using machine learning algorithm, Computer Communications 151 (2020), 331–337 H Qin, M Yan and H Ji, Application of controller area network (can) bus anomaly detection based on time series prediction, Vehicular Communications, page 100291, 2020 H Ruan, X Hu, J Xiao and G Zhang, Trsax-an improved time series symbolic representation for classification, ISA Transactions 100 (2020), 387–395 Y Sun, J Li, J Liu, B Sun and C Chow, An improvement of symbolic aggregate approximation distance measure for time series, Neurocomputing 138 (2014), 189–198 M Xie, S Han, B Tian and S Parvin, Anomaly detection in wireless sensor networks: A survey, Journal of Network and Computer Applications 34(4) (2011), 1302–1325 Advanced Topics in Cloud Computing H Yahyaoui and R Al-Daihani, A novel trend based sax reduction technique for time series, Expert Systems with Applications 130 (2019), 113–123 C Zhang, Y Chen, A Yin and X Wang, Anomaly detection in ecg based on trend symbolic aggregate approximation, Mathematical Biosciences and Engineering: MBE 164 (2019), 2154–2167 F [11] [15] O [10] sites using machine learning approaches, Internet of Things (2019), 100059 D.J Hill and B.S Minsker, Anomaly detection in streaming environmental sensor data: A data-driven modeling approach, Environmental Modelling Software 25(9) (2010), 1014–1022 Thematic issue on Sensors and the Environment – Modelling ICT challenges H Liang, L Song, J Wang, L Guo, X Li and J Liang, Robust unsupervised anomaly detection via multi-time scale dcgans with forgetting mechanism for industrial multivariate time series, Neurocomputing, 2020 Y Liu, Z Pang, M Karlsson and S Gong, Anomaly detection based on machine learning in iot-based vertical plant wall for indoor climate control, Building and Environment 183 (2020), 107212 R Longadge and S Dongre, Class imbalance problem in data mining review, ArXiv, abs/1305.1707, 2013 P Malhotra, A Ramakrishnan, G Anand, L Vig, P Agarwal and G Shroff, Lstm-based encoder-decoder for multisensor anomaly detection, ArXiv, abs/1607.00148, 2016 N Malave and A.V Nimkar, A survey on effects of class imbalance in data pre-processing stage of classification problem, International Journal of Computational Systems Engineering (2020), 65–75 O [9] N T N Anh et al / A novel approach for anomaly detection in automatic meter intelligence system PR 10 Phát mẫu bất thường cho doanh nghiệp bán lẻ phân tích motif FRAUD PATTERN DETECTION BY MOTIF DISCOVERY IN RETAIL BUSINESS Phạm Ngọc Quang Anh1,2 , Vũ Thành Nam1 , Hồng Văn Đơng1 , Lê Anh Ngọc3 , Nguyễn Thị Ngọc Anh1 Viện Toán ứng dụng Tin học, Đại học Bách khoa Hà Nội Viện nghiên cứu ứng dụng Công nghệ CMC Swinburne Vietnam, Đại học FPT, Việt Nam Tóm tắt: Những khách hàng xấu thực hành vi gian lận giao dịch tài gây thiệt hại kinh tế mối nguy hiểm cho công ty, tổ chức Trong thời gian gần đây, giao dịch bùng nổ phát triển giao dịch tài qua mạng di động tồn giới Vì vậy, việc xử lý giao dịch vầ phát hành vi bất thường từ hàng trăm ngàn giao dịch với vô số loại hành vi khác khơng cịn phù hợp với phương thức xử lý thủ công Trong báo việc khai phá motif cho chuỗi thời gian phát bất thường thuật toán học máy rừng ngẫu nhiên đề xuất Một mơ hình xác định mẫu hành vi gian lận phân loại đối tượng toán phát bất thường cấp độ tài khoản mô hình hố Mơ hình đề xuất thử nghiệm sau sử dụng để phát khách hàng bất thường liệu hoạt động bán lẻ Bằng thực nghiệm mơ hình có độ xác F1 75% Từ khóa: Phát bất thường, khai phá mơ-típ, nhận dạng mẫu, học máy Abstract: Bad customers fraud behavior in financial transactions is cause of economic losses and the threat for companies, organizations Transactions exploded recently because of the development of mobile, online transactions in whole the world Therefore, transaction processing and detecting anomalous behavior from hundreds of thousands of transactions with various types of behavior are no longer suitable for manual processing In this paper, motif discovery for time series and anomaly detection by machine learning are proposed A model that identifies fraudulent behavior patterns and classifies objects in the account level anomaly detection problem is modeled The proposed model is experimented and then used to discover anomalies in retail activity data Experimentally, the model has an accuracy of F1 of 75% Keywords: Fraud detection, motif discovery, pattern recognition, machine learning Giới thiệu chung thị thể mối quan hệ tài khoản giao dịch Bài toán phát gian lận chủ đề quan trọng công ty, tổ chức ngân hàng, bảo hiểm, doanh nghiệp bán lẻ [1] Những gian lận tài ảnh hưởng đến uy tín, gây tổn thất cho tổ chức Bài toán nhiều nhà nghiên cứu quan tâm thực hàng loạt cơng trình nghiên cứu hai thập kỉ gần [1], [2],[3],[4],[5] Khi chuyên gia phân tích đánh giá rủi ro đối tượng đó, cách họ thường sử dụng xem xét trình hoạt động đối tượng khứ Họ tổng kết kinh nghiệm có từ đối tượng gian lận, sử dụng kinh nghiệm để đối chiếu với đối tượng xét phân tích xem liệu hành vi đối tượng có giống với hành vi đáng ngờ hay khơng Các giao dịch tài bùng nổ gần phát triển giao dịch tài qua mạng di động Các hình thức giao dịch có chi phí thấp nhanh chóng, tiện lợi Từ phát triển này, việc xử lý giao dịch từ hàng trăm ngàn giao dịch với vô số loại hành vi khác khơng cịn phù hợp với phương thức xử lý thủ công Nhiều ứng dụng phân tích liệu trí tuệ nhân tạo áp dụng để giải vấn đề phân lớp, phân nhóm, hồi quy, phát ngoại lai, dự đốn mơ [1] Q trình hoạt động đối tượng mơ tả chuỗi thời gian, hành vi mà đối tượng thực chuỗi chúng Do đó, muốn thực ý tưởng nêu ra, ta phải tìm cách để xây dựng tập chứa mẫu hành vi bất thường kẻ xấu, đồng thời tạo hệ thống phân loại để sử dụng mẫu hành vi vào trình đánh giá đối tượng khác Mục tiêu báo đề xuất mơ hình khai phá mẫu hành vi, thói quen đáng nghi ngờ mà đối tượng gian lận thực trình hoạt động bán lẻ Từ phân lớp đối tượng vào lớp bất thường (có khả thực hành vi gian lận) bình thường Mơ hình áp dụng phạm vi đối tượng khách hàng có hoạt động mua bán nhiều mặt hàng khác nhau, có giao dịch với công ty bán lẻ nhiều chi nhánh khác Việc tiếp cận toán phát gian lận chia vào mức độ: cấp độ giao dịch, cấp độ tài khoản, cấp độ mạng Thứ nhất, cấp độ giao dịch tiếp cận chủ yếu giao dịch thuộc tính Thứ hai, cấp độ tài khoản chủ yếu đặc điểm thống kê hành vi tài khoản (người, công ty, tổ chức) giao dịch Thứ ba, cấp độ mạng, mạng đồ Nội dung báo trình bày Phương pháp luận phần (i) Phần giới thiệu chung 2.1 Tổng quan mơ hình đề xuất phát bất thường giao dịch (ii) Phần trình bày phương pháp xây dựng mơ hình hệ thống phát bất thường Các thuật tốn tìm kiếm mẫu hành vi đáng ngờ chuỗi thời gian, sử dụng thuật toán học máy rừng ngẫu nhiên tiến hành phân lớp đối tượng (iii) Phần áp dụng mơ hình đưa với liệu khách hàng (iv) Phần kết luận nêu hướng nghiên cứu báo Hình 1: Tổng quan quy trình đề xuất Để tìm kịch gian lận ẩn liệu sẵn có, ta cần xét chuỗi giao dịch liên tiếp đối tượng thực Một chuỗi giao dịch gọi hành vi Như vậy, yêu cầu đặt cho hệ thống tìm mẫu chung hành vi đối tượng gian lận thực trước giao dịch phát sinh gian lận Trước hết, tập liệu cần tiền xử lý cách nhóm theo đối tượng xếp lại theo trình tự thời gian đề tạo thành chuỗi thời gian mô tả trình hoạt động chủ thể giao dịch Chuỗi thời gian xây dựng mô tả nhiều mặt giao dịch (tương ứng với chuỗi thời gian đơn chuỗi thời gian đa chiều) Lấy ví dụ, trường hợp xét đến biến thiên giá trị giao dịch, ta xây dựng chuỗi thời gian đơn theo thuộc tính tổng giá trị giao dịch theo tháng Mặt khác, muốn thể tổng lợi nhuận số lượng giao dịch đối tượng, ta xây dựng chuỗi thời gian hai chiều tượng với hành vi tập mẫu đáng nghi Bộ thuộc tính sử dụng để xác định tương đồng đối tượng gian lận đối tượng kiểm tra Sử dụng thuật toán phân lớp, ta tìm doanh nghiệp có nhiều tương đồng với doanh nghiệp có hành vi gian lận mua hàng gán nhãn bất thường cho doanh nghiệp tương ứng Quá trình thực cụ thể bước kể thể chi tiết mục 2.2 Mơ hình hóa liệu thành chuỗi thời gian Kết bước tiền xử lý hành vi Một chuỗi thời gian T = {x0 , x1 , , xm } gian lận thể trực quan chuỗi dãy thứ tự theo thời gian {t0 , t1 , , tm } thời gian Bài toán phát gian lận ban đầu m biến giá trị thực [6] chuyển thành tìm motif lặp lại Trong phạm vi báo, ta xét loại chuỗi thời gian đối tượng xấu chuỗi thời gian có tập mốc thời gian cố định Kí Trong q trình tìm kiếm motif cho chuỗi hiệu tập mốc thời gian Γ = {tj }0≤j≤m thời gian, hành vi đối tượng xấu Giả sử ta có tập liệu D chứa liệu thường thực hành vi bị đánh dấu giao dịch rời rạc n đối tượng x1 , x2 , , xn xấu từ trước lọc ra, tổng hợp lại thành thuộc tập đối tượng O thực tập mẫu hành vi đáng ngờ Tập mẫu thu Với đối tượng xi O, ta nhóm sở để so sánh, đánh giá đối tượng giao dịch xi thực lại xếp chúng khác bước theo thứ tự thời gian Khi đó, ta có chuỗi Cuối cùng, ta tiến hành phân lớp đối tượng tập liệu thành hai lớp: bất thường bình thường Tiêu chuẩn đặt để kết luận nhãn cho đối tượng mức độ tương đồng hành vi với hành vi nằm tập mẫu hành vi đáng ngờ Do đó, ta phải đưa phương thức so sánh độ tương tự mẫu hành vi dạng chuỗi chuỗi thời gian với thời gian tổng quát mô tả hoạt động xi với điểm liệu vector thuộc tính giao dịch xi thực Trong nhiều trường hợp, một vài thuộc tính giao dịch xét Ngoài ra, việc phát đối tượng bất thường cần phải tổng hợp thông tin giao dịch khoảng thời gian định Vì vậy, việc xây dựng chuỗi thời gian khơng dựa thời điểm giao dịch mà dựa mốc thời gian cố định (chẳng hạn, chuối thời gian thể thay đổi kê khai mã nhóm hàng hóa doanh nghiệp theo tháng) Áp dụng độ đo tương tự, trình so sánh mẫu hành vi cho ta thuộc tính đối tượng Trong đó, thuộc tính đại diện cho độ tương tự hành vi đối Như vậy, với đối tượng xi , ta thành lập chuỗi thời gian tương ứng với tập mốc thời gian Γ, kí hiệu T S i Ở T S i = {vji } j ∈ Γ (1) Trong đó, giá trị vji thống kê thuộc tính xét giao dịch đối tượng xi thực phát sinh khoảng thời gian [tj , tj+1 ) Chuỗi thời gian thể hành vi thay đổi tần suất giao dịch, giá trị giao dịch, Hình 2: Mơ tả chuỗi thời gian đơn giản: (a) Chuỗi thời gian (b) Phép trừ chuỗi chuỗi thời gian Có nhiều loại chuỗi thời gian với độ phức tạp khác thể mức độ thay đổi hành vi Trong khuôn khổ báo, ta xét chuỗi thời gian đơn giản 2.3 Khai phá mẫu bất thường Định nghĩa Một chuỗi thời gian S gọi chuỗi thời gian đơn giản thỏa mãn điều kiện sau: vj+1 − vj ∈ {−1, 0, 1} ∀j ∈ {1, 2, , m} (2) Chuỗi Z = {z1 , z2 , , zm } với zj = vj+1 − vj phép trừ chuỗi chuỗi thời gian S Hình mơ tả chuỗi thời gian đơn giản phép trừ chuỗi chuỗi thời gian Ký hiệu T S tập liệu chuỗi thời gian tập đối tượng O Hình 3: Quy trình khai phá mẫu Chuỗi thời gian xây dựng phần mơ hình hóa có thơng tin hành vi thói quen đối tượng khứ Ta tiếp tục phân tích thơng tin này, cụ thể tìm mẫu hành vi bất thường đối tượng gian lận Hình mơ tả lại quy trình khai phá mẫu sơ đồ tổng quan Xét tập hợp A ∈ T S tập hợp chuỗi thời gian tương ứng với đối tượng gian lận Mục tiêu khai phá mẫu xây dựng tập chứa hành động đáng nghi để làm tảng cho trình phân loại tiếp sau Ý tưởng đưa là: hành vi nhiều đối tượng gian lận hay thực đáng nghi Nói cách khác, ta phải phân tích chuỗi thời gian đối tượng xấu để tìm mẫu hành vi Hình 4: Chuyển đổi phép trừ chuỗi chuỗi thời gian đơn giản chuỗi ký hiệu xuất nhiều lần Nhiều nghiên cứu theo cách tiếp cận sử dụng biểu diễn rời rạc chuỗi thời gian Ý tưởng phương pháp tiếp cận Định nghĩa Dạng chuỗi ký hiệu thu gọn mã hoá chuỗi thời gian thành chuỗi rời rạc chuỗi ký hiệu chuỗi ký hiệu thu gọn đơn giản mà giữ thông tin biến lược bỏ số động, chẳng hạn mã hố thành chuỗi kí tự theo thuật tốn SAX [7] Lấy ví dụ, u2 l4 d3 chuỗi ký hiệu thu gọn Với đối tượng xi , chuỗi Zi chuỗi thời u − u − l − l − l − l − d − d − d Dạng gian T Si chuỗi số thuộc {1, 0, −1}, u2 l4 d3 u − l − d Trong khuôn khổ báo, để đơn giản ta gọi ta chuyển đổi vào chuỗi ký hiệu S với u , l −1 d Hình mơ tả q trình chuyển dạng chuỗi ký hiệu thu gọn dạng Tập chuỗi thời gian T S chuyển đổi từ chuỗi thời gian thành chuỗi ký hiệu thành tập chuỗi ký hiệu thu gọn S Tương ứng với dạng, chuỗi chuỗi ký hiệu thu thập đưa vào tập chuỗi Định nghĩa Chuỗi ký hiệu thu gọn biểu ký hiệu diễn rút gọn cho chuỗi ký hiệu thông thường Với tập, tất chuỗi so Trong chuỗi này, ký hiệu kèm với sánh độ đo khoảng cách sau: số cho biết ký hiệu lặp lại Định nghĩa Cho hai chuỗi X X’ hai lần Ta lập ma trận khoảng cách với chuỗi chuỗi ký hiệu thu gọn với dạng: X = x1a1 x2a2 xqaq X = x1a01 x2a02 xqa0q Khoảng cách X X’ là: s SSS1 SSS2 SSS3 SSS4 SSS5 D(X, X ) = (a1 − a01 )2 + (a2 − a02 )2 + + (aq − a0q )2 q SSS1 0.5 1.12 0.71 1.22 SSS2 0.5 0.71 0.5 0.87 SSS3 1.12 0.71 0.87 0.5 SSS4 0.71 0.5 0.87 0.71 SSS5 1.22 0.87 0.5 0.71 Kết phép so sánh thể Bảng 1: Ma trận khoảng cách ma trận khoảng cách Ở bước này, ta định nghĩa ngưỡng tương đồng R, hai chuỗi có khoảng cách nhỏ R hai chuỗi tương đồng có mẫu Với mẫu có chuỗi trung tâm Trong bảng 1, ta chọn ngưỡng tương mẫu đại diện cho thỏa mãn: đồng 0.75 SSS1 , SSS2 , SSS3 SSS4 có mẫu giống nhau, SSS5 riêng biệt Chuỗi • Là chuỗi có số lượng chuỗi ký hiệu thu gọn trung tâm mẫu tương đồng SSS2 lớn mà chuỗi chúng tương đồng với chuỗi xét Có thể có nhiều mẫu tập, sau tìm chuỗi trung tâm • Nếu có nhiều chuỗi thỏa mãn điều mẫu, tất chuỗi tương đồng với chuỗi kiện chuỗi trung tâm mẫu chuỗi loại bỏ Sau đó, ta tìm mẫu có tổng khoảng cách tới tất chuỗi khơng có chuỗi thỏa mãn điều kiện trung tương đồng với nhỏ tâm mẫu Nếu thỏa mãn hai điều kiện ta chọn Trong tập mẫu thu được, có mẫu ngẫu nhiên chuỗi trung tâm mẫu từ chuỗi xuất số A Vì vậy, để đảm bảo tập mẫu bất thường đại diện cho hành Ví dụ, xét chuỗi ký hiệu sau: vi đáng ngờ đối tượng gian lận, ta tiếp tục chọn lọc mẫu dựa điểm số mẫu Điểm SSS1 = u1 l1 u3 l1 SSS4 = u1 l1 u2 l2 số mẫu tỉ lệ số chuỗi thời gian có SSS2 = u1 l1 u2 l1 SSS5 = u2 l1 u1 l2 chuỗi tương đồng với chuỗi trung tâm mẫu SSS3 = u2 l1 u1 l1 tất chuỗi thời gian xét Chỉ có Sử dụng cơng thức khoảng cách (2.2) mẫu có điểm số lớn ngưỡng định chọn D(SSSi , SSSj ) = r (a1 − a01 )2 + (a2 − a02 )2 + + (a4 − a04 )2 Quy trình khai phá mẫu trình bày thuật toán 2.4 Phân loại 2.4.1 Thuộc tính bất thường Xét đối tượng xi bất kì, chuỗi thời gian T Si tương ứng đối tượng chứa nhiều chuỗi tương tự với chuỗi tập mẫu bất thường P khả xi gian lận cao Ngược lại, mức độ nghi ngờ xi thấp Thuật toán 1: Thuật toán khai phá mẫu chuỗi thời gian Input: Tập chuỗi thời gian T S, mốc khoảng cách R Output: Tập mẫu hành vi đáng nghi P Lọc tập chuỗi thời gian đối tượng gian lận A từ T S Mã hoá chuỗi thời gian A thành chuỗi ký hiệu thu gọn Xác định dãy kí tự mã hố lặp lại chuỗi thời gian A theo dạng Xây dựng ma trận khoảng cách từ chuỗi có dãy kí tự mã hố tìm bước Tìm kiếm chuỗi trung tâm mẫu phần tử mẫu Loại bỏ chuỗi thuộc mẫu vừa tìm lặp lại bước 3, khơng tìm dãy kí tự lặp lại, chuyển sang bước 7 Dừng thuật toán, kết luận tập mẫu P Với mẫu pj thuộc tập mẫu P, độ tương tự pj với hành vi thể si , kí hiệu fji , khoảng cách tối thiểu pj đến chuỗi si Dựa khoảng cách từ định nghĩa 2.4, ta tính khoảng cách p1 với chuỗi T Si chứa mẫu giống p1 lấy giá trị nhỏ cho giá trị f1i Tương tự cho f2i , f3i , , ta có tập thuộc tính đối tượng xi thể tương đồng hành vi đối tượng với hành vi đối tượng gian lận Ký i hiệu Fnew = {f1i , f2i , , fki } Hình mơ tả ví dụ tính giá trị thuộc tính bất thường Thuật tốn trích rút thơng tin hành vi xuất lặp lại phổ biến đối tượng xấu gán nhãn bất thường từ trước Sau thực trình khai phá mẫu, Hình 5: Tính tốn giá trị thuộc tính ta có mẫu đại diện cho hành vi lặp lại nhóm đối tượng gian lận Ký hiệu tập mẫu P = {p1 , p2 , , pk } Tập mẫu i sử dụng làm sở cho việc phân loại Các thuộc tính Fnew số thực khơng bước sau âm biểu diễn độ tương đồng hành vi đối tượng xi với hành vi gian lận Sau đốn từ tất hồi quy riêng lẻ x0 : thuộc tính sử dụng để phân loại M X d DTm (x0 ) (3) DT = M m=1 2.4.2 Phân loại Cây định thuật toán máy học phổ biến thường dùng toán phân lớp với toán hồi quy Thuật tốn thuộc nhóm thuật tốn học có giám sát tổng hợp kết phân loại việc bình chọn theo đa số (majority voting) 2.5 Đánh giá kết phân loại bất thường 2.5.1 Ma trận nghi ngờ (Confusion matrix) Cây định cấu trúc mà Ma trận nghi ngờ cho biết có số lượng phân nút biểu diễn đặc trưng(tính chất), loại phân loại phân loại sai vào nhánh biểu diễn quy luật biểu lớp (bất thường hay khơng bất thường) diễn kết Hình 2.6 mơ tả kết phân loại đối tượng Rừng ngẫu nhiên (Random Forest) vào hai lớp ’0’ ’1’ Ma trận cho biết có thuật tốn phân lớp với nhiều định 70 đối tượng phân vào lớp Mỗi định rừng huấn luyện ’0’,12 đối tượng phân vào lớp ’1’ tập khác tập luyện sinh 12 đối tượng bị phân nhầm lớp (thực tế lớp từ liệu gốc có nhãn phương pháp đóng ’0’ bị phân loại ’1’ ngược lại) bao (bagging) [8],[9] Hình 6: Mơ hình Random Forest Hình 7: Minh họa ma trận nghi ngờ Cho tập luyện D = x1 , x2 , , xn Với m = 1, 2, , M , ta chọn tập ngẫu nhiên ký hiệu Dm luyện tập Dm với định DTm Sau luyện, kết dự đoán cho mẫu không 2.5.2 Precision Recall nhãn x0 định lấy trung bình dự Ta xét đến số sau: • TP (True Positive): Số lượng doanh nghiệp Thí nghiệm kết dự đoán bất thường thực tế 3.1 Cài đặt thí nghiệm bất thường 3.1.1 Dữ liệu • FP (False Positive): Số lượng doanh nghiệp Dữ liệu thu thập từ hoạt động mua dự đoán bất thường thực tế hàng khách hàng vòng năm Bộ không bất thường liệu gồm thông tin giao dịch 801 khách hàng với 70 khách hàng xác định có • FN (False Negative): Số lượng doanh hành vi gian lận hoạt động mua hàng, nghiệp dự đốn khơng bất thường chiếm 8.74% thực tế bất thường 3.1.2 Mơ hình hóa • TN (True Negative): Số lượng doanh Dữ liệu tiền xử lý để thu chuỗi nghiệp dự đốn khơng bất thường thời gian thay đổi địa điểm mua hàng tương ứng thực tế không bất thường với khách hàng Từ khách hàng bị gán nhãn bất thường, ta xây dựng mơ hình tìm kiếm Khi đó, yếu tố đánh giá Precision đánh mẫu bất thường giá công thức: Với giai đoạn n = năm, ta phân chia TP (4) thành 35 phân đoạn tập T = P recision = TP + FP {t0 , t1 , , t35 } Ta xem xét doanh nghiệp xi tập Yếu tố đánh giá Recall tính cơng doanh nghiệp O, phân đoạn thời gian thức: hai điểm tj tj+1 , Gij tập địa điểm TP Recall = (5) doanh nghiệp kê khai TP + FN Ta có : Từ cơng thức trên, ta thấy yếu tố Precision thể tỷ lệ số lượng dự đoán thực bất thường số lượng dự đốn bất thường mơ hình Yếu tố Recall thể tỷ lệ số lượng dự đoán thực bất thường số lượng nhãn bất thường thực tế 2.5.3 Độ đo F1 F :O×Γ→R ( P recision ∗ Recall P recision + Recall Gij+1 * Gij F (xi , tj+1 ) = trái lại Hàm F đại diện số thay đổi địa điểm kê khai hoạt động xuất nhập giai đoạn [tj , tj+1 ] Độ đo F1 xác định công thức: F1 = ∗ F (xi , tj+1 ) = T Si chuỗi thời gian doanh nghiệp xi (6) có: F1 có giá trị nằm (0, 1] F1 cao, phân lớp tốt 10 i T Si = {T S0i , T S1i , , T S35 } với j X T Sji = F (xi , tl ) l=0 Hình mơ tả chuỗi thời gian thay đổi địa điểm doanh nghiệp Dạng Mẫu(SSS) u u u ul ul ul ul ul ul lu lu lu lu lu u2 u3 u4 u1 l7 u2 l2 u2 l5 u4 l1 u3 l3 u2 l8 l2 u2 l5 u2 l8 u2 l1 u4 l3 u3 Điểm số mẫu(%) 81.82 45.46 25.45 75.81 72.73 38.18 21.82 16.36 18.18 60 29.09 21.82 23.64 21.82 Bảng 2: Dãy số mẫu hành vi đáng nghi Hình 8: Chuỗi thời gian thể thay đổi địa điểm doanh nghiệp năm Ta tính tốn giá trị thuộc tính lập tập giá trị thuộc tính tương ứng với doanh nghiệp Sau sử dụng thuật tốn rừng ngẫu nhiên để huấn luyện liệu Hình mơ tả kết phân lớp theo ma trận nghi ngờ Sau xây dựng tập chuỗi thời gian cho doanh nghiệp, sử dụng thuật tốn 1, ta thực q trình khai phá mẫu Từ thực nghiệm, ngưỡng điểm số mẫu 20% cho kết tối ưu (hay ta xét mẫu xuất 20% chuỗi thời gian A) Áp dụng với liệu hoạt động mua hàng, Hình 9: Ma trận nghi ngờ tập kiểm thử gồm 121 ta chọn ngưỡng tương đồng 0.75, thu doanh nghiệp 30 mẫu bất thường Một vài mẫu đưa bảng 11 Precision 0.75 Recall 0.75 F1 -score 0.75 bất thường liệu khách hàng bán lẻ Kết đạt báo sau: Bảng 3: Bảng độ đo F1 , precision recall Trong bảng 3, tỉ lệ khách hàng gian lận nhỏ (chiếm 6.6 %) mơ hình phát 75% khách hàng gian lận Kết luận Trong báo này, tơi tìm hiểu nghiên cứu toán phát bất thường, khai phá mẫu bất thường chuỗi thời gian, xây dựng mơ hình nhận dạng mẫu bất thường ứng dụng học máy vào việc phát khách hàng • Đề xuất kỹ thuật khai phá mẫu bất thường • Xây dựng mơ hình khai phá mẫu sử dụng thuật toán rừng ngẫu nhiên để phân lớp khách hàng từ tìm khách hàng có hành vi mua hàng bất thường Lời cảm ơn Tơi xin có lời cảm ơn tới Viện nghiên cứu Ứng dụng Cơng nghệ CMC đóng góp hỗ trợ báo Tài liệu [1] E Ngai, Y Hu, Y Wong, Y Chen, X Sun, The application of data mining techniques in financial fraud detection: A classification framework and an academic review of literature, Decision Support Systems 50 (3) (2011) 559–569, on quantitative methods for detection of financial fraud doi:https://doi.org/10.1016/j.dss.2010.08.006 URL https://www.sciencedirect.com/science/article/pii/S0167923610001302 [2] J Wu, W Zeng, Z Chen, X.-F Tang, Hierarchical temporal memory method for time-seriesbased anomaly detection, in: 2016 IEEE 16th International Conference on Data Mining Workshops (ICDMW), 2016, pp 1167–1172 doi:10.1109/ICDMW.2016.0168 [3] J Jurgovsky, M Granitzer, K Ziegler, S Calabretto, P.-E Portier, L He-Guelton, O Caelen, Sequence classification for credit-card fraud detection, Expert Systems with Applications 100 (2018) 234–245 doi:https://doi.org/10.1016/j.eswa.2018.01.037 URL https://www.sciencedirect.com/science/article/pii/S0957417418300435 [4] P Rousseeuw, D Perrotta, M Riani, M Hubert, Robust monitoring of time series with application to fraud detection, Econometrics and Statistics (2019) 108–121 doi:https: //doi.org/10.1016/j.ecosta.2018.05.001 URL https://www.sciencedirect.com/science/article/pii/S2452306218300303 [5] S Bhattacharyya, S Jha, K Tharakunnel, J C Westland, Data mining for credit card fraud: A comparative study, Decision Support Systems 50 (3) (2011) 602–613, on quantitative methods 12 for detection of financial fraud doi:https://doi.org/10.1016/j.dss.2010.08.008 URL https://www.sciencedirect.com/science/article/pii/S0167923610001326 [6] B Chiu, E Keogh, S Lonardi, Probabilistic discovery of time series motifs, in: Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’03, Association for Computing Machinery, New York, NY, USA, 2003, p 493–498 doi: 10.1145/956750.956808 URL https://doi.org/10.1145/956750.956808 [7] Y Tanaka, K Iwamoto, K Uehara, Discovery of time-series motif from multi-dimensional data based on mdl principle, Machine Learning 58 (2005) 269–300 [8] L Breiman, Bagging predictors, Mach Learn 24 (2) (1996) 123–140 1018054314350 URL https://doi.org/10.1023/A:1018054314350 [9] L Breiman, Random forests, Machine Learning 45 (2004) 5–32 13 doi:10.1023/A: ... cải thiện với kết 72.9% 43 KẾT LUẬN Kết đạt Luận văn "Khai phá motif cho đa chuỗi thời gian phát bất thường phương pháp học máy" trình bày kiến thức toán phát bất thường, khai phá motif bất thường. .. Tên học viên: Phạm Ngọc Quang Anh Mã học viên: 20202959M Tên đề tài: Khai phá motif cho đa chuỗi thời gian phát bất thường phương pháp học máy Mã đề tài: 2020BTOANTIN-KH14 Hệ : Thạc sĩ khoa học. .. vi gian lận thể trực quan chuỗi thời gian Bài toán phát bất thường ban đầu chuyển thành tìm motif tập chuỗi thời gian đối tượng xấu Các chuỗi thời gian chuyển đổi thành biểu diễn rời rạc gọi chuỗi

Ngày đăng: 24/03/2023, 23:42

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan