Nghiên cứu phát hiện gian lận trong giao dịch thẻ tín dụng dựa vào học sâu TT

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Lưu Thị Thu NGHIÊN CỨU PHÁT HIỆN GIAN LẬN TRONG GIAO DỊCH THẺ TÍN DỤNG DỰA VÀO HỌC SÂU CHUYÊN NGÀNH : HỆ THỐNG THƠNG TIN MÃ SỐ: 8.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2021 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: TS NGUYỄN VĂN THỦY Phản biện 1: ……………………………………………………………… Phản biện 2: ……………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thông Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thơng MỞ ĐẦU Lý chọn đề tài Trong năm qua, phát triển thiết bị thông minh cá nhân, ngân hàng số làm thay đổi hành vi tiêu dùng mua bán trực tuyến, chuyển tiền cho vay trực tuyến Cũng mà ngày nhiều vụ việc gian lận lĩnh vực tài chính, ngân hàng liên quan đến thẻ tín dụng phát tồn cầu Các dịch vụ giao dịch lớn thường bị tội phạm mạng để mắt đến thực công nhằm gian lận giao dịch thẻ tín dụng Gần gian lận thẻ tín dụng phát triển đáng báo động Trong số lượng giao dịch ngày lớn, thời gian xử lý giao dịch ngày phải rút ngắn, việc phát triển kỹ thuật phát ngăn chặn gian lận thẻ tín dụng cần thiết để chống lại hoạt động tài phi pháp Để ngăn chặn hành vi gian lận rửa tiền, ngân hàng gấp rút chuyển đổi, thích ứng dựa vào công nghệ để chống lại mối đe dọa, gian lận từ bên ngồi Gian lận khơng có hình mẫu cố định Tội phạm ln thay đổi hành vi để giảm thiểu nguy bị phát Những kẻ gian lận tìm hiểu cơng nghệ cho phép họ thực hành vi gian lận thông qua giao dịch trực tuyến Kẻ gian lận giả định hành vi thường xuyên người tiêu dùng mơ hình gian lận thay đổi nhanh Chúng thực gian lận lần thông qua phương tiện trực tuyến sau chuyển sang phương tiện kỹ thuật khác Với mong muốn tìm hiểu sâu lĩnh vực trí tuệ nhân tạo, đặc biệt giải thuật mơ hình học sâu, cách áp dụng vào nghiệp vụ ngân hàng, học viên lựa chọn đề tài “Nghiên cứu phát gian lận giao dịch thẻ tín dụng dựa vào Học sâu ” làm luận văn tốt nghiệp thạc sĩ Tổng quan vấn đề nghiên cứu Trong lĩnh vực ngân hàng, hệ thống phát gian lận (Failure Detection system (FDS)) không phát gian lận mà phải đảm bảo chi phí cho việc kiểm tra giao dịch gian lận hay khơng, khơng nên cao so với tổn thất gian lận Bhatla việc sàng lọc 2% giao dịch giúp giảm thiệt hại gian lận chiếm 1% tổng giá trị giao dịch Để giảm thiểu chi phí cho việc phát gian lận chuyên gia sử dụng mơ hình dựa học máy (machine learning) để phát gian lận giúp nhà điều tra xem xét trường hợp có nguy cao Mơ hình dự đốn cho điểm giao dịch có rủi ro gian lận cao thấp đưa cảnh báo giao dịch rủi ro có gian lận hay khơng gian lận Những phản hồi sau sử dụng để cải thiện mơ hình dự đốn Mơ hình dự đốn xây dựng dựa quy tắc chuyên gia, tức quy tắc dựa kiến thức từ chuyên gia phát gian lận, quy tắc địi hỏi điều chỉnh thủ cơng giám sát người Nghiên cứu phát gian lận giao dịch thẻ tín dụng dựa vào Deep Leaning mở phương pháp phát gian lận dự đốn giao dịch gian lận Luận văn tập trung nghiên cứu vấn đề liên quan đến việc phát hiện tượng bất thường (gian lận) tập liệu cân đối, tập liệu tải xuống từ trang web (https://www.kaggle.com/dalpozz/creditcardfraud) Cách xây dựng, áp dụng mô hình mã hóa tự động (Autoencoder) để dự báo tượng bất thường ứng dụng vào toán thực tế phát gian lận giao dịch thẻ tín dụng Autoencoder hay cịn gọi mã hóa tự động mạng neural nhân tạo có đầu mạng giống hệt với đầu vào Autoencoder cho phép khái quát hóa đặc trưng quan trọng kiện bình thường Sau trình huấn luyện, mơ hình có khả tái tạo hiệu với kiện bình thường, tượng gian lận, kiện gian lận bất thường lại gây tượng gian lận Vì liệu sau chạy qua mơ hình huấn luyện Autoencoder có đặc trưng khác so với đầu vào có khả kiện gian lận giao dịch Mục đích nghiên cứu Luận văn tập trung nghiên cứu, áp dụng mơ hình Autoencoder vào toán phát gian lận, nhận gian lận giao dịch thẻ tín dụng; đánh giá mơ hình Autoencoder có sẵn vào tốn phát gian lận, nhận gian lận giao dịch thẻ tín dụng Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu Đối tượng nghiên cứu luận văn mơ hình mạng neural nhân tạo nhận dạng kiện bất thường, cụ thể mô hình Autoencoder cho tốn phát gian lận giao dịch thẻ tín dụng Phạm vi nghiên cứu Luận văn sử dụng liệu thực nghiệm tập liệu tải xuống từ trang web (https://www.kaggle.com/dalpozz/creditcardfraud) để làm liệu nghiên cứu Phương pháp nghiên cứu - Phương pháp nghiên cứu lý thuyết: Nghiên cứu tổng quan mơ hình phát bất thường - Phương pháp thực nghiệm: + Xây dựng mơ hình, mơi trường để huấn luyện mơ hình Autoencoder + Thực nghiệm đánh giá kết CHƯƠNG - CƠ SỞ LÝ LUẬN 1.1 Khái niệm tượng gian lận (bất thường) 1.1.1 Định nghĩa tượng gian lận Giao dịch điện tử, tốn khơng dùng tiền mặt ngày phát triển mang lại tiện lợi, tính minh bạch tốn cho cá nhân, tổ chức Tuy nhiên, phát triển giao dịch điện tử kéo theo gia tăng nguy an tồn tốn, gian lận, lừa đảo tài người dùng Có nhiều cơng trình nghiên cứu gian lận, bất thường có nhiều cơng trình nghiên cứu đưa nhiều khái niệm gian lận Thuật ngữ “gian lận” thẻ tín dụng hình thức gian lận sử dụng cơng nghệ cao để đánh cắp thơng tin thẻ tín dụng (Visa, MasterCad, ATM ) người sử dụng thuộc lĩnh vực tài chính, ngân hàng 1.1.2 Phát gian lận (bất thường) Phát gian lận (cũng phát hiện, bất thường, ngoại lai) việc xác định kiện khác biệt so với liệu lại Gian lận hay gọi bất thường, ngoại lai, sai lệch bất thường tập liệu việc thống kê tượng gian lận, bất thường tập liệu ban đầu Trong trường hợp, liệu tạo nhiều trình sinh ra, khơng đạt tiêu đại diện cho hoạt động hệ thống mà cịn quan sát thực thể lại Khi hoạt động gian lận (bất thường) sinh trình hoạt động, tạo gian lận (anomalies) ngoại lai (outliers) 1.2 Giới thiệu ứng dụng AI với ngân hàng hình thức gian lận thẻ tín dụng 1.2.1 Các ứng dụng AI hoạt động ngân hàng Chatbots cho dịch vụ khách hàng Chatbots xem ứng dụng dễ thấy sức ảnh hưởng AI áp dụng hoạt động ngân hàng mà không cần đến can thiệp nhân viên ngân hàng AI nhận hàng chục nghìn giao dịch câu hỏi phổ biến mà khách hàng hỏi Phát gian lận chống rửa tiền Để đối mặt với việc gian lận chống rửa tiền Anti-Money Laundering (AML) ngân hàng nhanh chóng chuyển đổi thích ứng cơng nghệ để chống lại mối đe dọa gian lận Các giải pháp kích hoạt AI mơ hình tài tiên tiến giúp ngân hàng phân tích dịng tiền thời gian thực giao dịch gian lận dừng lại bị phát Trợ lý AI giúp đầu tư Ngân hàng đào sâu vào giới AI cách sử dụng hệ thống thông minh để giúp đưa định đầu tư hỗ trợ nghiên cứu ngân hàng đầu tư Bằng cách xem xét hành vi mơ hình khách hàng thay quy tắc cụ thể, hệ thống dựa AI giúp ngân hàng ln tn thủ quy định giảm thiểu rủi ro chi phí đối tượng gian lận sử dụng công nghệ cao qua mạng Internet đánh cắp thơng tin thẻ tín dụng 1.2.2 Hình thức gian lận thẻ tín dụng Hình thức gian lận phổ biến - phát tán Virus Khi bấm phải chương trình/ đoạn mã/ link thiết kế tự nhân chép đến nhiều thiết bị điện tử khác nhiều người Mạo danh Công an điều tra Về vụ án rửa tiền/ buôn bán ma túy/chất cấm…, gọi điện thoại yêu cầu chuyển khoản vào tài khoản cung cấp để không bị luận tội đồng phạm cam kết sau kết thúc chuyển trả lại tiền Mạo danh Nhân viên viễn thông Gọi điện thông báo nợ cước viễn thông với số tiền lớn, lời đe dọa, yêu cầu nộp tiền vào tài khoản đối tượng cung cấp để giữ hộ Mạo danh Cơ quan quyền địa phương Yêu cầu cung cấp thông tin cá nhân để sử dụng thơng tin phát hành thẻ, dùng thẻ với mục đích trục lợi mà đương khơng hay biết Chiếm tài khoản Mạng xã hội (Facebook, Twitter, Zalo…) Để trục lợi: nạp thẻ điện thoại, mua thẻ cào, thẻ game… đánh cắp thông tin cá nhân, thông tin thẻ, ngân hàng điện tử Giả mạo Website/ Ứng dụng (App)/ Mạng xã hội Có giao diện tương tự Website/App/Mạng xã hội thức qua email/ tin nhắn cảnh báo “tài khoản bị khóa” đề nghị bấm vào đường dẫn để chuyển hướng đến Website/App/Mạng xã hội giả mạo yêu cầu đăng nhập, cung cấp thông tin cá nhân, thông tin thẻ Email/ Tin nhắn với đường link có chứa phần mềm mã độc Để đánh cắp thông tin cá nhân, thông tin thẻ, ngân hàng điện tử Lừa đảo tài quốc tế - lừa đảo lệ phí trả trước Là hình thức chiếm dụng tiền Bị rút trộm tiền mặt qua máy ATM, làm giả thẻ Visa, MasterCad 1.3 Phân loại kỹ thuật phát bất thường 1.3.1 Phát gian lận học giám sát (Supervised Anomaly Detection) Học có giám sát kỹ thuật ngành học máy nhằm mục đích xây dựng hàm f từ tập liệu huấn luyện Dữ liệu huấn luyện bao gồm cặp đối tượng đầu vào đầu mong muốn Đầu hàm f giá trị liên tục dự đoán nhãn phân lớp cho đối tượng đầu vào Phương pháp phát bất thường học giám sát giả định tập liệu huấn luyện có dán nhãn chứa mẫu bình thường bất thường để xác định mơ hình dự đốn Tuy nhiên, phương pháp có số thách thức Tập liệu huấn luyện thường chứa số tập nhiễu (noisy) dẫn đến tỷ lệ báo động giả cao Một số thuật toán giám sát phổ biến Supervised Neural Network, Máy hỗ trợ vector (Support Vector Machine SVM), k-Nearest Neighbors, Bayesian Networks Decision Tree 1.3.2 Phát gian lận học bán giám sát (Semi-Supervised Anomaly Detection) Học bán giám sát khắc phục nhược điểm, phát huy ưu điểm học có giám sát học khơng có giám sát Bằng cách kết hợp học có giám sát học khơng có giám sát, với lượng lớn liệu chưa gán nhãn lượng nhỏ liệu gán nhãn, giải thuật học bán giám sát thu kết vừa có độ xác cao vừa thời gian cơng sức Do đó, học bán giám sát phương pháp học đạt hiệu tốt lĩnh vực học máy Tóm lại học bán giám sát phương pháp học máy mà liệu huấn luyện kết hợp liệu gán nhãn liệu không gán nhãn 1.3.3 Phát gian lận học khơng giám sát (Unsupervised Anomaly Detection) Học khơng có giám sát phương pháp học máy mà liệu huấn luyện liệu hoàn toàn chưa gán nhãn, nhằm tìm mơ hình phù hợp với quan sát Học khơng có giám sát khác với học có giám sát chỗ, đầu tương ứng cho đầu vào chưa biết trước Trong học khơng có giám sát, tập liệu đầu vào thường thu thập cách ngẫu nhiên, sau mơ hình mật độ kết hợp xây dựng cho tập liệu Phân cụm liệu Mục đích việc phân cụm liệu để xác định nhóm tập liệu khơng có nhãn Nhưng làm để định điều tạo nên việc phân cụm tốt Có thể nói rằng, khơng có tiêu chuẩn tuyệt đối tốt nhất, người sử dụng phải đưa tiêu chuẩn để liệu sau phân cụm phù hợp với yêu cầu người sử dụng Phương pháp không cần tập liệu huấn luyện sử dụng rộng rãi Phát bất thường không giám sát phương pháp linh hoạt, đặc biệt thực tế liệu thu thập cần phân tích mà không cần thêm kiến thức Mặt khác, phương pháp nhạy cảm với liệu đầu vào Việc xử lý thích hợp việc tạo liệu trước cần thiết để thành công Các thuật toán phổ biến K-Means, đồ tự tổ chức (SOM), thuật toán siêu trường Expectation - Maximisation (EM), lý thuyết cộng hưởng thích ứng (Adaptive resonance theory - ART), Máy Vector hỗ trợ lớp (One - Class Support Vector Machine), mã hóa tự động Auto-Encoder 1.4 Tổng quan kỹ thuật phát gian lận Phát gian lận vấn đề quan trọng hệ thống phát gian lận Phát gian lận tín dụng thu hút trở thành lĩnh vực nghiên cứu nhà khoa học giới quan tâm Tuy nhiên, phát gian lận thẻ tín dụng gặp nhiều thách thức, việc giảm thiểu số lượng lớn cảnh báo giả mạo khó khăn q trình phát mẫu cơng khơng rõ vấn đề phải giải trước áp dụng vào hệ thống phát gian lận Để xác định bất thường (gian lận), hệ thống phải huấn luyện để nhận hoạt động bình thường Giai đoạn hệ thống phát bất thường bao gồm: giai đoạn huấn luyện (nơi hồ sơ hành vi bình thường xây dựng) giai đoạn thử nghiệm (nơi truy cập so sánh với cấu hình đào tạo giai đoạn đào tạo) Bất thường phát theo nhiều cách, thường dùng kỹ thuật trí tuệ nhân tạo Luận văn sử dụng phương pháp học tập không giám sát để phát gian lận (bất thường) 1.4.1 Tìm hiểu phương pháp phát gian lận thẻ tín dụng Nhân mẫu dương tính Nhân mẫu dương tính phương pháp tăng số lượng mẫu dương tính cách lặp lại mẫu dương tính nhiều lần nhằm giảm bớt chênh lệch số lượng mẫu dương tính âm tính Giảm số lượng mẫu âm tính Giảm số lượng mẫu âm tính phương pháp loại bỏ ngẫu nhiên có chọn lọc mẫu âm tính nhằm mục đích giảm tỉ lệ chênh lệch số lượng mẫu dương tính âm tính Thơng thường bước cố gắng giảm nhiễu mẫu âm tính Tạo thêm mẫu dương tính thuật tốn Tạo thêm mẫu dương tính thuật tốn phương pháp hiệu nhằm tăng số lượng mẫu dương tính, giảm tỉ lệ chênh lệch số lượng mẫu dương tính âm tính Khơng giống với việc lặp lại nhãn dương tính phương pháp nhân bản, Điều chỉnh trọng số học tập mẫu Điều chỉnh trọng số trình huấn luyện mẫu phương pháp tăng trọng số huấn luyện mẫu dương tính lớn nhiều lần mẫu âm tính nhằm mục đích giúp mơ hình tập trung huấn luyện mẫu dương tính âm tính 1.5 Kết luận chương Chương 1, giới thiệu tổng quan khái niệm gian lận, tượng gian lận tín dụng xã hội tác động đến sống người Tiếp đó, thẻ tín dụng số nghiên cứu khoa học bật phát gian lận thẻ tín dụng chương trình bày ý nghĩa tầm quan trọng toán phát gian lận thẻ tín dụng thường gặp thực tế CHƯƠNG - PHƯƠNG PHÁP PHÁT HIỆN GIAN LẬN TRONG GIAO DỊCH THẺ TÍN DỤNG 2.1 Mạng neural nhân tạo Mạng neural nhân tạo tập hợp tế bào dây thần kinh kết nối với nhau, đầu neural đầu vào neural khác Mạng neural nhân tạo ANN (Artificial Neural Network) tạo từ node (neural) xếp chồng lớp lên vector đặc trưng vector đích - Hàm tổng (Summation Function): Tính tổng trọng số tất input đưa vào neural Hàm tổng neural n input tính theo công thức sau: m y   (.)   x w  b i i i 1 (2.1) - b: độ lệch (bias) -  (.) : hàm kích hoạt (activation function), dùng để giới hạn phạm vi đầu neural - y: đầu neural Kiến trúc chung ANN gồm thành phần Input Layer, Hidden Layer Output Layer - Input Layer (Lớp liệu đầu vào): Mỗi input tương ứng với thuộc tính liệu - Output Layer (Lớp kết đầu ra): Tầng cung cấp kết đầu mong muốn mơ hình tính - Hidden Layer (Lớp ẩn): gồm neural, nhận liệu input từ neural lớp (Layer) trước chuyển đổi input cho lớp xử lý Trong ANN có nhiều Hidden Layer Hình 2.2 Kiến trúc mạng neural nhân tạo Các loại mạng neural nhân tạo: Perceptron lớp: mơ hình đơn giản mạng neural (chỉ có tầng) Đây neural nhân tạo Multi-Layer Perceptrons (MLP): Là perceptron nhiều lớp Đây mơ hình mạng truyền thẳng nhiều lớp bao gồm lớp đầu vào, lớp đầu lớp ẩn, neural lớp kết nối đầy đủ đến tất neural lớp mơ hình MLP Một số hàm kích hoạt hay sử dụng • Hàm sigmoid (Sigmoid function): f(x) = e x - e -x = ' + e -x e x - e -x (2.2) 10 diễn lớp từ biểu diễn lớp trước Deep Learning mang lại đột phá xử lý hình ảnh, video, nhận dạng giọng nói âm Deep Learning có nhiều thuật tốn Convolutional Neural Network (CNN), Deep Belief Network (DBN), Deep Neural Network (DNN), Recurrent Neural Network (RNN), Boltzman Machine (BM) số mơ hình Autoencoder giới thiệu 2.3 Autoencoder 2.3.1 Định nghĩa mơ hình Autoencoder Autoencoder hay cịn gọi mã hóa tự động khơng phải mơhình mạng nơron có cấu trúc cụ thể mà khái niệm mô hình mạng neural nhân tạo phân loại lớp, có đầu giống với đầu vào Autoencoder thường có thành phần khối mã hóa, mã khối giải mã Mục đích khối mã hóa Autoencoder tìm cách biểu diễn (mã hóa) cho liệu đầu vào thành mã Đồng thời, khối giải mã Autoencoder có chức cố gắng tái tạo lại liệu ban đầu từ liệu mã hóa cho liệu giải mã giống với đầu vào tốt Do mã hóa tự động có đầu vào tương tự đầu nên khơng cần phải thời gian công sức để dán nhãn liệu mơ hình khác, đào tạo mơ hình phương pháp học khơng giám sát Mục đích Autoencoder thử tìm hiểu hàm hiển thị phương trình: h𝑊,𝑏 (𝑥) ≈ 𝑥 (2.4) Trong đó: W trọng số, b bias Q trình học mơ tả hàm giảm thiểu lỗi tái thiết, có phương trình: L(x, d(f(x))) (2.5) Trong đó: L hàm mát; d hàm giải mã; f hàm mã hóa Hình 2.5 Các lớp Autoencoder [ 11 2.3.2 Kiến trúc mạng Autoencoder Autoencoder bao gồm thành phần: encoder, code decoder Encoder nén đầu vào tạo code (mã), decoder sau xây dựng lại đầu vào sử dụng mã Hình 2.6: Sơ đồ cấu trúc Autoencoder − Khối mã hóa (encoder): Khối mã hóa nhận đầu vào vec-tơ biểu diễn liệu n chiều, đầu vec-tơ mã hóa không gian ẩn m chiều Thông thường nhắc đến Autoencoder khơng nhắc tới cụ thể kích thước khối mã ngầm hiểu m < n Do phương pháp để giảm số chiều liệu vào − Mã (code): Đây vec-tơ khơng gian m chiều Mã vetor lớp ẩn nằm mã hóa tự động, có số chiều nhỏ tất lớp, nút thắt cổ chai có chủ đích tồn mạng Chính nhờ nút thắt cổ chai mà mạng neural nhân tạo có khuynh hướng giữ lại đặc điểm quan trọng liệu loại bỏ thành phần nhiễu thành phần dư thừa Đây kết đầu khối mã hóa dùng làm đầu vào khối giải mã − Khối giải mã (decoder): Khối giải mã nhận đầu vào thành phần mã (vec-tơ m chiều) có nhiệm vụ cố gắng tái tạo lại liệu ban đầu (vec-tơ n chiều đầu vào khối mã hóa) Vì q trình huấn luyện cho mạng neural, đầu khối giải mã đầu vào khối mã hóa ban đầu 2.3.3 Phân loại mạng Autoencoder Vì Autoencoder khơng phải mơ hình mạng neural có cấu trúc cụ thể mà khái niệm mơ hình mạng neural nhân tạo phân loại lớp có đầu giống với đầu vào nên kết hợp vào kiến trúc mạng neural khác tạo mô hình mã hóa tự động khác đây: 12 Bộ mã hóa tự động MLP Autoencoder Hình 2.6 Kiến trúc mạng MLP Autoencoder MLP Autoencoder (Multi-layer Perceptron) hay cịn gọi mã hóa tự động Perceptron đa lớp kết hợp kiến trúc mạng neural Perceptron đa lớp mơ hình Autoencoder Đây kiến trúc đơn giản Autoencoder, mạng neural MLP xây dựng để huấn luyện không giám sát với đầu đầu vào Mạng xây dựng với nút thắt cổ chai lớp mã Kích thước lớp ẩn giảm dần khối mã hóa (từ đầu vào đến lớp mã) tăng dần trở lại khối giải mã (từ lớp mã đến đầu ra) Mơ hình MLP Autoencoder thường ứng dụng toán phân loại dự báo với đầu vào đa biến Đây mơ hình có kiến trúc đơn giản nên dễ dàng xây dựng để làm chuẩn so sánh với mơ hình truyền thống Autoencoder khác Bộ mã hóa tự động LSTM Autoencoder LSTM Autoencoder (Long short-term memory) hay cịn gọi mã hóa tự động nhớ ngắn hạn LSTM kết hợp kiến trúc mạng neural nhớ ngắn hạn LSTM mơ hình Autoencoder Mơ hình LSTM Autoencoder có khối mã hóa khối giải mã mạng neural LSTM đề chứa n mẫu liệu giống liên thời gian biểu diễn Kết nối khối mã hóa giải mã lớp mã m chiều, chứa đặc trưng mã hóa n mẫu này, nút thắt cổ chai tồn mạng Mạng Autoencoder mã hóa n mẫu đầu vào cố gắng tái tạo lại n mẫu từ vec-tơ mã Bộ mã hóa LSTM Autoencoder xây dựng kiến trúc mạng nơ-ron LSTM nên chuyên dùng để xử lý toán chuỗi thời gian đa biến : xử lý liệu lấy mẫu định kỳ theo thời gian, xử lý tín hiệu âm thanh, video … Bộ mã hóa tự động Convolutional Autoencoder Convolutional Autoencoder hay gọi mã hóa tự động xoắn kết hợp kiến trúc mạng neural xoắn mơ hình Autoencoder Bộ mã hóa Convolutional Autoencoder xây dựng kiến trúc mạng neural xoắn nên chuyên dùng để xử lý tốn phân lớp hình ảnh, video 13 2.3.4 Các ứng dụng mơ hình Autoencoder Giảm kích thước, giảm số chiều Giảm kích thước đầu vào ứng dụng động lực ban đầu để nghiên cứu mã hóa tự động Autoencoder Truy xuất thơng tin Lợi ích truy xuất thơng tin thước tìm kiếm đến từ đặc điểm giảm kích thước đầu vào Autoencoder Điều trở nên hiệu giảm kích thước đầu vào xuống khơng gian khối mã có số chiều thấp định (vừa đủ để phân biệt liệu thông tin vừa đủ nhỏ để tăng tốc độ truy xuất) Xử lý ảnh Các đặc điểm đặc biệt mã hóa tự động khiến cho mơ hình hữu ích việc xử lý hình ảnh với nhiều ứng dụng khác Ứng dụng dễ thấy dùng mã hóa tự động để nén ảnh có mát Chuẩn đốn bệnh y tế Trong lĩnh vực chẩn đốn từ hình ảnh y tế, số nghiên cứu sử dụng mã hóa tự động Convolutional Autoencoder để khử nhiễu hình ảnh siêu âm, X-quang, phát tế bào sinh thiết tủy xương, phát ung thư vú chí mơ hình hóa mối quan hệ suy giảm nhận thức Bệnh Alzheimer dựa ưu điểm Convolutional Autoencoder huấn luyện Dịch máy Autoencoder áp dụng thành công vào lĩnh vực dịch máy ngôn ngữ tự nhiên, tạo nên máy dịch nơ-ron (Neural Machine Translation-NMT) Autoencoder Trong NMT, văn ngơn ngữ coi chuỗi mã hóa đưa vào quy trình học tập, phía giải mã, ngơn ngữ đích tạo 2.3.5 Xây dựng mơ hình Autoencoder cho tốn cụ thể Để xây dựng mã hóa tự động cụ thể, bước cần làm phải tìm mơ hình Autoencoder phù hợp để xử lý liệu cho tốn Sau xác định mơ hình phù hợp, thơng qua q trình thử nghiệm cần xác định thành phần tham số sau để tối ưu cho mạng neural Autoencoder: - Kích thước mã: kích thước mã số lượng nút lớp Kích thước mã nhỏ dẫn đến tỉ lệ nén nhiều hơn, khả mạng tìm đặc trưng quan trọng 14 tốt Tuy nhiên kích thước mã xuống q thấp không đủ khả lưu trữ liệu cần thiết dẫn tới việc giải mã đầu khác đầu vào - Số lớp ẩn, hàm kích hoạt: mã hóa tự động có số lượng lớp muốn Như kiến trúc MLP Autoencoder có lớp ẩn kết nối đầu đủ khối mã hóa khối giải mã (khơng tính lớp đầu vào đầu ra) Thơng thường cần lớp ẩn khối mã hóa khối giải mã đủ hiệu cho mô hình đào tạo - Số lượng nút lớp ẩn: Chúng ta có tồn quyền kiểm sốt tham số số lượng nút lớp ẩn mà ràng buộc Vì số lượng nút lớp ẩn nên thiết kế giảm dần theo lớp khối mã hóa tăng dần trở lại khối giải mã Kích thước lớp ẩn xác định tối ưu thơng qua q trình thử nghiệm, khơng quan trọng việc xác định kích thước mã - Hàm mát: hàm mát cho mơ hình Autoencoder thường sử dụng hàm lỗi bình phương trung bình (mean squared error - mse) hàm crossentropy hay crossentropy nhị phân Nếu giá trị đầu vào nằm phạm vi [0, 1] thường sử dụng hàm crossentropy, khơng, sử dụng lỗi bình phương trung bình Ngồi tùy vào tốn sử dụng hàm mát khác cho phù hợp hiệu Mơ hình phát gian lận sử dụng Autoencoder Ý tưởng xây dựng mơ hình mạng neural sâu với lớp ẩn để tự động tìm hiểu đặc tính liệu trước phát hành vi bất thường Các đặc tính học từ mạng lưới làm tăng khả phân biệt hành vi khác Mơ hình Autoencoder thực chất mạng neural dùng để học không giám sát, học cách biểu diễn cho tập liệu thơng thường với mục đích giảm chiều liệu, giúp dự đoán đầu từ đầu vào ban đầu, với lớp ẩn học số node nhỏ node đầu vào Autotencoder xây dựng mơ hình học đặc tính liệu dựa mạng neural nhiều lớp Thay thuộc tính thiết kế giả lập, đặc tính học từ mạng lưới nhập vào mơ hình phân loại để phát hành vi gian lận Trong hình 2.15, phương pháp phát gian lận sử dụng mơ hình Autoencoder bao gồm hai giai đoạn: 15 (A) Giai đoạn mơ hình huấn luyện (B) Giai đoạn phát bất thường Hình 2.15: Quy trình huấn luyện phát bất thường Q trình huấn luyện sử dụng mơ hình Autoencoder: - Thứ nhất, mạng lưới huấn luyện phương pháp huấn luyện không giám sát - Thứ hai, xếp lớp khởi tạo để tạo thành mạng lưới nhiều lớp - Cuối cùng, tinh chỉnh mạng lưới huấn luyện để có mơ hình học hỏi thuộc tính tốt Mơ hình Autoencoder sử dụng cho tính học chia thành hai phần: mã hóa (encoder) giãi mã (decoder) Bộ mã hóa tự động, đơn giản hữu ích cho việc huấn luyện trước mơ hình học tập sâu Bộ mã hoá sử dụng hàm phi tuyến f để ánh xạ liệu đầu vào (x 𝜖 𝑅 𝑛 ) vào biểu diễn lớp ẩn (h 𝜖 𝑅 𝑚) Ánh xạ biểu diễn sau: h = f(x) = σ(𝑊𝑥+b) (2.6) Các tham số mã hóa chứa ma trận (W) kích thước m×n, vector bias (b 𝜖 𝑅𝑚) Bộ giải mã áp dụng hàm phi tuyến g để tái tạo liệu đầu vào biểu diễn lớp ẩn (h 𝜖 𝑅𝑚) để hình thành r 𝜖 𝑅𝑚 r = g(h) = σ (𝑊′ℎ +b’) (2.7) 16 W ' ma trận trọng số giải mã với kích thước m×n, b' ∈𝑅 𝑛 vector bias σ hàm kích hoạt phi tuyến Trong luận văn này, học viên sử dụng mơ hình Autoencoder với lớp đầu vào, lớp ẩn lớp đầu hình 2.17 Hình 2.17 Mơ hình Autoencoder đề xuất Activation Functions: Hàm kích hoạt sử dụng cho để tính tốn đầu lớp mạng neural Với mơ hình Autoencoder đề xuất hàm kích hoạt sử dụng là: - Hàm ReLU f(x0) = max (0, x) cho đầu lớp ẩn Input Layer Hidden Layer lớp thứ 14 neural Hidden Layer lớp thứ hai neural Output Layer - Hàm Softmax sử dụng cho đầu phân loại mạng neural Công thức hàm Softmax sau: (2.8) Trong đó: z vector đầu vào liền kề với lớp đầu ra, K tổng số node mạng neural đầu Hàm mát: hàm mát cho mơ hình Autoencoder thường sử dụng hàm lỗi bình phương trung bình (mean squared error - mse) Xử lý trước liệu: Mạng neural sâu cho phép đặc tính hay thuộc tính hành vi người dùng thể dạng giá trị số lớp đầu vào Do vậy, để sử dụng tập liệu Kaggle cần phải chuyển đổi giá trị số cách sử dụng vectơ để xử lý cho giá trị [0, 1] 2.4 Kết luận chương Trong chương 2, trình bày tổng quan mạng neural nhân tạo, sở lý thuyết Deep Learning mơ hình Autoencoder Từ đó, xây dựng mơ hình Autoencoder vào hệ thống phát gian lận thẻ tín dụng 17 CHƯƠNG - THỰC NGHIỆM VÀ ĐÁNH GIÁ Nội dung chương có bố cục sau: 3.1 Môi trường thực nghiệm Tiến hành thực nghiệm sau: Cài đặt Python, Tensorflow Keras cho Deep Learning - Cài đặt Jupyter notebook: conda install jupyter - Cài đặt Tensorflow lệnh sau: pip install tensorflow - Cài đặt Keras: pip install keras TensorFlow thư viện phần mềm mã nguồn mở dành cho máy học nhiều loại hình tác vụ nhận thức hiểu ngơn ngữ TensorFlow sử dụng cho nghiên cứu nhận dạng giọng nói, Gmail, Google Photos, tìm kiếm Keras mạng neural API cấp cao, viết Python có khả chạy TensorFlow, CNTK Theano Keras phát triển với trọng tâm cho phép thử nghiệm nhanh Cấu hình máy thực nghiệm: Toàn thực nghiệm thực Dell Vostro3669 Cấu hình: - Bộ xử lý Intel® Core (TM) i3-7400 CPU @ 3.00GHz (4 CPUs) - Bộ nhớ RAM GB - Đồ hoạ Intel® HD Graphics 630 4178 MB 3.2 Chuẩn bị liệu Bộ liệu thực nghiệm tập liệu downloaded from Kaggle data/creditcard.csv Bộ liệu creditcard.csv có 284,807 vectơ kết nối đơn, vectơ có 31 thuộc tính Bộ liệu chứa giao dịch thực thẻ tín dụng vào tháng năm 2013 chủ thẻ châu Âu.Tập liệu trình bày giao dịch xảy hai ngày có 492 gian lận số 284.807 giao dịch Tập liệu cân bằng, loại tích cực (gian lận) chiếm 0,172% tổng số giao dịch Hình dạng tập liệu: (284807, 31) Khơng có giá trị Null tập liệu 18 Hình 3.1 Tập liệu 3.3 Tiến hành thực nghiệm Thực nghiệm tiến hành dựa thư viện mã nguồn mở TensorFlow công cụ hỗ trợ code Deep Learning Các bước tiến hành thực nghiệm: - Thực nghiệm tập liệu creditcard.csv - Sử dụng phương pháp Autoencoder để thử nghiệm với liệu creditcard.csv Đọc liệu creditcard.csv Đầu tiên, tiền xử lý creditcard.csv vectơ đặc trưng chuyển đổi giá trị số Hàm xây dựng vectơ đặc trưng cho mạng Neural sau: + Predictors/Inputs (Dự đốn / Đầu vào): • Mã hóa giá trị văn bản, phân loại encode_text • Mã hóa giá trị số encode_numeric + Ouput (đầu ra): • Mã hóa giá trị văn bản, phân loại encode_index • Khơng mã hóa giá trị số đầu Loại bỏ trường không cần thiết Trong trường đầu vào liệu, có trường khơng có nhiều ý nghĩa cho mơ hình đào tạo trường “time” thời điểm giao dịch, trường “số tiền” chứa giá trị phân loại kiểu lựa chọn vài giá trị tự nhiên xác định nên ta loại bỏ Như đầu vào 29 trường liệu liên tục chuẩn hóa Để bắt đầu q trình huấn luyện, tơi bắt đầu xử lý tếp liệu cách loại bỏ cột Thời gian (sẽ khơng sử dụng nó) sử dụng scikit’s StandardScaler cột Số tiền Bộ chia tỷ lệ loại bỏ giá trị trung bình chia tỷ lệ giá trị thành phương sai theo đơn vị: 19 data = df.drop(['Time'], axis=1) data['Amount'] = StandardScaler().fit_transform(data['Amount'].values.reshape(-1, 1)) Phân chia liệu Đánh giá hiệu phân lớp việc quan trọng, cho phép dự đốn độ xác kết phân lớp liệu tương lai Độ xác cịn giúp so sánh mơ hình phân lớp khác Trong toán thực tế, để đánh giá tính hiệu quả, tính xác mơ hình cần phải có liệu: train, valid test Bộ liệu train: dùng để huấn luyện cho mơ hình Bộ liệu valid: dùng để đánh giá tính hiệu quả, độ xác mơ hình, từ định lựa chọn mơ hình tham số phù hợp Bộ liệu test: dùng để xác thực tính hiệu quả, độ xác cuối Đây coi liệu chưa biết, không dùng liệu test để lựa chọn mơ hình tham số tối ưu liệu valid Bởi phần luận văn xác định mơ hình khảo sát cụ thể MLP Autoencoder khảo sát tất tham số nhằm mục đích tối ưu tham số phù hợp nên không cần sử dụng liệu valid Chính phạm vi luận văn tơi chia liệu thành liệu train test với tỉ lệ số lượng mẫu 80:20 Việc huấn luyện mơ hình Autoencoder luận văn khác chút so với đề tài cơng bố trước Với tập liệu để huấn luyện cho đề tài tập liệu chứa nhiều giao dịch không gian lận Để phát gian lận giao dịch Trong phạm vi luận văn xây dựng mơ hình học khơng giám sát huấn luyện mơ hình tơi giao dịch thông thường Việc phân lớp tập thử nghiệm cung cấp cách để đánh giá hiệu suất mơ hình luận văn Xây dựng mơ hình Autoencoder để huấn luyện kiểm thử Mơ hình Autoencoder đề xuất xây dựng huấn luyến liệu lớp đầu vào, lớp ẩn lớp đầu Trong đó, lớp ẩn thứ 14 node, lớp ẩn thứ hai node Sử dụng: - Hàm kích hoạt “tanh” cho phân loại đầu lớp ẩn; hàm “relu” cho phân loại lớp đầu - Hàm tối ưu: Adam (tham số thư viện Keras) learning_rate 0.00001 - Hàm loss: mse 20 - Epochs: 100 (epochs số lần trình huấn luyện học qua tất tập liệu tập huấn luyện) # Xây dựng Model Autoencoder input_dim = X_train.shape[1] encoding_dim = 14 input_layer = Input(shape=(input_dim, )) encoder = Dense(encoding_dim, activation="tanh", activity_regularizer=regularizers.l1(10e-5))(input_layer) encoder = Dense(int(encoding_dim / 2), activation="relu")(encoder) decoder = Dense(int(encoding_dim / 2), activation='tanh')(encoder) decoder = Dense(input_dim, activation='relu')(decoder) autoencoder = Model(inputs=input_layer, outputs=decoder) Huấn luyện mơ hình Luận văn sử dụng liệu train làm đầu vào đầu cho mơ hình, sau huấn luyện mơ hình 100 chu kỳ huấn luyện với kích thước lơ 32 lưu mơ hình hoạt động tốt vào tệp ModelCheckpoint Keras cung cấp thực tiện dụng cho công việc Ngồi ra, tiến trình đào tạo xuất định dạng mà TensorBoard hiểu nb_epoch = 100 batch_size = 32 autoencoder.compile(optimizer='adam', loss='mean_squared_error', metrics=['accuracy']) checkpointer = ModelCheckpoint(filepath="model.h5", verbose=0, save_best_only=True) tensorboard = TensorBoard(log_dir='/media/old-tf-hackers-7/logs', histogram_freq=0, write_graph=True, write_images=True) history = autoencoder.fit(X_train, X_train, epochs=nb_epoch, batch_size=batch_size, 21 shuffle=True, validation_data=(X_test, X_test), verbose=1, callbacks=[checkpointer, tensorboard]).history autoencoder = load_model('model.h5') Hình 3.4 Mơ-đun huấn luyện mơ hình Autoencoder ❖ Phương pháp đánh giá: Các tiêu chí sử dụng để đánh giá hiệu hệ thống phát gian lận: Trong toán này, người ta thường định nghĩa lớp liệu quan trọng cần xác định lớp Positive (P-dương tính), lớp cịn lại gọi Negative (N-âm tính) Ta định nghĩa True Positive (TP), False Positive (FP), True Negative (TN), False Negative (FN) dựa confusion matrix chưa chuẩn hoá sau: Người ta thường quan tâm đến TPR, FNR, FPR, TNR (R - Rate) dựa normalized confusion matrix sau: False Positive Rate gọi False Alarm Rate (tỉ lệ báo động nhầm), False Negative Rate gọi Miss Detection Rate (tỉ lệ bỏ sót) - Accuracy (Độ xác) tỷ lệ số điểm dự đoán tổng số điểm tập liệu kiểm thử: A TP  TN TP  FN  FP  TN - Recall tỷ lệ số điểm true positive số điểm thực positive (TP + FN): R ecall  T P R  TP TP  FN TPR: True Positive Rate - Precision (P) thước đo hệ thống có khả phát bình thường hay bất thường: P  TP TP  FP - F1- score harmonic mean Precision Recall, sử dụng để đánh giá phân lớp có cơng thức sau: F1  1 P recision  R ecall Trong đó: + True Positives (TP) số lượng bất thường phân loại bất thường + True Negatives (TN) số lượng bình thường phân loại bình thường + False Positives (FP) số lượng bình thường phân loại sai bất thường + False Negatives (FN) số lượng bất thường phân loại sai thành bình thường 22 3.4 Kết Quả đánh giá mơ hình Lịch sử huấn luyện mơ hình Kết thử nghiệm Hình 3.6: Kết xử lý cho 100 epoch Sau chạy lệnh xong, kết thực nghiệm sau: - Epoch 100/100: epoch 100 - loss: 0.69 Đây độ lỗi tập train epoch - accuracy: 0.73 Đây độ xác tập train Có nghĩa mạng đạt 73% tập train - val_loss: 0.73 Đây độ lỗi tập test epoch - val_accuracy: 0.74 Đây độ xác tập test Có nghĩa mơ hình đạt 74 % tập test - Thời gian huấn luyện xử lý cho epoch trung bình 29s Lịch sử huấn luyện mạng Autoencoder với kích thước khối mã 14 dần hội tụ sau 100 chu kỳ huấn luyện mơ hình, sai số tập train test giảm dần mát tập test có xu hướng hội tụ quanh mốc 0.73 Chỉ số AUC thể tỉ lệ thu hồi mơ hình cách chung ngưỡng khác thay xét ngưỡng định Như thể biểu đồ thấy kích thước khối mã 14 16 mơ hình đạt tỉ lệ thu hồi cao giảm dần kích thước mã thấp • Tính Accuracy mơ hình 23 Kết Độ xác trung bình cho lần chạy kiểm thử: Accuracy ≈ 0.7286 Tỷ lệ % Độ xác tỷ lệ số lượng bất thường dự đoán tổng số lượng traffic tập liệu kiểm thử: Accuracy ≈ 72.86% Tỉ lệ báo động nhầm Ở ngưỡng báo động nhầm 2.4%, mơ hình với kích thước lớp mã n = 14 đạt tỉ lệ thu hồi cao 81.6%, gấp gần 34 lần tỉ lệ báo động nhầm Tuy nhiên để đạt tỉ lệ thu hồi 83% phải tỉ lệ báo động nhầm lên tới 3.4% Để tìm hiểu nguyên nhân tỉ lệ báo động nhầm cao tác giả tiến hành phân tích biểu đồ phân bố lỗi Trên biểu đồ nhận thấy phần lớn báo động nhầm nằm tập trung vài khu vực khoanh hình elip biểu đồ Qua phân tích chi tiết, mẫu khu vực thuộc chu kỳ hoạt động, tượng báo động nhầm liên tiếp ngắt hệ thống xảy lỗi dây chuyền bảo dưỡng Khoảng thời gian từ lúc bắt đầu báo động đến lúc bảo dưỡng kéo dài tiếng, gây nên nhiều mẫu báo động nhầm Tỷ lệ thu hồi Để đánh giá xác tính hiệu việc dự báo mơ hình MLP Autoencoder kiểm tra ma trận Confusion hình 3.10 với ngưỡng báo động nhầm mức 3.4% Từ kết đạt sau thử nghiệm với kích thước mã biến đổi từ đến 16 tơi nhận thấy với kích thước lớp mã 14 mơ hình có khả dự đoán tốt nhất, thu hồi cao ngưỡng báo động nhầm nhỏ 2.4% kích thước mã có khả thu hồi cao ngưỡng báo động nhầm cao 3.4%.Với kích thước mã mơ hình có khả thu hồi tương đối tốt báo động nhầm lại cao nhất, thu hồi cao gấp 24 lần báo động nhầm, kích thước mã tăng dần lên 8, 14,16 tỉ lệ thu hồi có xu hướng giảm dần, khơng xác mơ hình có kích thước mã Nhưng tỉ lệ thu hồi báo động nhầm tăng lên Cụ thể mã 14 tỉ lệ thu hồi đạt 81.6% mã 16 tỉ lệ thu hồi lại giảm cịn 79.6% tỉ lệ báo động nhầm giảm 1% 2,4% (với n=14) 2.16% (với n=16) tỉ lệ thu hồi báo động nhầm tăng lên 34 lần (với n=14), 36.9 lần (với n=16) Điều chứng tỏ mơ hình Autoencoder kích thước mã nhỏ khuyến khích mạng học đặc điểm khái quát hiệu liệu, kích thước mã cao dẫn tới việc giải mã đầu giống với đầu vào đồng thời mạng học ln nhiễu, giảm tỉ lệ dự đốn mơ hình 24 n=14 n=16 Hình 3.10 Kết dự báo mơ hình MLP Autoencoder 3.5 Kết luận chương Trong chương này, kết cài đặt thử nghiệm Deep Learning sử dụng mơ hình Autoencoder tập liệu thử nghiệm Kaggle cho thấy độ xác hiệu mơ hình cao Do đó, ứng dụng kỹ thuật Deeep Learning vào phát gian lận thẻ tín dụng thời đại số luận văn hướng nghiên cứu để thử nghiệp áp dụng phù hợp KẾT LUẬN Luận văn nghiên cứu mơ hình mạng neural, cụ thể ứng dụng mơ hình huấn luyện Autoencoder vào tốn phát gian lận giao dịch thẻ tín dụng kết phân lớp giao dịch Tuy kết mơ hình đạt độ xác khoảng 73% giải toán tập liệu cân Đánh giá hiệu suất mơ hình tập liệu thử nghiệm Kaggle Mơ hình Autoencoder xây dựng nghiên cứu cải tiến hiệu chỉnh cho kết khả quan, áp dụng vào hệ thống thực tế Phương pháp Deep Learning xây dựng mơ hình học tính dựa kỹ thuật Autoencoder học tốt tính cải thiện độ xác phát gian lận thẻ tín dụng ... Autoencoder vào toán phát gian lận, nhận gian lận giao dịch thẻ tín dụng; đánh giá mơ hình Autoencoder có sẵn vào tốn phát gian lận, nhận gian lận giao dịch thẻ tín dụng Đối tượng phạm vi nghiên cứu. .. phát gian lận Phát gian lận vấn đề quan trọng hệ thống phát gian lận Phát gian lận tín dụng thu hút trở thành lĩnh vực nghiên cứu nhà khoa học giới quan tâm Tuy nhiên, phát gian lận thẻ tín dụng. .. bật phát gian lận thẻ tín dụng chương trình bày ý nghĩa tầm quan trọng toán phát gian lận thẻ tín dụng thường gặp thực tế CHƯƠNG - PHƯƠNG PHÁP PHÁT HIỆN GIAN LẬN TRONG GIAO DỊCH THẺ TÍN DỤNG 2.1

Định dạng
Số trang	26
Dung lượng	1,02 MB