1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đề tài phân tích và trực quan hóa dữ liệu và xây dựng mô hình phát hiện gian lận giao dịch qua thẻ tín dụng

37 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Và Trực Quan Hóa Dữ Liệu Và Xây Dựng Mô Hình Phát Hiện Gian Lận Giao Dịch Qua Thẻ Tín Dụng
Tác giả Trần Tất Anh, Lê Phước Hồng Cẩm, Nguyễn Đình Chương, Trần Bảo Trân, Trần Ý Vy
Người hướng dẫn TS. Nguyễn Thôn Dã
Trường học Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành Phân Tích Dữ Liệu
Thể loại Đồ Án Cuối Kỳ
Năm xuất bản 2023
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 37
Dung lượng 0,97 MB

Cấu trúc

  • PHẦN 1: GIỚI THIỆU (8)
    • 1.1. Lý do chọn đề tài (8)
    • 1.2. Mục đích nghiên cứu (8)
    • 1.3. Phương pháp nghiên cứu (8)
  • PHẦN 2: CÁC NGHIÊN CỨU LIÊN QUAN (9)
  • PHẦN 3: NỀN TẢNG LÝ THUYẾT (12)
    • 3.1. Học máy (Machine Learning) (12)
    • 3.2. Phương pháp cân bằng dữ liệu SMOTE (13)
    • 3.3. Mô hình K-Nearest Neighbors Classifier (13)
    • 3.4. Mô hình Decision Tree Classifier (14)
    • 3.5. Mô hình Random Forest Classifier (14)
    • 3.6. Mô hình XGBoost (14)
  • PHẦN 4: PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ LIỆU (16)
    • 4.1. Hiểu dữ liệu (16)
    • 4.2. Xử lý dữ liệu (17)
    • 4.3. Khai phá dữ liệu (17)
      • 4.3.1. Phần trăm điểm dữ liệu giao dịch gian lận (0)
      • 4.3.2. Khám phá dữ liệu của “amt” (0)
      • 4.3.4. Khám phá dữ liệu của “gender” (0)
      • 4.3.5. Khám phá dữ liệu của “age” (0)
      • 4.3.6. Khám phá dữ liệu của “job” (0)
      • 4.3.7. Khám phá dữ liệu của “category” (0)
  • PHẦN 5: XÂY DỰNG CÁC MÔ HÌNH PHÁT HIỆN GIAO DỊCH GIAN LẬN (27)
    • 5.1. Cân bằng dữ liệu (27)
    • 5.2. So sánh các mô hình (27)
      • 5.2.1. Ưu điểm của mô hình XGBoost (0)
      • 5.2.2. Nhược điểm của mô hình XGBoost (0)
      • 5.2.3. Hướng phát triển (32)
  • PHẦN 6: KẾT LUẬN (33)

Nội dung

GIỚI THIỆU

Lý do chọn đề tài

Với sự phát triển mạnh mẽ của công nghệ thông tin, hình thức thanh toán ngân hàng ngày càng đa dạng, trong đó thẻ tín dụng được ưa chuộng nhờ tính tiện lợi và nhanh chóng Tuy nhiên, đi kèm với sự phát triển này là nguy cơ lừa đảo và gian lận giao dịch tinh vi, trong đó kẻ gian thường đánh cắp thông tin thẻ tín dụng của khách hàng để thực hiện các giao dịch bất hợp pháp Những rủi ro này không chỉ gây thiệt hại tài chính cho người dùng mà còn ảnh hưởng nghiêm trọng đến tính an toàn và bảo mật của hệ thống thanh toán ngân hàng Vì vậy, nhóm tác giả đã chọn nghiên cứu “Phân tích, trực quan hóa dữ liệu và xây dựng mô hình phát hiện gian lận giao dịch qua thẻ tín dụng” nhằm phát hiện những dấu hiệu đặc trưng của giao dịch gian lận.

Mục đích nghiên cứu

Mục tiêu của đề tài là xây dựng hệ thống phát hiện gian lận giao dịch qua thẻ tín dụng nhằm giảm thiểu tổn thất tài chính và tiết kiệm thời gian, công sức trong xử lý các vụ gian lận Hệ thống này sẽ hỗ trợ các ngân hàng và tổ chức tài chính nhanh chóng nhận diện các giao dịch khả nghi và kịp thời ngăn chặn hành vi lừa đảo.

Phương pháp nghiên cứu

Nhóm tác giả đã áp dụng phương pháp nghiên cứu phân tích dữ liệu và xây dựng các mô hình học máy nhằm phát hiện những đặc trưng điển hình của giao dịch gian lận qua thẻ tín dụng Phương pháp này sử dụng các kỹ thuật phân tích, trực quan hóa dữ liệu và học máy để xác định các điểm gian lận, từ đó phát hiện các giao dịch bất thường.

CÁC NGHIÊN CỨU LIÊN QUAN

Gian lận trong giao dịch thẻ tín dụng đang trở thành một vấn đề nghiêm trọng, ảnh hưởng đến tính bảo mật của hệ thống thanh toán Nhiều nghiên cứu đã được thực hiện để tìm hiểu và giải quyết vấn đề này, trong đó có những nghiên cứu đáng chú ý về các biện pháp phòng ngừa và phát hiện gian lận.

GBG áp dụng máy học và trí tuệ nhân tạo để phát hiện gian lận trong giao dịch thẻ tín dụng và thanh toán kỹ thuật số Hệ thống máy học của GBG đã thành công trong việc cảnh báo khách hàng về gian lận, đồng thời nâng cao khả năng phát hiện các trường hợp gian lận bị bỏ sót.

Nghiên cứu "Phương pháp học máy trong phát hiện gian lận thẻ tín dụng" của Nguyễn Thị Liên et al (2018) tập trung vào việc áp dụng các kỹ thuật máy học để phát hiện gian lận trong giao dịch thẻ tín dụng Bài viết trình bày các nghiên cứu thực nghiệm sử dụng các phương pháp như Naive Bayes, K-Nearest Neighbors (KNN) và Support Vector Machine (SVM) Kết quả cho thấy rằng các kỹ thuật máy học này có khả năng phát hiện gian lận một cách hiệu quả, góp phần nâng cao an ninh trong lĩnh vực tài chính.

Máy học có thể cải thiện đáng kể khả năng phát hiện gian lận trong thời gian thực, đặc biệt trong giao dịch thẻ tín dụng Bài viết của Hồ Quang Thái (2018) nhấn mạnh lợi ích của việc sử dụng máy học để chủ động phát hiện gian lận, từ đó nâng cao độ chính xác trong quá trình này.

Máy học trong ngân hàng đang được ứng dụng để nâng cao độ chính xác trong việc phát hiện gian lận giao dịch thẻ tín dụng Việc sử dụng công nghệ này không chỉ giúp tiết kiệm thời gian mà còn cải thiện trải nghiệm của khách hàng.

Trong bài viết "Một số thuật toán ứng dụng trong phát hiện gian lận thanh toán thẻ tín dụng" của Nguyễn Thị Hồng Loan (2018), tác giả đã trình bày các thuật toán khai phá dữ liệu hiệu quả nhất được áp dụng trong hệ thống ngân hàng Những thuật toán này đóng vai trò quan trọng trong việc phát hiện gian lận giao dịch thẻ tín dụng, góp phần nâng cao độ tin cậy và an toàn cho các giao dịch tài chính.

Nghiên cứu "Phương pháp học máy trong phát hiện gian lận thẻ tín dụng" của Nguyễn Thị Liên và các cộng sự (2018) giới thiệu các phương pháp thống kê và học máy ứng dụng trong việc phát hiện gian lận thẻ tín dụng tại ngân hàng thương mại Nghiên cứu áp dụng các mô hình như Logistic, mạng Bayes, cây quyết định và phương pháp Stacking để phân tích hiệu quả Bên cạnh đó, nghiên cứu cũng đề xuất các cách xử lý dữ liệu mất cân bằng, đồng thời so sánh kết quả giữa các mô hình để tối ưu hóa quy trình phát hiện gian lận.

A supervised machine learning algorithm has been proposed for detecting and predicting fraud in credit card transactions, as outlined by Jonathan Kwaku Afriyie et al (2023) The study emphasizes the application of Random Forests algorithms to effectively address fraud detection and evaluate the accuracy of this approach.

Bài viết "Phát hiện gian lận thẻ tín dụng bằng các thuật toán học máy" của Vaishnavi Nath Dornadula và S Geetha (2019) đề xuất một phương pháp học máy có giám sát nhằm phát hiện gian lận trong giao dịch thẻ tín dụng Nghiên cứu này tập trung vào việc áp dụng các thuật toán Random Forests để xử lý gian lận và đánh giá độ chính xác của phương pháp.

Bài viết "Review of Anomaly Detection Techniques and Recent Advances" của Waleed Hilal và cộng sự (2022) tập trung vào việc áp dụng các phương pháp học máy có giám sát để phát hiện gian lận trong giao dịch thẻ tín dụng Nghiên cứu đề xuất một mô hình kết hợp giữa Support Vector Machine (SVM) và Bayesian Optimization nhằm nâng cao hiệu suất phát hiện gian lận Bên cạnh đó, bài viết cũng giải quyết vấn đề bất cân xứng dữ liệu và đề xuất một phương pháp chuyển đổi dữ liệu bất cân xứng để cải thiện hiệu quả phát hiện.

Bài viết "A Neural Network Ensemble With Feature Engineering for Improved Credit Card Fraud Detection" của E Esenogho và cộng sự (2022) giới thiệu một phương pháp hiệu quả để phát hiện gian lận bằng cách sử dụng thuật toán neural network ensemble classifier và kỹ thuật lấy mẫu lại dữ liệu Nghiên cứu đã chứng minh hiệu quả của phương pháp khi so sánh với các thuật toán khác như support vector machine (SVM), multilayer perceptron (MLP), decision tree, traditional AdaBoost và LSTM Kết quả thử nghiệm cho thấy rằng việc huấn luyện với dữ liệu lấy mẫu lại mang lại độ chính xác cao hơn trong việc phát hiện gian lận giao dịch, với nhóm LSTM đạt độ nhạy 0,996, vượt trội hơn so với các thuật toán khác.

Các nghiên cứu hiện tại chủ yếu tập trung vào việc phát hiện và ngăn chặn giao dịch thẻ tín dụng gian lận thông qua các kỹ thuật phân tích dữ liệu, học máy và khai thác dữ liệu Tuy nhiên, những nghiên cứu này cũng chỉ ra một số thách thức và hạn chế trong việc phát hiện gian lận, bao gồm độ phức tạp của dữ liệu, khó khăn trong việc xác định các giao dịch bất thường và độ chính xác của các mô hình.

NỀN TẢNG LÝ THUYẾT

Học máy (Machine Learning)

Học máy (Machine Learning) là công nghệ phát triển từ trí tuệ nhân tạo, sử dụng các thuật toán để giải quyết các vấn đề cụ thể như tính toán và xử lý thông tin lớn Công nghệ này đã được ứng dụng rộng rãi trong nhiều lĩnh vực, bao gồm lọc thư điện tử, nhận diện khuôn mặt, và khuyến cáo sản phẩm, đặc biệt là trong phát hiện giao dịch gian lận qua thẻ tín dụng Tuy nhiên, việc lựa chọn kỹ thuật phù hợp và phân tích dữ liệu vẫn cần sự khéo léo của con người Trước khi sử dụng, dữ liệu cần phải sạch, không có sai lệch và không chứa dữ liệu giả Do đó, nhóm nghiên cứu đã tiến hành kiểm tra dữ liệu thiếu hoặc trùng lặp, xác minh số lượng giá trị duy nhất trong bộ dữ liệu và thực hiện bóc tách chuyên sâu nhằm giảm thiểu sai sót.

Học máy bao gồm hai loại chính: học có giám sát và học không giám sát Trong học có giám sát, máy tính học cách mô hình hóa các mối quan hệ dựa trên dữ liệu được gán nhãn, trong khi học không giám sát không sử dụng dữ liệu có nhãn mà chỉ dựa vào dữ liệu đầu vào để khám phá cấu trúc và mối quan hệ giữa chúng Tùy thuộc vào đầu ra là rời rạc hay liên tục, chúng ta có thể phân biệt hai nhiệm vụ trong học có giám sát: phân loại và hồi quy Ví dụ, phát hiện gian lận giao dịch qua thẻ tín dụng thuộc về phân loại vì đầu ra được phân thành hai loại: có gian lận và không gian lận Ngược lại, các thuật toán trong nhánh không giám sát chỉ có đầu vào mà không cần đầu ra, nhằm mục đích khám phá cấu trúc dữ liệu.

Một số thuật toán sử dụng phổ biển để phát hiện các gian lận giao dịch ngày nay bao gồm:

Trong bài báo cáo này, nhóm nghiên cứu tập trung vào việc so sánh và phân tích bốn mô hình chính: K-Nearest Neighbors, Random Forest, Decision Tree và XGBoost.

Phương pháp cân bằng dữ liệu SMOTE

Mất cân bằng dữ liệu là hiện tượng phổ biến trong phát hiện gian lận và rủi ro tiềm ẩn, đặc biệt khi tỷ lệ lớn hơn 90:10, gây ảnh hưởng đến kết quả dự báo và giảm chất lượng mô hình phân loại Khi đó, lớp đa số và lớp thiểu số có thể tạo ra sai lệch đáng kể Để khắc phục vấn đề này, cần phải cân bằng dữ liệu Trong bài toán phát hiện gian lận giao dịch, phương pháp SMOTE (Synthetic Minority Oversampling Technique) được áp dụng để giải quyết tình trạng overfitting do lấy mẫu quá mức ngẫu nhiên SMOTE hoạt động bằng cách tạo ra các mẫu tổng hợp từ lớp thiểu số thay vì tạo ra các bản sao, thông qua việc chọn hai hoặc nhiều trường hợp giống nhau và xáo trộn một thuộc tính của một cá thể bằng một lượng ngẫu nhiên trong khoảng chênh lệch với các trường hợp lân cận.

Mô hình K-Nearest Neighbors Classifier

Thuật toán K-láng giềng gần nhất (K-Nearest Neighbors - KNN) là một kỹ thuật phân loại học có giám sát, được sử dụng để phân loại các quan sát mới bằng cách tìm kiếm điểm tương đồng với dữ liệu có sẵn Ý tưởng chính của KNN là các dữ liệu tương tự sẽ nằm gần nhau trong cùng một không gian Người phân tích chỉ cần xác định k điểm gần nhất với dữ liệu cần kiểm tra thông qua việc tính toán khoảng cách.

Mô hình Decision Tree Classifier

Trong lĩnh vực học máy, nhiều mô hình được thiết kế dưới dạng câu hỏi để đưa ra quyết định cuối cùng, với cấu trúc giống như một cây nhị phân Các câu hỏi này dựa vào đặc tính của dữ liệu để đưa ra dự báo True (đúng) hoặc False (sai) Đặc biệt trong bài toán phát hiện gian lận, mô hình tính điểm tương tác giữa các dữ liệu như tuổi tác, giới tính, ngành nghề và thời gian giao dịch để phát hiện sự bất thường và đưa ra dự đoán về khả năng gian lận Mặc dù mô hình này mang lại dự báo nhanh chóng và tiện lợi, nhưng cũng dễ gặp phải hiện tượng overfitting, dẫn đến việc tạo ra những cây quá khớp với dữ liệu huấn luyện hoặc quá phức tạp, đồng thời không xử lý hiệu quả các dữ liệu bùng nổ như hình ảnh, video và âm thanh.

Mô hình Random Forest Classifier

Mô hình Random Forest được phát triển từ mô hình Decision Tree nhằm loại bỏ những sai lệch không đáng có, mặc dù Decision Tree có độ chính xác cao Random Forest hoạt động bằng cách tích hợp nhiều cây quyết định trên các mẫu dữ liệu được chọn ngẫu nhiên và sử dụng phương pháp bỏ phiếu để đưa ra dự đoán cuối cùng Nhờ vào cơ chế này, Random Forest được xem là phương pháp chính xác và hạn chế tình trạng overfitting Bên cạnh đó, Random Forest còn có khả năng xử lý dữ liệu thiếu sót bằng cách tính toán giá trị trung bình để thay thế các biến liên tục hoặc tính toán khoảng cách trung bình gần nhất cho các giá trị bị thiếu.

Mô hình XGBoost

XGBoost (Extreme Gradient Boosting) là một thuật toán dựa trên gradient boosting, với nhiều cải tiến vượt trội về tối ưu hóa, giúp giảm thiểu sai số trong quá trình huấn luyện Nó kết hợp các mô hình cây quyết định, thực hiện chuẩn hóa sai số và hệ số biến, đồng thời xử lý dữ liệu hiệu quả ở mọi kích thước và định dạng, bao gồm cả dữ liệu phân loại thường gặp trong mô hình kinh doanh Mô hình này được ứng dụng rộng rãi để giải quyết các vấn đề từ hồi quy đến phân loại.

Có thể nói trong trường hợp nghiên cứu gian lận giao dịch qua thẻ tín dụng, mô hìnhXGBoost là phù hợp và tối ưu nhất.

PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ LIỆU

Hiểu dữ liệu

Bộ dữ liệu bao gồm 13 biến như sau:

 trans_date_trans_time: Thời gian giao dịch

 cc_num: Mã số thẻ tín dụng

 category: Lĩnh vực giao dịch

 amt: Số tiền giao dịch

 first: Tên của chủ thẻ tín dụng

 last: Họ của chủ thẻ tín dụng

 street: Địa chỉ giao dịch

 city: Thành phố giao dịch

 is_fraud: Loại giao dịch (1 là gian lận, 0 là bình thường) Ở đây, biến "is_fraud" là biến mục tiêu của nhóm tác giả.

Xử lý dữ liệu

Nhóm tác giả đã tiến hành quá trình xử lý và làm sạch dữ liệu theo các bước sau:

- Bước 1: Đếm số dòng dữ liệu.

- Bước 2: Kiểm tra xem có cột nào bị thiếu dữ liệu.

- Bước 3: Kiểm tra xem có dòng dữ liệu nào trùng nhau.

- Bước 4: Kiểm tra số lượng giá trị duy nhất trong bộ dữ liệu.

- Bước 5: Chuyển đổi cột “trans_date_trans_time” thành định dạng datetime.

- Bước 6: Tách cột “trans_date_trans_time” thành các cột “trans_hour”,

“trans_day_of_week”, “trans_year_month”.

- Bước 7: Tìm tuổi của khách hàng tại thời điểm giao dịch.

- Bước 8: Xóa bỏ các cột “trans_date_trans_time”, “dob”, “first”, “last” ra khỏi bộ dữ liệu.

- Bước 9: Chỉ lấy các dòng dữ liệu có đuôi "net" hoặc "pos" trong cột “category”.

- Bước 10: Xem lại bộ dữ liệu sau khi đã xử lý.

Khai phá dữ liệu

4.3.1 Phần trăm điểm dữ liệu giao dịch gian lận

Hình 4.1 Biểu đồ cột số lần giao dịch bình thường - gian lận

Nguồn: Nhóm tác giả thực hiện

Tỷ lệ phần trăm giao dịch gian lận chỉ chiếm khoảng 0,96%, trong khi tỷ lệ giao dịch bình thường lên tới 99,04% Điều này cho thấy sự mất cân bằng nghiêm trọng trong bộ dữ liệu Nhóm tác giả sẽ tiến hành cân bằng dữ liệu ở phần 5 của bài nghiên cứu để xây dựng các mô hình không bị thiên vị.

4.3.2 Khám phá dữ liệu của “amt”

Bảng thống kê mô tả dữ liệu “amt”

Nguồn: Nhóm tác giả thực hiện

Theo thống kê, số tiền trung bình của các giao dịch bình thường thấp hơn nhiều so với các giao dịch gian lận Đặc biệt, độ dao động của các giao dịch bình thường chỉ khoảng 161 USD, trong khi đó, các giao dịch gian lận lại có độ chênh lệch gấp đôi.

Hình 4.2 Biểu đồ cột khai phá dữ liệu của “amt”

Tác giả nhận thấy rằng tổng số tiền giao dịch và số tiền của các giao dịch không có gian lận có phân phối tương tự nhau Tuy nhiên, phân phối số tiền bị nghi ngờ gian lận lại có xu hướng lớn hơn so với các phân phối khác Định lượng cho thấy, số tiền của các giao dịch được cho là không gian lận chủ yếu tập trung quanh giá trị trung bình.

Số lượng tiền giao dịch nghi ngờ gian lận đã đạt đỉnh khoảng 300 USD khi giảm xuống 250 USD, sau đó tập trung mạnh vào khoảng từ 700 đến 1.100 USD Điều này cho thấy các giao dịch gian lận thường có giá trị cao hơn và phạm vi giao dịch cũng trải dài rộng hơn so với các giao dịch không gian lận.

4.3.3 Khám phá dữ liệu về thời gian giao dịch

Hình 4.3 Biểu đồ cột thời gian giao dịch theo giờ trong ngày

Nguồn: Nhóm tác giả thực hiện

Các giao dịch bình thường thường phân bổ đều trong ngày, nhưng các giao dịch gian lận lại có xu hướng tập trung vào khoảng thời gian từ 10 giờ tối đến 3 giờ sáng, khi hầu hết mọi người đang ngủ Điều này cho thấy kẻ lừa đảo thường lợi dụng thời điểm đêm khuya, khi sự chú ý và giám sát của chủ thẻ giảm xuống, giúp các giao dịch gian lận thực hiện một cách trơn tru và khó bị phát hiện.

Hình 4.4 Biểu đồ cột thời gian giao dịch theo ngày trong tuần

Nguồn: Nhóm tác giả thực hiện

Các giao dịch bình thường thường tập trung vào thứ Hai và Chủ Nhật, trong khi các giao dịch gian lận phân bố đều trong tuần Sự khác biệt này phản ánh hành vi của người tiêu dùng vào đầu và cuối tuần, khi họ có xu hướng tham gia nhiều hoạt động như mua sắm và gặp gỡ bạn bè, dẫn đến việc sử dụng thẻ tín dụng cao hơn Ngược lại, giao dịch gian lận không bị ràng buộc bởi ngày cụ thể nào, cho phép chúng xảy ra vào bất kỳ ngày nào trong tuần.

Hình 4.5 Biểu đồ cột thời gian giao dịch theo tháng trong năm

Nguồn: Nhóm tác giả thực hiện

Phân tích giao dịch cho thấy các giao dịch bình thường tăng mạnh vào tháng 12 và tập trung vào cuối mùa xuân và đầu mùa hè, chủ yếu do hoạt động mua sắm trong dịp Giáng sinh khi mọi người chi tiêu nhiều cho quà tặng và giải trí Sự gia tăng này có thể kéo dài vào đầu mùa hè khi chuẩn bị cho kỳ nghỉ Ngược lại, giao dịch gian lận lại có xu hướng tăng vào những thời điểm như kỳ nghỉ lễ và mùa mua sắm, cho thấy các kẻ lừa đảo lợi dụng mật độ người dùng và lưu lượng giao dịch cao để che giấu hoạt động gian lận.

4.3.4 Khám phá dữ liệu của “gender”

Hình 4.6 Biểu đồ cột khai phá dữ liệu của “gender”

Nguồn: Nhóm tác giả thực hiện

Dữ liệu cho thấy rằng cả nam và nữ đều có xu hướng tham gia vào các giao dịch gian lận như nhau Vì vậy, giới tính không phải là yếu tố quyết định trong việc phát hiện giao dịch gian lận.

4.3.5 Khám phá dữ liệu của “age”

Hình 4.7 Biểu đồ cột khai phá dữ liệu của “age”

Nguồn: Nhóm tác giả thực hiện

Trong các giao dịch bình thường, có hai đỉnh phân phối độ tuổi: đỉnh đầu tiên ở nhóm tuổi 30-35, phản ánh sự tham gia của người trẻ vào các hoạt động tài chính; đỉnh thứ hai ở độ tuổi 45-50, thể hiện sự quan tâm của người trưởng thành đến quản lý tài chính cá nhân Đối với các giao dịch nghi ngờ gian lận, đỉnh đầu tiên vẫn là 30-35 tuổi, nhưng đỉnh thứ hai đã dịch chuyển lên 50-60 tuổi, cho thấy người lớn tuổi, đặc biệt gần 60, dễ bị lừa đảo hơn Nguyên nhân có thể do họ thiếu kinh nghiệm công nghệ, dễ tin tưởng và ít kiến thức về các hình thức lừa đảo mới Kẻ lừa đảo có thể lợi dụng nhóm này qua các thủ đoạn như gọi điện, gửi email giả mạo hoặc đề nghị không trung thực để chiếm đoạt tài sản và thông tin thẻ tín dụng.

4.3.6 Khám phá dữ liệu của “job”

Hình 4.8 Biểu đồ cột khai phá dữ liệu của “job”

Nguồn: Nhóm tác giả thực hiện

Theo biểu đồ, top 20 nghề nghiệp như phóng viên truyền hình, người mua công nghiệp, và nhân viên nhân sự có tỷ lệ giao dịch gian lận lên tới 100% Điều này cho thấy các ngành nghề này ít sử dụng thẻ tín dụng và không có biện pháp bảo vệ thông tin thẻ, khiến họ trở thành mục tiêu dễ dàng cho tội phạm gian lận.

4.3.7 Khám phá dữ liệu của “category”

Hình 4.9 Biểu đồ cột khai phá dữ liệu của “category”

Nguồn: Nhóm tác giả thực hiện

Một số lĩnh vực cho thấy tỷ lệ gian lận cao hơn so với các lĩnh vực khác Các giao dịch gian lận thường xuyên xảy ra hơn trong các lĩnh vực như Shopping_net, Grocery_pos và Misc_net Ngược lại, Grocery_net, Shopping_pos và Misc_pos chủ yếu có xu hướng là các giao dịch bình thường.

XÂY DỰNG CÁC MÔ HÌNH PHÁT HIỆN GIAO DỊCH GIAN LẬN

Cân bằng dữ liệu

Hình 5.1 Biểu đồ cột cân bằng dữ liệu với SMOTE

Nguồn: Nhóm tác giả thực hiện

So sánh các mô hình

Model Accuracy F1 Score Precision Recall Cohen's

Bảng so sánh các mô hình 1

Nguồn: Nhóm tác giả thực hiện

Nhóm tác giả đưa ra 3 tiêu chí tiêu biểu để so sánh, đánh giá và lựa chọn mô hình tốt nhất cho bài nghiên cứu như sau:

Độ chính xác là chỉ số quan trọng để đánh giá tỷ lệ dự đoán chính xác của mô hình trên toàn bộ dữ liệu, bao gồm cả các giao dịch gian lận và giao dịch bình thường.

F1 score là chỉ số kết hợp giữa precision và recall, thường được áp dụng trong các bài toán với dữ liệu không cân bằng Chỉ số này đo lường sự cân bằng giữa độ chính xác của các dự đoán positive và khả năng phát hiện tất cả các trường hợp positive.

Cohen's Kappa là một chỉ số quan trọng giúp đánh giá độ tin cậy của mô hình trong việc phân loại các giao dịch thành gian lận và bình thường Chỉ số này tính toán sự khác biệt giữa độ chính xác quan sát được và độ chính xác ngẫu nhiên dự đoán, từ đó cung cấp cái nhìn sâu sắc về hiệu quả của mô hình phân loại.

Accuracy là một tiêu chí đơn giản và dễ hiểu, đo lường tỷ lệ dự đoán chính xác trên tổng số mẫu F1 Score và Cohen's Kappa là những chỉ số quan trọng trong các bài toán mất cân bằng dữ liệu, như phát hiện gian lận F1 Score cân nhắc cả precision và recall, giúp đo lường sự cân bằng giữa việc dự đoán đúng gian lận và khả năng tìm ra tất cả các giao dịch gian lận Cohen's Kappa đo lường sự đồng nhất giữa dự đoán của mô hình và thực tế, điều chỉnh cho sự khớp ngẫu nhiên, là tiêu chí phù hợp trong trường hợp dữ liệu mất cân bằng.

OA: Observed Accuracy là tỷ lệ các dự đoán chính xác EA: Expected Accuracy là tỷ lệ dự đoán chính xác trong trường hợp các dự đoán ngẫu nhiên.

Accuracy là chỉ số quan trọng để đánh giá hiệu suất tổng thể của mô hình, phản ánh mức độ chính xác trong việc phân loại hai lớp giao dịch: gian lận và bình thường.

Nếu dữ liệu không cân bằng, độ chính xác có thể không phản ánh đúng hiệu suất của mô hình Trong bài toán phát hiện gian lận, việc xem xét cả độ chính xác (precision) và độ nhạy (recall) là rất quan trọng.

F1 Score là chỉ số quan trọng giúp đánh giá hiệu quả của mô hình trong việc phát hiện gian lận Nó không chỉ giúp tăng cường khả năng phát hiện các giao dịch gian lận mà còn giảm thiểu rủi ro bỏ sót các giao dịch gian lận, đồng thời hạn chế việc phân loại sai các giao dịch bình thường thành gian lận.

Cohen's Kappa là chỉ số đánh giá mức độ khớp giữa dự đoán của mô hình và thực tế, loại trừ ảnh hưởng của việc phân loại ngẫu nhiên Việc sử dụng Cohen's Kappa giúp bạn có cái nhìn chính xác hơn về hiệu suất của mô hình, đặc biệt trong các trường hợp dữ liệu mất cân bằng.

Mô hình được chọn

Bảng so sánh các mô hình 2

Kết hợp ba chỉ số Accuracy, F1 Score và Cohen's Kappa giúp tác giả có cái nhìn toàn diện về hiệu suất của mô hình trong phát hiện gian lận, đánh giá khả năng cân bằng giữa precision, recall và độ chính xác tổng thể Nhóm tác giả kết luận rằng mô hình XGBoost đạt kết quả tốt nhất và là lựa chọn phù hợp cho bài toán phát hiện gian lận trong giao dịch thẻ tín dụng.

5.2.1 Ưu điểm của mô hình XGBoost

 Đạt kết quả tốt nhất trên tất cả các tiêu chí: accuracy, F1 score, precision, recall và Cohen's Kappa.

XGBoost là một công cụ mạnh mẽ được phát triển dựa trên khung Gradient Boosting, nổi bật với khả năng xử lý hiệu quả các bài toán phức tạp và dữ liệu lớn So với các mô hình truyền thống như Decision Tree và Random Forest, XGBoost thường mang lại hiệu suất cao hơn, giúp nâng cao độ chính xác trong các dự đoán.

XGBoost có khả năng xử lý hiệu quả các vấn đề liên quan đến mất cân bằng dữ liệu, đặc biệt khi sử dụng phương pháp SMOTE để cân bằng dữ liệu Công cụ này có thể điều chỉnh trọng số cho các lớp thiểu số và lớp đa số, giúp nâng cao khả năng phát hiện gian lận.

XGBoost có khả năng xử lý hiệu quả các loại biến đặc trưng như số, nhị phân và hạng mục mà không cần quá nhiều bước tiền xử lý Điều này giúp tiết kiệm thời gian và công sức trong quá trình chuẩn bị dữ liệu.

5.2.2 Nhược điểm của mô hình XGBoost

XGBoost yêu cầu tài nguyên tính toán lớn, đặc biệt khi làm việc với dữ liệu lớn và số lượng cây quyết định cũng như các tham số được tinh chỉnh cao Điều này có thể dẫn đến thời gian huấn luyện kéo dài và cần một hệ thống có khả năng xử lý mạnh mẽ.

Để tối ưu hóa hiệu suất của XGBoost, việc điều chỉnh các tham số phức tạp là rất quan trọng Quá trình này yêu cầu hiểu biết sâu sắc về mô hình và thử nghiệm với nhiều cấu hình khác nhau, điều này có thể dẫn đến việc tốn nhiều thời gian và công sức.

XGBoost là một mô hình phức tạp với nhiều cây quyết định, dẫn đến khả năng diễn giải thấp Sự kết hợp này làm giảm tính khả diễn giải của mô hình, gây khó khăn trong việc hiểu cách mà mô hình đưa ra quyết định và giải thích kết quả dự đoán.

5.2.3 Hướng phát triển Để phát triển mô hình XGBoost trở nên tốt hơn, nhóm tác giả đề xuất một số ý kiến như sau:

 Tiếp tục tinh chỉnh các siêu tham số của mô hình XGBoost để tối ưu hóa hiệu suất.

 Xem xét sử dụng các phương pháp kết hợp mô hình (ensemble) để cải thiện kết quả và giảm thiểu overfitting.

 Nâng cấp dữ liệu bằng cách thu thập thêm thông tin hoặc nâng cấp tính năng mới hữu ích cho việc phát hiện gian lận.

 Kiểm tra kết quả trên bộ dữ liệu kiểm tra độc lập để đảm bảo tính tổng quát của mô hình.

Ngày đăng: 06/11/2023, 09:52

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Kartik Shenoy. (2020, August 5). Credit Card Transactions Fraud Detection Dataset.Kaggle. Retrieved May 14, 2023, fromhttps://www.kaggle.com/datasets/kartik2112/fraud-detection Sách, tạp chí
Tiêu đề: Credit Card Transactions Fraud Detection Dataset
Tác giả: Kartik Shenoy
Năm: 2020
[2] Binny Mathews, & Omair Aasim. (2023, April 23). Credit Card Fraud Detection Project using Machine Learning. ProjectPro. Retrieved May 14, 2023, fromhttps://www.projectpro.io/article/credit-card-fraud-detection-project-with-source-code-in-python/568?fbclid=IwAR0j-vxirgJvT3DZLUtGM2eGdbkG1XN73pP7xAPuOlEbUwUm3xC2qUbBkvE Sách, tạp chí
Tiêu đề: Credit Card Fraud DetectionProject using Machine Learning
Tác giả: Binny Mathews, & Omair Aasim
Năm: 2023
[3] Hoàng Thị Thúy, & Lê Thị Xuân Thu. (2021, March 5). Phát Hiện Gian Lận Thẻ Tín Dụng Bằng Học Máy. Cơ sở dữ liệu quốc gia về Khoa học và Công nghệ. Retrieved May 14, 2023, fromhttps://sti.vista.gov.vn/tw/Lists/TaiLieuKHCN/Attachments/315353/CTv60S2852021076.pdf Sách, tạp chí
Tiêu đề: Phát Hiện Gian Lận Thẻ TínDụng Bằng Học Máy
Tác giả: Hoàng Thị Thúy, & Lê Thị Xuân Thu
Năm: 2021
[6] Vietnam+. (2020, May 28). GBG sử dụng học máy và AI để phát hiện gian lận trong giao dịch thẻ tín dụng, thanh toán số… | Thông cáo báo chí | Vietnam+. VietnamPlus.Retrieved May 29, 2023, from Sách, tạp chí
Tiêu đề: GBG sử dụng học máy và AI để phát hiện gian lận tronggiao dịch thẻ tín dụng, thanh toán số… | Thông cáo báo chí | Vietnam+
Tác giả: Vietnam+
Năm: 2020
[7] Nguyễn Thị Liên, Nguyễn Thị Trang, & Nguyễn Chiến Thắng. (2018, 10). Phương pháp học máy trong phát hiện gian lận thẻ tín dụng - một nghiên cứu thực nghiệm.Retrieved May 16, 2023, fromhttps://ktpt.neu.edu.vn/tap-chi/so-256ii/muc-luc-661/phuong-phap-hoc-may-trong-phat-hien-gian-lan-the-tin-dung-mot-nghien-cuu-thuc-nghiem.378964.aspx Sách, tạp chí
Tiêu đề: Phươngpháp học máy trong phát hiện gian lận thẻ tín dụng - một nghiên cứu thực nghiệm
[8] Hồ Quang Thái. (2018, June 1). Làm thế nào Machine Learning có thể cải thiện phát hiện gian lận trong thời gian thực. HelpEx. Retrieved May 16, 2023, fromhttps://helpex.vn/article/lam-the-nao-machine-learning-co-the-cai-thien-phat-hien-gian-lan-trong-thoi-gian-thuc-5c6643afae03f60128765725 Sách, tạp chí
Tiêu đề: Làm thế nào Machine Learning có thể cải thiện pháthiện gian lận trong thời gian thực
Tác giả: Hồ Quang Thái
Năm: 2018
[9] akaBot. (2022, January 5). 7 Trường Hợp Sử Dụng Machine Learning Trong Ngân Hàng. akaBot. Retrieved May 17, 2023, fromhttps://akabot.com/vi/tai-nguyen/blog/machine-learning-trong-ngan-hang/ Sách, tạp chí
Tiêu đề: 7 Trường Hợp Sử Dụng Machine Learning Trong NgânHàng
Tác giả: akaBot
Năm: 2022
[10] Hoàng Thị Thúy, & Lê Thị Xuân Thu. (2021, March 5). Phát hiện gian lận thẻ tín dụng bằng học máy. Cơ sở dữ liệu quốc gia về Khoa học và Công nghệ. Retrieved May 17, 2023, fromhttps://sti.vista.gov.vn/tw/Lists/TaiLieuKHCN/Attachments/315353/CTv60S2852021076.pdf Sách, tạp chí
Tiêu đề: Phát hiện gian lận thẻ tíndụng bằng học máy
Tác giả: Hoàng Thị Thúy, & Lê Thị Xuân Thu
Năm: 2021
[11] Nguyễn Thị Loan Hồng. (2018). Một số thuật toán ứng dụng trong phát hiện gian lận thanh toán thẻ tín dụng. Tạp chí Khoa học Tài nguyên và Môi trường - Số 22.Retrieved May 18, 2023, from Sách, tạp chí
Tiêu đề: Một số thuật toán ứng dụng trong phát hiện gianlận thanh toán thẻ tín dụng
Tác giả: Nguyễn Thị Loan Hồng
Năm: 2018
[16] Xuan, S., Liu, G., Li, Z., Zheng, L., Wang, S., & Jiang, C. (2018, March). Random forest for credit card fraud detection. In 2018 IEEE 15th international conference on networking, sensing and control (ICNSC) (pp. 1-6). IEEE. Retrieved May 22, 2023, from https://scholar.google.com/scholar_lookup?title=Random%20forest%20for%20credit%20card%20fraud%20detection&publication_year=2018&author=S.%20Xuan&author=S.%20Wang Sách, tạp chí
Tiêu đề: 2018 IEEE 15th international conference onnetworking, sensing and control (ICNSC)
Tác giả: Xuan, S., Liu, G., Li, Z., Zheng, L., Wang, S., & Jiang, C
Năm: 2018
[17] Tyagi, R., Ranjan, R., & Priya, S. (2021, November). Credit Card Fraud Detection Using Machine Learning Algorithms. In 2021 Fifth International Conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud)(I-SMAC) (pp. 334-341). IEEE. Retrieved May 23, 2023, from Sách, tạp chí
Tiêu đề: 2021 Fifth International Conference on I-SMAC(IoT in Social, Mobile, Analytics and Cloud)(I-SMAC)
Tác giả: Tyagi, R., Ranjan, R., & Priya, S
Năm: 2021
[19] Awoyemi, J. O., Adetunmbi, A. O., & Oluwadare, S. A. (2017, October). Credit card fraud detection using machine learning techniques: A comparative analysis. In 2017 international conference on computing networking and informatics (ICCNI) (pp. 1-9).IEEE. Retrieved May 23, 2023, fromhttps://scholar.google.com/scholar?q=Awoyemi,%20John%20O.,%20et%20al.%20Credit%20Card%20Fraud%20Detection%20Using%20Machine%20Learning%20Techniques:%20A%20Comparative%20Analysis.%202017%20International%20Conference%20on%20Computing%20Networking%20and%20Informatics%20,%202017,%20doi:10.1109iccni.2017.8123782 Sách, tạp chí
Tiêu đề: 2017international conference on computing networking and informatics (ICCNI)
Tác giả: Awoyemi, J. O., Adetunmbi, A. O., & Oluwadare, S. A
Năm: 2017
[20] Zou, J., Zhang, J., & Jiang, P. (2019). Credit card fraud detection using autoencoder neural network. arXiv preprint arXiv:1908.11553. Retrieved May 25, 2023, fromhttps://scholar.google.com/scholar?q=Jiang,%20P.,%20Zhang,%20J.,%20%20Zou,%20J Sách, tạp chí
Tiêu đề: arXiv preprint arXiv:1908.11553
Tác giả: Zou, J., Zhang, J., & Jiang, P
Năm: 2019

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w