1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Công nghệ thông tin: Phát hiện gian lận trong thẻ tín dụng bằng cách sử dụng học máy và logic mờ

90 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phát hiện gian lận trong thẻ tín dụng bằng cách sử dụng học máy và logic mờ
Tác giả Trần Đức Thuận
Người hướng dẫn PGS.TS. Nguyễn Đình Thuận
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Công nghệ Thông tin
Thể loại Luận văn thạc sĩ
Năm xuất bản 2023
Thành phố TP Hồ Chí Minh
Định dạng
Số trang 90
Dung lượng 47,6 MB

Nội dung

Kết quả dự đoán của các mô hình học máy với việc cân bằng dữ liệu sử dụng phương pháp SMOTE .... Kết quả dự đoán của các mô hình học máy với việc cân bằng dữ liệu sử dụng phương pháp SMO

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

#›*@8

TRAN ĐỨC THUẬN

PHÁT HIỆN GIAN LẬN TRONG THẺ TÍN DỤNG.

BẰNG CÁCH SỬ DỤNG HQC MAY VÀ LOGIC MỜ

LUẬN VĂN THẠC SĨ, KHÓA LUẬN CAO HỌC

NGÀNH CÔNG NGHỆ THÔNG TIN

Mã số: 8480104

NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS NGUYÊN DINH THUAN

TP HÒ CHÍ MINH - NĂM 2023

Trang 2

LỜI CẢM ƠN

Lời đầu tiên, em xin gửi lời cảm ơn chân thành đến quý thầy cô trường Đạihọc Công Nghệ Thông Tin thuộc Đại học Quốc gia thành phố Hồ Chí Minh đã tậntình dạy bảo cho em nhiều kiến thức bổ ích trong suốt thời gian học tập tại trường,cũng như tạo điều kiện cho em thực hiện luận văn này Kính chúc quý thầy cô luônd6i dao sức khỏe và thành công trong cuộc sống

Đặc biệt, em xin bày tỏ lòng biết ơn chân thành, sâu sắc đến giảng viên hướngdẫn của em là PGS.TS Nguyễn Đình Thuân Thầy đã tận tâm, nhiệt tình hướng dẫn

và chỉ bảo cho em trong suốt quá trình thực hiện luận văn Không những thế, thầycòn giúp đỡ em trong quá trình thực hiện bài báo khoa học để trình bày trong hội nghịKhoa học Quốc gia lần thứ XVI về Nghiên cứu Cơ bản và Ứng dụng Công nghệthông tin (FAIR2023) Luận văn này sẽ rất khó hoàn thành nếu không có sự truyềnđạt kiến thức quý báu và sự hướng dẫn nhiệt tình của thay

Xin cảm on tat cả bạn bè đã động viên, giúp đỡ và đóng góp nhiều ý kiến quýbáu, qua đó, giúp em hoàn thiện hơn luận văn này.

Em xin gửi lời cảm ơn đến gia đình đã tạo mọi điều kiện thuận lợi về vật chất

và tinh thần, giúp em hoàn thành luận văn một cách tốt nhất.

Và cuôi cùng, em cũng không quên gửi lời cảm ơn đên tác giả của các báo cáo

nghiên cứu khoa học mà em đã tham khảo và tìm hiểu cho luận văn

Luận văn đã hoàn thành với một số kết quả nhất định, tuy nhiên vẫn không

tránh khỏi thiếu sót Kính mong sự đóng góp ý kiến từ quý thầy cô và các bạn

Một lần nữa, em xin chân thành cảm ơn!

TP Hồ Chí Minh, ngày 10 tháng 10 năm 2023

Học viên

Trần Đức Thuận

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan:

1 Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng

dẫn của PGS.TS Nguyễn Đình Thuân

2 Mọi tham khảo trong luận văn đều được trích dẫn rõ ràng tên công trình,tên tác giả, thời gian công bó

Moi sao chép không hợp lệ, vi phạm quy chế đào tạo, tôi xin chịu hoàn toàn trách

nhiệm.

TP Hồ Chí Minh, ngày 10 tháng 10 năm 2023

Học viên

Trần Đức Thuận

Trang 4

LỜI CẢM ON

0009.9029000 2DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIET TẮTT :55+s25xvsscxvsrx 5IM.9)28000/99 0:7) 6DANH MỤC CÁC HÌNH VE, DO THỊ, 2-52 t2 2222x221 2E22xerkrrrrrrr 7MỞĐÀU 9

CHƯƠNG 1 TONG QUAN LUẬN VĂN 5-255c2222c 22 ttttsrrkrrsrrrree 101.1 Đặt vấn đề

1.2 Động lực nghiên cứu của luận văn.

1.3 Mục tiêu và phạm vi của luận văn - 2 + 5s +++£+*£+*czsczeeeeezee 11 1.4 Nội dung và phương pháp nghiên cứu - ¿+ ++s£++++ecreerreeeexe 12

1.5 Bố cục của luận Văn - «c1 1E 1n ngưng ưy 13CHƯƠNG 2 CƠ SỞ LÝ THUYET VÀ CÁC NGHIÊN CỨU LIÊN QUAN 14

2.1 Các phương pháp xử lý cân bằng dữ liệu -. -5¿©55255++2vxczxxssrve 14

2.1.1 SIMIGITE RRs 2.1.2 SMOTE-ENN

É.ố” e.-2.1.3 Random Oversampling

2.2 Các phương pháp kết hợp các thuật toán

2.2.1 MT 18 2.2.1 StaCKÍnE óc HH HH HH TH HH Hi 18 2.3 Các nghiên cứu liên quan - + + 611191 1E E1 H1 ngành như 2.4 Hạn chê của các nghiên cứu trước

2.5 Kết chương

CHƯƠNG 3 PHƯƠNG PHÁP DE XUẤTT 55c cvtctxvrerrtrerrtrrrrrree 23

3.1 Phương pháp 1: Áp dụng các mô hình học máy có kết quả rõ sau đó kết hợp

các mô hình lại với nhau ¿+ Sc E322 13322813 5EEEEEEEErEerresrerrerrrvre 23

3.2 Phương pháp 2: Sử dụng logic mờ (fuzzy logic) nhằm phát hiện các giao dịch

có khả năng gian lận trong thẻ tin dụng - - ¿+52 5+2 £+*£+£zeczecrereereee 26

3.3 Kết chương - 5: 2 tt EE2E12212711211211271111121121111101121111111211 11x 27

Trang 5

CHƯƠNG 4 TIỀN HÀNH THỰC NGHIỆM VÀ ĐÁNH GIÁ KÉT QUẢ THỰC

NGHIỆM

4.1 Môi trường và công cụ thực nghiệm - «6 + kien 28

4.2 Các phương pháp đánh giá độ chính xác của các thuật toán 28

4.3 Tiền hành thực nghiệm và đánh giá kết quả phương pháp 1 và giai đoạn 1 294.3.1 Tiền xử lý dữ liệu

4.3.2 Kết quả dự đoán của các mô hình học máy với việc không xử lý cân bằng

dữliệu 31

4.3.3 Kết quả dự đoán của các mô hình học máy với việc cân bằng dữ liệu sử

dụng phương pháp SMOTE c2 E nh nho 2/2

4.3.4 Kết quả dự đoán của các mô hình học máy với việc cân bằng dữ liệu sử

dụng phương pháp SMOTE-ENN - c1 Hư 33

4.3.5 Kết quả dự đoán của các mô hình học máy với việc cân bằng dữ liệu sử

dụng phương pháp Random Oversampling

4.3.6 Nhận xét đánh giá và kết luận

4.3.7 Xử lý tình trạng quá khớp dữ liệu ở mô hình cây quyết định 364.4 Tiến hành thực nghiệm và đánh giá kết quả phương pháp 1 và giai đoạn 2 .394.4 Tiến hành thực nghiệm và đánh giá kết quả phương pháp 2: Sử dụng logic mờ

(fuzzy logic) nhăm phát hiện các giao dịch có khả năng gian lận trong thẻ tín dụng

hố U86 V ổốổ 6Ô ốc no 44 4.4.1 Tap mờ hình L và tam giác cteeeeeeeeeesenesseeeneseeseneseeee 48 4.4.2 Tập mờ hình thang ce + + +1 21 E2E E222 kg rnhưưn 53

4.4.3 Kết hợp tập mờ hình L, tam giác và hình thang - ST4.4.4 Nhận xét kết quả của giai đoạn 3 c2 22t crtrrrrrrrrrrrrrree 62CHƯƠNG 5 XÂY DỰNG UNG DUNG DON GIẢN SỬ DỤNG STREAMLIT

Trang 6

DANH MỤC CÁC KÝ HIỆU VA CHỮ VIET TAT

Area Under the Curve

Artificial Neural Network

Principal Component

Analysis

Root Mean Square Error

Synthetic Minority sampling Technique

Synthetic Minority

Over-sampling Edited Nearest Neighbors Support Vector Machine

Trang 7

Technique-DANH MỤC CÁC BẢNG

Bảng 4.1 Kết quả trên tập huấn luyện với việc không xử lý cân bằng dữ liệu 31

Bảng 4.2 Kết quả trên tập kiểm tra với việc không xử lý cân bằng dữ liệu 31

Bảng 4.3 Kết quả trên tập huấn luyện với việc xử y cân bằng dữ liệu theo phương pháp

Trang 8

DANH MỤC CÁC HÌNH VẼ, ĐÒ THỊ

Hình 2.1 Phương pháp SMOTE tạo ra điểm XI từ 4 điểm lân cận

Hình 3.1 Sơ đồ phương pháp 1: Áp dụng các mô hình học máy có kết quả rõ sau đó kết

hợp các mô hình lại với nhau - - +5 <+++xecez 25

Hình 4.1 Phân bố dé liệu trên cột Amount và Time trước khi chuẩn hóa dữ liệu 30 Hình 4.2 Phân bố gian lận và không gian lận trong cột Class - -cccccccccccccc: 30

Hình 4.3 Biểu dé sự biến đổi Fl-score theo độ sâu

Hình 4.4 Biểu dé sự biến đổi F1-score theo độ sâu phân rõ theo 3 nhóm Ÿ7

Hình 4.5 Hình ảnh kết quả ma trận nhằm lẫn trên tập huấn luyện của bước 4.3.7 38 Hình 4.6 Hình ảnh kết quả ma trận nhằm lẫn trên tập kiểm tra của bước 4.3.7 38

Hình 4.7 Lựa chọn các trọng số tốt nhất cho các mô hình học THẤY ccccccrsvervrv 4I Hình 4.8 Ma trận nhằm lẫn train và test cho sự kết hợp 3 mô hình Logistic Regression,

XGBoost và KNN bằng phương pháp Voting .-c-cc5cccsscccccscccsssec. - 43

Hình 4.9 Mối tương quan giữa biến độc lập (V4, V17) và biến phụ thuộc (Class) 44

Hình 4.10 Mối tương quan giữa các biến độc lập và phụ thuộc

Hình 4.11 Biểu đồ box plot giữa biến VI7 so với Class

Hình 4.12 Biểu đồ box plot giữa biến V4 so với Class

Hình 4.13 Xây dựng hàm thành viên V4 với tập mờ L và tam giác ‹: - 48

Hình 4.14 Xây dựng hàm thành viên V17 với tập mờ L và tam giác - + 49

Hình 4.15 Xây dựng hàm thành viên Class với tập mờ L và tam giác -. + 50

Hình 4.16 Xây dựng hàm thành viên V17 với tập mờ hình thang DD Hình 4.17 Xây dựng hàm thành viên Class với tập mờ hình thang -. 56

Hình 4.18 Ma trận nhằm lẫn cho tập mờ hình thang

Hình 4.19 Xây dựng hàm thành viên V4 với tập mờ L, tam giác và hình thang

Hình 4.20 Xây dựng hàm thành viên VI7 với tập mờ L, tam giác và hình thang 58 Hình 4.21 Xây dựng hàm thành viên Class với tập mờ L, tam giác và hình thang 59

Hình 4.22 Ma trận nhằm lẫn ở bước 4.4.3

Hình 4.23 Biểu đồ scatter plot thể hiện giá tri dự đoán với giá trị thực tế ở bước 4.4.3 60

Hình 4.24 Một vi dụ về kết quả khả năng gian lận của một giao dịch ở bước 4.4.3 61 Hình 5.1 Ung dụng phát hiện gian lận trong thẻ tín dụng (1) -.- ccccceccccccccee 63

Hình 5.2 Ứng dụng phát hiện gian lận trong thẻ tín dụng (2) -c.c-:+22sscc+2 64 Hình 5.3 Xử lý mất cân bằng dit liệu trong ứng dụng -. -¿-©2222cc++2vzvssccee 65

Trang 9

Hình 5.5 Lựa chọn các mô hình học may để kết hợp - -¿-zz+2s+++c++ 66

Hình 5.6 Kết quả ma trận nhằm lẫn với việc lựa chọn phương pháp Voting dé kết hợp 66

Hình 5.7 Biểu đồ tương quan và box-plot của cột V17 và V4 so với cột Class 67 Hinh 5.8 Lya chon cac tap mo dé xây dựng hàm thành viên 0 cece 68 Hình 5.9 Kết quả ma trận nhầm lẫn của logic mờ : ¿¿++z+222++z+22zsvrrerrx 68

Trang 10

MỞ ĐẦU

Hiện nay việc sử dụng thẻ tín dụng đã giúp tối ưu hóa tốc độ của các giao dịch

tài chính, mang lại sự tiện lợi và hiệu quả cho cả cá nhân và doanh nghiệp Tuy nhiên,

sự gia tăng của các phương thức thanh toán cũng đã tạo ra những hoạt động gian lận,

gây ra các thiệt hai tài chính đáng kế và đe doa nghiêm trọng đến an ninh tài chínhcủa cá nhân và tổ chức Vì vậy các doanh nghiệp cần xây dựng hệ thống nhận diện,đồng thời cảnh báo những giao dịch gian lận, nhằm hạn chế thất thoát tài chính

Nghiên cứu sử dụng tập dữ liệu bao gồm các giao dịch thẻ tín dụng từ tháng 9năm 2013 tại Châu Âu, với tổng cộng 284,807 giao dịch Đáng chú ý, trong tập dữliệu này, chỉ có 492 giao dịch là gian lận, thể hiện một sự phân bố không cân bằnggiữa các giao dịch [5] Đã có một số nghiên cứu được thực hiện trước đó [1-3] tuynhiên các nhóm tác giả không đề cập đến việc xử lý mat cân bằng dữ liệu Với nhómtác giả [4] có xử lý mất cân bằng đữ liệu theo phương pháp SMOTE-ENN, nhưngkhông đề cập đến vấn dé mô hình có bị quá khớp (overfitting) hay không Day làđộng lực đầu tiên nghiên cứu muốn giải quyết các câu hỏi của các nghiên cứu [1-4]trước đó chưa trả lời.

Ở phương pháp | áp dụng các mô hình học máy có kết quả rõ sau đó kết hợp

các mô hình lại với nhau Được chia thành 2 giai đoạn chính : Giai đoạn 1 nghiên cứu

sẽ chia thành 4 hướng: Không cân bằng dữ liệu và cân bằng dữ liệu sử dụng 3 phương

pháp là SMOTE, SMOTE-ENN và Random Oversampling Sau đó áp dụng các mô

hình học máy nhằm đào tạo mô hình và đánh giá mức độ chính xác trên cả 2 tập làhuấn luyện và kiểm tra nhằm tìm ra các mô hình học máy mang lại kết quả tốt Ở giaiđoạn 2 chúng tôi sử dụng các phương pháp kết hợp các thuật toán lại với nhau bằngphương pháp Stacking và Voting Việc kết hợp này giúp tận dụng sức mạnh của từng

thuật toán riêng biệt và tạo ra một mô hình dự đoán mạnh mẽ hơn.

Ở phương pháp 2 luận văn áp dụng một hướng tiếp cận khác đó là logic mờ(fuzzy logic) để xây dựng mô hình dự đoán gian lận trong thẻ tín dụng

Trang 11

Tổng quan luận văn

CHƯƠNG 1 TỎNG QUAN LUẬN VĂN

Trong chương này, luận văn sẽ đặt ra van đề muốn trình bày và nghiên cứu, từ

đó sẽ nói về động lực, mục tiêu, phạm vi, nội dung và các phương pháp nghiên cứucủa luận văn Phần mục tiêu và nội dung nghiên cứu cũng được giới thiệu đề làm địnhhướng cho quá trình thực hiện, trong đó nhấn mạnh đóng góp chính của luận văn làxây dựng mô hình học máy kết hợp các mô hình có kết quả tốt giúp phát hiện gianlận trong thẻ tín dụng Ngoài ra đưa ra một hướng tiếp cận khác bằng cách sử dụnglogic mờ để dự đoán khả năng giao địch đó gian lận bao nhiêu phần trăm, giúp hỗ trợ

và tiết kiệm thời gian cho việc kiểm định lại các giao dịch có thực sự gian lận hay

không trong công ty doanh nghiệp.

1.1 Đặt vấn đề

Trong thời đại của sự phát triển nhanh chóng trong khoa học và công nghệ,ngành ngân hàng đã trái qua sự biến đổi mạnh mẽ về cách thức thanh toán Giao dịchbang thẻ tín dụng ngày càng trở nên phô biến và được ưa chuộng Thẻ tín dụng manglại sự tiện lợi, đảm bảo tính an toàn và loại bỏ rủi ro khi mang tiền mặt Tuy nhiên,điều này cũng đồng nghĩa với việc ngày càng gia tăng các hình thức gian lận trong

giao dịch thẻ tín dụng Sự gia tăng của các hình thức gian lận tạo ra một thách thức

tài chính đối với cả người dùng thẻ tin dụng và các tổ chức tài chính Dé bảo vệ tàisản và tính bảo mật các tổ chức ngân hàng va tài chính cần xây dựng hệ thống nhận

diện và cảnh báo gian lận trong giao dịch.

Hiện nay việc xây dựng các mô hình học máy giúp dự đoán các giao dịch gian

lận hoặc không gian lận đang trở nên phô biến Van đề đặt ra là sau khi đã dự đoáncác giao dịch nào là gian lận và không gian lận, cần có một bộ phận phòng ban trongcông ty nhằm kiểm tra lại kết quả dự đoán đó có đúng hay không Qua đó giúp công

ty có thé đưa ra các quyết định kịp thời và nhanh chóng Tuy nhiên van đề kiểm tranày mắt rất nhiều thời gian Hạn chế của các phương pháp truyền thống ví dụ RandomForest, Logistic Regression, KNN mang lại kết quả chỉ là gian lận hoặc không gianlận Điều này cũng đặt ra một câu hỏi liệu có một phương pháp nào có thé cho biếtgiao địch đó có khả năng là gian lận hoặc không và gian lận bao nhiêu phần trăm hay

Trang 12

Tổng quan luận văn

không? Giúp cho các bộ phận kiểm tra có thể tập trung kiểm tra các gian lận có khảnăng cao và loại bỏ những giao dịch có khả năng gian lận thấp Dé tiết kiệm thời gian

và giúp doanh nghiệp kịp thời đưa ra các hướng giải quyết ngay lập tức và chính xáctránh thất thoát về tai chính

1.2 Dong lực nghiên cứu của luận văn

Với nhận thức về những thách thức và rủi ro liên quan đến gian lận trong giao

dịch thẻ tín dụng đó là lý do và động lực cho luận văn ra đời Động lực chính của luận

văn xây dựng một mô hình học máy tốt nhằm phát hiện gian lận trong thẻ tín dụng

Ngoài ra công việc hiện tại của tác giả cũng có dự án liên quan đến việc pháthiện gian lận giao dịch cho khách hàng Việc áp dụng các kiến thức đã nghiên cứu vàkết quả của luận văn vào dự án hiện tại cũng là một động lực lớn giúp tác giả hoàn

thành luận văn này.

1.3 Muc tiêu và phạm vi của luận văn

Luận văn đề ra các mục tiêu cụ thể như sau:

e _ Xây dựng mô hình nhằm dự đoán các giao dịch gian lận trong thẻ tín dụng

© Ap dụng các mô hình học máy như Random Forest, Logistic Regression,

KNN xây dựng các mô hình Sau đó sử dụng phương pháp Stacking và

Voting dé kết hợp các phương pháp học máy với nhau Việc kết hợp nàygiúp tận dụng sức mạnh của từng thuật toán riêng biệt và tạo ra một mô hình

dự đoán mạnh mẽ hơn.

e Ap dụng một hướng tiếp cận khác bằng cách sử dụng logic mờ đề xây dựng

mô hình dự đoán gian lận trong thẻ tín dụng.

© Ap dụng những kết quả đạt được vào dự án công ty đang triển khai

Phạm vi của nghiên cứu tập trung vào việc sử dụng tập dữ liệu giao dịch thẻ

tín dụng thu thập trong tháng 9 năm 2013 tại Châu Âu Tập dữ liệu này bao gồm tổng

cộng 284,807 giao dịch, trong đó chỉ có 492 giao dịch được xác định là gian lận.

Trang 13

Tổng quan luận văn

1.4 Nội dung và phương pháp nghiên cứu

Để đạt được các mục tiêu đặt ra, luận văn tiến hành thực hiện các nội dung và

phương pháp sau:

e Sử dụng tập dữ liệu giao dịch thẻ tín dụng thu thập trong tháng 9 năm 2013

tại Châu Âu Tiến hành thực nghiệm thông qua 2 phương pháp

© Phuong pháp 1: Áp dụng các mô hình học máy có kết quả rõ sau đó kết hợp

các mô hình lại với nhau và được chia thành 2 giai đoạn:

= Giai đoạn 1: Áp dụng các mô hình học máy như Random Forest,

Logistic Regression, KNN để xây dựng mô hình dự đoán Mục tiêutìm ra các mô hình học máy mang lại kết quả tốt

" Giai đoạn 2: Tiến hành kết hợp các mô hình học máy có kết quả tốt ở

giai đoạn | lại với nhau theo 2 phương pháp là Voting va Stacking So

sánh đánh giá kết quả và đưa ra kết luận

© Phương pháp 2: Áp dụng một hướng tiếp cận khác đó là logic mờ để xây

dựng mô hình dự đoán gian lận trong thẻ tín dụng

e Cuối cùng đưa ra các kết quả đạt được, hạn chế của luận văn và hướng phát

triển trong tương lai

Trang 14

Tổng quan luận văn

1.5 Bo cục của luận văn

Bố cục của luận văn gồm các chương sau:

Chương 1 Tổng quan: Giới thiệu luận văn, lý do chọn đề tài, động lực, mục

tiêu, phạm vi và nội dung thực hiện của luận văn.

Chương 2 Cơ sở lý thuyết và các nghiên cứu liên quan: Trình bày cơ sở

lý thuyết liên quan đến ba phương pháp xử lý mat cân bằng dữ liệu là

SMOTE, SMOTE-ENN và Random Oversampling Sau đó trình bày cơ sở

lý thuyết cho các phương pháp kết hợp là Voting và Stacking Cuối cùng luậnvăn giới thiệu các nghiên cứu liên quan đến dé tài và hạn chế của các nghiên

Chương 5 Xây dựng ứng dụng đơn giản sử dụng streamlit.

Chương 6 Tiến hành thực nghiệm và đánh giá kết quả: Đưa ra tổng kếtsau khi chạy thực nghiệm Đồng thời nêu ra các hạn chế và đề xuất một sốhướng phát triển cho các nghiên cứu tương lai

Danh mục công bố khoa học của tác giảTài liệu tham khảo

Trang 15

Cơ sở lý thuyết và các nghiên cứu liên quan

CHUONG 2 CƠ SỞ LÝ THUYET VA CÁC NGHIÊN CỨU

LIÊN QUAN

Trong chương này luận văn sẽ trình bày cơ sở lý thuyết của các thuật toán họcmáy được áp dụng, các phương pháp cân bằng dữ liệu, phương pháp kết hợp các thuậttoán lại với nhau bao gồm SMOTE, SMOTE-ENN và Random Oversampling Tiếptheo trình bày cơ sở lý thuyết của hai phương pháp kết hợp các mô hình học máy là

Voting va Stacking.

2.1 Các phương pháp xử ly cân bằng dữ liệu

2.1.1 SMOTE

SMOTE là viết tắt của "Synthetic Minority Over-sampling Technique." Đây

là một kỹ thuật trong lĩnh vực xử lý đữ liệu không cân bằng, nơi số lượng các mẫuthuộc vào lớp thiểu số (minority class) ít hơn so với lớp đa số (majority class) Kỹthuật SMOTE được sử dụng để tạo ra các mẫu dữ liệu tong hop (synthetic samples)cho lớp thiểu số, nhằm cân bằng dữ liệu va cải thiện hiệu suất của các mô hình dựđoán, đặc biệt trong các tình huống mà dữ liệu không cân bằng có thể dẫn đến hiệntượng overfitting và hiệu suất kém [6]

SMOTE hoạt động bằng cách tạo ra các mẫu tổng hợp mới bằng cách kết hợpthông tin từ các mẫu gốc thuộc lớp thiểu số Cụ thé, nó chọn một mẫu góc từ lớp thiêu

số và sau đó chọn ngẫu nhiên một hoặc nhiều mẫu gốc khác từ lớp thiểu số có sẵngần đó Nó sau đó tạo ra các mẫu tổng hợp mới bằng cách lấy trung bình hoặc tỷ lệcủa các đặc trưng của các mẫu gốc này Quá trình này tạo ra các mẫu dữ liệu tổnghợp mà không chỉ mở rộng lớp thiểu số mà còn giảm nguy cơ overfitting

SMOTE là một công cụ quan trọng trong việc xử lý dir liệu không cân bằng

và đã được sử dụng rộng rãi trong machine learning và các ứng dụng liên quan đến

phân loại dữ liệu [10]

Trang 16

Cơ sở lý thuyết và các nghiên cứu liên quan

Hình 2.1 Phương pháp SMOTE tạo ra điểm XI từ 4 điểm lân cận chỉ tiết các bướcthực hiện chỉ tiết dưới đây

e Bước 1: Chọn k mau láng giềng (minority class) để tạo mẫu thiểu số(gian lận)

m6i( r1: synthesized data).

e Bude 2: Chon một mẫu thiểu số(gian lận) đã tồn tại trong bộ dữ liệu (X1)

¢ Bước 3: Tạo ra mẫu thiểu số mới theo công thức rl = XI + gap * diff với:

e rl : mẫu thiểu số được tạo mới

e_ XI : Mẫu thiểu số đã ton tại trong bộ dữ liệu

© gap : khoảng cách từ XI đến rl

© diff : khoảng cách từ X1 đến X11(mẫu láng giéng).

Với k = 4 (số mẫu láng giéng), chúng ta sẽ tạo ra 4 mẫu thiểu số mới từ một mẫuthiểu số đã tồn tại trong bộ dữ liệu bằng cách áp dụng công thức được mô tả trongbước 3, sử dụng khoảng cách và mẫu láng giềng đã chọn

Hình 2.1 Phương pháp SMOTE tạo ra điểm XI từ 4 điểm lân cận

Nguồn: SMOTE for Imbalanced Classification with Python [10]

Trang 17

Cơ sở lý thuyết và các nghiên cứu liên quan

2.1.2 SMOTE-ENN

SMOTE-ENN là một kỹ thuật kết hợp hai phương pháp dé xử lý dữ liệu khôngcân bằng trong machine learning Kết hợp SMOTE (Synthetic Minority Over-sampling Technique) va ENN (Edited Nearest Neighbors) dé cai thiện hiệu suất môhình trong các tình huống mà dữ liệu không cân bằng là một van dé [7]

SMOTE (Synthetic Minority Over-sampling Technique): SMOTE là một phầncủa SMOTE-ENN Nhằm tao ra các mẫu tổng hợp cho lớp thiểu sé bằng cách sử dungcác mẫu gốc từ lớp thiểu số Quá trình này đảm bảo rằng số lượng mẫu thuộc lớpthiểu số tăng lên và giúp cân bằng đữ liệu SMOTE hoạt động bằng cách chọn mộtmẫu gốc từ lớp thiểu số và sau đó tạo ra các mẫu tổng hợp bằng cách kết hợp thôngtin từ mẫu gốc và các mẫu gôc lân cận.

ENN (Edited Nearest Neighbors): ENN là bước thứ hai trong SMOTE-ENN.

ENN là một phương pháp dé loại bỏ các mẫu nhiễu từ tập dữ liệu Kiểm tra các mẫugốc và xóa bat kỳ mẫu nào thuộc lớp thiểu số và được bao quanh bởi mẫu của lớp đa

Trang 18

Cơ sở lý thuyết và các nghiên cứu liên quan

2.1.3 Random Oversampling

Random oversampling là một phương pháp trong xử lý mẫu mất cân bằng(imbalanced data) trong machine learning Một van dé phổ biến khi làm việc với dữliệu mat cân bằng là khi một lớp có số lượng mẫu ít hơn nhiều so với lớp khác, điềunay có thé gây ra hiện tượng mô hình học máy không hoạt động tốt trên lớp thiểu sé.Random oversampling giúp giải quyết vấn đề này bằng cách tăng cường lượng mẫucủa lớp thiểu số

Cụ thể, random oversampling hoạt động như sau: Xác định lớp thiểu số: Đầutiên, bạn cần xác định lớp có số lượng mẫu ít hơn Trong quá trình này, tạo ra các bảnsao ngẫu nhiên của các mẫu từ lớp thiêu số dé làm cho số lượng mau của lớp nàytương đương hoặc gần bằng với số lượng mẫu của lớp đa số Các bản sao này đượctạo ngẫu nhiên từ các mẫu gốc của lớp thiểu số Một số hạn chế khi sử dụng randomoversampling bao gồm :

e Tăng cường số lượng mẫu bang cách tạo ra các ban sao có thé làm gia tăng

nguy cơ quá khớp dữ liệu (overfitting) Mô hình có thé học quá mức và khôngtổng quát hóa tốt cho dit liệu mới

e Mat thông tin: Việc tạo ra các bản sao có thé làm mất đi sự đa dạng trong dữ

liệu Nếu dé liệu gốc trong lớp thiểu số không đủ đa dang, randomoversampling có thể không cải thiện hiệu suất mô hình mà chỉ làm tăng lượng

dữ liệu giả mạo.

e Tang độ phức tap: Tăng cường dữ liệu thông qua random oversampling có thé

làm tăng độ phức tạp của mô hình Điều này có thể làm cho việc đào tạo môhình mắt thời gian hơn và tăng tài nguyên tính toán yêu cầu

Trang 19

Cơ sở lý thuyết và các nghiên cứu liên quan

2.2 Các phương pháp kết hợp các thuật toán

2.2.1 Voting

Mô tả: Trong phương pháp Voting (bỏ phiếu), nhiều mô hình cùng tham giavào việc ra quyết định Mỗi mô hình đưa ra dự đoán của riêng mình và sau đó kết quảđược quyết định bằng cách bỏ phiếu từ tất cả các mô hình Có hai loại bỏ phiếu phdbiến: bỏ phiếu cứng (hard voting) và bỏ phiếu mềm (soft voting)

¢ Bo phiếu cứng (Hard Voting): Mô hình đưa ra quyết định cuối cùng dựa

trên đa số Nếu hơn một nửa các mô hình dự đoán là một lớp cụ thể, thì kếtquả cuối cùng cũng là lớp đó

© Bo phiếu mềm (Soft Voting): Mô hình đưa ra quyết định dựa trên xác suất

của các lớp Nó tính toán xác suất cho mỗi lớp từ tất cả các mô hình và sau

đó tổng hợp xác suất này Lớp có xác suất cao nhất sẽ được chọn

Ưu điểm: Dễ triển khai, làm việc tốt khi kết hợp các mô hình có tính đa dạng.Nhược điềm: Không phù hợp khi tất cả các mô hình có hiệu suất kém, không

giảm overfitting.

2.2.1 Stacking

Mô tả: Stacking là một phương pháp mở rộng hơn và phức tạp hơn so với bỏ

phiếu Thay vì kết hợp dự đoán trực tiếp, stacking sử dụng một mô hình tổng hợp (gọi

là mô hình meta-learner) để học cách kết hợp dự đoán từ các mô hình cơ bản Các môhình cơ bản dự đoán trên dữ liệu huấn luyện được sử dụng đề huấn luyện mô hình

Trang 20

Cơ sở lý thuyết và các nghiên cứu liên quan

2.3 Các nghiên cứu liên quan

Tháng 10 năm 2017 John O Awoyemi và các cộng sự [1] đã sử dung dữ liệu

từ các giao dịch thẻ tín dụng của người châu Âu trong tháng 9 năm 2013, với hơn280,000 giao dịch và chỉ khoảng 0.172% là gian lận [5] Một phần quan trọng củanghiên cứu này là việc đánh giá hiệu suất của các phương pháp phân loại trên hai bộ

dữ liệu được lây mẫu khác nhau từ dữ liệu không cân bằng gốc Một bộ dữ liệu chiathành 2 tập dé test va train có tỷ lệ 10:9 và bộ dit liệu khác có ty lệ 34:66 Kết quả cụthế của 2 tập này như sau:

Phân phối dữ liệu 10:90

e Naive Bayes: Độ chính xác (Accuracy): 0.97, Recall: 0.82.

e K-Nearest Neighbour: Độ chính xác (Accuracy): 0.97, Recall: 0.83.

¢ Logistic Regression: Độ chính xác (Accuracy): 0.36, Recall: 0.72.

Phan phối dữ liệu 34:66

e Naive Bayes: Độ chính xác (Accuracy): 0.97, Recall: 0.95.

e K-Nearest Neighbour: Độ chính xác (Accuracy): 0.98, Recall: 0.94.

e Logistic Regression: Độ chính xác (Accuracy): 0.55, Recall: 0.58.

Tập dữ được chia theo tỉ lệ 34:66 có sự cải thiện rõ rệt về độ chính xác của các

mô hình (Naive Bayes, k-Nearest Neighbour va Logistic Regression) so với 10:90.

Recall tốt hơn: Có kha năng nhận diện gian lận (fraud) tốt hơn với tỷ lệ cao hơn sovới 10:90 Tóm lại 34:66 mang lại hiệu suất tốt hơn và đáng tin cậy hơn trong việcphân loại gian lận thẻ tin dung so với phân phối 10:90 Trong kết quả của mình, nhómtác giả đã phát hiện rằng phương pháp k-nearest neighbour (KNN) thể hiện hiệu suấttốt nhất trong cả hai bộ dữ liệu lay mẫu

Trang 21

Cơ sở lý thuyết và các nghiên cứu liên quan

Thang 1 năm 2020 Altab Althar Taha và các công sự [2] đã đưa ra một hướng

tiếp cận mới trong việc phát hiện gian lận giao dịch trong thẻ tín dụng là phát triển

một phương pháp thông minh sử dụng thuật toán Light Gradient Boosting Machine

(OLightGBM) đề phát hiện gian lận trong các giao dịch thẻ tín dụng Điểm cốt lõi làviệc áp dụng thuật toán này để tối ưu hóa việc phân loại giao dịch thẻ tín dụng, đặc

biệt là những giao dịch gian lận, từ đó nâng cao khả năng phát hiện và ngăn chặn các

hoạt động gian lận Một số điểm nồi bật của nhóm tác giả này như sau:

e Lựa Chon Đặc Trưng (Feature Selection): Sử dụng Information Gain (IG)

của LightGBM: Phương pháp IG được áp dung dé xác định độ quan trọngcủa từng đặc trưng trong dữ liệu IG dựa trên việc đo lường sự tương đồnggiữa các giao dịch thẻ tín dụng và trọng số cao nhất được gán cho các đặctrưng quan trọng nhất dựa trên các lớp của giao dịch hợp lệ và gian lận.Mục tiêu: Giảm số lượng đặc trưng, giúp tăng hiệu suất huấn luyện mô

hình và giảm chi phí tính toán.

e Tối ưu OLightGBM: Áp dụng thuật toán tối ưu hóa Bayesian: Sử dụng

thuật toán Bayesian dé điều chỉnh các siêu tham số của mô hình LightGBMnhư num leaves, max depth va learning rate Mục tiêu: Tối ưu hóa hiệusuất của mô hình LightGBM thông qua việc điều chỉnh các tham số một

cách thông minh và tự động.

Bài báo đã chứng minh rằng phương pháp đề xuất vượt trội hơn so với cácphương pháp khác bằng độ chính xác 0.97 và Fl-score 0.56 Cao hơn các phươngpháp truyền thống như Random Forest, Logistic Regression, Support Vector

Machine, K-nearest neighbors.

Năm 2021 RB, Asha [3] đã tập trung vào việc áp dụng ANN đề dự đoán và

phát hiện gian lận trong giao dịch thẻ tín dụng Sau đó so sánh với SVM và KNN trên

cùng tập dữ liệu để đánh giá độ chính xác, precision và recall Kết quả đạt được ANN

có độ chính xác cao nhất (0.9992) so với SVM (0.9349) và KNN (0.9982)

Trang 22

Cơ sở lý thuyết và các nghiên cứu liên quan

Tuy nhiên, precision va recall của SVM vượt trội hơn so với ANN, cho thayrằng ANN có thể dự đoán gian lận tốt hơn nhưng cũng có thể bỏ sót một số trường

hợp mà SVM có thê phát hiện được.

Các nghiên cứu trước đây [1-3] tập trung vào việc sử dụng các thuật toán họcmáy và đề xuất các phương pháp mới thì vào tháng 1 năm 2022 Esenogho và cộng

sự [4] lại tập trung vào việc cải thiện khả năng phát hiện gian lận trong giao dịch thẻ

tín dụng thông qua việc kết hợp mô hình học máy dựa trên mạng neural và kỹ thuậttai cầu trúc đữ liệu (feature engineering)

Phương pháp này sử dụng mô hình mạng neural LSTM trong cơ sở trong kỹ

thuật AdaBoost, kết hợp với việc tái cấu trúc đữ liệu xử lý việc mất cân bằng dữ liệu

sử dụng phương pháp SMOTE-ENN Bai báo đề xuất một cách tiếp cận hiệu quả déphát hiện gian lận trong giao dịch thẻ tín dụng, kết hợp giữa mang neural LSTM va

và phương pháp SMOTE-ENN để xử lý mắt cân bằng dữ liệu

Kết quả thực nghiệm được thực hiện trên tập dữ liệu ban đầu và sau khi tái cấutrúc đữ liệu bằng phương pháp SMOTE-ENN Kết quả cho thấy rằng phương pháp

dé xuất đã cải thiện đáng kể hiệu suất so với các phương pháp truyền thống khác.Trước khi cân bằng dữ liệu, phương pháp LSTM ensemble đã đạt được recall là 0.839

và diện tích dưới đường cong ROC (AUC) là 0.89 Trong khi đó sau khi cân bằng dữliệu các chỉ số này lần lượt tăng lên thành 0.996 và 0.99 Điều này chỉ ra rằng việckết hợp mạng neural LSTM với xử lý cân bằng dữ liệu bằng phương pháp SMOTE-

ENN đã tăng cường khả năng phát hiện gian lận.

2.4 Hạn chế của các nghiên cứu trước

Các nghiên cứu [1-3] sử dụng tập dit liệu giao dịch thẻ tin dụng thu thập trong

tháng 9 năm 2013 tại Châu Âu Tập đữ liệu này bao gồm tổng cộng 284,807 giaodịch, trong đó chỉ có 492 giao dịch được xác định là gian lận Dễ dàng nhận thay tỉ lệcác giao dịch gian lận trên tổng số là 0.0017% Tuy nhiên cả hai nhóm tác giả [1-3]chỉ tập trung sử dụng các phương pháp học máy đề xây dựng mô hình và không đềcập tới việc mat cân bằng đữ liệu

Trang 23

Cơ sở lý thuyết và các nghiên cứu liên quan

Nhóm tác giả RB, Asha và các cộng sự [3] tập trung vào việc áp dụng ANN

dé dự đoán và phát hiện gian lận trong giao dich thẻ tín dụng Tuy nhiên có 2 hạn chế

như sau:

© Mất cân bằng dữ liệu: Không dé cập về van dé mắt cân bằng dữ liệu

e _ Thời gian và chỉ phí của huấn luyện mô hình ANN: Mang neural nhân tao

(ANN) có thể tốn nhiều thời gian hơn và đòi hỏi nhiều tài nguyên tính toán

hơn so với các phương pháp khác.

Để giải quyết hạn chế của ba nhóm tác giả trước đó [1-3] Vào tháng 1 năm

2022 Esenogho và cộng sự [4] có sử dụng phương pháp SMOTE-ENN dé cân bằng

dữ liệu, tuy nhiên không đề cập tới vẫn đề mô hình có bị quá khớp dữ liệu Đồng thờiviệc sử dụng SMOTE-ENN để cân bằng dữ liệu và đào tạo mô hình học máy gây tốnkém về thời gian và tài nguyên tính toán

2.5 Kết chương

Luận văn đã trình bày về cơ sở lý thuyết của ba phương pháp cân bằng đữ liệu

và SMOTE, SMOTE-ENN, Random Oversampling Sau đó trình bày hai phương

pháp kết hợp các thuật toán: Voting và Stacking Ở mỗi phương pháp trình bày mô tả

ưu và nhược điểm của hai phương pháp kết hợp nay

Ngoài ra trong chương này chúng tôi trình bày bốn nghiên cứu liên quan củacác nhóm tác giả [1-4] có liên quan đến bộ dif liệu mà tác gia đang nghiên cứu Đồngthời cũng nêu ra các hạn chế của các nghiên cứu liên quan

Trong chương ba luận văn trình bày các phương pháp đề xuất được thực hiện

trong luận văn.

Trang 24

Phương pháp đề xuất

CHƯƠNG 3 PHƯƠNG PHAP DE XUẤT

Trong chương này, luận văn trình bày hai phương pháp đề xuất được áp dụngtrong luận văn nhằm xây dựng mô hình đề dự đoán các gian lận trong thẻ tín dụng

3.1 Phương pháp 1: Áp dụng các mô hình học máy có kết quả rõ sau đó

kết hợp các mô hình lại với nhau.

Ỏ giai đoạn này, luận văn tập trung vào việc áp dụng các mô hình học máy cókết quả rõ là gian lận hoặc không gian lận Cụ thể chia thành hai giai đoạn chính:

Giai đoạn 1: Tiến hành tiền xử lý dữ liệu sau đó áp dụng các mô hình họcmáy nhằm xây dựng mô hình dự đoán mang lại kết quả rõ là gian lận hoặc không gianlận Nội dung chỉ tiết của giai đoạn 1 được trình bay cụ thể dưới đây:

Bước 1: Liên quan đến dữ liệu các giao dịch trong thẻ tín dụng [5], tiếnhành thêm đữ liệu vào công cụ Python 3 đề tiến hành thực nghiệm, sau khiquan sát và khám phá dữ liệu tiền hành chia dữ liệu thành 2 phan: 80% dùng

dé huấn luyện (train) mô hình và 20% dùng dé kiểm tra (test) mô hình

Bước 2: Tập dữ liệu được sử dụng trong luận văn bao gồm các giao dịch sửdụng thẻ tín dụng được thu thập trong tháng 9 năm 2013 tại Châu Âu Tập

dữ liệu này bao gồm tổng cộng 284,807 giao dịch, trong đó chỉ có 492 giaodịch được xác định là gian lận (chiếm 0.00172% tổng số giao dịch) Ở đâychúng ta có thé dé dàng nhận thay dữ liệu này đang bị mat cân bằng dữ liệu

Có nghĩa là tổng số gian dịch gian lận so với toàn bộ đữ liệu quá thấp Chính

vì vậy chúng tôi đã tiến hành phát triển theo 2 hướng tiếp cận

= Hướng 1: Không xử lý việc mat cân bằng dữ liệu

= Hướng 2: Sử dụng phương pháp Oversampling bao gồm 3 phương

pháp đó là SMOTE, SMOTE-ENN và Random Oversampling décân bằng dữ liệu

Bước 3: Chúng tôi áp dụng 11 các mô hình học máy khác nhau để huấnluyện mô hình và dự đoán mô hình Do đó chúng tôi sẽ có 4 kết quả theo 2hướng ở bước 2 Các mô hình học máy được áp dụng tại bước 3 bao gồm:

Trang 25

Phương pháp đề xuất

Random Forest

Logistic Regression Decision Tree

Naive Bayes

K-Nearest

XGBoost SVM

MLP

ANN

Light GBM

LSTM

¢ Bước 4: Sau khi có kết quả ở bước 3 tiến hành đánh giá các kết quả Trong

nghiên cứu này chúng tôi sử dụng năm độ đo để đánh giá độ chính xác của

mô hình trên tập huấn luyện và tập kiểm tra bao gồm:

Độ chính xác (Accuracy) Recall

Precision Fl-Score

RMSE

e Bue 5: Sau khi đã có kết quả tiễn hành đánh giá đưa ra kết luận, nhận xét

Đồng thời cần trả lời ba câu hỏi đặt ra lần lượt là:

= Đối với tập dữ liệu này liệu việc xử lý mat cân bang dữ liệu có cần thiết

trong tập dữ liệu này không?

= Phương pháp xử lý mat cân bằng dữ liệu theo phương pháp

SMOTE-ENN có làm mô hình bị tình trạng quá khớp dữ liệu hay không?

" Các mô hình học máy nào mang lại kết quả tốt ở giai đoạn 1 để chuẩn

bị đầu vào cho giai đoạn 2

Trang 26

Hình 3.1 Sơ đồ phương pháp 1: Áp dụng các mô hình học máy có kết quả rõ sau

đó kết hợp các mô hình lại với nhau

Trang 27

Phương pháp đề xuất

Giai đoạn 2: Ở giai đoạn 2 luận văn sử dụng hai phương pháp kết hợp làVoting va Stacking nhằm kết hợp các mô hình học máy có kết quả tốt ở giai đoạn 1.Việc kết hợp này giúp tận dụng sức mạnh của từng mô hình học máy riêng biệt vàtao ra một mô hình dự đoán mạnh mẽ hon Chi tiết các bước thực hiện trong giai đoạn

2 được thể hiện chỉ tiết đưới đây:

Bước 1: Sau khi đã có kết quả của giai đoạn 1 và đồng thời trả lời câu hỏi :Đối với bộ dữ liệu này thì có cần phải cân bằng dữ liệu hay không Ở bướcnày chúng tôi kết hợp các mô hình học máy cho kết quả tốt ở giai đoạn 1 lại

với nhau theo hai phương pháp khác nhau là Voting và Stacking.

Bước 2 : Ở mỗi phương pháp kết hợp tiền hành thay đồi các tham số truyềnvào cụ thé là trọng số của các mô hình học máy Nhằm tìm ra kết quả tốtnhất

Bước 3: So sánh đánh giá kết quả của hai phương pháp với nhau

Bước 4: Đưa ra mô hình kết hợp cho kết quả tốt nhất

3.2 Phương pháp 2: Sử dụng logic mờ (fuzzy logic) nhằm phát hiện các

giao dịch có khả năng gian lận trong thẻ tín dụng.

Ở phương pháp 2: Luận văn đưa ra một hướng tiếp cập khác đó là sử dụnglogic mờ nhằm phát hiện các giao dịch có khả năng gian lận trong thẻ tín dụng (gianlận bao nhiêu phần trăm) Phương pháp 2 sẽ được thực hiện thông qua sáu bước dưới

đây:

Bước 1: Xác định các biến độc lập và biến phụ thuộc cần thiết

Bước 2: Sau khi đã xác định các biến độc lập và biến phụ thuộc tiến hànhtạo ra các tap mờ thành viên Nghiên cứu xem xét mức độ phân bố của cácgiá trị của biến độc lập so với biến phụ thuộc theo Sau đó sử dụng lý thuyếttập mờ tam giác, hình thang và hình L dé xây dựng các hàm thành viên

Bước 3: Xây dựng các luật và tính giá tri của các ham thành viên.

Bước 4: Suy luận mờ bằng phương pháp Max-Min Inference[9] Trongnghiên cứu này bộ luật được xác định theo mệnh đề and đo đó công thức sẽ

được tính dựa theo min của các hàm thành viên.

Trang 28

Phương pháp đề xuất

¢ - Bước 5: Mờ hóa và giải mờ.

¢ Bude 6: Dua ra kết luật và trả lời câu hỏi đối với một giao dịch đầu vào thì

có bao nhiêu phần trăm là có khả năng gian lận cao, có khả năng trung bình

© Giải quyết bài toán theo hai hướng: Không xử lý mắt cân bằng dữ liệu

và xử lý mất cân bằng dữ liệu theo ba phương pháp SMOTE,

SMOTE-ENN và Random Oversampling Sau đó áp dụng các mô hình học may

để xây dựng mô hình học máy Kết quả của giai đoạn 1 cần trả lời được

2 câu hỏi dưới đây:

= Đối với bộ dữ liệu này thì có cần phải cân bằng dữ liệu hay

không.

“ Việc cân bằng dữ liệu có dẫn đến tình trạng quá khớp

(overfitting) hay không.

= Các mô hình học máy nào có kết quả tốt ở giai đoạn 1

Giai đoạn 2: Luận văn sử dụng hai phương pháp kết hợp là Voting và Stackingnhằm kết hợp các mô hình học máy có kết quả tốt ở giai đoạn 1 Việc kết hợp này

giúp tận dụng sức mạnh của từng mô hình học máy riêng biệt và tạo ra một mô hình

dự đoán mạnh mẽ hơn.

Phương pháp 2: Sử dụng logic mờ (fuzzy logic) nhằm phát hiện các giao dịch

có khả năng gian lận trong thẻ tín dụng.

Trang 29

Tiến hành thực nghiệm và đánh giá kết quả

CHƯƠNG 4 TIEN HANH THỰC NGHIEM VÀ ĐÁNH GIÁ

KET QUA THỰC NGHIỆM

Trong chương này, luận văn trình bày việc thực nghiệm và kết quả thựcnghiệm của 2 phương pháp chính bao gồm :

© Phương pháp 1: Ap dụng các mô hình học máy có kết quả rõ sau đó kết

hợp các mô hình lại với nhau.

¢ Phuong pháp 2: Sử dụng logic mờ (fuzzy logic) nhằm phát hiện các giao

dịch có khả năng gian lận trong thẻ tín dụng.

4.1 Môi trường và công cụ thực nghiệm

Nghiên cứu này được thực nghiệm trên laptop trang bị 12th Gen Intel(R) Core (TM) i5-1235U 1.30 GHz RAM 16GB và Windows 11 Home Single Language 64-

bit Tién hanh chạy thực nghiệm trên công cụ Python 3 va sử dụng các thư viện môhình thuật toán trong sklearn Ngoài ra còn sử dụng thêm thư viện skfuzzy để tạo môitrường và chạy logic mờ (fuzzy logic) dé thực nghiệm [8]

4.2 Các phương pháp đánh giá độ chính xác của các thuật toán

Trang 30

Tiến hành thực nghiệm và đánh giá kết quả

4.3 Tiến hành thực nghiệm và đánh giá kết quả phương pháp 1 và giai

đoạn 1.

Các bước tiễn hành thực nghiệm và đánh giá ở phương pháp 1 giai đoạn 1được trình bày chỉ tiết đưới đây

4.3.1 Tiền xứ lý dữ liệu

Tập dữ liệu giao dịch thẻ tín dụng thu thập trong tháng 9 năm 2013 tại Châu

Âu Bộ dé liệu bao gồm 31 biến trong đó biến phân loại (class) là biến phụ thuộc và

30 biến độc lập trong đó 28 biến từ V1 đến V28 đã được xử lý thông qua phươngpháp PCA nhằm bảo mật thông tin đữ liệu gốc Ở nghiên cứu này chúng ta chấp nhận

sự hạn chế của dữ liệu đã bị biến đổi để xây dựng mô hình Vì hiện nay dữ liệu giao

dịch của các giao dịch thẻ tín dụng là thông tin bảo mật của các công ty nên việc tìm

đữ liệu thực tế không dé dang có được Hai biến còn lại là Time va Amount Trong

đó Time là thời gian giữa lần giao dịch đó với giao dịch đầu tiên của cùng một tài

khoản và Amount là giá trị của giao dịch.

Chúng tôi đã tiến hành thêm dữ liệu vào công cụ Python tiến hành kiểm tratổng quan dữ liệu và nhận ra rằng bộ dữ liệu này không chứa các giá trị rỗng (null).Tuy nhiên hai cột Amount và Time chứa giá trị gốc đê xây dựng các mô hình họcmáy chúng tôi tiến hành chuẩn hóa dữ liệu hai cột này Sử dụng một scaler (bộ chuẩnhóa) để chuẩn hóa dữ liệu trong mảng đã được biến đổi Phương pháp fit_transform

sẽ tính toán thông tin cần thiết để chuẩn hóa đữ liệu và sau đó áp dụng chuẩn hóa cho

đữ liệu.

Việc chuẩn hóa dir liệu thường được thực hiện dé đảm bảo các đặc trưng hoặcbiến số có cùng miền giá trị hoặc phạm vi giá trị, giúp cho các mô hình học máy hoặcphân tích đữ liệu hoạt động tốt hơn

Trang 31

Tiến hành thực nghiệm và đánh giá kết quả

Distribution of Transaction Amount wes Distribution of Transaction Time

Hình 4.1 Phân bố dữ liệu trên cột Amount và Time trước khi chuẩn hóa dữ liệu

Tiếp theo tiến hành chia dữ liệu thành 2 phần: 80% huấn luyện mô hình và20% kiểm tra mô hình

Tập di liệu bao gồm tông cộng 284,807 giao dich, trong đó chỉ có 492 giaodịch được xác định là gian lận Dữ liệu đang bị mat cân bằng dữ liệu tỉ trong số

lượng giao dịch gian lận chiếm 0.0017% tổng số giao dịch Do đó ở bước này

nghiên cứu sẽ triển khai theo 2 hướng : Không cân bằng dữ liệu và cân bằng dữ liệu

sử dụng 3 phương pháp là SMOTE, SMOTE-ENN và Random Oversampling Chitiết kết qua được trình bày cụ thé ở bước 4.3.2, 4.3.3, 4.3.4 và 4.3.5

Class Distributions (0: No Fraud || 1: Fraud)

Trang 32

Tiến hành thực nghiệm và đánh giá kết quả

4.3.2 Kết quả dự đoán của các mô hình học máy với việc không xử lý cân bằng dữ liệu

Bảng 4.1 Kết quả trên tập huấn luyện với việc không xử lý cân bằng dữ liệu

Kết quả đánh giá trên tập Train

Measure ¬

Method Accuracy |Precision| Recall | F1score | RMSE

Random Forest 0.9997 0.9879 | 0.8274 0.9006 | 0.0178 Logistic Regression 0.9770 0.0648 | 0.9162 | 0.1210 | 0.1517 Decision Tree 1.0000 1.0000 | 1.0000 | 1.0000 | 0.0000 Naive Bayes 0.9785 0.0635 | 0.8325 | 0.1179 | 0.1467

K-Nearest 0.9996 0.9568 | 0.7868 0.8635 | 0.0207 XGBoost 0.9998 0.9914 | 0.8807 0.9328 | 0.0148

SVM 0.9994 0.8410 | 0.7919 | 0.8157 | 0.0235 MLP 0.9998 0.9858 | 0.8832 | 0.9317 | 0.0150 ANN 0.9995 0.8689 | 0.8071 0.8368 | 0.0233

light GBM 0.9980 0.4353 | 0.6066 | 0.5069 | 0.5069

LSTM 0.9993 0.8532 | 0.7081 | 0.7739 | 0.0323 |

Bang 4.2 Két quả trên tập kiểm tra với việc không xử lý cân bằng dữ liệu

Kết quả đánh giá trên tập Test

Trang 33

Tiến hành thực nghiệm và đánh giá kết quả

4.3.3 Kết quả dự đoán của các mô hình học máy với việc cân bằng dữ liệu

K-Nearest 0.9994 0.9989 | 1.0000 | 0.9994 | 0.0238 XGBoost 0.9998 0.9999 | 1.0000 | 0.9999 | 0.0154

SVM 0.9568 0.6357 | 0.3579 0.7957 0.0158

MLP 0.9999 0.9998 | 1.0000 | 0.9999 | 0.0110 ANN 0.9992 0.9988 | 0.9997 0.9992 0.0279

light GBM 0.9994 0.9990 | 0.9999 0.9994 0.0279 LSTM 0.9184 0.9681 | 0.8654 | 0.9139 | 0.2856

Bang 4.4 Kết quả trên tập kiểm tra với việc xử ly cân bằng dữ liệu theo phương

Trang 34

Tiến hành thực nghiệm và đánh giá kết quả

4.3.4 Kết quả dự đoán cúa các mô hình học máy với việc cân bằng dữ liệu

sử dụng phương pháp SMOTE-ENN

Bang 4.5 Kết quả trên tập huấn luyện với việc xử lý cân bằng đữ liệu theo phương

pháp SMOTE-ENN

Kết quả đánh giá trên tập Train

Accuracy | Precision| Recall | F1score | RMSE

Random Forest 0.9883 0.9987 | 0.9779 0.9882 0.1083 Logistic Regression 0.9499 0.9737 0.9249 0.9487 0.2238 Decision Tree 1.0000 1.0000 1.0000 1.0000 0.0000 Naive Bayes 0.9131 0.9737 | 0.8492 0.9072 0.2948

K-Nearest 1.0000 0.9999 1.0000 1.0000 0.0068 XGBoost 0.9999 0.9999 1.0000 0.9999 0.0073

SVM 0.9985 0.6275 0.3265 0.8172 0.0120 MLP 1.0000 1.0000 1.0000 1.0000 0.0015 ANN 0.9993 0.9987 1.0000 0.9993 0.0256 light GBM 0.9997 0.9994 1.0000 0.9997 0.0256 LSTM 0.8666 0.9646 | 0.7614 0.8510 0.3653

Bang 4.6 Kết quả trên tập kiểm tra với việc xử lý cân bang đữ liệu theo phương

pháp SMOTE-ENN

Kết quả đánh giá trên tập Test

Accuracy | Precision| Recall | F1 score | RMSE

MLP 0.9991 | 0.6860 | 0.8469 | 0.7580 | 0.0305

ANN 0.9983 | 0.5029 | 0.8776 | 0.6394 | 0.0413

light GBM 0.9986 | 0.5513 | 0.8776 | 0.6772 | 0.0379

LSTM 0.9710 | 0.0429 | 0.7449 | 0.0812 | 0.1704

Trang 35

Tiến hành thực nghiệm và đánh giá kết quả

4.3.5 Kết quả dự đoán cúa các mô hình học máy với việc cân bằng dữ liệu

sử dụng phương pháp Random Oversampling.

Bang 4.7 Kết quả trên tập huấn luyện với việc xử lý cân bằng đữ liệu theo phương

light GBM 0.9995 | 0.8804 | 0.8265 | 0.8526 | 0.0222

LSTM 0.9992 | 0.8375 | 0.6837 | 0.7528 | 0.1312

Trang 36

Tiến hành thực nghiệm và đánh giá kết quả

4.3.6 Nhận xét đánh giá và kết luận

Ở bước tiền xử lý dữ liệu được chia thành 4 hướng triển khai chính: Khôngcân bằng dữ liệu và cân bằng dữ liệu sử dụng 3 phương pháp đó là SMOTE, SMOTE-ENN và Random Oversampling Tuy nhiên khi chạy xong kết quả chúng tôi nhận rarằng: phương pháp SMOTE và Random Oversampling mang lại kết quả gần giốngvới việc không cân bằng dữ liệu Do đó chúng tôi đã tiến hành so sánh và đánh giákết quả giữa phương pháp SMOTE-ENN và không cân bằng dữ liệu

Đầu tiên chúng tôi đánh giá kết quả trên tập kiểm tra và nhận thây rằng:

e Bang 4.2 có 3 mô hình học máy mang lại kết quả tốt là Naive Bayes,

XGBoost và Logistic Regression với độ chính xác lần lượt là 0.97, 0.99 và

0,97 Giá trị recall 0.81, 0.8 và 0.91 Tuy giá tri Precision của Naive Bayes

va Logistic Regression lai rat thap khoang 0.06

© Đối với Bang 4.6 với việc sử dụng phương pháp SMOTE-ENN mang lại

kết quả tốt hơn rất nhiều nêu xét về độ chính xác va recall Chúng ta có thé

ké đến là mô hình Logistic Regression với độ chính xác 0.97 và Recall là0.91 Thậm chí kết quả này còn cao hơn cả nghiên cứu của các nhóm tácgiả Esenogho [4] được nhắc tới trong phần những nghiên cứu liên quan

Chúng tôi tiếp tục đánh giá kết quả trên tập huấn luyện và so sánh với tập kiểmtra để xem rằng kết quả ở Bảng 4.1 và Bảng 4.5 có đang bị tình trạng quá khớp

(Overfitting) hay không.

© Ở Bảng 4.1 tất cả mô hình học máy đều không bị trình trạng quá khớp

ngoại từ mô hình cây quyết định

e Bảng 4.5 hầu như tat cả các mô hình đều gặp van dé quá khớp dữ liệu, kết

quả dự đoán tốt trên tập train nhưng sẽ thấp ở tập kiểm tra đặc biệt là giá

tri precision.

Trang 37

Tiến hành thực nghiệm và đánh giá kết quả

e Vi dụ mô hình Logistic Regression thì ở tập kiểm tra recall và precision

lần lượt là 0.924 và 0.056 còn ở tập huấn luyện lần lượt là 0.92 và 0.97.Điều này có nghĩa là sau khi xử lý mắt cân bằng dữ liệu bằng phương phápSMOTE-ENN và áp dụng 11 mô hình học máy xây dựng mô hình thì hauhết các mô hình đều bị tình trạng quá khớp dữ liệu ở tập huấn luyện và thấpdần ở tập kiểm tra Điều này cũng đặt ra câu hỏi liệu phương pháp này chỉhoạt động tốt ở tập huấn luyện và không tốt ở tập kiểm tra và nếu có dữliệu mới thì phương pháp này thì có mang lại kết quả cao như tập huấn

luyện hay không.

e _ Điều này cũng là câu hỏi của nhóm tác giả Esenogho và cộng sự [4] chưa

giải quyết và cũng chưa đề cập trong bài báo

Sau khi đánh giá kết quả ở trên chúng tôi quyết định sẽ không xử lý mất cânbằng dữ liệu trong bộ dữ liệu này vì vẫn mang lại kết quả tốt và không bị trình trạngquá khớp dữ liệu Tuy nhiên ở mô hình cây quyết định cần xử lý việc tình trạng quákhớp dữ liệu trước khi đến với giai đoạn 2 của nghiên cứu

4.3.7 Xử lý tình trạng quá khớp dữ liệu ở mô hình cây quyết định

Đầu tiên chúng tôi đánh giá sự biến đổi của F1-score theo độ sâu (max_depths)của cây quyết định Đây là tham số quy định tổng số tầng tối đa tính từ nút gốc đếnnút lá trong cây quyết định Kết quả đánh giá ở cả tập huấn luyện và kiêm tra Ly do

sử dụng F1-score thay vì độ chính xác là vì bộ dữ liệu đã bị mắt cân bằng dữ liệu nênviệc sử dụng độ chính xác thì sẽ không có nhiều ý nghĩa trong việc này Hình 4.3 và4.4 thể hiện sự biến đổi giá trị F1-score theo độ sâu của cây quyết định Chúng ta cóthé chia thành 3 nhóm dé phân tích

¢ Nhóm I độ sâu từ 1 đến 5 thì giá trị F1-score trên tập huấn luyện và kiểm

tra tăng dan và khoảng cách giữa chúng không quá xa nhau

© Nhóm 2 kết quả của kiểm tra biến thiên và không ổn định tăng dần từ độ

sâu bằng 6,7 và 10 và giảm 8 và 9

e _ Nhóm 3 tập huấn luyện tăng dần về 0.95 và kiểm tra giảm dần

Trang 38

Tiến hành thực nghiệm và đánh giá kết quả

Do đó độ sâu càng tăng thì mô hình cây quyết định càng bị tình trạng quá khớp

dữ liệu Nghiên cứu quyết định sử dụng độ sâu bằng 5 cho mô hình này

Biểu đồ sự biến đổi của F1-score theo độ sâu của cây quyết định

Max Depth of Decision Tree

Hình 4.3 Biêu đô sự biên đôi Fl-score theo độ sâu

Biểu đồ sự biến đổi của F1-score theo độ sâu của cây quyết định

° 0.95 °

080 Training F1-score with max_depths (1-5) ° °

Testing F1-score with max_depths (1-5)

Training F1-score with max_depths (6-10)

0.75 ‘Testing F1-score with max_depths (6-10)

Training F1-score with max_depths (11+)

‘Testing F1-score with max_depths (11+)

2 4 6 8 10 2 4

Max Depth of Decision Tree

Hình 4.4 Biểu đồ sự biến đổi F1-score theo độ sâu phân rõ theo 3 nhóm

Hình 4.3 thể hiện ma trận nhằm lẫn trên tập huấn luyện và tập kiểm tra sau khi

sử đụng độ sâu bằng 5 Kết quả này tốt hơn kết quả ở Bảng 4.2 mô hình cây quyếtđịnh Ngoài ra đã giải quyết được vấn đề quá khớp dữ liệu ở mô hình này Với giá trịFl-score ở tập train và test lần lượt là 0.85 và 0.87 Nghiên cứu đã tiếp tục đến vớigiai đoạn 2: Kết hợp các mô hình học máy dự đoán lại với nhau theo 2 phương pháp

là Stacking và Voting và không cân bằng dữ liệu

Trang 39

Tiến hành thực nghiệm và đánh giá kết quả

Confusion Matrix (Train)

Hình 4.5 Hình ảnh kết quả ma trận nhằm lẫn trên tập huấn luyện của bước 4.3.7

Confusion Matrix (Test)

Hình 4.6 Hình ảnh kết quả ma trận nhằm lẫn trên tập kiểm tra của bước 4.3.7

Sau khi kết thúc giai đoạn 1: Chúng tôi nhận thấy rằng việc không cân bằng

dữ liệu mang lại kết quả tương đối tốt và không làm mô hình bị quá khớp dữ liệu.Tuy nhiên mô hình cây quyết định lại gặp vấn đề quá khớp đữ liệu ở tập huấn luyện

Dé giải quyết van dé này luận văn đã tiến hành xử lý việc quá khớp đữ liệu trong môhình này và mang lại kết quả tốt Tiếp theo chúng tôi sẽ trình bày kết quả đạt được

của giai đoạn 2.

Trang 40

Tiến hành thực nghiệm và đánh giá kết quả

4.4 Tiến hành thực nghiệm và đánh giá kết quả phương pháp 1 và giai

đoạn 2.

fo) giai đoạn 2 luận văn tiến hành kết hợp các mô hình học máy mang lại kết

quả tốt ở giai đoạn 1 bằng cách sử dụng 2 phương pháp là Voting va Stacking Đốivới phương pháp Stacking luận văn tiến hành các bước dưới đây

¢ Bước 1: Dữ liệu ban đầu vẫn được chia thành 80% dé huấn luyện và 20% dé

kiểm tra Ở bước này chúng tôi lựa chọn các mô hình học máy có kết quả tốt

ở giai đoạn 1 ví dụ KNN, XGBoost sau đó sử dụng tập huấn luyện để đào tạo

mô hình và kiêm tra mô hình ở trên tập huấn luyện (80% dữ liệu)

¢ Bước 2: Sau khi đã có kết quả ở bước 1 tiến hành kết hợp (append) 2 mô hình

lại với nhau Nghĩa là chúng ta có dữ liệu tập huấn luyện và kết quả kiểm tratrên chính tập huấn luyện đó (80%) của KNN và XGBoost thì tiến hành kếthợp đữ liệu lại theo chiều doc của dữ liệu Điều này có nghĩa là với 1 hàng dữliệu ở tập huấn luyện chúng ta có 2 kết quả từ 2 mô hình là KNN và XGBoost

e Bước 3: Sử dụng một mô hình khác ở đây luận văn lựa chọn Logistic

Regression (là mô hình mặc định của phương pháp Stacking) với đầu vào làbước 2 dé huấn luyện mô hình

© Bước 4: Sau khi sử dung Logistic Regression dé huấn luyện mô hình sử dụng

tập kiểm tra (20%) đề dự đoán kết quả

Quy trình này sử dụng dữ liệu từ các mô hình cơ sở (KNN và XGBoost) đềtạo ra một tập dữ liệu mới, sau đó sử dụng tập dữ liệu này để huấn luyện một mô hìnhkhác (Logistic Regression trong trường hợp này) và dự đoán trên tập kiểm tra cuốicùng Điều này giúp kết hợp sức mạnh của các mô hình cơ sở đề cải thiện khả năng

dự đoán của mô hình cuối cùng

Tiếp theo là phương pháp Voting chỉ tiết được trình bày qua các bước dưới đây:

se _ Bước 1: Tương tự phương pháp Voting chúng tôi lựa chọn các mô hình

học máy mang lại kết quả tốt ở giai đoạn 1 Tuy nhiên điểm khác biệt chính

ở đây là Voting không sử dụng thêm một mô hình mới dé dự đoán mà kết

Ngày đăng: 08/11/2024, 17:14

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w