Chính vì thế người ta bắt đầu sử dụng 2 phương pháp chính dé giải quyết, đầu tiên là ngăn chặn giao dich bằng những bộ luật hay còn gọi là rule-base nhằm chặn đứng các gian lận trước khi
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THÓNG THÔNG TIN
VƯƠNG HOÀNG MINH - NGUYÊN HỮU NGHĨA
THE PERFORMANCE EVALUATION OF
FEDERATED LEARNING WITH IMBALANCED
DATASET
KY SU NGANH HE THONG THONG TIN
Trang 2ĐẠI HỌC QUÓC GIA TP HỎ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THÓNG THÔNG TIN
VUONG HOÀNG MINH - 18521113
NGUYEN HỮU NGHĨA - 18521145
THE PERFORMANCE EVALUATION OF
FEDERATED LEARNING WITH IMBALANCED
DATASET
KY SU NGANH HE THONG THONG TIN
GIANG VIEN HUONG DAN
ThS Ha Lé Hoai Trung ThS Vũ Minh Sang
HO CHI MINH CITY, 2022
Trang 3THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Trang 4ĐẠI HỌC QUOC GIA TP HO CHÍMINH CONG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
TP HCM, ngày tháng năm
NHAN XÉT KHÓA LUẬN TOT NGHIỆP
(CUA CAN BO HUONG DAN)
Tên khóa luân:
ĐÁNH GIÁ MÔ HÌNH HỌC LIÊN KÉT TRONG TẬP DỮ LIỆU MÁT CÂN BẰNG
Nhóm SV thực hiện: Cán bộ hướng dẫn:
Vương Hoàng Minh 18521113 ThS Hà Lê Hoài Trung
Nguyễn Hữu Nghĩa 18521145 ThS Vũ Minh Sang
Đánh giá Khóa luận
1 Về cuốn báo cáo:
Số trang 50 Số chương 4
So tài liệu tham khảo 9 Sản pham
Một số nhận xét về hình thức cuốn báo cáo:
2 Về nội dung nghiên cứu:
3 Về chương trình ứng dụng:
4 Về thái độ làm việc của sinh viên:
Trang 5Đánh giá chung:
Điểm từng sinh viên:
Vương Hoàng Minh
Nguyễn Hữu Nghĩ:
Người nhận xét
(Ký tên và ghi rõ họ tên)
Trang 6LOI CAM ON
Dau tiên, nhóm xin gửi lời cảm ơn đến trường Dai Hoc Công Nghệ Thông Tin — Đạihọc Quốc gia Thành phố Hồ Chí Minh và khoa Hệ thống thông tin đã tạo điều kiện
cho nhóm có cơ hội học tập và thực hiện khóa luận này, luôn tạo điều kiện tốt nhất
để sinh viên có thể hoàn thành tốt quá trình học tại trường nói chung và trong khóa
luận này nói riêng.
Kế đến, nhóm xin gửi lời cảm ơn chân thành đến thầy Hà Lê Hoài Trung vàthầy Vũ Minh Sang, giảng viên đã hỗ trợ nhóm trong suốt quá trình thực hiện khóaluận Thầy đã tận tình hướng dẫn, chỉ bảo với những phân tích định hướng rõ ràngcho nhóm trong suốt quá trình thực hiện khóa luận, là tiền đề để nhóm có thể hoànthành đồ án đúng hạn Đồng thời, thầy cũng tạo điều kiện thuận lợi nhất có thể với
các tài liệu cần thiết liên quan, giải đáp thắc mắc tại lớp khi nhóm gặp khó khăn
Mặc dù đã cô găng hoàn thành khóa luận với tat cả sự cố gắng, tuy nhiên nhóm
vẫn còn mắc phải những sai sót, khuyết điểm, nhóm mong sẽ nhận được sự thôngcảm của thầy cô và những lời nhận xét để giúp nhóm cải thiện hơn
Thanh pho Hồ Chí Minh, tháng 12 năm 2022
Nhóm sinh viên thực hiện
œ
Trang 7THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP
DANH MỤC TỪ VIET TAT
TOM TAT KHÓA LUẬN
CHƯƠNG 1: TONG QUAN
2.4 Ứng dụng máy hoc dé phát hiện gian lận
2.5 Các phương pháp đánh giá mô hình dự đoán
2.6 Ứng dung Federated Learning phát hiện gian lận
2.7 Mô hình mang Multi - Layer Perceptron
15 16 16 17 17 17 17 18 19 19 21
23
24 25
Trang 8CHƯƠNG 3: PHƯƠNG PHÁP THỰC HIỆN 28
3.5.5 Thuật toán Fed Avg với thực nghiệm balance data 47
3.5.6 Thuật toán Fed Avg, Fed Sgd, Fed Prox với các thông số có kết quả tốt
nhat 483.6 Kết luận 51
CHUONG 4: TONG KET 53
4.1 Những kién thitc hoc duge 53
4.2 Những công việc đã đạt được 53
4.3 Bài học kinh nghiệm 54
4.4 Công việc trong tương lai 54TÀI LIỆU THAM KHẢO 55
Trang 9DANH MỤC HÌNH
Hình 2.5.1.1: Confusion Matrix [4] - - (5 2 S2 3223321 E2£E£2E£vE+eEeeeeeeseeeesesee 16 Hình 2.6.1.1: mô hình thuật toán Federated Learning [Š5] - - 19 Hình 2.6.2.1: Thuật toán FedSG tai máy chủ cục bộ [7] - -‹ «=-s+-s<+ 22
Hình 2.6.2.2: Tông hợp trong số tir gradient tại máy chủ trung tâm [7] 2
Hình 2.6.2.3: Mô hình hoạt động của thuật toán FedSGD [7] 2 Hình 2.6.3.1: Thuật toán FedAvg [7] - ¿+52 2£+*+++£+£sxzztzersrsrrerersrs 23 Hình 2.6.3.2: Mô hình hoạt động của thuật toán FedAvg [7] - 23
Hình 2.6.4.1: Thuật toán FedProx [7] - - s6 c1 si n ri rưy 24
Hình 2.7.1.1: Mô hình mang Multi - Layer Perceptron [8] 25 Hình 2.7.2.1: Mô hình mang neural | lớp [8] 26
Hình 2.7.2.2: So đồ hàm Sigmod 27Hình 3.1.2: Biểu đồ lượng giao dịch 29Hình 3.1.3: Kiểm tra dữ liệu bị trùng .-: :¿22+22+++2v++vEvxrerxrrerxrrrrxrrrrrrrrs 29
Hình 3.1.4: Ma trận tương quan giữa các thuộc tính -+-s c+<++<++ 30
Hình 3.1.5: Biểu đồ phân phối của thuộc tính Time và Amount - 31Hình 3.2.1: Sơ đồ phương pháp thực hiện -: 5¿25+22++v2vxzvzvsrsrvresrs 32Hình 3.2.3.1: Cân bằng di liệu bởi thuật toán SMOTE 5 55+ ++s*<<++s> 35Hình 3.2.3.2: Cân bằng dữ liệu bởi phương pháp UnderSampling ngẫu nhiên 37Hình 3.4.1: Các thuật toán áp dụng trong Federated Learning - 39Hình 3.5.1: Kết quả accuracy của mô hình trong tập test với thông số Batch size .41Hình 3.5.2: Kết quả precision của mô hình trong tập test với thông số Batch size 42
Hình 3.5.3: Kết quả recall của mô hình trong tập test với thông số Batch size 42
Hình 3.5.4: Kết quả loss của mô hình trong tập test với thông số Batch size 4
Trang 10DANH MỤC BẢNG
Bảng 3.1.1: Tổng quan tập dữ liệu
Bảng 3.2.1.1: Bảng dữ liệu đã xử lý đưa về cùng một miễn giá trị chuẩn 33
Bảng 3.2.1.2: Dữ liệu của 2 tap train, test ứng với mỗi tập dữ liệu máy cục bộ 34
Bảng 3.3.1: Bảng thông số các lớp mô hình mang Multi - Layer perceptron 38
Bang 3.4.2: Các thông số khi thực nghiệm Federated Learning 40
Bang 3.5.1.1: Kết quả mô hình trong tập test với thông số Batch size 44
Bang 3.5.2.1: Kết quả mô hình trong tập test với thông số Round - 45
Bảng 3.5.3.1: Kết quả mô hình trong tập test với thông số Epoch - 46
Bang 3.5.4.1: Kết quả mô hình trong tập test với thông số learning rate 46
Bảng 3.5.5.1: Kết quả mô hình trong tập test với balance data 47 Bang 3.5.6.1: Kết qua mô hình trong tập test với các thông sé tốt nhất 48 Bảng 3.5.6.2: Kết quả mô hình trong tập test với các thuật toán Fed Avg, Fed Sgd, Fed Prox cùng các thông số kết quả tốt nhất : ¿+¿+z+v+2:x++zzs++zssz 50
Bang 3.5.6.3: Confusion matrix cua Fed Avg undersampling 90% 125 round 50
epoch 0.01 learning rate 2048 batch $1Ze - - ¿+ +1 SE 50
Trang 11DANH MỤC TỪ VIẾT TÁT
FDS: Fraud Detection System
EMV: Chip-Embedded Cards
FedAvg: Fed Average
FedSgd: Fed Stochastic Gradient Descent
Trang 12TÓM TÁT KHÓA LUẬN
Trong những năm qua, thẻ tín dụng và thẻ ghi nợ được sử dụng rộng rãi, tuy
nhiên gian lận thẻ tin dụng là một van dé nhức nhối với người tiêu dùng và các tổchức tài chính trên toàn thế giới Theo thống kế các giao dịch gian lận chỉ chiếm một
phần nhỏ trong tổng số giao dịch nhưng thiệt hại lại lên đến hàng tỷ đô la mỗi năm
Do đó hệ thống phát hiện gian lận giao dịch (Fraud Detection System - FDS) đượcchú trọng xây dựng và phát triển
Phát hiện gian lận giao dịch có những thách thức riêng khiến cho việc xây dựng
hệ thống trở thành một thử thách khó khăn cho các tổ chức Đầu tiên, do tính riêng tư
của thông tin khách hàng, khi xây dựng hệ thống dự đoán các thông tin nhạy cảmphải được bảo mật và không được chia sẻ Tiếp đến, các hành vi giao dịch, mua sắm
và các hành vi gian lận sẽ luôn thay đổi theo thời gian nên các hệ thống dự đoán sẽtrở nên lỗi thời nhanh chóng nếu không được cập nhật thường xuyên Những tháchthức trên cản trở việc xây dựng một hệ thong dự đoán duy trì độ chính xác cao Không
chỉ vậy, dữ liệu trong bài toán dự đoán là dữ liệu không cân bằng do các tỉ lệ gian lận
chỉ chiếm phan nhỏ trong tông số lượng giao dich (chỉ chiếm 1%)
Giải pháp phổ biến được đưa ra đó chính là sử dụng các thuật toán MachineLearning trong bài toán dự đoán vì có thé dự đoán các kết quả trong tương lai và phù
hợp khi xử lý dữ liệu rất lớn Tuy vậy vẫn còn vân đề về tính riêng tư trong thông tinkhách hàng nên các tô chức tài chính không thể chia sẻ dữ liệu khách hàng cho các
bên thứ 3 để có được một tập đữ liệu day đủ mọi hành vi gian lận dé huấn luyện mô
hình.
Trong khóa luận này nhóm sẽ ứng dụng Federated Learning sử dụngFramework TensorFlow được Google phát triển từ năm 2016 là một mô hình đượcphát triển từ Machine Learning với kha năng giải quyết van đề về bảo mật dữ liệukhách hàng, các tổ chức tài chính không cần chia sẻ dữ liệu với nhau mà vẫn đạt đượckết quả tương tự hay thậm chí còn tốt hơn
Trang 13CHƯƠNG 1: TỎNG QUAN
11 Dat van đề
Phần lớn gian lận giao dịch thẻ tín dụng hiện nay đều là gian lận thông qua giao dịch
trực tuyến, các tổ chức tài chính đã và đang nghiên cứu bằng nhiều phương phápnhằm khắc phục tình trạng này, Mỗi năm số tiền thiệt hại do các gian lận giao dịch
lên đến hàng tỷ đô Tuy vậy gian lận là một khái niệm phức tạp, có rất nhiều phương
thức hành vi khác nhau và trong khóa luận này nhóm sẽ tập trung vào hành vi gian lận thẻ tín dụng.
Pháp hiện gian lận giao dịch là một nhiệm vụ vô cùng khó khăn bởi tội phạm thực
hiện gian lận luôn thay đổi chiến thuật và hành vi, không chỉ vậy số lượng giao dịchtín dung là một dit liệu vô cùng khổng lồ, khiến cho việc phát hiện và phân tích gian
lận giao dịch trở nên không thể đối với con người Chính vì thế người ta bắt đầu sử
dụng 2 phương pháp chính dé giải quyết, đầu tiên là ngăn chặn giao dich bằng những
bộ luật hay còn gọi là rule-base nhằm chặn đứng các gian lận trước khi có cơ hội xảy
ra, còn lại là ứng dụng Machine Learning (máy học) để phát hiện gian lận giao dịchthẻ tín dụng và với xu hướng ngày càng nhiều trong thập kỷ qua bởi khả năng tự động
phát hiện các hành vi gian lận cho dù phải xử lý một lượng lớn dữ liệu.
Với sự tiện lợi cũng như độ chính xác cao của Machine Learning khi ứng dụng vào
phát hiện gian lận giao dịch, song vấn đề gặp phải khi các tổ chức tội phạm liên tục
thay đổi phương pháp gian lận khiến cho việc liên tục cập nhập mô hình dự đoán gặp
nhiều khó khăn, giải pháp cần đặt ra đó là việc chia sẻ nguồn dữ liệu của các giaodịch giữa các tổ chức tài chính với nhau qua đó mô hình dự đoán sẽ hạn chế bỏ sótcác trường hợp gian lận Tuy nhiên đó lại là một phương pháp không thé áp dụng bởi
dữ liệu giao dịch, thông tin khách hang là dữ liệu riêng tư có tính nhạy cảm cao không
chỉ đối với cá nhân khách hàng mà còn đối với tổ chức tài chính, các tổ chức thườngkhông thé chia sẻ thông tin khách hàng do sẽ gặp các vấn đề về pháp lý còn đối với
Trang 14cáo các trường hợp đó vì nếu rò rỉ sẽ ảnh hưởng đến uy tín thương mại và mắt kháchhàng.
Do đó phương pháp Federated Learning được ra đời bởi Google vào năm 2016, với
ý tưởng thay vì phải sử dụng phương pháp huan luyện tập trung, toàn bộ di liệu phảiđưa về máy chủ trung tâm dé huấn luyện thì với Federated Learning có thé huấn luyện
ngay tại máy chủ cục bộ sau đó cập nhật các thông số lên máy chủ trung tâm và nhận
về mô hình mới đã được cập nhật dựa trên các kết quả của các máy chủ cục bộ, vớithuật toán mới này khiến cho việc chia sẻ đữ liệu nhạy cảm giữa các tổ chức tài chínhvới nhau trở nên không còn cần thiết mà hiệu quả mang lại có thể ngang với huấnluyện tập trung hay thậm chí còn có thể mang lại kết quả tốt hơn
1.2 Thách thức và mục tiêu
Các thách thức trong việc xây dựng mô hình dự đoán gian lận giao dịch gặp phải:
© Concept Drift: là van đề gặp phải khi ta xây dựng mô hình dự đoán gian lận
giao dịch, mô hình đã học được các hành vi của gian lận giao dịch tuy nhiên
các hành vi đó nhanh chóng bị thay đồi bởi những chiến thuật gian lận của các
tổ chức tội phạm và mô hình mà ta xây dựng không thê cập nhật kịp thời vớinhững thay đổi đó [1] Vì thế việc có thé phân biệt chính xác các giao dịch nào
là gian lận và không gian lận là vấn đề quan trọng bởi khi các hành vi gian lậnthay đổi ta không dự đoán sai về các giao dịch không gian lận
© Mắt cân bằng dữ liệu: cũng là một vẫn dé của dự đoán gian lận giao dịch khi
số lượng giao dịch gian lận chỉ chiếm 0.17% và khi đó khiến cho việc dự đoán
bị lệch về giao dịch chiếm đa số [2], để giải quyết có 2 cách tiếp cận sẽ đượcnhóm trình bày ở những phần tiếp theo
Mục tiêu của nhóm trong khóa luận này đó là ứng dụng Federated Learning trong xây
dựng hệ thống phát hiện giao dịch bằng Framework TensorFlow và ứng dụng các
thuật toán bảo mật của Federated Learning dé kiểm tra thuật toán nao phi hợp với
bài toán.
11
Trang 15CHƯƠNG 2: CƠ SỞ LÝ THUYET
2.1 Gian lận giao dịch
Năm 201 1, hơn 700 triệu giao dịch điện tử diễn ra ở EU, số lượng giao dịch trực tuyến
tăng lên một cách nhanh chóng, tổng số tiền giao dịch lên đến 3000 tỷ ơ-rô, khi đượcứng dụng EMV (chip-embedded cards) hay còn gọi là thẻ gắn chip giúp tăng cường
bao mật thông tin của khách hàng và đồng thời cũng giúp giao dịch trực tiếp an toànhơn Tuy vậy số lượng giao dịch gian lận vẫn tiếp tục tăng lên đến con số 1.5 ty ơ-rô
mỗi năm để giải quyết vấn đề này cần có một phương pháp xây dựng một hệ thốngchuyên biệt dé phát hiện gian lận giao dịch dựa trên thông tin của giao dịch
2.2 Các loại gian lận giao dich
Gian lận giao dịch có thể được chia thành 5 loại trong khóa luận này, nhận biết cácloại gian lận hiện nay dé có thé phân biệt được sự khác nhau của từng loại gian lận
và có biện pháp đối phó
e_ Đánh mất / bi lấy cắp (chiếm 1% trong số các loại gian lận): thường xảy ra với
người lớn tuổi khi họ bị quan sát mật khẩu khi rút tiền, sau khi đã biết đượcmật khẩu, họ sẽ bị đánh cắp thẻ Trong trường hợp nay người thực hiện gian
lận giao dịch là kẻ trộm, loại gian lận này không được liệt kê vào nhóm tội
phạm có tổ chức [3]
© Đánh cắp trước khi khách hàng có thé sử dụng (chiếm hơn 1%): thẻ tín dung
trong quá trình sản xuất và vận chuyển bị đánh cắp Để tránh trường hợp này
ngân hàng có thể yêu cầu người làm thẻ nhận thẻ trực tiếp tại trụ sở của ngânhàng thay vì vận chuyển qua đường bưu điện hoặc sau khi nhận thẻ cần gọiđiện với ngân hàng đề xác thực [3]
e Gian lận do rò ri ID của thẻ (không đáng kể): card được làm giả dựa trên các
ID bị đánh cắp từ các tổ chức tội phạm [3]
Trang 16e Thẻ tín dụng giả (< 10% trong tông số giao dịch): thẻ được làm giả với thẻ tin
dụng thật đang được sử dụng trong database của tổ chức tài chính, tái tạo lại
mã vạch của thẻ và được làm giả lại bởi các tổ chức tội phạm, loại gian lậnnày chiếm đa số trong quá khứ nhưng với sự xuất hiện của thẻ gắn chip vấn
đề đã được khắc phục nhanh chóng Tuy nhiên với những thẻ không gắn chip
vẫn còn được sử dụng ở nhiều nơi trên thế giới [3]
e Gian lận bang giao dich truc tuyén (chiém 90% các giao dịch gian lận): hầu
hết các loại gian lận giao dịch hiện nay được thực hiện trực tuyến Các xácthực về mã thẻ, ngày hết hạn, thường bị rò rỉ do tắn công kho dữ liệu bởi các
tổ chức tội phạm và được bán trên Deep web British airways, Mariot Hotels
là những cái tên nỗi tiếng bị tổn thất lớn do loại gian lận này vào năm 2018
Người tham gia giao dịch hiện nay sử dụng công nghệ 3D SECURE hay thuật
ngữ “bảo mật 3 miền” được xác thực bởi người mua, người bán và miền có
khả năng tương tác, sử dụng mật khẩu dùng 1 lần dé thực hiện giao dịch, khiđiền đủ thông tin sẽ được gửi otp đề xác thực Tuy nhiên với những người giao
dịch ở các website như Amazon, Ebay thì lại thường không sử dụng loại bảo
mật này Một vấn đề khác, khi xảy ra các gian lận giao dịch thì các tổ chức tài
chính thường không báo cáo các van dé này do sợ ảnh hưởng đến uy tín thương
mại [3].
Trang 172.3 Các thách thức
Việc ứng dụng sử dụng máy học để xây dựng hệ thống phát hiện gian lận giao dịchkhông hề mới, trên thực tế đã có từ lâu và được sử dụng khắp toàn cầu Tuy vậy luôn
có những thách thức đặt ra để giải quyết bài toán phát hiện gian lận:
e Cách thức gian lận giao dich thay đổi theo thời gian - đây là một trong những
thách thức lớn nhất gặp phải khi xây dựng hệ thống phát hiện gian lận thẻ giaodịch, đối tượng thực hiện hành vi gian lận luôn tìm cách dùng các phương thức
mới để thực hiện gian lận Chính vì thế điều quan trọng đối với tất cả các hệ
thống dự đoán luôn cần phải được cập nhật thay đổi dựa trên những thay đổicủa đối tượng phạm tội Điều này khiến cho độ chính xác của các mô hình dựđoán bị giảm sút thay vì tiếp tục được huấn luyện để đạt được độ chính xáccao mà phải liên tục cập nhật hoặc sẽ không thể phát hiện được các hành vi
gian lận trong tương lai.
e Dữ liệu không cân bằng - vấn đề đặc trưng của bài toán do tỉ lệ giao dịch được
nhận định là gian lận chiếm tỷ lệ rất nhỏ trong tập dữ liệu vì thế đối với các hệ
thống dự đoán sẽ luôn gặp khó khăn trong việc đưa ra kết quả nhằm lẫn khiến
cho trải nghiệm dịch vụ khách hàng bị gián đoạn khi giao dịch của họ hoàn
toàn hợp pháp hay bỏ qua những hành vi gian lận ảnh hưởng đến tài chính và
uy tín của tổ chức tài chính
e Dữ liệu nhạy cảm - hầu hết các dữ liệu, đặc trưng đều là dữ liệu riêng tư không
thể chia sẻ giữa các tổ chức tài chính
e Thiếu dữ liệu - việc thu thập các dữ liệu đặc trưng liên quan tới bài toán luôn
gặp khó khăn bởi không phải tắt cả các trường hợp gian lận giao dịch đều được
phát hiện hoặc được báo cáo bởi các tổ chức tai chính do e ngại van dé uy tin
thương mại.
Trang 182.4 Ứng dụng máy học để phát hiện gian lận
Ứng dụng máy học khi xây dựng hệ thống phát hiện gian lận giao dịch đề thuđược các kết quả chính xác hay dự đoán hành vi bắt thường trong tập đữ liệu
là các phương pháp mà các tổ chức ngân hàng hiện nay đang ứng dụng
Machine Learning được chia làm 3 loại chính hiện nay:
© Supervised Learning (học giám sát) - là phương pháp cung cấp cho mô
hình đữ liệu đầu vào đã được gắn nhãn (đại diện cho thuộc tính quyếtđịnh) từ đó mô hình sử dụng nhãn được cung cấp để tìm ra các quan hệđặc trưng của đữ liệu Khi quá trình huấn luyện hoàn thành, ta sử dụng
dữ liệu test không có nhãn dé kiểm tra mô hình có dự đoán đúng nhãnhay không [4].
® Unsupervised Learning (học không giám sát) - là phương pháp cung
cấp cho mô hình dữ liệu đầu vào không được gắn nhãn, với mục đíchsau khi huấn luyện tạo ra được những nhóm hay cụm dữ liệu mới cóđặc điểm giống nhau từ dữ liệu ban đầu [4]
e Reinforcement Learning (học nâng cao) - là mô hình dựa trên phương
pháp phản hồi, khi huấn luyện và đưa ra kết quả mô hình sẽ được cộngđiểm với kết quả chính xác và trừ điểm với kết quả sai từ đó mỗi lầnđược nhận các phản hồi mô hình sẽ phát triển và đưa ra kết quả dự đoánchính xác tốt hơn [4]
Đối với xây dựng mô hình máy học cho bai toán dự đoán gian lận giao dich, mô hình
có thê thuộc loại giám sát, không giám sát hoặc tăng cường tùy thuộc vào dit liệu
dau vào.
15
Trang 192.5 Các phương pháp đánh giá mô hình dự đoán
2.5.1 Binary Classification, Confusion Matrix
Binary Classification hay còn gọi là phân lớp nhị phân, thuộc bai toán phan lớp với 2 nhãn trong bài toán dự đoán gian lận giao dịch sẽ là (0 và 1) tương ứng với giao dịch
không gian lận và gian lận lần lượt được gọi là Positive (1) và Negative (0)
Hinh 2.5.1.1: Confusion Matrix [4].
e TP (true positive): là số lượng giao dịch gian lận được dự đoán là chính xác
e FP (false positive): là số lượng dự đoán gian lận giao dịch không chính xác.
© TN (true negative): là số lượng giao dịch dự đoán là không gian lận chính xác
e EN (false negative): là số lượng giao dịch được dự đoán là không gian lận
không chính xác.
Dựa vào các giá trị trên ta có thể tính toán các độ do Accuracy, Precision, Recall,
F1-Score.
Trang 202.5.2 Accuracy
Là độ do dùng dé đánh giá tổng quan kết quả dự đoán của mô hình với giao dich
không gian lận và gian lận, công thức của Accuracy được tính như sau:
TP +TN TP +TN
số lượng mẫu TP +TN+FP+FN
Accuracy =
2.5.3 Precision
Là độ do dùng dé đánh giá độ chính xác của mô hình dựa trên tỷ lệ dy đoán giao dich
gian lận (TP) trên tổng dự đoán giao dịch gian lận (TP + FP), công thức như sau:
TP
Precision =———— rectslon TP + FP
2.5.4 Recall
Là độ do dùng để đánh giá độ chính xác của mô hình dựa trên tỷ lệ dự đoán giao dịch
gian lận (TP) trên tổng giao dịch thực sự gian lận (TP + FN), công thức như sau:
TP
7
Recall = TP EN
2.5.5 F1- Score
Là độ do ding dé đánh giá độ chính xác trung bình điều hoa (harmonic mean) của cả
recall va precision, F1 - score cao đông nghĩa với việc precision va recall cao.
2x Precision x Recall F1 Score =———————
Precision + Recall
Ta thay Accuracy tỏ ra không hiệu qua do tính mat cân bang của dữ liệu vi đa số cácgiao dịch trong dữ liệu đều là không gian lận chính vì thế kết quả dự đoán Accuracyluôn cao dù có thé du đoán sai hoàn toàn các giao dịch không gian lận, vì vậy 2 độ
đo hiệu quả nhất đề sử dụng trong bài toán chính là Precision và Recall khi đều thể
hiện độ chính xác đối với gian lận giao dịch
17
Trang 212.5.6 Loss
Là hàm mắt mát, kết qua của ham là một số thực không âm thé hiện mối quan hệ giữa
y (giá trị thực tế) và y* (kết quả dự đoán của mô hình)
ƒ0) =O" -y)"
Hay nói cách khác Loss thể hiện khoảng cách giữa vector nhãn thực và vector nhãn
mô hình dự đoán, mô hình dự đoán càng lệch thì Loss càng lớn và ngược lại, nếu dự
đoán càng gần giá trị thực thì Loss sẽ tiến dần về 0
Trang 222.6 Ung dụng Federated Learning phát hiện gian lận
2.6.1 Giới thiệu
Những ứng dụng của Machine Learning góp phan thúc day rất nhiều lĩnh vực trên thế
giới hiện nay, tuy nhiên hiệu quả của Machine Learning tùy thuộc vào số lượng vàchất lượng của dữ liệu mà mô hình được huấn luyện Vấn đề xảy ra khi có rất nhiều
dir liệu có tính nhạy cảm va bảo mật cao không thể chia sẻ, một ví dụ chính là các
giao dịch của khách hàng, những thông tin này không thé chia sẻ với bên thứ 3, điềunày đã ngăn cản các mô hình đạt được độ chính xác cao vì thế nên Federated Learning
Ta đời.
Giống như Machine Learning, Federated Learning huấn luyện mô hình M đề dự đoánhàm f, trên tập dữ liệu D Mô hình M có thể là mô hình mạng neural hoặc không,
Ngược lại với Centralized Learning (học tập trung) tập D được phân tán thành n máy
chủ P = { Pi, Py, Pn} mỗi P chứa dữ liệu riêng tư và chỉ có máy chủ của chính
tập đó truy cập, các máy chủ khách khác sẽ không biết được dữ liệu của các máy chủcòn lại.
(1) = ©(M,~)
(6) Me= 7 trịerze, Tne)
Hình 2.6.1.1: mô hình thuật toán Federated Learning [5].
19
Trang 23Tại máy chủ trung tâm khởi tạo mô hình M (mô hình toàn cục) và gửi các tham số q
xuống các máy cục bộ và được dùng làm tham số đầu vào cập nhật mô hình L (mô
hình cục bộ) sau quá trình hình luyện với dữ liệu riêng tư tính toán ra được gradient
hoặc trọng số gọi là r và gửi lại máy chủ trung tâm dé tổng hợp va cập nhật mô hình
ở máy chủ trung tâm và tiếp tục lặp lại, chỉ tiết quá trình được mô tả như sau:
Khởi đầu tạo máy chủ trung tâm, để huấn luyện mô hình sử dụng một hàm Q
có thể được xem như đầu vào cho mô hình ở vòng huấn luyện trước và tạo ra
query q.cho vòng hiện tại Khi bắt đầu huấn luyện mô hình M có thể rỗng hoặc
được tạo ngẫu nhiên.
Query q, được gửi đến các máy chủ cục bộ và yêu cầu các thông tin riêng biệtcủa mỗi máy chủ hoặc các thông tin đã được tông hợp của mỗi tập dữ liệu tạimáy chủ cục bộ, các thông tin được yêu cầu gửi đến máy chủ trung tâm là
gradient, model weight.
Khi nhận được q mô hình cục bộ L được huấn luyện với q là đầu vào của môhình cùng với tập dữ liệu cục bộ và đầu ra của mô hình là biến cập nhật r:x
Khi mô hình cục bộ L hoàn thành và ra được biến rx sau đó sẽ gửi lên máychủ trung tâm dé tong hợp tat cả biến nix từ các máy chủ cục bộ
Sau khi nhận được tất cả nx với R = {ri r› „rã ra } thông qua thuật toán
tong hợp dé áp dụng vào mô hình F với đầu vào là R và trả về mô hình M
Trang 242.6.2 FedSGD
FedSgd là thuật toán co sở trong Federated Learning, ở các máy chủ cục bộ được
chọn ngẫu nhiên dé huấn luyện mô hình sau đó sẽ gửi lên cho máy chủ trung tâm
e w#:là trọng số của mô hình ở vòng t tập máy cục bộ k
e C:là số lượng máy chủ cục bộ được huấn luyện mỗi vòng
e 7: là learning rate
® px: là tập điểm dữ liệu trên tập máy cục bộ k
© nx: là số lượng điểm dữ liệu của tap máy cục bộ k
e ñ(w): là loss của mô hình với tham số w
21
Trang 25Thuật toán FedSGD được diễn giải bởi công thức sau:
Ở mỗi máy chủ cục bộ, sau khi được huấn luyện bởi mô hình sau đó ra được tham số
Hình 2.6.2.1: Thuật toán FedSG tai máy chu cục bộ [7].
Từ đó các máy chủ cục bộ gửi gradient của máy chủ cục bộ thứ k được tính trung
bình và gửi về máy chủ trung tâm dé tổng hợp ra trọng số w và cập nhật mô hình toàn
cục.
K nụ
Wt+1 — We — n> Đà Ik
k=1
Hình 2.6.2.2: Tổng hợp trong số tir gradient tai máy chủ trung tâm [7]
Thông qua hình minh họa dưới đây ta thấy được luồng hoạt động của thuật toán
Server
g=(g1+g2+g3)/3
Hình 2.6.2.3: Mô hình hoạt động của thuật toán FedSGD [7].
Trang 262.6.3 FedAvg
Đối với thuật toán FedAvg có một chút thay đổi so với FedSGD
Thay vì gửi thông số gradient về server dé tổng hop thì với FedAvg, gradient sẽ đượctính toán ngay tại máy chủ cục bộ dé cho ra trọng số của mô hình cục bộ và lúc nàymáy chủ trung tâm sẽ nhận được trung bình trọng số từ tat ca máy cục bộ [7]
Hình 2.6.3.1: Thuật toán FedAvg [7].
Thông qua hình minh họa ta thấy được luồng của thuật toán:
Server
Wold = Wnew
Hình 2.6.3.2: Mô hình hoạt động của thuật toán FedAvg [7].
Trang 272.6.4 FedProx
FedProx cũng giống với FedAvg, ở tập máy cục bộ được chọn ngẫu nhiên mỗi vòng
các thay đồi về tham số sẽ diễn ra ở máy cục bộ và sẽ được gửi và tính trung bình ở
máy chủ trung tâm Nhưng điểm khác ở 2 thuật toán đã tìm hiểu, FedProx được đềxuất với môi trường mạng không đồng nhát, trong quá trình huấn luyện FedAvg cho
thây quá trình hội tụ diễn ra rất lâu và các kết quả giảm đi độ chính xác khi môi trường
mang ở các thiết bị huấn luyện bị nhiễu và thời gian huấn luyện bị kéo dài [7]
Với ý tưởng tạo ra thuật toán để có thể tự xử lý ở máy chủ cục bộ khi kết nối mạngcủa thiết bị không ổn định hoặc các tập dữ liệu ở mỗi máy cục bộ là khác nhau.
lad ty2
Wy F,(Wy, Xx) + 5 |W, — W'||
Hình 2.6.4.1: Thuật toán FedProx [7].
Sử dụng Proximal Term = |W, — W'||? có khả năng tổng hợp các trong số trong
với môi trường kết nối mạng bị nhiễu, giảm tối thiểu các can thiệp cập nhật ở máy
cục bộ mà không cần điều chỉnh số lượng epoch như FedAvg bằng cách ràng buộc
trọng số của máy cục bộ hiện tại tính toán sao cho gần giống với trọng số của máy
chủ trung tâm.
Trang 282.7 Mô hình mang Multi - Layer Perceptron
2.7.1 Giới thiệu
Là mô hình liên kết lẫn nhau giữa các lớp, một mô hình cơ bản có 1 lớp đầu vào và
1 lớp đầu ra, Multi - Layer Perceptron là mô hình mạng neural có nhiều lớp, để tạo
ra mô hình mạng ta liên kết các neural lại với nhau đề cho đầu ra của một neural này
là đầu vào của một neural khác, mô hình được lấy cảm hứng và mô phỏng lại các hoạt
động của não bộ khiến cho mô hình có khả năng học hỏi
Mô hình Multi - Layer Perceptron có 1 lớp đầu vào, ứng với mỗi đầu vào sẽ có 1
neural hay còn gọi là node, có 1 lớp đầu ra ứng với mỗi node trong mô hình mạng,ngoài ra mô hình còn có thể có nhiều lớp ân chứa số lượng neural không giới hạn
Layer Layer
Hình 2.7.1.1: Mô hình mang Multi - Layer Perceptron [8].
25
Trang 292.7.2 Khái niệm
Perceptron: ứng với một node và là đơn vị cơ bản trong mô hình mạng, được
tạo thành từ đầu vào xi, Xa, ứng với trọng sé tương ứng Wi, W2, Mỗi nodetrong mô hình có chức năng nhận dau ra của node khác làm đầu vào của mình
nhân với trọng sô đê tạo ra đâu ra y.
X DD_D_Š>
> >
x2 >
x3 >
Input Neural Output
Hình 2.7.2.1: Mô hình mang neural | lớp [8].
Layer: được gọi là lớp, ngoài lớp đầu vào và lớp đầu ra, mô hình mang Multi
- Layer Perceptron là mô hình có nhiều lớp ở giữa hay còn gọi là lớp ân(hidden layer), số lượng lớp được ký hiệu là L, L=n - 1 (lớp đầu vào)
Weight & Biases: với L lớp sẽ có L ma trận tương ứng dé tính trọng số được
ký hiệu là w, trọng số được khởi tạo một cách ngẫu nhiên mà sẽ được cập nhậttrong quá trình huấn luyện, những đặc trưng quan trọng sẽ được gán trọng sốcao đồng nghĩa với những đặc trưng có trọng số bằng 0 nghĩa là không quantrọng Bias là thành phan tuyến tính được áp dụng với dữ liệu đầu vào, ký hiệu
là b, cũng là tham số được cập nhật trong quá trình huấn luyện
Hàm kích hoạt: được áp dụng cho ma trận L, áp dụng với từng thành phan của
ma trận đó, sau đó sắp xếp lại đúng thứ tự dé có được ma trận có kích thước
giông ma trận đâu vào.
Sigmod: nhận đầu vào là số thực đưa về miền giá trị (0,1), được sử dụng cho
mô hình dự đoán xác suất vi sẽ nằm trong khoảng (0,1)