Kiến trúc mạng AESVDD cho tập MNIST

5 ỨNG DỤNG PHÁT HIỆN DỮ LIỆU NGOẠI LAI

4.10 Kiến trúc mạng AESVDD cho tập MNIST

Để thực hiện việc so sánh với AESVDD, chúng tôi cũng thực nghiệm tập dữ liệu trên với SVDD/OCSVM. Đối với SVDD/OCSVM, kernel Gaussian sẽ được sử dụng, các siêu tham số được khởi tạo γ =auto, ν = 0.26.

4.4.3 Kết quả

Kết quả thực nghiệm của 10 thiết lập giữa OCSVM/SVDD với bài toán biên cứng và biên mềm của AESVDD cho từng lớp dữ liệu trong tập MNIST được cho như Bảng 4.8.

OCSVM/SVDD AESVDD biên cứng AESVDD biên mềm

0 vs. all 0.9800 0.9710 0.9521 1 vs. all 0.9925 0.9922 0.9859 2 vs. all 0.8090 0.8918 0.8468 3 vs. all 0.8748 0.8919 0.8808 4 vs. all 0.9296 0.9454 0.8985 5 vs. all 0.7461 0.8493 0.7662 6 vs. all 0.9423 0.9791 0.9629 7 vs. all 0.9284 0.9367 0.9116 8 vs. all 0.8570 0.9272 0.9219 9 vs. all 0.9135 0.9633 0.9472

4.4. Tập dữ liệu MNIST Nhận xét: Qua bảng số liệu trên, chúng tơi có thể đưa ra vài nhận xét sau. AESVDD cho kết quả tương đối tích cực. Rõ ràng, kết quả mà AESVDD đem lại tốt hơn hẳn so với OCSVM/SVDD. Giữa biến thể biên cứng và biên mềm của AESVDD thì kết quả của AESVDD biên cứng có phần tốt hơn.

(a) Một số mẫu số 0 là bình thường nhất

(b) Một số mẫu số 0 là bất thường nhất

Hình 4.11: Một số mẫu ví dụ trong tập kiểm thử thuộc lớp 0

(a) Một số mẫu số 1 là bình thường nhất

(b) Một số mẫu số 1 là bất thường nhất

Hình 4.12: Một số mẫu ví dụ trong tập kiểm thử thuộc lớp 1

(a) Một số mẫu số 2 là bình thường nhất

(b) Một số mẫu số 2 là bất thường nhất

4.4. Tập dữ liệu MNIST

(a) Một số mẫu số 3 là bình thường nhất

(b) Một số mẫu số 3 là bất thường nhất

Hình 4.14: Một số mẫu ví dụ trong tập kiểm thử thuộc lớp 3

(a) Một số mẫu số 4 là bình thường nhất

(b) Một số mẫu số 4 là bất thường nhất

Hình 4.15: Một số mẫu ví dụ trong tập kiểm thử thuộc lớp 4

(a) Một số mẫu số 5 là bình thường nhất

(b) Một số mẫu số 5 là bất thường nhất

4.4. Tập dữ liệu MNIST

(a) Một số mẫu số 6 là bình thường nhất

(b) Một số mẫu số 6 là bất thường nhất

Hình 4.17: Một số mẫu ví dụ trong tập kiểm thử thuộc lớp 6

(a) Một số mẫu số 7 là bình thường nhất

(b) Một số mẫu số 7 là bất thường nhất

Hình 4.18: Một số mẫu ví dụ trong tập kiểm thử thuộc lớp 7

(a) Một số mẫu số 8 là bình thường nhất

(b) Một số mẫu số 8 là bất thường nhất

4.4. Tập dữ liệu MNIST

(a) Một số mẫu số 9 là bình thường nhất

(b) Một số mẫu số 9 là bất thường nhất

4.5. Tập dữ liệu Paysim

4.5 Tập dữ liệu Paysim 4.5.1 Mô tả dữ liệu

Tập dữ liệu Paysim[5] là một tập dữ liệu về tài chính, được sinh từ một bộ trình mơ phỏng gọi là Paysim. Paysim sử dụng nguồn dữ liệu từ một tập dữ liệu riêng tư để thực hiện sinh dữ liệu. Điều này đạt được bằng cách mô phỏng các giao dịch tiền di động dựa trên một mẫu giao dịch thực của một quốc gia ở châu Phi. Dữ liệu ban đầu được cung cấp bởi một nhà cung cấp dịch vụ tài chính di động đa quốc gia. Trong tập dữ liệu này, hành vi gian lận của người dùng được thực hiện bằng cách chiếm quyền kiểm soát tài khoản của khách hàng, cố gắng làm rỗng tiền bằng cách chuyển sang tài khoản khác rồi rút tiền mặt ra khỏi hệ thống. Chi tiết tập dữ liệu được trình bày ở trong Bảng 4.9.

Dataset name Synthetic Financial Datasets for Fraud Detection

Domain Financial Transactions

Url https://www.kaggle.com/ntnu-testimon/paysim1

Year 2015

Type Synthetic data

Subset PS_20174392719_1491204439457_log.csv

Annotated Yes

Unbalanced Yes

No. of entries 6,362,620

Contamination rate 0.129%

Time duration 1 month

No. of features 11

List of features step, type, amount, nameOrig, oldbalanceOrg, newbalanceOrig, nameDest, oldbalanceDest, newbalanceDest, isFraud, isFlaggedFraud

Bảng 4.9: Tổng quan tập dữ liệu Paysim

Tập dữ liệu bao gồm các giao dịch tài chính xảy ra trong khoảng thời gian 30 ngày, gồm 6.362.620 giao dịch, trong đó có 8213 giao dịch là gian lận. Mỗi giao dịch bao gồm 11 đặc trưng như sau:

4.5. Tập dữ liệu Paysim

tương ứng với 1 giờ trong tổng cộng 744 giờ (tức 30 ngày). type: Giá trị này thể hiện loại hay phương thức giao dịch amount: Số tiền giao dịch

nameOrig: Tài khoản nguồn, tức tài khoản người chuyển

oldbalanceOrg: Số dư ban đầu của tài khoản nguồn trước khi giao dịch newbalanceOrig: Số dư mới của tài khoản nguồn sau khi giao dịch nameDest: Tài khoản đích, tức tài khoản người nhận

oldbalaneDest: Số dư ban đầu của tài khoản đích trước khi giao dịch newbalanceDest: Số dư mới của tài khoản nguồn sau khi giao dịch. isFraud: Giá trị biểu thị sự gian lận hay không.

isFlaggedFraud: Giá trị biểu thị sự gian lận có số tiền giao dịch lớn hơn 200.000

4.5.2 Tiền xử lý dữ liệu Kỹ thuật đặc trưng

Kỹ thuật đặc trưng là quá trình chuyển đổi tập dữ liệu thơ ban đầu thành tập các đặc trưng (features) có thể giúp biểu diễn tập dữ liệu ban đầu tốt hơn, tạo điều kiện để giải quyết các bài tốn dễ dàng hơn, giúp tương thích với từng mơ hình dự đốn cụ thể, cũng như cải thiện độ chính xác của mơ hình dự đốn hiện tại.

Đối với những biến phân loại (categorfical variable), để có thể sử dụng chúng cho quá trình học thì một bước tiền xử lý thực hiện chuyển đổi những giá trị này thành những biến số là thực sự cần thiết. Có khá nhiều cách để thực hiện việc chuyển đổi này. Q trình này có thể ảnh hưởng tới chất lượng của mơ hình học, vì vậy bộ mã hóa phải được lựa chọn một cách cân nhắc và cẩn thận.

Một vài kỹ thuật mã hóa (encoding) được giới thiệu ở Bảng 4.10. Ngồi ra cịn khá nhiều kỹ thuật mã hóa khác, chi tiết cho những sự nghiên cứu này tại [7].

4.5. Tập dữ liệu Paysim

Kỹ thuật Mô tả

One Hot Encoding Mỗi danh mục sẽ được ánh xạ bởi một vector chứa 1 và 0 để biểu diễn sự hiện diện của đặc trưng.

Label Encoding Mỗi danh mục sẽ tương ứng với một giá trị từ 1 đến N (N là số danh mục).

Weight of Evidence Encoding Là một độ đo ước lượng mức độ hỗ trợ tới một giả định nào đó.

Hashing Encoding Ánh xạ các biến sang một vùng không gian lớn hơn của số nguyên

Bảng 4.10: Một số kỹ thuật mã hóa

Lựa chọn đặc trưng (Feature Selection) - Giá trị thông tin (Information Value)

Giá trị thông tin (Information Value - IV) là một kỹ thuật vô cùng hữu dụng trong việc xác định tầm quan trọng của một đặc trưng nào đó. Giá trị này liên quan tới trọng số bằng chứng (Weight of Evidence -WOE). Trước hết, chúng tôi sẽ giới thiệu khái quát về WOE. WOE là giá trị thể hiện sức mạnh dự đoán của một biến độc lập trong mối quan hệ với các biến phụ thuộc. Thuật ngữ này được xuất hiện đầu tiên trong thị trường tài chính, nên nó có thể được mơ tả một cách tổng quát như là một độ đo thể hiện sự phân chia giữa lớp khách hàng tốt (good)-những người đã trả khoản vay và khách hàng không tốt (bad)-những người chưa trả khoản vay. Công thức của WOE như sau:

WOE=log( pi p ni n ) với

pi: Số mẫu thuộc lớp good của đặc trưng phân loại đang xét

ni: Số mẫu thuộc lớp bad của đặc trưng phân loại đang xét

p: Tổng số mẫu thuộc lớp good

4.5. Tập dữ liệu Paysim

Quay lại với giá trị thông tin. Giá trị này được xác định như sau:

IV =X

(%of non−events−%of events)∗W OE

Sau khi tính tốn giá trị IV của từng đặc trưng, chúng tôi sẽ thực hiện đối chiếu với bảng quy tắc đánh giá tương ứng với ngưỡng giá trị IV như Bảng 4.11.

Giá trị thơng tin Mức độ dự đốn

<0.02 Khơng hữu dụng cho việc dự đốn 0.02–0.1 Sức mạnh dự đoán yếu

0.1–0.3 Sức mạnh dự đoán vừa phải >0.3 Sức mạnh dự đoán mạnh

Bảng 4.11: Quy tắc xử lý ngưỡng giá trị IV

Sau khi khái quát qua một số khái niệm về IV, WOE ở trên, chúng tôi sẽ quay trở lại việc tiền xử lý tập dữ liệu Paysim. Như đã trình bày ở Mục [4.9], tập Paysim có 11 đặc trưng gồm: step,type, amount, nameOrig,oldbalanceOrg, newbalanceOrig,nameDest,oldbalanceDest,isFlaggedFraud,newbalanceDest, isFraud. Giá trịisFraud chính là lớp nhãn của tập, với giá trị 0 đại diện cho giao dịch bình thường, 1 đại diện cho giao dịch bất thường. Với giá trị contamination-rate là 0.129% làm cho tập dữ liệu mất cân bằng ở mức cao.

Như đã trình bày, tập dữ liệu trên là quá trình khảo sát trong một tháng, và đặc trưng step đại diện cho yếu tố thời gian này. Những rõ ràng, với giá trị nằm trong đoạn từ [1,743]không phản ánh được thông tin hữu dụng. Do đó, chúng tơi sẽ khai thác yếu tố step này. Từ đặc trưng step, chúng tôi sẽ thực hiện mở rộng thêm bảy đặc trưng mới trong đó, ba đặc trưng hour, day, weekday được encode trực tiếp từ giá trị step. Cụ thể như sau:

hour- đại diện cho khung giờ theo chu kỳ 24 h tại thời điểm giao dịch, giá trị thuộc đoạn [0, 23].

day- đại diện cho khung ngày theo chu kỳ 31 ngày tại thời điểm giao dịch, giá trị thuộc đoạn [1, 31].

weekday- đại diện cho khung ngày trong tuần theo chu kỳ một tuần bảy ngày tại thời điểm giao dịch, giá trị thuộc đoạn [1, 7].

4.5. Tập dữ liệu Paysim

Một điều đặc biệt ở đây, vì hour và weekday không phản ánh được chu kỳ thời gian tự nhiên, nên chúng tôi tạo thêm bốn đặc trưng mới theo phép biến đổi sin,cos cho hour và weekday. Tóm lại, bảy đặc trưng mới được thêm bao gồm: hour, day, weekday, sin_hour, cos_hour, sin_weekday, cos_weekday. Đối với đặc trưng type, tập gồm năm danh mục khác nhau, chúng tôi quyết định sử dụng One Hot Encoding ở đây, do đó mà năm đặc trưng mới tiếp tục được thêm vào tập dữ liệu: type_CASH_IN, type_CASH_OUT,type_TRANSFER, type_PAYMENT, type_DEBIT. Ngồi ra, chúng tơi cũng áp dụngLabelEncoderđối với hai đặc trưng nameOrig và nameDest . Sau khi tiến hành xử lý dữ liệu, mở rộng đặc trưng, tập dữ liệu Paysim hiện tại gồm có 23 đặc trưng trong đó 11 đặc trưng gốc, 12 đặc trưng mở rộng. Chúng tơi sẽ tiến hành phân tích đặc trưng, tính tốn giá trị IV cho mỗi đặc trưng để phục vụ cho quá trình lựa chọn đặc trưng cuối cùng, trước khi thực hiện q trình huấn luyện mơ hình. Kết quả tính tốn giá trị IV được biểu diễn ở các Bảng 4.12 và 4.13. Sức mạnh dự đoán mạnh feature IV feature IV nameDest 3.21 type 0.79 oldbalanceOrg 2.09 sin_hour 0.45 newbalanceOrig 1.01 day 0.31 type_TRANSFER 0.99 step 0.30 amount 0.88

Bảng 4.12: Các đặc trưng có giá trị IV có sức mạnh dự đốn mạnh

Vừa phải Yếu Vơ dụng

feature IV feature IV feature IV

hour 0.22 type_CASH_IN 0.05 newbalanceDest 0.00 oldbalanceDest 0.18 cos_weekday 0.05 type_DEBIT 0.00 cos_hour 0.18 weekday 0.05 isFlaggedFraud 0.00 type_PAYMENT 0.14 sin_weekday 0.03

type_CASH_OUT 0.09 nameOrig 0.02

4.5. Tập dữ liệu Paysim

4.5.3 Thiết lập dữ liệu để huấn luyện mơ hình

Dựa vào bảng số liệu về các giá trị VI ở Mục [4.5.2], chúng tôi sẽ quyết định chọn chín đặc trưng ở Bảng 4.12 để thực hiện q trình huấn luyện mơ hình. Chúng tơi sẽ thực hiện chia tập dữ liệu thành các tập dữ liệu nhỏ cho quá trình huấn luyện với tỷ lệ huấn luyện/kiểm thử/kiểm chứng (train/test/validate) là 0.6/0.2/0.2. Chúng tôi sẽ tiến hành các thiết lập thử nghiệm như Bảng 4.14.

Set up Kích thước Tập huấn luyện Tập kiểm chứng Tập kiểm thử

setup1 100000 60000 20000 20000

setup2 1000000 600000 200000 200000

setup3 6362620 3817572 1272524 1272524

Bảng 4.14: Kích thước mỗi setup cho q trình huấn luyện và kiểm thử

4.5.4 Thiết lập mơ hình

Chúng tơi sẽ tiến hành thực nghiệm tập dữ liệu này với SVDD/OCSVM và Autoencoder SVDD. Đối với SVDD/OCSVM, kernel Gaussian sẽ được sử dụng, các siêu tham số được khởi tạo γ =auto, ν = 0.05.

Kiến trúc mạng được sử dụng trong AESVDD như Hình 4.21. Chúng tơi sẽ sử dụng thuật tốn tối ưu Adam. Với các siêu tham số đầu vào gồm: learning rate

η =0.001, chạy qua100 epochsvớibatch sizelà 128,weight decayλ=0.001.

Đối với hàm mục tiêu biên mềm, giá trịν =0.05. Tỷ lệ huấn luyện/kiểm thử/kiểm

chứng (train/test/validate) là 0.6/0.2/0.2.

4.5. Tập dữ liệu Paysim

4.5.5 Kết quả

Sau khi thực nghiệm với từng setup ở trên đối với OCSVM/SVDD với AESVDD, chúng tơi có được kết quả như Bảng 4.15

Set up Kích thước OCSVM/SVDD AESVDD biên

cứng AESVDD biênmềm

setup1 100000 0.9139 0.9344 0.9212

setup2 1000000 0.8683 0.8711 0.8593

setup3 6362620 0.8533 0.8612 0.8372

Bảng 4.15: AUCs cho mỗi setup trên tập Paysim

Set up Kích thước OCSVM/SVDD AESVDD biên

cứng AESVDD biênmềm

setup1 100000 238.8 34.26 46.82

setup2 1000000 2642.5 412.16 520.85

setup3 6362620 189367 3583.4 3787.6

Bảng 4.16: Thời gian huấn luyện (giây) cho mỗi setup trên tập Paysim

(a) Dữ liệu được PCA về 2 chiều trước khi apply

Autoencoder SVDD

(b) Dữ liệu PCA về 2 chiều sau khi apply Autoencoder

SVDD

Hình 4.22: Trực quan hóa sự biến đổi dữ liệu trong quá trình huấn luyện AESVDD

Nhận xét

Dựa vào kết quả thực nghiệm ở trên, chúng tôi đưa ra một số nhận xét sau: thứ nhất về thời gian huấn luyện, AESVDD cho kết quả tốt hẳn, thời gian huấn luyện giảm đi rất nhiều so với việc sử dụng OCSVM/SVDD, rõ ràng điều này giúp

4.5. Tập dữ liệu Paysim

cải thiện rất nhiều về khía cạnh thời gian huấn luyện trong thực tế. Đối với kết quả AUCs, setup3 và setup4 của AESVDD có thơng số khơng tốt bằng OCSVM/SVDD. Chúng tơi cũng đưa một số ngun nhân vì kết quả có phần khơng tốt này. Thứ nhất, việc lựa chọn những siêu tham số vẫn mang tính chủ quan. Thứ hai, việc tiền xử lý dữ liệu vẫn chưa đạt được sự tối ưu. Chúng tôi vẫn đang cố gắng tối ưu hai điều này để đạt được kết quả tốt nhất có thể.

5 ỨNG DỤNG PHÁT HIỆN DỮLIỆU NGOẠI LAI LIỆU NGOẠI LAI

5.1 Ứng dụng phát hiện giao dịch gian lận trong thị trường tài chính

5.1.1 Giới thiệu mơ hình

Có thể nói rằng, đầu năm 2010, phần lớn các ngân hàng đã áp dụng hệ thống phát hiện ngoại lai vào việc phát hiện gian lận, lừa đảo một cách tự động. Trong đó, theo như nghiên cứu của tổ chức AI Oppotunity Landscape, khoảng 26% những quỹ đầu tư mạo hiểm của ngành công nghiệp ngân hàng dành sự chú trọng và đầu tư vào những hệ thống, ứng dụng phát hiện gian lận, nhiều hơn bất kỳ lĩnh vực nào khác lúc bấy giờ. Số liệu này để thấy rằng, tiềm năng của việc áp dụng AI vào thực tiễn diễn ra mạnh mẽ như thế nào.

Trước tiên, chúng tôi sẽ tổng quan việc vận dụng học máy vào việc phát hiện gian lận trong ngân hàng và đi sâu vào một case study cụ thể chính là việc phát hiện những giao dịch khơng nhất qn, cũng như sự khơng chính xác về tài khoản nguồn và tài khoản đích khi thực hiện giao dịch. Khi một ngân hàng sử dụng một mơ hình phát hiện gian lận trong hệ thống và xem nó như một cơng cụ để xử lý dữ liệu, mà ở đây chính là các giao dịch hằng ngày. Những giải pháp cho việc phát hiện và ngăn chặn thường phổ biến hơn so với việc dự đốn cũng như phân tích tập dữ liệu. Loại ứng dụng này u cầu một mơ hình học máy được huấn luyện với loại dữ liệu dạng dịng (streaming) mang tính liên tục (hay cịn gọi là online learning). Ứng dụng sẽ thông báo cho giao dịch viên trong trường hợp có sự bất thường đối với một giao dịch nào đó. Giao dịch viên sẽ xem xét cảnh báo, thực

5.1. Ứng dụng phát hiện giao dịch gian lận trong thị trường tài chính

Một số tiếp cận phổ biến hiện nay

Giới thiệu các biến slack