Một số mẫu ví dụ trong tập kiểm thử thuộc lớp 9

Một phần của tài liệu Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp (Trang 82 - 88)

5 ỨNG DỤNG PHÁT HIỆN DỮ LIỆU NGOẠI LAI

4.20 Một số mẫu ví dụ trong tập kiểm thử thuộc lớp 9

4.5. Tập dữ liệu Paysim

4.5 Tập dữ liệu Paysim 4.5.1 Mô tả dữ liệu

Tập dữ liệu Paysim[5] là một tập dữ liệu về tài chính, được sinh từ một bộ trình mơ phỏng gọi là Paysim. Paysim sử dụng nguồn dữ liệu từ một tập dữ liệu riêng tư để thực hiện sinh dữ liệu. Điều này đạt được bằng cách mô phỏng các giao dịch tiền di động dựa trên một mẫu giao dịch thực của một quốc gia ở châu Phi. Dữ liệu ban đầu được cung cấp bởi một nhà cung cấp dịch vụ tài chính di động đa quốc gia. Trong tập dữ liệu này, hành vi gian lận của người dùng được thực hiện bằng cách chiếm quyền kiểm soát tài khoản của khách hàng, cố gắng làm rỗng tiền bằng cách chuyển sang tài khoản khác rồi rút tiền mặt ra khỏi hệ thống. Chi tiết tập dữ liệu được trình bày ở trong Bảng 4.9.

Dataset name Synthetic Financial Datasets for Fraud Detection

Domain Financial Transactions

Url https://www.kaggle.com/ntnu-testimon/paysim1

Year 2015

Type Synthetic data

Subset PS_20174392719_1491204439457_log.csv

Annotated Yes

Unbalanced Yes

No. of entries 6,362,620

Contamination rate 0.129%

Time duration 1 month

No. of features 11

List of features step, type, amount, nameOrig, oldbalanceOrg, newbalanceOrig, nameDest, oldbalanceDest, newbalanceDest, isFraud, isFlaggedFraud

Bảng 4.9: Tổng quan tập dữ liệu Paysim

Tập dữ liệu bao gồm các giao dịch tài chính xảy ra trong khoảng thời gian 30 ngày, gồm 6.362.620 giao dịch, trong đó có 8213 giao dịch là gian lận. Mỗi giao dịch bao gồm 11 đặc trưng như sau:

4.5. Tập dữ liệu Paysim

tương ứng với 1 giờ trong tổng cộng 744 giờ (tức 30 ngày). type: Giá trị này thể hiện loại hay phương thức giao dịch amount: Số tiền giao dịch

nameOrig: Tài khoản nguồn, tức tài khoản người chuyển

oldbalanceOrg: Số dư ban đầu của tài khoản nguồn trước khi giao dịch newbalanceOrig: Số dư mới của tài khoản nguồn sau khi giao dịch nameDest: Tài khoản đích, tức tài khoản người nhận

oldbalaneDest: Số dư ban đầu của tài khoản đích trước khi giao dịch newbalanceDest: Số dư mới của tài khoản nguồn sau khi giao dịch. isFraud: Giá trị biểu thị sự gian lận hay không.

isFlaggedFraud: Giá trị biểu thị sự gian lận có số tiền giao dịch lớn hơn 200.000

4.5.2 Tiền xử lý dữ liệu Kỹ thuật đặc trưng

Kỹ thuật đặc trưng là quá trình chuyển đổi tập dữ liệu thơ ban đầu thành tập các đặc trưng (features) có thể giúp biểu diễn tập dữ liệu ban đầu tốt hơn, tạo điều kiện để giải quyết các bài tốn dễ dàng hơn, giúp tương thích với từng mơ hình dự đốn cụ thể, cũng như cải thiện độ chính xác của mơ hình dự đốn hiện tại.

Đối với những biến phân loại (categorfical variable), để có thể sử dụng chúng cho q trình học thì một bước tiền xử lý thực hiện chuyển đổi những giá trị này thành những biến số là thực sự cần thiết. Có khá nhiều cách để thực hiện việc chuyển đổi này. Q trình này có thể ảnh hưởng tới chất lượng của mơ hình học, vì vậy bộ mã hóa phải được lựa chọn một cách cân nhắc và cẩn thận.

Một vài kỹ thuật mã hóa (encoding) được giới thiệu ở Bảng 4.10. Ngồi ra cịn khá nhiều kỹ thuật mã hóa khác, chi tiết cho những sự nghiên cứu này tại [7].

4.5. Tập dữ liệu Paysim

Kỹ thuật Mô tả

One Hot Encoding Mỗi danh mục sẽ được ánh xạ bởi một vector chứa 1 và 0 để biểu diễn sự hiện diện của đặc trưng.

Label Encoding Mỗi danh mục sẽ tương ứng với một giá trị từ 1 đến N (N là số danh mục).

Weight of Evidence Encoding Là một độ đo ước lượng mức độ hỗ trợ tới một giả định nào đó.

Hashing Encoding Ánh xạ các biến sang một vùng khơng gian lớn hơn của số nguyên

Bảng 4.10: Một số kỹ thuật mã hóa

Lựa chọn đặc trưng (Feature Selection) - Giá trị thông tin (Information Value)

Giá trị thông tin (Information Value - IV) là một kỹ thuật vô cùng hữu dụng trong việc xác định tầm quan trọng của một đặc trưng nào đó. Giá trị này liên quan tới trọng số bằng chứng (Weight of Evidence -WOE). Trước hết, chúng tôi sẽ giới thiệu khái quát về WOE. WOE là giá trị thể hiện sức mạnh dự đoán của một biến độc lập trong mối quan hệ với các biến phụ thuộc. Thuật ngữ này được xuất hiện đầu tiên trong thị trường tài chính, nên nó có thể được mơ tả một cách tổng quát như là một độ đo thể hiện sự phân chia giữa lớp khách hàng tốt (good)-những người đã trả khoản vay và khách hàng không tốt (bad)-những người chưa trả khoản vay. Công thức của WOE như sau:

WOE=log( pi p ni n ) với

pi: Số mẫu thuộc lớp good của đặc trưng phân loại đang xét

ni: Số mẫu thuộc lớp bad của đặc trưng phân loại đang xét

p: Tổng số mẫu thuộc lớp good

4.5. Tập dữ liệu Paysim

Quay lại với giá trị thông tin. Giá trị này được xác định như sau:

IV =X

(%of non−events−%of events)∗W OE

Sau khi tính tốn giá trị IV của từng đặc trưng, chúng tôi sẽ thực hiện đối chiếu với bảng quy tắc đánh giá tương ứng với ngưỡng giá trị IV như Bảng 4.11.

Giá trị thơng tin Mức độ dự đốn

<0.02 Không hữu dụng cho việc dự đoán 0.02–0.1 Sức mạnh dự đoán yếu

0.1–0.3 Sức mạnh dự đoán vừa phải >0.3 Sức mạnh dự đoán mạnh

Bảng 4.11: Quy tắc xử lý ngưỡng giá trị IV

Sau khi khái quát qua một số khái niệm về IV, WOE ở trên, chúng tôi sẽ quay trở lại việc tiền xử lý tập dữ liệu Paysim. Như đã trình bày ở Mục [4.9], tập Paysim có 11 đặc trưng gồm: step,type, amount, nameOrig,oldbalanceOrg, newbalanceOrig,nameDest,oldbalanceDest,isFlaggedFraud,newbalanceDest, isFraud. Giá trịisFraud chính là lớp nhãn của tập, với giá trị 0 đại diện cho giao dịch bình thường, 1 đại diện cho giao dịch bất thường. Với giá trị contamination-rate là 0.129% làm cho tập dữ liệu mất cân bằng ở mức cao.

Như đã trình bày, tập dữ liệu trên là quá trình khảo sát trong một tháng, và đặc trưng step đại diện cho yếu tố thời gian này. Những rõ ràng, với giá trị nằm trong đoạn từ [1,743]không phản ánh được thơng tin hữu dụng. Do đó, chúng tơi sẽ khai thác yếu tố step này. Từ đặc trưng step, chúng tôi sẽ thực hiện mở rộng thêm bảy đặc trưng mới trong đó, ba đặc trưng hour, day, weekday được encode trực tiếp từ giá trị step. Cụ thể như sau:

hour- đại diện cho khung giờ theo chu kỳ 24 h tại thời điểm giao dịch, giá trị thuộc đoạn [0, 23].

day- đại diện cho khung ngày theo chu kỳ 31 ngày tại thời điểm giao dịch, giá trị thuộc đoạn [1, 31].

weekday- đại diện cho khung ngày trong tuần theo chu kỳ một tuần bảy ngày tại thời điểm giao dịch, giá trị thuộc đoạn [1, 7].

4.5. Tập dữ liệu Paysim

Một điều đặc biệt ở đây, vì hour và weekday khơng phản ánh được chu kỳ thời gian tự nhiên, nên chúng tôi tạo thêm bốn đặc trưng mới theo phép biến đổi sin,cos cho hour và weekday. Tóm lại, bảy đặc trưng mới được thêm bao gồm: hour, day, weekday, sin_hour, cos_hour, sin_weekday, cos_weekday. Đối với đặc trưng type, tập gồm năm danh mục khác nhau, chúng tôi quyết định sử dụng One Hot Encoding ở đây, do đó mà năm đặc trưng mới tiếp tục được thêm vào tập dữ liệu: type_CASH_IN, type_CASH_OUT,type_TRANSFER, type_PAYMENT, type_DEBIT. Ngồi ra, chúng tơi cũng áp dụngLabelEncoderđối với hai đặc trưng nameOrig và nameDest . Sau khi tiến hành xử lý dữ liệu, mở rộng đặc trưng, tập dữ liệu Paysim hiện tại gồm có 23 đặc trưng trong đó 11 đặc trưng gốc, 12 đặc trưng mở rộng. Chúng tơi sẽ tiến hành phân tích đặc trưng, tính tốn giá trị IV cho mỗi đặc trưng để phục vụ cho quá trình lựa chọn đặc trưng cuối cùng, trước khi thực hiện q trình huấn luyện mơ hình. Kết quả tính tốn giá trị IV được biểu diễn ở các Bảng 4.12 và 4.13. Sức mạnh dự đoán mạnh feature IV feature IV nameDest 3.21 type 0.79 oldbalanceOrg 2.09 sin_hour 0.45 newbalanceOrig 1.01 day 0.31 type_TRANSFER 0.99 step 0.30 amount 0.88

Bảng 4.12: Các đặc trưng có giá trị IV có sức mạnh dự đốn mạnh

Vừa phải Yếu Vô dụng

feature IV feature IV feature IV

hour 0.22 type_CASH_IN 0.05 newbalanceDest 0.00 oldbalanceDest 0.18 cos_weekday 0.05 type_DEBIT 0.00 cos_hour 0.18 weekday 0.05 isFlaggedFraud 0.00 type_PAYMENT 0.14 sin_weekday 0.03

type_CASH_OUT 0.09 nameOrig 0.02

4.5. Tập dữ liệu Paysim

4.5.3 Thiết lập dữ liệu để huấn luyện mơ hình

Dựa vào bảng số liệu về các giá trị VI ở Mục [4.5.2], chúng tơi sẽ quyết định chọn chín đặc trưng ở Bảng 4.12 để thực hiện q trình huấn luyện mơ hình. Chúng tơi sẽ thực hiện chia tập dữ liệu thành các tập dữ liệu nhỏ cho quá trình huấn luyện với tỷ lệ huấn luyện/kiểm thử/kiểm chứng (train/test/validate) là 0.6/0.2/0.2. Chúng tôi sẽ tiến hành các thiết lập thử nghiệm như Bảng 4.14.

Set up Kích thước Tập huấn luyện Tập kiểm chứng Tập kiểm thử

setup1 100000 60000 20000 20000

setup2 1000000 600000 200000 200000

setup3 6362620 3817572 1272524 1272524

Bảng 4.14: Kích thước mỗi setup cho q trình huấn luyện và kiểm thử

4.5.4 Thiết lập mơ hình

Chúng tơi sẽ tiến hành thực nghiệm tập dữ liệu này với SVDD/OCSVM và Autoencoder SVDD. Đối với SVDD/OCSVM, kernel Gaussian sẽ được sử dụng, các siêu tham số được khởi tạo γ =auto, ν = 0.05.

Kiến trúc mạng được sử dụng trong AESVDD như Hình 4.21. Chúng tơi sẽ sử dụng thuật toán tối ưu Adam. Với các siêu tham số đầu vào gồm: learning rate

η =0.001, chạy qua100 epochsvớibatch sizelà 128,weight decayλ=0.001.

Đối với hàm mục tiêu biên mềm, giá trịν =0.05. Tỷ lệ huấn luyện/kiểm thử/kiểm

chứng (train/test/validate) là 0.6/0.2/0.2.

Một phần của tài liệu Phát hiện dữ liệu ngoại lai bằng mô hình svm một lớp (Trang 82 - 88)