5 ỨNG DỤNG PHÁT HIỆN DỮ LIỆU NGOẠI LAI
4.6 Giá trị AUC cho từng phương pháp trên tập dữ liệu mammography
4.3. Tập dữ liệu Mammography
(a) SVDD/OCSVM (b) AESVDD biên mềm
(c) AESVDD biên cứng
Hình 4.8: ROC Curve của mỗi phương pháp trên tập Mammography
Nhận xét, đánh giá
Với số liệu ở trên, chúng tơi có thể ra đưa ra vài nhận xét sau: dựa trên số liệu AUCs cho từng phương pháp, rõ ràng AESVDD đã cho kết quả tốt hơn so với SVDD/OCSVM. Trong quá trình huấn luyện, thời gian huấn luyện của AESVDD cũng là nhanh hơn khá nhiều so với SVDD/OCSVM. Chúng tôi sẽ tiếp tục thử nghiệm với một tập dữ liệu mở rộng hơn về độ lớn của tập dữ liệu cũng như sự đa dạng về số chiều (high-dimensional) để kiểm tra về độ hiểu quả của Autoencoder
4.4. Tập dữ liệu MNIST
SVDD so với SVDD và OCSVM.
4.4 Tập dữ liệu MNIST 4.4.1 Mô tả dữ liệu
MNIST là tập dữ liệu gồm các ảnh viết tay các chữ số từ 0 đến 9. Tập gồm 60000 mẫu cho tập huấn luyện và 10000 mẫu cho tập kiểm thử. Mỗi mẫu là một bức ảnh xám có size 28x28. Bên dưới là hình ảnh minh họa cho tập dữ liệu MNIST.
Hình 4.9: Tập dữ liệu MNIST
Để xây dựng việc thử nghiệm với tập dữ liệu này, chúng tơi thực hiện trích xuất từ tập huấn luyện. Mỗi lớp sẽ được xem là một thiết lập cho việc huấn luyện. Nghĩa là, trong mỗi thiết lập, sẽ có khoảng 6000 mẫu cho tập huấn luyện. Còn về phần kiểm thử, chúng tôi sẽ sử dụng tập kiểm thử mặc định của MNIST.
0 1 2 3 4 5 6 7 8 9
n 5800 6600 5800 6000 5800 5400 5800 6200 5800 5800
4.4. Tập dữ liệu MNIST
4.4.2 Thiết lập mơ hình
Kiến trúc mạng được sử dụng trong AESVDD như Hình 4.10. Chúng tơi sẽ sử dụng thuật toán tối ưu Adam. Với các siêu tham số đầu vào gồm: learning rate
η =0.001, chạy qua20 epochsvớibatch size là 200, weight decayλ=0.001.
Đối với hàm mục tiêu biên mềm, giá trị ν =0.1.
Hình 4.10: Kiến trúc mạng AESVDD cho tập MNIST
Để thực hiện việc so sánh với AESVDD, chúng tôi cũng thực nghiệm tập dữ liệu trên với SVDD/OCSVM. Đối với SVDD/OCSVM, kernel Gaussian sẽ được sử dụng, các siêu tham số được khởi tạo γ =auto, ν = 0.26.
4.4.3 Kết quả
Kết quả thực nghiệm của 10 thiết lập giữa OCSVM/SVDD với bài toán biên cứng và biên mềm của AESVDD cho từng lớp dữ liệu trong tập MNIST được cho như Bảng 4.8.
OCSVM/SVDD AESVDD biên cứng AESVDD biên mềm
0 vs. all 0.9800 0.9710 0.9521 1 vs. all 0.9925 0.9922 0.9859 2 vs. all 0.8090 0.8918 0.8468 3 vs. all 0.8748 0.8919 0.8808 4 vs. all 0.9296 0.9454 0.8985 5 vs. all 0.7461 0.8493 0.7662 6 vs. all 0.9423 0.9791 0.9629 7 vs. all 0.9284 0.9367 0.9116 8 vs. all 0.8570 0.9272 0.9219 9 vs. all 0.9135 0.9633 0.9472
4.4. Tập dữ liệu MNIST Nhận xét: Qua bảng số liệu trên, chúng tơi có thể đưa ra vài nhận xét sau. AESVDD cho kết quả tương đối tích cực. Rõ ràng, kết quả mà AESVDD đem lại tốt hơn hẳn so với OCSVM/SVDD. Giữa biến thể biên cứng và biên mềm của AESVDD thì kết quả của AESVDD biên cứng có phần tốt hơn.
(a) Một số mẫu số 0 là bình thường nhất
(b) Một số mẫu số 0 là bất thường nhất
Hình 4.11: Một số mẫu ví dụ trong tập kiểm thử thuộc lớp 0
(a) Một số mẫu số 1 là bình thường nhất
(b) Một số mẫu số 1 là bất thường nhất
Hình 4.12: Một số mẫu ví dụ trong tập kiểm thử thuộc lớp 1
(a) Một số mẫu số 2 là bình thường nhất
(b) Một số mẫu số 2 là bất thường nhất
4.4. Tập dữ liệu MNIST
(a) Một số mẫu số 3 là bình thường nhất
(b) Một số mẫu số 3 là bất thường nhất
Hình 4.14: Một số mẫu ví dụ trong tập kiểm thử thuộc lớp 3
(a) Một số mẫu số 4 là bình thường nhất
(b) Một số mẫu số 4 là bất thường nhất
Hình 4.15: Một số mẫu ví dụ trong tập kiểm thử thuộc lớp 4
(a) Một số mẫu số 5 là bình thường nhất
(b) Một số mẫu số 5 là bất thường nhất
4.4. Tập dữ liệu MNIST
(a) Một số mẫu số 6 là bình thường nhất
(b) Một số mẫu số 6 là bất thường nhất
Hình 4.17: Một số mẫu ví dụ trong tập kiểm thử thuộc lớp 6
(a) Một số mẫu số 7 là bình thường nhất
(b) Một số mẫu số 7 là bất thường nhất
Hình 4.18: Một số mẫu ví dụ trong tập kiểm thử thuộc lớp 7
(a) Một số mẫu số 8 là bình thường nhất
(b) Một số mẫu số 8 là bất thường nhất
4.4. Tập dữ liệu MNIST
(a) Một số mẫu số 9 là bình thường nhất
(b) Một số mẫu số 9 là bất thường nhất
4.5. Tập dữ liệu Paysim
4.5 Tập dữ liệu Paysim 4.5.1 Mô tả dữ liệu
Tập dữ liệu Paysim[5] là một tập dữ liệu về tài chính, được sinh từ một bộ trình mơ phỏng gọi là Paysim. Paysim sử dụng nguồn dữ liệu từ một tập dữ liệu riêng tư để thực hiện sinh dữ liệu. Điều này đạt được bằng cách mô phỏng các giao dịch tiền di động dựa trên một mẫu giao dịch thực của một quốc gia ở châu Phi. Dữ liệu ban đầu được cung cấp bởi một nhà cung cấp dịch vụ tài chính di động đa quốc gia. Trong tập dữ liệu này, hành vi gian lận của người dùng được thực hiện bằng cách chiếm quyền kiểm soát tài khoản của khách hàng, cố gắng làm rỗng tiền bằng cách chuyển sang tài khoản khác rồi rút tiền mặt ra khỏi hệ thống. Chi tiết tập dữ liệu được trình bày ở trong Bảng 4.9.
Dataset name Synthetic Financial Datasets for Fraud Detection
Domain Financial Transactions
Url https://www.kaggle.com/ntnu-testimon/paysim1
Year 2015
Type Synthetic data
Subset PS_20174392719_1491204439457_log.csv
Annotated Yes
Unbalanced Yes
No. of entries 6,362,620
Contamination rate 0.129%
Time duration 1 month
No. of features 11
List of features step, type, amount, nameOrig, oldbalanceOrg, newbalanceOrig, nameDest, oldbalanceDest, newbalanceDest, isFraud, isFlaggedFraud