Trong luận văn, tơi sử dụng phần mềm libsvm tích hợp vào weka và chọn C- SVC với hàm nhân RBF của SVM. Như vậy hai tham số quan trọng ảnh hưởng đến kỹ
thuật khai phá dữ liệu này là C (Cost) và G (Gama).
6.3.1. Lựa chọn tham số
Việc lựa chọn các tham số của SVM được thực hiện bằng cơng cụ
số trên tập dữ liệu được cross validate với fold =10. Ví dụ: ta thực hiện lựa chọn tham số C tốt nhất trong dãy các giá trị từ 0.1 đến 1 với số bước là 10 và cross validate fold =10. Cơng cụ này sẽ thực hiện việc chia tập dữ liệu thành 10 tập con và chọn từng tập con làm tập kiểm tra và huấn luyện trên dữ liệu cịn lại đối với từng giá trị C trong dãy 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0. Dựa trên các kết quả huấn luyện và dự đốn cơng cụ sẽđưa ra giá trị C tốt nhất để cĩ kết quả dựđốn cao nhất cĩ thể.
Tơi thực hiện việc lựa chọn 2 tham số C và G bằng cơng cụ CVParameter của Weka như sau:
• ðối với tập dữ liệu chưa cân bằng(D1): chọn từng giá trị C = 1, 2, 3, 4, 5 và G chọn là dãy 0.1..2 và thực hiện 20 bước chọn. Kết quả thu được là G =0.6 là giá trị tốt nhất, với giá trị này tơi thực hiện tiếp chọn C là dãy 1..5 và thực hiện 5 bước. Kết quả thu được là C =2, vậy tham số tốt nhất của SVM sử
dụng hàm RBF trên tập dữ liệu chưa cân bằng là C =2, G =0.6.
• ðối với tập dữ liệu được hợp nhất lớp (D2), tơi thực hiện tương tự như trên và kết quả thu được là C = 2, G =0.6.
6.3.2. Thực nghiệm với tập dữ liệu D1
Tập dữ liệu đầu vào được sử dụng để thực nghiệm các kỹ thuật khai phá dữ liệu là tập dữ liệu đã được tiền xử lý trong chương 3 (D1).
Tập dữ liệu bao gồm 32,376 bản ghi, mỗi bản ghi gồm 18 thuộc tính và thuộc tính lớp. Số lớp của tập dữ liệu là 05 lớp như A, B, C, D và E được phân bố khơng
đồng đều như sau: lớp A cĩ 29,072 bản ghi chiếm 89.80% trên tổng số bản ghi của tập dữ liệu, lớp B cĩ 2,411 bản ghi chiếm 7.45% trên tổng số bản ghi của tập dữ liệu, lớp C cĩ 156 bản ghi chiếm 0.48% trên tổng số bản ghi của tập dữ liệu, lớp D cĩ 201 bản ghi chiếm 0.62 % trên tổng số bản ghi của tập dữ liệu và lớp E cĩ 536 bản ghi chiếm 1.65% trên tổng số bản ghi của tập dữ liệu.
Thực nghiệm với C = 2, G = 0.6
Sử dụng SVM với hàm nhân RBF với C=2, G =0.6 để dựđốn rủi ro tín dụng kết quả thu được như sau:
• Số mẫu phân lớp đúng là 29,872 chiếm 92.2659 %
• Số mẫu phân lớp sai là 2,504 chiếm 7.7341 % Một sốđộđo đối với từng lớp thu được như sau:
Bảng 6.1 - Một sốđộđo dựđốn rủi ro tín dụng bằng SVM (tập dữ liệu D1).
Tỷ lệ TP Tỷ lệ FP Precision Recall F-Measure ROC Area Class
0.988 0.639 0.932 0.988 0.959 0.674 A 0.342 0.01 0.736 0.342 0.467 0.666 B 0.254 0.001 0.662 0.254 0.367 0.626 D 0.276 0 0.741 0.276 0.402 0.638 C 0.425 0.002 0.803 0.425 0.556 0.712 E Ma trận Confusion như sau : Bảng 6.2 - Ma trận confusion dựđốn rủi ro tín dụng bằng SVM (tập dữ liệu D1). a b c d e <-- classified as 28726 271 20 12 43 a = A 1566 824 5 3 13 b = B 143 7 51 0 0 c = D 106 6 1 43 0 d = C 297 11 0 0 228 e = E 6.3.3. Thực nghiệm với tập dữ liệu được hợp nhất lớp (D2)
Tập dữ liệu này gồm 02 lớp là A_B và C_D_E được phân bố như sau: lớp A_B cĩ 31,483 bản ghi chiếm 97.25% trên tổng số bản ghi của tập dữ liệu D2, lớp C_D_E cĩ 893 bản ghi chiếm 2.75% trên tổng số bản ghi của tập dữ liệu D2.
Thực nghiệm với C =2, G = 0.6
Sử dụng SVM với hàm nhân RBF với C=2, G =0.6 để dựđốn rủi ro tín dụng kết quả thu được như sau:
• Số mẫu phân lớp đúng là 31,720 chiếm 97.9738 %
• Số mẫu phân lớp sai là 656 chiếm 2.0262 % Một sốđộđo đối với từng lớp thu được như sau:
Bảng 6.3 – Một sốđộđo dựđốn rủi ro tín dụng bằng SVM (tập dữ liệu D2).
Tỷ lệ TP Tỷ lệ FP Precision Recall F-Measure ROC Area Class
0.997 0.634 0.982 0.997 0.99 0.682 A_B 0.366 0.003 0.784 0.366 0.499 0.682 C_D_E Ma trận Confusion như sau : Bảng 6.4 – Ma trận confusion dựđốn rủi ro tín dụng bằng SVM (tập dữ liệu D2). a b <-- classified as 31393 90 a = A_B 566 327 b = C_D_E