Dự ñ oán rủi ro tín dụng bằng Support Vector Machine

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu một số kỹ thuật khai phá dữ liệu cho bài toán dự đoán rủi ro tín dụng (Trang 70 - 73)

Trong luận văn, tơi sử dụng phần mềm libsvm tích hợp vào weka và chọn C- SVC với hàm nhân RBF của SVM. Như vậy hai tham số quan trọng ảnh hưởng đến kỹ

thuật khai phá dữ liệu này là C (Cost) và G (Gama).

6.3.1. La chn tham s

Việc lựa chọn các tham số của SVM được thực hiện bằng cơng cụ

số trên tập dữ liệu được cross validate với fold =10. Ví dụ: ta thực hiện lựa chọn tham số C tốt nhất trong dãy các giá trị từ 0.1 đến 1 với số bước là 10 và cross validate fold =10. Cơng cụ này sẽ thực hiện việc chia tập dữ liệu thành 10 tập con và chọn từng tập con làm tập kiểm tra và huấn luyện trên dữ liệu cịn lại đối với từng giá trị C trong dãy 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0. Dựa trên các kết quả huấn luyện và dự đốn cơng cụ sẽđưa ra giá trị C tốt nhất để cĩ kết quả dựđốn cao nhất cĩ thể.

Tơi thực hiện việc lựa chọn 2 tham số C và G bằng cơng cụ CVParameter của Weka như sau:

• ðối với tập dữ liệu chưa cân bằng(D1): chọn từng giá trị C = 1, 2, 3, 4, 5 và G chọn là dãy 0.1..2 và thực hiện 20 bước chọn. Kết quả thu được là G =0.6 là giá trị tốt nhất, với giá trị này tơi thực hiện tiếp chọn C là dãy 1..5 và thực hiện 5 bước. Kết quả thu được là C =2, vậy tham số tốt nhất của SVM sử

dụng hàm RBF trên tập dữ liệu chưa cân bằng là C =2, G =0.6.

• ðối với tập dữ liệu được hợp nhất lớp (D2), tơi thực hiện tương tự như trên và kết quả thu được là C = 2, G =0.6.

6.3.2. Thc nghim vi tp d liu D1

Tập dữ liệu đầu vào được sử dụng để thực nghiệm các kỹ thuật khai phá dữ liệu là tập dữ liệu đã được tiền xử lý trong chương 3 (D1).

Tập dữ liệu bao gồm 32,376 bản ghi, mỗi bản ghi gồm 18 thuộc tính và thuộc tính lớp. Số lớp của tập dữ liệu là 05 lớp như A, B, C, D và E được phân bố khơng

đồng đều như sau: lớp A cĩ 29,072 bản ghi chiếm 89.80% trên tổng số bản ghi của tập dữ liệu, lớp B cĩ 2,411 bản ghi chiếm 7.45% trên tổng số bản ghi của tập dữ liệu, lớp C cĩ 156 bản ghi chiếm 0.48% trên tổng số bản ghi của tập dữ liệu, lớp D cĩ 201 bản ghi chiếm 0.62 % trên tổng số bản ghi của tập dữ liệu và lớp E cĩ 536 bản ghi chiếm 1.65% trên tổng số bản ghi của tập dữ liệu.

Thc nghim vi C = 2, G = 0.6

Sử dụng SVM với hàm nhân RBF với C=2, G =0.6 để dựđốn rủi ro tín dụng kết quả thu được như sau:

• Số mẫu phân lớp đúng là 29,872 chiếm 92.2659 %

• Số mẫu phân lớp sai là 2,504 chiếm 7.7341 % Một sốđộđo đối với từng lớp thu được như sau:

Bng 6.1 - Một sốđộđo dựđốn rủi ro tín dụng bằng SVM (tập dữ liệu D1).

T l TP T l FP Precision Recall F-Measure ROC Area Class

0.988 0.639 0.932 0.988 0.959 0.674 A 0.342 0.01 0.736 0.342 0.467 0.666 B 0.254 0.001 0.662 0.254 0.367 0.626 D 0.276 0 0.741 0.276 0.402 0.638 C 0.425 0.002 0.803 0.425 0.556 0.712 E Ma trận Confusion như sau : Bng 6.2 - Ma trận confusion dựđốn rủi ro tín dụng bằng SVM (tập dữ liệu D1). a b c d e <-- classified as 28726 271 20 12 43 a = A 1566 824 5 3 13 b = B 143 7 51 0 0 c = D 106 6 1 43 0 d = C 297 11 0 0 228 e = E 6.3.3. Thc nghim vi tp d liu được hp nht lp (D2)

Tập dữ liệu này gồm 02 lớp là A_B và C_D_E được phân bố như sau: lớp A_B cĩ 31,483 bản ghi chiếm 97.25% trên tổng số bản ghi của tập dữ liệu D2, lớp C_D_E cĩ 893 bản ghi chiếm 2.75% trên tổng số bản ghi của tập dữ liệu D2.

Thc nghim vi C =2, G = 0.6

Sử dụng SVM với hàm nhân RBF với C=2, G =0.6 để dựđốn rủi ro tín dụng kết quả thu được như sau:

• Số mẫu phân lớp đúng là 31,720 chiếm 97.9738 %

• Số mẫu phân lớp sai là 656 chiếm 2.0262 % Một sốđộđo đối với từng lớp thu được như sau:

Bng 6.3 – Một sốđộđo dựđốn rủi ro tín dụng bằng SVM (tập dữ liệu D2).

T l TP T l FP Precision Recall F-Measure ROC Area Class

0.997 0.634 0.982 0.997 0.99 0.682 A_B 0.366 0.003 0.784 0.366 0.499 0.682 C_D_E Ma trận Confusion như sau : Bng 6.4 – Ma trận confusion dựđốn rủi ro tín dụng bằng SVM (tập dữ liệu D2). a b <-- classified as 31393 90 a = A_B 566 327 b = C_D_E

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu một số kỹ thuật khai phá dữ liệu cho bài toán dự đoán rủi ro tín dụng (Trang 70 - 73)

Tải bản đầy đủ (PDF)

(79 trang)