Lựa chọn tham số

Một phần của tài liệu Nghiên cứu một số kỹ thuật khai phá dữ liệu cho bài toán dự đoán rủi ro tín dụng (Trang 70)

Việc lựa chọn các tham số của SVM được thực hiện bằng cơng cụ

CVParameter của Weka. Cơng cụ này được phát triển dựa trên cơ sở lý thuyết của R. Kohavi [35]. Lựa chọn tham số này sẽ thực hiện thử nghiệm dãy các giá trị của tham

số trên tập dữ liệu được cross validate với fold =10. Ví dụ: ta thực hiện lựa chọn tham số C tốt nhất trong dãy các giá trị từ 0.1 đến 1 với số bước là 10 và cross validate fold =10. Cơng cụ này sẽ thực hiện việc chia tập dữ liệu thành 10 tập con và chọn từng tập con làm tập kiểm tra và huấn luyện trên dữ liệu cịn lại đối với từng giá trị C trong dãy 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0. Dựa trên các kết quả huấn luyện và dự đốn cơng cụ sẽđưa ra giá trị C tốt nhất để cĩ kết quả dựđốn cao nhất cĩ thể.

Tơi thực hiện việc lựa chọn 2 tham số C và G bằng cơng cụ CVParameter của Weka như sau:

• ðối với tập dữ liệu chưa cân bằng(D1): chọn từng giá trị C = 1, 2, 3, 4, 5 và G chọn là dãy 0.1..2 và thực hiện 20 bước chọn. Kết quả thu được là G =0.6 là giá trị tốt nhất, với giá trị này tơi thực hiện tiếp chọn C là dãy 1..5 và thực hiện 5 bước. Kết quả thu được là C =2, vậy tham số tốt nhất của SVM sử

dụng hàm RBF trên tập dữ liệu chưa cân bằng là C =2, G =0.6.

• ðối với tập dữ liệu được hợp nhất lớp (D2), tơi thực hiện tương tự như trên và kết quả thu được là C = 2, G =0.6.

Một phần của tài liệu Nghiên cứu một số kỹ thuật khai phá dữ liệu cho bài toán dự đoán rủi ro tín dụng (Trang 70)

Tải bản đầy đủ (PDF)

(79 trang)