AUC Ý nghĩa >0.9 Rất tốt 0.8 đến 0.9 Tốt 0.7 đến 0.8 Trung bình 0.6 đến 0.7 Khơng tốt 0.5 đến 0.6 Vơ dụng
Trong quá trình thực nghiệm, AUC thƣờng đƣợc sử dụng để so sánh hiệu năng của các mơ hình. Mơ hình nào cĩ AUC cao hơn cĩ nghĩa là mơ hình đĩ cĩ độ chính xác cao hơn.
2.4.3.3Kiểm chứng chéo
Kiểm chứng chéo n-lần này chia tách các tập dữ liệu thành n tập mẫu con bằng nhau. Một phần mẫu con đƣợc giữ cho việc chứng thực dữ liệu, trong khi n - 1 phần cịn lại đƣợc sử dụng để huấn luyện. Ví dụ, áp dụng một kiểm chứng chéo 5 lần trên một tập hợp dữ liệu với 100 bản ghi, bộ dữ liệu sẽ đƣợc phân chia thành 5 phần bằng nhau. Trong vịng đầu tiên, phần đầu tiên của dữ liệu (20 bản ghi) đƣợc giữ lại để thử nghiệm và 4 phần (80 bản ghi) khác đƣợc sử dụng để huấn luyện. Ở vịng tiếp theo, phần thứ hai đƣợc dành riêng để thử nghiệm và 80 bản ghi cịn lại đƣợc sử dụng để huấn luyện. Quá trình này tiếp tục cho đến khi tất cả các phần đƣợc sử dụng. Kết quả cuối cùng đƣợc tính trung bình cộng để cĩ một kết quả duy nhất. Hình minh họa một kiểm chứng chéo 5 lần.
Hình 2.8 Kiểm chứng chéo 5 lần
Từ việc đánh giá hiệu năng phân lớp chúng tơi lựa chọn, cải tiến mơ hình để đạt đƣợc hiệu quả cao nhất.
Dữ liệu Huấn luyện Kiểm tra Kiểm tra tra Kiểm tra ểm tra Kiểm tra m tra Kiểm tra tra
2.4.4 Kết quả thực nghiệm
2.4.4.1Bộ dữ liệu tín dụng Đức
Trƣớc khi thực hiện chạy thực nghiệm trên các phƣơng pháp đề xuất, chúng tơi sử dụng phƣơng pháp lọc với các độ đo khác nhau bao gồm: Độ lợi thơng tin (IG) [51], lựa chọn đặc trƣng dựa trên sự tƣơng quan (CFS)[35], và Relief-F[84].
Kết quả thực nghiệm lựa chọn đặc trưng theo phương pháp lọc
Kết quả chạy thực nghiệm với độ đo Độ lợi thơng tin đƣợc thể hiện trongHình 2.9
Hình 2.9 Danh sách các đặc trƣng đƣợc sắp xếp theo độ lợi thơng tin (IG) giảm dần
Độ lợi t
hơng ti
n (I
G)
Với tập danh sách các đặc trƣng đã đƣợc xếp hạng, chúng tơi cĩ thể lựa chọn nhĩm gồm 50% các đặc trƣng cao nhất hoặc lựa chọn các đặc trƣng cĩ giá trị IG > 50% giá trị của số cực đại IG. Mƣời đặc trƣng đƣợc lựa chọn theo tiêu chí độ lợi thơng tin cĩ số thứ tự là: 1, 20, 3, 2, 5, 6, 13, 15, 14, 4. Kết quả cho thấy đặc trƣng trạng thái hiện tại (ca_status) cĩ độ lợi thơng tin cao nhất, nĩ sẽ đƣợc chọn là đặc trƣng quyết định để phân lớp khách hàng. Tiếp đến là các đặc trƣng liên quan tới khách hàng ngƣời nƣớc ngồi, thời gian, lịch sử và số tiền vay.
Cũng thực hiện với bộ dữ liệu trên bằng phƣơng pháp lựa chọn đặc trƣng Relief-F cĩ kết quả nhƣ trongHình 2.10:
Hình 2.10 Danh sách các đặc trƣng đƣợc sắp xếp theo độ đo Relief-F giảm dần
Kết quả của thực nghiệm lựa chọn các đặc trƣng cĩ số thứ tự : 1, 3, 4, 6, 7, 9, 12, 8, 19, 2, 14, 10, 13, 18, 17, 11, 5, 16, 15, 20. Cũng giống nhƣ phƣơng pháp độ Độ đo Re li ef -F Đặc trƣng
lợi thơng tin, kết quả cho thấy đặc trƣng trạng thái hiện tại (ca_status) cĩ giá trị độ đo cao nhất, nĩ sẽ là đặc trƣng quyết định để phân lớp khách hàng. Tuy nhiên, các đặc trƣng tiếp theo của khách hàng cĩ sự khác biệt và gồm cĩ thơng tin về lịch sử và mục đích vay.Kết quả thực nghiệm sử dụng phƣơng pháp lựa chọn đặc trƣng dựa trên độ tƣơng quan đƣợc thể hiện trongHình 2.11
Hình 2.11 Danh sách các đặc trƣng đƣợc sắp xếp theo độ tƣơng quan giảm dần
Theo kết quả ở Hình 2.11, với mỗi một độ đo khác nhau cho ra các tập đặc trƣơng đƣợc lựa chọn cĩ các chỉ số khác nhau. Kết quả phân lớp dữ liệu sử dụng 5, 10, 15, và 20 đặc trƣng cĩ thứ hạng cao nhất theo ba phƣơng pháp đƣợc thể hiện trong Hình 2.12
Độ tƣơng qua
n
Hình 2.12 So sánh kết quả dự đốn sử dụng 5, 10, 15, 20 đặc trƣng cĩ thứ hạng cao nhất trên bộ dữ liệu của Đức
Do các phƣơng pháp lựa chọn đặc trƣng này dựa vào tính chất của bộ dữ liệu và độc lập với bộ phân lớp. Để giải quyết vấn đề trên, chúng tơi tiến hành áp dụng Phƣơng pháp đĩng gĩi đề xuất theo hƣớng tìm kiếm tiến và sử dụng bộ phân lớp rừng ngẫu nhiên (random forest) trong các thực nghiệm. Giá trị của tham số mtry
đƣợc mặc định và tham số ntree đã thử với giá trị 100. Hình 2.13 cho thấy kết quả thực nghiệm đƣợc tính trung bình trên 20 thử nghiệm độc lập.
Kết quả thực nghiệm lựa chọn đặc trưng theo hướng lựa chọn tiến
Hình 2.13 Độ chính xác phân lớp với bộ dữ liệu Đức
Độ c
hính xác
Hiệu năng của một số bộ phân lớp khác nhau[55] đƣợc so sánh và thể hiện trong Bảng 2.2. Cơ sở dùng để so sánh là kết quả phân lớp mà khơng lựa chọn đặc trƣng. Một số bộ phân lớp đƣợc sử dụng trong thực nghiệm của chúng tơi bao gồm: SVM, CART, k-NN, Naive Bayes, MLP. Các phƣơng pháp lựa chọn đặc trƣng khác nhau cũng đƣợc sử dụng để so sánh bao gồm cả phƣơng pháp Lọc và phƣơng pháp Đĩng gĩi. Phƣơng pháp lọc bao gồm: t-test, phân tích biệt thức tuyến tính (LDA), hồi quy Logistic (LR). Phƣơng pháp Đĩng gĩi sử dụng các kỹ thuật tối ƣu bao gồm: thuật tốn di truyền (GA) và tối ƣu hĩa bầy đàn (PSO).