Bảng 2 .2So sánh hiệu năng của các bộ phân lớp[55] trênbộ dữ liệu tín dụng của Đức
Bảng 2.3 .Hiệu năng của các bộ phân lớp khác nhau[55]với bộ dữ liệu tín dụng Đức
Bộ phân lớp Phƣơng pháp Lọc Phƣơng pháp Đĩng gĩi Phƣơng
pháp cơ sở
t-test LDA LR GA PSO
SVM 76,74 75,72 75,10 76,54 73,76 77,18 CART 74,28 73,52 73,66 75,72 74,16 74,30 k-NN 71,82 71,86 72,62 72,24 71,60 70,86 Nạve Bayes 72,40 70,88 71,44 71,56 74,16 70,52 MLP 73,28 73,44 73,42 74,03 72,54 71,76 Random Forest 76,60 FRFE 78,95
Kết quả cho thấy thời gian thực hiện việc lựa chọn đặc trƣng sử dụng bộ phân lớp Random forest của gĩi H20 nhanh gấp khoảng 10 lần so với thời gian thực hiện việc lựa chọn đặc trƣng sử dụng bộ phân lớp Random forest gốc. Thời gian thực hiện phân lớp bằng random forest của gĩi H20 nhanh hơn bởi nĩ cĩ cơ chế xử lý song song. Thời gian thực thi nhanh hơn giúp cho phƣơng pháp FRFE đề xuất cĩ khả năng lựa chọn các đặc trƣng một cách hiệu quả.
2.4.4.2Bộ dữ liệu tín dụng Úc
Tƣơng tự nhƣ bộ dữ liệu tín dụng của Đức, phƣơng pháp Lọc đầu tiên chúng tơi sử dụng là độ lợi thơng tin (IG), kết quả chạy thực nghiệm khi sử dụng tồn bộ tập dữ liệu nhƣ sau:
Hình 2.16Xếp hạng đặc trƣng theo độ lợi thơng tin (IG) trên bộ dữ liệu tín dụng của Úc
Các đặc trƣng đƣợc lựa chọn bằng phƣơng pháp độ lợi thơng tin cĩ thứ tự nhƣ trênHình 2.16. Các đặc trƣng X8, X10, X9, X14, X7 cĩ thứ hạng cao nhất theo độ lợi thơng tin.Đây chính là các đặc trƣng sẽ đƣợc lựa chọn theo tiêu chí độ lợi thơng tin. Các đặc trƣng X1, X11, X12 cĩ độ lợi thơng tin tƣơng đối thấp, nĩ khơng cĩ đĩng gĩp nhiều thơng tin do đĩ cĩ thể loại bỏ.
Cũng thực hiện với bộ dữ liệu sử dụng phƣơng pháp Relief-F cĩ kết quả nhƣ trong Hình 2.17 Độ lợi t hơng ti n (I G) Đặc trƣng
Hình 2.17Xếp hạng đặc trƣng theo độ đo Relief-F trên bộ dữ liệu tín dụng của Úc
Các đặc trƣng đƣợc lựa chọn theo thứ tự là: X8, X5, X11, X4,X1. Giống nhƣ phƣơng pháp độ lợi thơng tin, đặc trƣng X8 cĩ độ đo cao nhất so với các đặc trƣng khác. Đặc trƣng X8 cĩ thể đƣợc sử dụng làm tiêu chí đầu tiên để phân lớp dữ liệu. Trong phƣơng pháp này các đặc trƣng nhƣ X14, X13, X10, X7 cĩ thể loại bỏ do chúng cĩ giá trị xếp hạng tƣơng đối thấp.
Phƣơng pháp lựa chọn đặc trƣng dựa trên độ tƣơng quan đƣợc thực hiện và cho kết quả đƣợc sắp xếp theo thứ tự giảm dần nhƣ sau:
Độ đo Re
li
ef
-F
Hình 2.18Xếp hạng đặc trƣng theođộ tƣơng quan trên bộ dữ liệu tín dụng của Úc
Các đặc trƣng đƣợc xếp hạng theo độ tƣơng quan so với các độ đo IG và Relief-F đƣợc thể hiện trong Hình 2.18. Nhìn vào kết quả cĩ thể thấy đặc trƣng X8 cĩ độ quan trọng nhất trong việc phân loại khách hàng.
Cũng nhƣ bộ dữ liệu tín dụng Đức, theo kết quả ởHình 2.18 thì với mỗi một độ đo khác nhau cho ra những kết quả lựa chọn đặc trƣng khác nhau. Từ đĩ cĩ thể thấy rằng các phƣơng pháp lọc cĩ thời gian thực hiện nhanh cho chỉ cần tính tốn các độ đo một lần. Tuy nhiên, một đặc trƣng tốt đƣợc lựa chọn theo độ đo này cĩ thể lại khơng tốt với độ đo khác. Điều quan trọng hơn là các phƣơng pháp lọc hồn tồn khơng phụ thuộc vào các bộ phân lớp, do đĩ ít cĩ khả năng cải tiến độ chính xác của các bộ phân lớp.
Kết quả phân lớp sử dụng 5, 7 và 10 đặc trƣng cĩ thứ hạng cao nhất theo ba phƣơng pháp đƣợc thể hiện trong Hình 2.19.
Độ tƣơng qua
n
Hình 2.19 So sánh kết quả dự đốn sử dụng 5, 7, 10 đặc trƣng cĩ thứ hạng cao nhất trên bộ dữ liệu tín dụng của Úc
Chúng tơi tiến hành áp dụng phƣơng pháp Đĩng gĩi đề xuất theo hƣớng tìm kiếm tiến. Trong thực nghiệm của chúng tơi, giá trị mặc định cho tham số mtry đã đƣợc sử dụng và tham số ntree đã thử với giá trị 100.Tiến hành thực nghiệm trên hƣớng tiếp cận lựa chọn đặc trƣngtiến, chúng tơi cĩ kết quả:
Hình 2.20Độ chính xác phân lớp với bộ dữ liệu Úc
Độ c
hính xác
Bảng 2.4 cho thấy các hiệu năng của các bộ phân lớp khác nhau và các phƣơng pháp lựa chọn đặc trƣng khác nhau. Các kết quả thu đƣợc cho thấy rằng độ chính xác phân lớp của RF trên tập hợp con gồm 9 đặc trƣng đƣợc chọn đã đƣợc cải thiện rõ rệt. Độ chính xác trung bình là 87,82% trên bộ dữ liệu ban đầu, trong khi độ chính xác trung bình tăng tới 89,40% sau khi áp dụng phƣơng pháp lựa chọn đặc trƣng của chúng tơi.