Thuật tốn 2.2: Lựa chọn đặc trưng theo hướng lùi
Đầu vào: S là tập các mẫu (xi, yi) trong đĩ xi cĩ chiều là p
Đầu ra: danh sách xếp hạng của p đặc trưng
Chương trình:
1. F ← tập tất cả p đặc trưng trong S
2. R ← tập rỗng các đặc trưng // tập sắp thứ tự của các đặc trưng
3. whileFis not empty do
4. forfj∈Fdo
5. Tính 𝐹𝑗𝑟𝑎𝑛𝑘theo cơng thức (2.3)//sử dụng các đặc trưng
// trong tập F \ {fj}
6. end
7. ftoRemove ← FRFE() 8. F = F \ {ftoRemove}
9. R = concatenate(ftoRemove,R) // thêm đặc trưng bị loại
10. end 11. return R
Đối với chiến lƣợc lựa chọn theo thuật tốn 2.2, tất cả các đặc trƣng ban đầu đƣợc coi là tập đặc trƣng tốt nhất. Thuật tốn sẽ loại bỏ lần lƣợt các đặc trƣng theo hàm đánh giá để cĩ tập đặc trƣng tối ƣu. Chúng tơi đã cải tiến việc loại bỏ các đặc trƣng bằng hàm FRFE(),trong đĩ áp dụng chiến lƣợc tìm kiếm theo kinh nghiệm để cĩ kết quả tốt hơn.
Ở bƣớc kiểm chứng chéo thứ k, chúng tơi cĩ đƣợc đặc trƣng quan trọng 𝐹𝑗𝑘, độ chính xác học 𝐴𝑙𝑒𝑎𝑟𝑛𝑘 , độ chính xác kiểm thử𝐹𝑗𝑠𝑐𝑜𝑟𝑒, độ đo AUC (𝐴𝑈𝐶𝑘𝑙𝑒𝑎𝑟𝑛). Những giá trị này sẽ đƣợc sử dụng để tính tốn tiêu chí xếp hạng.
Tiêu chí xếp hạng cho đặc trƣng thứ j đƣợc tính tốn nhƣ sau:
𝐹𝑗𝑟𝑎𝑛𝑘 = 𝐹𝑗𝑘 × 𝐴𝑘 𝑙𝑒𝑎𝑟𝑛 +𝐴𝑣𝑎𝑙𝑖𝑑𝑎𝑡𝑖𝑜𝑛𝑘 𝐴𝑘𝑙𝑒𝑎𝑟𝑛 − 𝐴𝑘𝑣𝑎𝑙𝑖𝑑𝑎𝑡𝑖𝑜𝑛 +𝜀+𝐴𝑈𝐶𝑘 𝑙𝑒𝑎𝑟𝑛 𝑛 𝑘=1 (2.3)
Giá trị 𝐹𝑗𝑘 xác định độ quan trọng của đặc trƣng khi huấn luyện dữ liệu bởi thuật tốn. Giá trị của 𝐹𝑗𝑘càng cao, độ quan trọng của đặc trƣng càng lớn. Mục tiêu của cơng thức (2.3) là giữ lại các đặc trƣng làm tăng độ chính xác huấn luyện (train) và độ chính xác đánh giá (validate). Sự khác biệt giữa độ chính xác huấn luyện (train) và độ chính xác đánh giá (validate) càng nhỏ cho thấy thuật tốn càng ổn định. Giá trị nhỏ ε đƣợc thêm vào để tránh trƣờng hợp phân số chia cho 0 khi độ chính xác huấn luyện bằng với độ chính xác kiểm tra.
Độ đo AUC thƣờng đƣợc sử dụng để đánh giá trong các bài tốn phân lớp nhị phân nhƣ dự đốn Tốt/ Xấu hay Mua/Bán. Một mơ hình hồn hảo sẽ cho giá trị AUC bằng 1, giá trị AUC lớn hơn 0,8 cho mơ hình tốt, trong khi đĩ nếu giá trị AUC trong khoảng nhỏ hơn 0,6 thì mơ hình khơng tốt. Trong thực tế, AUC thƣờng dự đốn chính xác hơn đối với bài tốn phân lớp nhị phân cĩ tập dữ liệu khơng cân bằng, đĩ là lý do tại sao chúng tơi sử dụng độ đo này trong cơng thức.
Chiến lƣợc loại bỏ đệ quy(FRFE) sử dụng cả tiêu chí xếp hạng và độ chính xác kiểm thử (test) để loại bỏ các đặc trƣng. Tiêu chuẩn xếp hạng đƣợc sử dụng để tạo ra danh sách các đặc trƣng sẽ đƣợc loại bỏ và độ chính xác kiểm tra sẽ đƣợc dùng để xác định đặc trƣng nào sẽ bị loại bỏ vĩnh viễn từ danh sách các đặc trƣng sẽ đƣợc loại bỏ. Hàm FRFE() đƣợc mơ tả nhƣ sau:
Giả sử ta cĩ một tập dữ liệu với 3 đặc trƣng (F1, F2, F3). Một mảng nhị phân gồm các thành phần đƣợc thiết lập là 1 nếu đặc trƣng đƣợc chọn, 0 nếu đặc trƣng bị loại bỏ. Nếu mảng cĩ giá trị (1, 1, 1) cĩ nghĩa là cả 3 đặc trƣng đƣợc chọn và (1, 1, 0) cĩ nghĩa là chỉ đặc trƣng F3 bị loại. Trong trƣờng hợp này cĩ 3 đặc trƣng nên sẽ cĩ tất cả 8 trạng thái (tập con). Một tập con đặc trƣng tối ƣu thƣờng nằm đâu đĩ giữa điểm đầu và điểm cuối cây.