Các bƣớc thực hiện của thuật tốn đƣợc đặc tả dƣới dạng giả mã nhƣ sau:
Thuật tốn 2.1:Lựa chọn đặc trưng theo hướng tiến
Đầu vào: S là tập các mẫu (xi, yi) trong đĩ xi cĩ chiều là p
Đầu ra: danh sách xếp hạng của p đặc trưng
Chương trình:
1. F ← Ø //tập rỗng các đặc trưng
2.R ← Ø //tập kết quả đã sắp thứ tự của các đặc trưng
3.for i:=1 to n do
4.forl:=1 to 20 do //thuc hien 20 lan
5.forj:=1 to pdo//
6. Tính Fj,lscoretheo cơng thức 2.2 7.endfor
8.endfor
9. locbest← findLocBest() //tìm vị trí tốt nhất
11.F = Fᴗ {fbest}
12. R = R ᴗ F // thêm đặc trưng tốt nhất vào R
13.endfor
14.returnR
Ý tƣởng của thuật tốn là cải tiến việc xây dựng hàm đánh giá đặc trƣng tốt nhất sau đĩ tìm vị trí và đƣa vào tập đặc trƣng tối ƣu. Điểm số của đặc trƣng thứ
j(j=1..p) đƣợc tính bởi cơng thức(2.2) do chúng tơi xây dựng:
𝐹𝑗𝑠𝑐𝑜𝑟𝑒 = 𝐹𝑗𝑘 × 𝐴𝑘𝑙𝑒𝑎𝑟𝑛 +𝐴𝑘𝑣𝑎𝑙𝑖𝑑𝑎𝑡𝑖𝑜𝑛 𝑛
𝑘=1
(2.2)
Trong đĩ: 𝐹𝑗𝑘là độ quan trọng của đặc trƣng
𝐴𝑘𝑙𝑒𝑎𝑟𝑛 là độ chính xác huấn luyện trong lần kiểm chứng chéo thứ k
𝐴𝑘𝑣𝑎𝑙𝑖𝑑𝑎𝑡𝑖𝑜𝑛 là độ chính xác kiểm thử trong lần kiểm chứng chéo thứ k
Giá trị 𝐹𝑗𝑘 xác định độ quan trọng của từng đặc trƣng khi huấn luyện dữ liệu bởi bộ phân lớp Random forest. Giá trị của 𝐹𝑗𝑘 càng cao, độ quan trọng của đặc trƣng càng lớn. Mục tiêu của cơng thức (2.2) là tìm các đặc trƣng làm tăng độ chính xác trong quá trình huấn luyện. Độ chính xác huấn luyện và độ chính xác kiểm thử càng cao cho độ tốt của đặc trƣng càng cao. Tuy nhiên, độ chính xác huấn luyện và độ chính xác kiểm thử chƣa đủ để đảm bảo tính ổn định của thuật tốn, do đĩ chúng tơi thực hiện tính tốn điểm số 𝐹𝑗𝑠𝑐𝑜𝑟𝑒n lần và xác định đặc trƣng đểcho ra điểm số
𝐹𝑗𝑠𝑐𝑜𝑟𝑒tốt nhất. Việc tìm ra vị trí của đặc trƣng tốt nhất đƣợc thực hiện trong hàm
findBestLoc()sử dụng các luật lựa chọn cĩ thứ tự ƣu tiên nhƣ sau:
Luật 1: lựa chọn các đặc trưng cĩ điểm số trung vị của 𝐹𝑗𝑠𝑐𝑜𝑟𝑒 cao nhất Luật 2: lựa chọn các đặc trưng cĩ điểm số trung bình 𝐹𝑗𝑠𝑐𝑜𝑟𝑒cao nhất Luật 3: lựa chọn các đặc trưng cĩ độ lệch chuẩn 𝐹𝑗𝑠𝑐𝑜𝑟𝑒thấp nhất
Luật 1 tìm ra vị trí của các đặc trƣng cĩ điểm số trung vị cao nhất.Nếu chỉ cĩ 1 điểm số trung vị cao nhất thì đây chính là vị trí của đặc trƣng cần tìm. Nếu cĩ từ 2 vị trí trở lên thì tiếp tục sử dụng luật 2 để tìm ra vị trí cĩ điểm số trung bình của trung vị cao nhất. Trong trƣờng hợp này nếu chỉ cĩ một vị trí thì đây là vị trí cần
tìm. Ngƣợc lại sẽ dùng luật 3 để tìm ra vị trí của đặc trƣng cĩ độ lệch chuẩn thấp nhất.Kết quả trả về là vị trí của đặc trƣng cĩ điểm số𝐹𝑗𝑠𝑐𝑜𝑟𝑒cao nhất và độ lệch chuẩn thấp nhất.
Hƣớng tiếp cận tiến cĩ khả năng tính tốn nhanh vì: ở vịng lặp đầu tiên nĩ xây dựng p mơ hình dự đốn cho một đặc trƣng và ở lần lặp cuối cùng nĩ xây dựng 01 mơ hình dự đốn của p đặc trƣng. Tuy nhiên, hƣớng tiếp cận này cĩ thể bỏ sĩt nhiều đặc trƣng quan trọng.
2.3.2.2Chiến lược lựa chọn đặc trưnglùi
Một hƣớng tiếp cận khác sử dụng chiến lƣợc lựa chọn đặc trƣng lùi đƣợc mơ tả bởi sơ đồ khốisau: