Lựa chọn đặc trưng

Việc lựa chọn đặc trưng nhằm đảm bảo loại trừ dư thừa và các đặc trưng khơng liên quan để tăng độ chính xác cho quá trình dự đốn, đặc biệt là đối với tập đặc trưng lớn ở trong trường hợp này.

Ngơn ngữ R sẽ được sử dụng để thực hiện lựa chọn đặc trưng và áp dụng lên các kỹ thuật học máy. R là mơi trường lập trình dùng cho thống kê và lập biểu đồ, cĩ thể biên dịch và chạy trên các nền tảng khác nhau như UNIX, Windows, MacOS,… [29].

Một thuật tốn đơn giản và hiệu quả dùng để lựa chọn đặc trưng là gĩi thư viện Boruta nằm trong gĩi ngơn ngữ R. Thuật tốn của nĩ cĩ thể được mơ tả như sau [18]:

 Tạo một bản sao của tập dữ liệu và xáo trộn chúng.

 Huấn luyện thuật tốn Random Forest bằng tập dữ liệu mới và áp dụng thuật tốn Mean Decrease Accuracy để đo mức độ quan trọng của các đặc trưng.

 Tại mỗi vịng lặp, kiểm tra độ quan trọng của đặc trưng. Loại bỏ các đặc trưng được xếp loại khơng quan trọng sau mỗi vịng lặp.

 Dừng sau khi đã phân loại hết các đặc trưng, hoặc sau khi đạt đến một số vịng lặp nhất định.

Tuy nhiên, do số lượng đặc trưng quá lớn, sẽ khơng đủ tài nguyên để thuật tốn Boruta chạy ổn định. Vì thế, cần chia nhỏ tập dữ liệu thành các tập con để xử lý. Sau đĩ, các đặc trưng quan trọng sẽ được thu thập từ các tập con và hợp nhất lại, loại bỏ các đặc trưng dư thừa. Cuối cùng thực hiện lựa chọn một lần nữa trên tập đặc trưng mới. Từ tập 14789 đặc trưng, sau khi chạy thuật tốn rút gọn cịn 99 đặc trưng.

Một số kỹ thuật học máy