Mô hình wrapper là mô hình có thông tin phản hồi, kết hợp chặt chẽ với thuật toán học máy trong quá trình lựa chọn thuộc tính. Lựa chọn thuộc tính tối ƣu nhờ quá trình tìm kiếm trong không gian các lựa chọn có thể. Điều này có nghĩa là sau giai đoạn lựa chọn các thuộc tính, là giai đoạn đánh giá các thuộc tính. Việc đánh giá đƣợc
đƣa ra thông tin phản hồi cho việc học này. Mô hình đề xuất sẽ tìm ra bộ thuộc tính tốt nhất, trong đó thuật toán học máy sẽ cung cấp hàm mục tiêu cho việc đánh giá các thuộc tính. Luận văn sử dụng mô hình trên với hàm mục tiêu để đánh giá đƣợc xác định nhờ thuật toán Random Forest. Cụ thể vấn đề này đƣợc trình bày ở các phần tiếp theo dƣới đây.
3.2 Cơ sở lí luận của phƣơng pháp đề xuất
Chƣơng 1 đã trình bày: “Nhiệm vụ cơ bản của việc phân lớp là phân chia một tập các đối tƣợng thành n-hữu hạn lớp đã biết trƣớc. Tập đối tƣợng cần phân lớp đƣợc đặc trƣng bởi một tập các thuộc tính chứa các thông tin cần thiết liên quan đến các lớp, trong đó mỗi tập các thuộc tính đƣợc đại diện bởi một tập các thuộc tính – giá trị. Các thuộc tính không liên quan hoặc thừa có thể có những ảnh hƣởng tiêu cực đối với các giải thuật phân lớp.” Vì vậy, để tăng hiệu quả của thuật toán phân lớp chúng ta cần phải thực hiện việc lựa chọn các thuộc tính hữu ích, loại bỏ các thuộc tính nhiễu, thuộc tính dƣ thừa. Có nhiều thuật toán để chọn ra đƣợc tập con các thuộc tính tốt nhất từ tập các thuộc tính ban đầu nhƣ leo đồi, tham lam, giải thuật di truyền,…Nếu trong trƣờng hợp không gian tìm kiếm nhỏ, các phƣơng pháp tìm kiếm cổ điển cũng đủ thích hợp, nhƣng khi không gian lớn cần phải dùng đến những kỹ thuật Trí Tuệ Nhân Tạo
đặc biệt. Thuật giải di truyền là một trong những kỹ thuật đó.
Từ nội dung của thuật giải di truyền đƣợc trình bày ở chƣơng 2, ta thấy việc khởi tạo thế hệ ban đầu P mang tính ngẫu nhiên, thế hệ mới sinh ra thông qua toán tử chọn lọc, lai ghép, và đột biến đều tuân theo một xác suất nào đó. Xác suất đột biến cần là xác suất thấp. Để khắc phục các hạn chế của vấn đề chọn ngẫu nhiên, luận văn đề xuất phƣơng án dựa trên thuật giải di truyền nhƣ sau:
- Tạo ra các bộ thuộc tính con từ tập thuộc tính ban đầu bằng phƣơng pháp kết hợp việc chọn ngẫu nhiên với việc phân bố đều các thuộc tính của tập dữ liệu ban đầu.
- Không thực hiện việc lai ghép, đột biến để tạo ra các bộ thuộc tính mới mà thực hiện việc đánh giá các bộ thuộc tính vừa tạo ra ở trên, dựa vào đó đánh giá các thuộc tính để chọn ra các thuộc tính có độ phù hợp cao.
- Dùng thuật toán học máy để đánh giá các bộ thuộc tính. Cụ thể, phƣơng pháp đề xuất đƣợc trình bày chi tiết ở phần tiếp theo.
3.3 Kiến trúc hệ thống đề xuất
Phƣơng pháp đề xuất đƣợc mô phỏng thành một hệ thống có kiến trúc nhƣ hình 3.4 dƣới đây.