Nhƣ đã trình bày ở phần trên, tập rút gọn tốt nhất thu đƣợc bởi Thuật toán 2.3 chính là tập rút gọn Entropy Shannon nên bảo toàn độ chắc chắn của tập luật quyết định và độ chắc chắn của tất cả các luật phân lớp vào các lớp quyết định.
Tuy nhiên, nhiều bài toán trong thực tế không thể tìm đƣợc tập rút gọn mà bảo toàn độ chắc chắn của tập luật quyết định. Do đó, vấn đề đặt ra là tìm một tập rút gọn tốt nhất sao cho độ chắc chắn của tập luật quyết định chỉ cần lớn hơn một giá trị ngƣỡng cho trƣớc chứ không cần bằng độ chắc chắn của tập luật trên bảng quyết định ban đầu.
Trong [1], tác giả Hoàng Thị Lan Giao cũng đề xuất các thuật toán tìm tập rút gọn dựa trên các tiêu chuẩn đánh giá sai số khác nhau, còn gọi là tập rút gọn xấp xỉ, sử dụng ma trận phân biệt và các phép toán trong đại số quan hệ. Tuy nhiên, các thuật toán trong [1] chỉ tìm tập rút gọn xấp xỉ của bảng quyết định nhất quán.
Dựa vào tính chất của metric đƣợc xây dựng là đại lƣợng đối ngẫu với độ chắc chắn của tập luật quyết định, luận văn đi tìm hiểu Thuật toán 2.4 tìm một tập rút gọn tốt nhất theo tham số đƣa vào là độ chắc chắn . Nghĩa là, độ chắc chắn của tập luật quyết định dựa trên tập rút gọn sẽ lớn hơn một ngƣỡng độ chắc chắn cho trƣớc.
Giả sử DS là độ chắc chắn của tập luật trên bảng quyết định ban đầu
DS và DS' là độ chắc chắn của tập luật trên bảng quyết định DS' với tập rút gọn RC, là ngƣỡng độ chắc chắn với DS .
Thuật toán 2.4. Tìm một tập rút gọn tốt nhất theo ngƣỡng độ chắc chắn
Đầu vào: Bảng quyết định DS U C D V f , , , , giá trị ngƣỡng độ chắc chắn với DS .
1. Khởi tạo R ; 2. Khởi tạo DS' 0; 3. Tính d K R K R DJ , ;
// Thêm dần vào R các thuộc tính có độ quan trọng lớn nhất theo ngưỡng
4. While DS' do 5. Begin 6. For each a C R 7. Begin 8. Tính d K RJ a ,K R a D; 9. SIG aR d K R K R DJ , d K RJ a ,K R a D 10. End;
11. Chọn am C R sao cho SIG aR m a C RMax SIG a R
; 12. R R am 13. Tính d K R K R DJ , ; 14. Tính DS' 1 d K R K R DJ , ; 15. End;
//Loại bỏ các thuộc tính dư thừa trong R nếu có theo ngưỡng .
16. For each a R 17. Begin 18. Tính d K RJ a ,K R a D; 19. Tính DS' 1 d K RJ a ,K R a D; 20. If DS' then R R a ; 21. End; 22. Return R;
Tƣơng tự Thuật toán 2.3, độ phức tạp của Thuật toán 2.4 là 2
O C U .
2.3. Thuật toán tìm tập tất cả các thuộc tính rút gọn của bảng quyết định nhất quán