Thuật toán tìm tậprút gọn theo tham số độ chắc chắ- 123docz.net

Nhƣ đã trình bày ở phần trên, tập rút gọn tốt nhất thu đƣợc bởi Thuật toán 2.3 chính là tập rút gọn Entropy Shannon nên bảo toàn độ chắc chắn của tập luật quyết định và độ chắc chắn của tất cả các luật phân lớp vào các lớp quyết định.

Tuy nhiên, nhiều bài toán trong thực tế không thể tìm đƣợc tập rút gọn mà bảo toàn độ chắc chắn của tập luật quyết định. Do đó, vấn đề đặt ra là tìm một tập rút gọn tốt nhất sao cho độ chắc chắn của tập luật quyết định chỉ cần lớn hơn một giá trị ngƣỡng  cho trƣớc chứ không cần bằng độ chắc chắn của tập luật trên bảng quyết định ban đầu.

Trong [1], tác giả Hoàng Thị Lan Giao cũng đề xuất các thuật toán tìm tập rút gọn dựa trên các tiêu chuẩn đánh giá sai số khác nhau, còn gọi là tập rút gọn xấp xỉ, sử dụng ma trận phân biệt và các phép toán trong đại số quan hệ. Tuy nhiên, các thuật toán trong [1] chỉ tìm tập rút gọn xấp xỉ của bảng quyết định nhất quán.

Dựa vào tính chất của metric đƣợc xây dựng là đại lƣợng đối ngẫu với độ chắc chắn của tập luật quyết định, luận văn đi tìm hiểu Thuật toán 2.4 tìm một tập rút gọn tốt nhất theo tham số đƣa vào là độ chắc chắn . Nghĩa là, độ chắc chắn của tập luật quyết định dựa trên tập rút gọn sẽ lớn hơn một ngƣỡng độ chắc chắn  cho trƣớc.

Giả sử  DS là độ chắc chắn của tập luật trên bảng quyết định ban đầu

DS và  DS' là độ chắc chắn của tập luật trên bảng quyết định DS' với tập rút gọn RC,  là ngƣỡng độ chắc chắn với    DS .

Thuật toán 2.4. Tìm một tập rút gọn tốt nhất theo ngƣỡng độ chắc chắn 

Đầu vào: Bảng quyết định DS U C D V f ,  , , , giá trị ngƣỡng độ chắc chắn  với    DS .

1. Khởi tạo R ; 2. Khởi tạo  DS' 0; 3. Tính d K R K R DJ   ,  ;

// Thêm dần vào R các thuộc tính có độ quan trọng lớn nhất theo ngưỡng

 4. While  DS'  do 5. Begin 6. For each a C R  7. Begin 8. Tính d K RJ   a ,K R  a D; 9. SIG aR d K R K R DJ   ,  d K RJ   a ,K R  a D 10. End;

11. Chọn am C R sao cho SIG aR m a C RMax SIG a R 

   ; 12. R R  am 13. Tính d K R K R DJ   ,  ; 14. Tính  DS'  1 d K R K R DJ   ,  ; 15. End;

//Loại bỏ các thuộc tính dư thừa trong R nếu có theo ngưỡng .

16. For each a R 17. Begin 18. Tính d K RJ   a ,K R  a D; 19. Tính  DS'  1 d K RJ   a ,K R  a D; 20. If  DS'  then R R  a ; 21. End; 22. Return R;

Tƣơng tự Thuật toán 2.3, độ phức tạp của Thuật toán 2.4 là  2 

O C U .

2.3. Thuật toán tìm tập tất cả các thuộc tính rút gọn của bảng quyết định nhất quán

Thuật toán tìm tậprút gọn theo tham số độ chắc chắn của tập luật 3 3-