Chương 1 TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ
2.1. Rút gọn thuộc tính và trích lọc luật trong bảng quyết định
2.1.3. Lựa chọn, so sánh, đánh giá các phương pháp rút gọn thuộc tính
1) Lựa chọn nhóm phương pháp phù hợp
Mục tiêu rút gọn thuộc tính trong bảng quyết định là tìm tập con nhỏ nhất của tập thuộc tính điều kiện mà bảo toàn khả năng phân lớp của bảng quyết định. Theo
tiếp cận độ đo, rút gọn thuộc tính là tìm tập con nhỏ nhất của tập thuộc tính điều kiện mà bảo toàn độ chắc chắn IDS của tập luật quyết định. Từ các kết quả đã trình bày ở mục 2.1.2 tác giả rút ra kết luận.
1) Tập rút gọn R1, tập rút gọn R2, tập rút gọn R3 đều bảo toàn độ chắc chắn của tập luật đối với bảng quyết định không đầy đủ nhất quán. Do đó, tất cả các phương pháp rút gọn thuộc tính đã trình bày ở bài báo này đều phù hợp với các bảng quyết định nhất quán.
2) Tập rút gọn R1 làm giảm độ chắc chắc của tập luật đối với bảng quyết định không đầy đủ không nhất quán, do đó phương pháp miền dương thuộc Nhóm 1
không phù hợp với các bảng quyết định không nhất quán.
3) Tập rút gọn R2, tập rút gọn R3 đều bảo toàn độ chắc chắn của tập luật đối với bảng quyết định không nhất quán. Do đó, các phương pháp trong Nhóm 2,
Nhóm 3 đều phù hợp với các bảng quyết định không nhất quán
2) So sánh, đánh giá các phương pháp theo chất lượng phân lớp
Sau khi đưa ra khái niệm tập rút gọn, các phương pháp rút gọn thuộc tính đều xây dựng một thuật toán heuristic tìm một tập rút gọn tốt nhất dựa trên tiêu chuẩn độ quan trọng của thuộc tính, hay chất lượng phân lớp của thuộc tính. Với bảng quyết định nhất quán, các tập rút gọn tốt nhất của bốn nhóm phương pháp là như nhau nên chúng có chất lượng phân lớp như nhau. Với bảng quyết định không nhất quán, tác giả đánh giá hai nhóm phương pháp phù hợp (Nhóm 2, Nhóm 3) dựa trên tiêu chuẩn chất lượng phân lớp tập rút gọn của nhóm phương pháp.
Giả sử R3 esB t là một tập rút gọn tốt nhất của các phương pháp thuộc Nhóm 3 (R3 esB t tìm được bởi thuật toán heuristic sử dụng entropy Liang, độ khác biệt của tri thức hay ma trận phân biệt). Theo kết quả nghiên cứu về mỗi liên hệ giữa các tập rút gọn, tồn tại một tập rút gọn của nhóm 2 làR2 sao cho R2 R3 esB t (R2 tối thiểu hơn R3 esB t).
Giả sử R2 esB t là một tập rút gọn tốt nhất của các phương pháp thuộc Nhóm 2 (R2 esB t tìm được bởi thuật toán heuristic sử dụng entropy Shannon, metric hay ma trận phân biệt). Ta có hai trường hợp.
- Nếu R2 esB t chính là R2 (R2 esB t R2) thì R2 esB t R3 esB t, nghĩa là R2 esB t tối thiểu hơn R3 esB t. Do đó, độ hỗ trợ của tập luật dựa trên R2 esB t cao hơn độ hỗ trợ của tập luật dựa trên R3 esB t , hay R2 esB t có chất lượng phân lớp tốt hơn R3 esB t.
- Nếu R2 esB t khác R2 thì R2 esB t có chất lượng phân lớp tốt hơn R2 do R2 esB t có chất lượng phân lớp tốt nhất. Mặt khác, do R2 R3 esB t nên R2 tốt hơn R3 esB t về chất lượng phân lớp. Do đó, R2 esB t tốt hơn R3 esB t về chất lượng phân lớp.
Do đó, trong cả hai trường hợp R2 esB t có chất lượng phân lớp tốt hơn R3 esB t. Từ đó kết luận các phương pháp thuộc Nhóm 2 hiệu quả hơn các phương pháp thuộc Nhóm 3 theo tiêu chuẩn đánh giá chất lượng phân lớp của tập rút gọn.