II. TÌM HIỂU VỀ PHÂN LỚP DỮ LIỆU: 1 Giới thiệu về phân lớp:
E(A) =Σ [(pi+ni)/(p+n)] I(pi,ni) i=
2.8. Thu giảm cây quyết định và những tập luật suy dẫn:
Việc xây dựng cây quyết định nhờ vào training set bởi vì cách chúng xây dựng liên quan nghiêm ngặt đến hầu hết các record trong tập huấn luyện. Trong thực tế, để làm như vậy nó có thể là điều hoàn toàn phức tạp. Với những đường đi dài và không đều. Việc thu giảm cây quyết định được thực hiện bằng việc thay thế những cây con thành những nút lá.Sự thay thế này sẽ được thực hiện tại nơi mà luật quyết định được thiết lập nếu tần suất lỗi gây ra trong cây con là lớn hơn trong một nút lá. Cho ví dụ với cây đơn giản như sau: Color
red blue
Success Failure
chứa 2 records thứ nhất là training red success và thứ hai là trainning blue failures và sau đó trong Test Set chúng ta tìm thấy 3 red failures và một blue success, chúng ta có thể xem xét việc thay thế cây con này bằng việc thay thế bằng một node đơn Failure. Sau việc thay thế này chúng ta sẽ còn lại 2 lỗi thay vì 5 lỗi.
Winston chỉ ra rằng làm thế nào để sử dụng Fisher's exact test để xát định nếu thuộc tính phân loại là thực sự phụ thuộc vào một thuộc tính không xát định. Nếu điều này không sãy ra thì thuộc tính không xát định không cần phải xuất hiện trong đường đi hiện tại của cây quyết định.
Quinlan và Breiman đề nghị những heuristic phức tạp hơn cho việc thu giảm cây quyết định. Một điều dễ dàng làm là có thể dẫn ra một luật từ một cây quyết định: viết ra một luật từ mỗi đường trong cây quyết định đi từ gốc đến lá.Vế trái của luật được xây dựng dễ dàng từ nhãn của những nút và nhãn của những cung.
Những luật rút ra có thể được rút gọn như sau:
Gọi LHS là LHS của luật Cho LHS’ nhận được bằng cách thu giảm một số điều kiện của LHS. Chúng ta có thể chắc chắn thay thế LHS bằng LHS’ trong luật này nếu tập con của training set thỏa mãn LHS và LHS’ là tương đương.
Một luật có thể được thu giảm bằng cách sử dụng metacondition ví dụ như “ không có luật khác có thể áp dụng ”.