Trong phần này, chúng ta sẽ thảo luận ưu điểm khi sử dụng xấp xỉ lớp phụ thuộc hàm trong việc xây dựng một cây quyết định phân lớp. Bởi vì xấp xỉ lớp phụ thuộc hàm có thể có nhiều hơn một thuộc tính để xác định, điều đó có nghĩa là một nút kiểm tra của một cây quyết định có thể sẽ có những thuộc tính ghép lại. Sử dụng những thuộc tính ghép để xây dựng cây quyết định cung cấp một giải pháp để khắc phục hai hạn chế cơ bản của cây quyết định đã đề cập ở phần trên, đó là phân mảnh và nhân bản.
Có thể thấy rằng hàm phân lớp học bằng cách sử dụng các thuộc tính ghép cũng có thể học bằng sử dụng trực tiếp cây quyết định, với điều kiện là chúng ta có một dải dữ liệu tốt và không có nhiễu. Không may, cả hai điều kiện đó hầu như không bao giờ được thỏa mãn trong thực tiễn.
65
Hình 3.5 Nhân bản do Cây quyết định với thuộc tính đơn
Đầu tiên, chúng ta thảo luận về vấn đề phân mảnh. Cây quyết định được xây dựng bằng cách phân hoạch đệ quy không gian thuộc tính, sử dụng một thuộc tính một thời điểm, mỗi một phân hoạch đó được biểu thị bằng một nút trong cây quyết định. Hình 3.4 trình bày một tập dữ liệu huấn luyện và hai cây quyết định, một cây với thuộc tính đơn và một cây với thuộc tính ghép. Như chúng ta đã thấy trong hình 3.4(1a) , cây quyết định cần phải phân hoạch tập dữ liệu 4 lần để thu được toàn bộ các mẫu. Việc phân hoạch lặp lại này làm giảm tính khái quát hóa và có thể dẫn đến sự thiếu chính xác của việc phân lớp trên tập thử. Mặt khác, trên hình 3.4(1b) trình bày các thuộc tính ghép cho phép chúng ta thu được chính xác các khái niệm hiện diện trong tập dữ liệu và do đó cây quyết định rất gọn.
Vấn đề khác đối với cây quyết định là việc nhân bản, đó là một phần của cây con được xây dựng nhiều lần. Hình 3.5(2a) minh họa một tập ví dụ về nhân bản. Nhân bản làm cho cây quyết định phát triển theo chiều sâu và trở nên khó hiểu. Sử dụng thuộc tính ghép có thể loại trừ được vấn đề nhân bản như đã được trình bày trong hình 3.5(2b).