Cây Quyết định Mờ

Điểm không thuận lợi của cây quyết định là tính ko ổn định của nó. Cây quyết định được thừa nhận như một cách phân lớp dễ thay đổi bậc nhất về khía cạnh phụ thuộc vào dữ liệu huấn luyện. Cấu trúc của cây quyết định có thể khác hoàn toàn nếu có thay đổi nào đó trong tập dữ liệu. Để khắc phục vấn đề này, một số nhà nghiên cứu đã đưa ra Cây quyết định Mờ bằng cách sử dụng lý thuyết tập mờ để diễn tả mức độ quan hệ của các giá trị của thuộc tính, điều này có thể phân biệt chính xác sự phù hợp của các quan hệ phụ thuộc giữa các ví dụ huấn luyện khác nhau và mọi giá trị của thuộc tính.

Ban đầu, Fuzzy ID3 chỉ là mở rộng của thuật toán ID3 bằng cách áp dụng tập mờ. Nó sinh ra một cây quyết định Mờ sử dụng các tập mờ định nghĩa bởi một người dùng cho tất cả các thuộc tính và dùng entropy mờ tối thiểu để lựa chọn các thuộc tính mở rộng [15].

Tuy nhiên, kết quả của thuật toán Fuzzy ID3 này khá hạn chế về độ chính xác trong việc học. Để giải quyết vấn đề này, hai tham số then chốt là tham số điều khiển mờ r và ngưỡng quyết định lá n được đưa ra. Bên cạnh entropy mờ tối thiểu, nhiều tiêu chuẩn khác nhau được đưa ra để chọn ra các thuộc tính mở rộng như là sự nhập nhằng phân loại tối thiểu, mức độ quan trọng của sự đóng góp của thuộc tính vào việc phân loại.

Năm 2004, một hệ phương pháp khác được đưa ra với ý tưởng về việc kết hợp mờ và sự không chắc chắn theo xác suất. Ý tưởng này là để kết hợp entropy theo thống kê và entropy mờ thành một khái niệm có tên là Entropy mờ thống kê (Statistical Fuzzy Entropy -SFE) trong một cơ cấu của các xác suất hoàn toàn xác định trong các sự kiện mờ. SFE là một sự kết hợp của không gian mẫu đã xác định và entropy mờ. Sử dụng khái niệm SFE, thuật toán ID3 Mờ Xác suất- Probabilistic Fuzzy ID3 algorithm (PFID3) được đưa ra. Trên thực tế, PFID3 là một trường hợp đặc biệt của Fuzzy ID3, nó được gọi là PFID3 khi sự phân vùng mờ được xác định rõ [16]. Luận văn sẽ tập trung nghiên cứu và so sánh hai phương pháp này.

Xây dựng cây quyết định

Những hạn chế của giải thuật ID3