Kết hợp các thuộc tính có giá trị liên tục- 123docz.net

Phiên bản đầu tiên của thuật toán ID3 được giới hạn với các thuộc tính đảm bảo có giá trị là tập hợp những giá trị riêng rẽ. Trước hết, thuộc tính đích mà giá trị được dự đoán bởi cây học phải là những giá trị rời rạc. Thứ hai, những thuộc tính được kiểm tra trên các nút quyết định của cây cũng phải là các giá trị rời rạc. Ràng buộc thứ hai này có thể dễ dàng được lược bỏ vì thế các thuộc tính quyết định có giá trị liên tục có thể được kết hợp vào cây học. Để thực hiện được việc kết hợp này, chúng ta có thể định nghĩa một cách tùy ý và tự động một tập các thuộc tính có giá trị rời rạc khác mà nó có thể phân chia giá trị thuộc tính liên tục thành một tập

hợp rời rạc các khoảng thời gian. Ví dụ, xét một thuộc tính có giá trị liên tục A, thuật toán có thể tạo tùy ý và động một thuộc tính Boolean Ac mà nó là đúng nếu A<c và sai nếu ngược lại. Vấn đề lớn nhất ở đây cần quan tâm đó là làm sao để lựa chọn được một giá trị ngưỡng c sao cho tốt nhất mà thôi. Xét ví dụ minh họa sau: giả sử chúng ta muốn đưa thuộc tính có giá trị liên tục là Nhiệt độ (Temperature) ở ví dụ huấn luyện trong bảng 3.3 và giả sử thêm rằng các ví dụ huấn luyện có liên quan với một nút cụ thể trong cây quyết định có các giá trị sau đây cho Nhiệt độ và cho thuộc tính đích Chơi tennis (PlayTennis):

Temperature: 40 48 60 72 80 90

PlayTennis: No No Yes Yes Yes No

Như vậy, ngưỡng c nào có thể được lựa chọn để tạo ra các tập thuộc tính có giá trị rời rạc mà ta vừa nói ở trên? Một cách rõ ràng là chúng ta muốn chọn một ngưỡng c sao cho nó có thể tạo ra độ đo thông tin là tốt lớn nhất. Bằng cách sắp xếp các ví dụ theo giá trị liên tục A sau đó xác định các ví dụ liền kề mà có phân lớp đích khác nhau, chúng ta có thể tạo ra một tập các giá trị ngưỡng ứng cử ở giữa các giá trị tương ứng của A. Điều này chỉ ra rằng giá trị c mà có thể làm cho độ đo thông tin có giá trị lớn nhất chắc chắn phải luôn nằm ở vùng biên giới đó. Những giá trị ngưỡng ứng cử đó có thể sau đó được đánh giá bằng cách tính toán độ đo thông tin của từng giá trị ngưỡng. Trong ví dụ đang xét, chúng ta có 2 giá trị ngưỡng ứng cử tương ứng với các giá trị của “Nhiệt độ” mà ở đó giá trị của thuộc tính đích “PlayTennis” thay đổi đó là (48+60)/2 và (80+90)/2. Độ đo thông tin có thể được tính toán cho mỗi thuộc tính ứng cử là “Nhiệt độ” > 54 và “Nhiệt độ” >85 và giá trị tốt nhất có thể được lựa chọn là “Nhiệt độ” > 54. Những thuộc tính Boolean này được tạo ra động có thể sau đó cạnh tranh với những thuộc tính ứng cử có giá trị rời rạc khác đang sẵn có cho việc phát triển cây quyết định.