Kết hợp các thuộc tính có giátrị liên tục- 123docz.net

VI. Các vấn đề học trong cây quyết định

4.4. Kết hợp các thuộc tính có giátrị liên tục

Trong những định nghĩa ban đầu của thuật toán ID3 chỉ giới hạn đến những thuộc tính mà nằm trong tập giá trị rời rạc.

- Đầu tiên là giá trị thuộc tính mục tiêu, giá trị này của nó được tiên đoán bởi cây quyết định phải là giá trị thực.

- Thứ hai những thuộc tính được kiểm tra trong những nút cây quyết định phải là giá trị rời rạc.

Sự hạn chế này có thể dễ dàng được loại bỏ. Khi đó giá trị liên tục vẫn có thể được sử dụng trong cây quyết định. Điều này có thể đạt tới bằng việc hạn chế tối đa những thuộc tính giá trị rời rạc mới mà phân chia giá trị liên tục thành tập hợp của những giá trị rời rạc theo các khoảng.

Cụ thể với một giá trị thuộc tính A là giá trị liên tục, giải thuật có thể linh động tạo ra một thuộc tính logic Ac mang giá trị true nếu A < c và false nếu ngược lại.

Vấn đề còn lại là lựa chọn giá trị tốt nhất cho ngưỡng c như thế nào.

Ví dụ, giả sử ta xét các thuộc tính giá trị liên tục Temperature. Giả sử trong một ví dụ liên kết huấn luyện với một nút cụ thể trong một cây quyết định có giá trị Temperature

và thuộc tính PlayTennis.

Những ngưỡng ứng cử viên có thể được đánh giá bằng cách tính toán được thông qua các thông tin có liên quan với nhau. Trong ví dụ trên, có hai ngưỡng ứng cử viên, tương ứng với giá trị của nhiệt độ mà tại đó giá trị thay đổi PlayTennis là (48 + 60)/2 và (80 + 90)/2. Khi đó, giá trị Information gain có thể được tính toán lại cho mỗi ứng cử viên thuộc tính,

Temperature>54 và Temperature>85. Vì Information gain (Temperature>54) > Information gain (Temperature>85) nên giá trị Temperature>54 được chọn. Giá trị thuộc tính này tự động tạo ra có thể so sánh được với các thuộc tính ứng cử viên khác có sẵn cho việc phát triển cây quyết định.

Fayyad và Irani (1993) thảo luận về một phần mở rộng để tiếp cận theo cách này chia tách các thuộc tính liên tục vào nhiều khoảng hơn là chỉ hai khoảng dựa trên một ngưỡng duy

nhất. Utgoff và Brodley (1991) và Murthy cùng cộng sự (1994) thảo luận về cách tiếp cận xác định các tính năng bằng cách kết hợp tuyến tính một số thuộc tính có giá trị liên tục.