Cải tiến quy nạp cây quyết định cơ bản

Một phần của tài liệu Một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định (Trang 54)

Trong phần này, chúng ta sẽ thảo luận một vài cải tiến quan trọng, một số cải tiến này đã được kết hợp trong C4.5, một thuật toán tiếp theo của ID3 [4].

Thuật toán quy nạp cây quyết định cơ bản trong phần 3.2.1 yêu cầu tất cả các thuộc tính phải có kiểu xác định hay rời rạc. Thuật toán này có thể được thay đổi để cho phép các thuộc tính có giá trị nằm trong khoảng rời rạc hay liên tục. Một phép thử trên một thuộc tính A tạo ra hai nhánh, tương ứng với điều kiện A<= V và A>V với những giá trị số là V của A. Cho v giá trị của A, lúc đó v-1 khả năng phân tách được xem xét trong việc quyết định V. Thông thường điểm giữa mỗi cặp giá trị liền kề được xem xét. Nếu các giá trị này được sắp xếp trước thì yêu cầu này chỉ duyệt qua giá trị duy nhất một lần.

Độ đo lợi ích thông tin là khuynh hướng trong đó các thuộc tính có nhiều giá trị được ưu chuộng hơn. Nhiều phương pháp thay thế đã được đề xuất như gain ratio, cách này xem xét xác suất của mỗi giá trị thuộc tính. Tồn tại nhiều độ đo lựa chọn khác nhau, bao gồm chỉ số Gini,2 bảng thống kê ngẫu nhiên và phép thống kê G.

56

Ví dụ, giá trị bị mất hay giá trị không biết cho một thuộc tính A có thể được thay thế bằng những giá trị chung nhất của A.. Những phương pháp khác có thể tìm kiếm giá trị có thể có nhất của A để thay thế giá trị bị mất, hoặc sử dụng quan hệ giữa A và những thuộc tính khác để tìm giá trị bị mất.

Với việc phân chia dữ liệu lặp đi lặp lại thành những phân đoạn nhỏ hơn nữa, quy nạp cây quyết định có thể phải đối mặt vấn đề phân mảnh, lặp lại, bản sao. Trong vấn đề phân mảnh, số lượng các mẫu tại một nhánh đã cho trở nên qua nhỏ như phép thống kê tầm thường. Một trong những cách để giải quyết vấn đề này là cho phép nhóm các giá trị của thuộc tính có kiểu xác định. Một nút của cây có thể kiểm tra xem giá trị của một thuộc tính thuộc về một tập giá trị đã cho không, ví dụ Ai{a1,a2,…,an}. Một cách khác là tạo ra một cây quyết định nhị phân, ở đó mỗi một nhánh là một phép thử logic trên một thuộc tính. Cây nhị phân làm cho dữ liệu ít bị phân mảnh hơn. Một số nghiên cứu đã tìm ra rằng cây quyết định nhị phân có khuynh hướng chính xác hơn cây quyết định truyền thống. Vấn đề lặp lại xảy ra khi một thuộc tính được kiểm tra lặp lại theo một nhánh đã cho trên cây. Vấn đề tạo bản sao là trên cây tồn tại nhiều bản sao của cây con. Những vấn đề nêu trên làm giảm tính chính xác và tính dễ hiểu của cây tìm được. Xây dựng thuộc tính là cách tiếp cận để hạn chế cả ba vấn đề trên, hạn chế biểu diễn của các thuộc tính đã cho được cải tiến bằng cách tạo ra thuộc tính mới dựa trên thuộc tính đã tồn tại.

Hiện nay, nhiều phiên bản cải tiến của quy nạp cây quyết định đã được giới thiệu. Khi cho dữ liệu đào tạo mới, việc xây dựng lại cây quyết định được tiến hành từ việc học trên dữ liệu đào tạo trước đây thay vì học lại một cây quyết định từ đầu.

Một phần của tài liệu Một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định (Trang 54)

Tải bản đầy đủ (PDF)

(90 trang)