Rút gọn cây quyết định

Một phần của tài liệu Thuật toán ID3 và chương trình mô phỏng chuẩn đoán bệnh cúm h1n2 (Trang 48 - 50)

Cây dữ liệu đƣợc xây dựng dựa trên một tập dữ liệu có thể có nhiều nhánh hoặc nhiều lá là do dữ liệu bị nhiễu hoặc bị thiếu, số lƣợng các mẫu

Mạnh Nhẹ Không Có Có Trung bình Không Có Mƣa Âm u Nắng Quang cảnh Gió Độ ẩm Cao

43

huấn luyện quá ít không đủ đại diện cho một qui luật, nhƣng trong trƣờng hợp đó thuật toán xây dựng cây vẫn tạo ra các nút dựa trên số lƣợng mẫu quá ít đó. Trong trƣờng hợp này, nếu thuật toán vẫn cứ phát triển cây thì sẽ dẫn đến một tình huống gọi là tình trạng “Over fitting” trong cây quyết định.

Để giải quyết tình trạng Over fitting này phƣơng pháp cắt tỉa cây quyết định đƣợc lựa chọn để sử dụng. Cắt tỉa cây chính là việc làm: Tại một nút của cây, nếu sự chính xác khi không chia tách cao hơn sự chính xác khi đƣợc chia tách, khi đó hãy thay thế cây con này bằng một nút lá tƣơng ứng, nhãn của nút lá này đƣợc gán là nhãn của lớp đa số (phổ biến) trong tập các mẫu tại nút đó. Kết quả của cắt tỉa cây là nhằm:

+ Thu đƣợc cây kết quả tối ƣu hơn, độ chính xác cao hơn, độ tin tƣởng cao hơn.

+ Thu nhận đƣợc những tập dữ liệu đã qua kiểm nghiệm, các tiêu chuẩn khác đạt đƣợc chính xác hơn. Để cắt tỉa cây quyết định thƣờng sử dụng hai chiến lƣợc:

Chiến lược tiền c t tỉa và chiến lược hậu c t tỉa.

a) Tiền cắt tỉa: Trong chiến lƣợc này nếu một nhánh nào đó của cây mà có đại lƣợng information không có độ tin tƣởng thì dừng việc mở rộng, hay phát triển cây theo nhánh này. Nghĩa là trong quá trình xây dựng cây, một nút có thể sẽ không đƣợc tách thêm bƣớc nữa nếu nhƣ kết quả của phép tách đó rơi vào một ngƣỡng gần nhƣ chắc chắn. Nút đó trở thành nút lá và đƣợc gán nhãn là nhãn của lớp phổ biến nhất của tập các mẫu tại nút đó.

b) Hậu cắt tỉa: Trong chiến lƣợc cắt tỉa này cây quyết định vẫn đƣợc mở rộng, phát triển đầy đủ. Sau đó cắt bỏ những phần của cây mà không có độ tin tƣởng, chính xác, các nhánh không hợp lý. Nếu một nút mà các cây con của nó bị cắt thì nó sẽ trở thành nút lá và nhãn của lá đƣợc gán là nhãn của lớp phổ biến nhất của các con trƣớc đó của nó.

Trong thực tế, hậu cắt tỉa là một phƣơng pháp khá thành công cho việc tìm ra các giả thuyết chính xác và tin cậy cao. Kỹ thuật cắt tỉa này đƣợc tiến

44

hành thông qua việc tính toán các lỗi của các nút trong cây. Dựa vào các lỗi này mà quyết định có thực hiện cắt tỉa hay không.

c) Chiến thuật hậu cắt tỉa đƣợc tiến hành thông qua việc tính toán lỗi nhƣ sau:

Giả sử: Gọi E(S) là lỗi tĩnh của một nút.Error(S) là lỗi tĩnh của nút S. BackUpError(S) là lỗi từ các nút con của S (Back Up Error): Lỗi của nút S đƣợc xác định nhƣ sau:

Error(S) = Min{E(S), BackUpError(S)}; Cách tính các lỗi E(S), BackUpError(S):

- Nếu là nút lá thì : ( )

Trong đó N là tổng số mẫu nút S, N là số mẫu của lớp phổ biến nhất trong S.

Vì S là nút lá, không có nút con nên không có loại lỗi BackUpError(S). - Nếu S không phải là nút lá tức tại S phân thành k lớp (Thuộc tính S có k giá trị, đƣợc tách thành k lớp), nhƣ vậy nút S có k nút con

Vậy khi đó:

( )

( ) ∑ ( )

Trong đó: N là tổng số mẫu tại nút S và n là số mẫu của lớp phổ biến nhất của S.

là các nút con của S, là tỷ lệ số mẫu của trên số mẫu của S.

Nhƣ vậy tại các nút lá thì lỗi Error( ) = E( ) do nút lá không có nút con dẫn đến không có lỗi BackUpError. Nếu BackUpError(S) E(S) thì chiến thuật hậu cắt tỉa cây quyết định sẽ cắt tại nút S (nghĩa là cắt bỏ các cây con của S).

Một phần của tài liệu Thuật toán ID3 và chương trình mô phỏng chuẩn đoán bệnh cúm h1n2 (Trang 48 - 50)