Cây quyết định

Cây quyết định là một loại hộp trắng của thuật tốn Machine Learning (ML). Nĩ chia sẻ logic ra quyết định nội bộ, vốn khơng cĩ sẵn trong loại thuật tốn hộp đen như Mạng thần kinh. Thời gian đào tạo của nĩ nhanh hơn so với thuật tốn mạng thần kinh. Độ phức tạp thời gian của cây quyết định là một hàm của số lượng bản ghi và số lượng thuộc tính trong dữ liệu đã cho. Cây quyết định là một phương pháp khơng phân phối hoặc khơng tham số, khơng phụ thuộc vào các giả định phân phối xác suất. Cây quyết định cĩ thể xử lý dữ liệu chiều cao với độ chính xác tốt.

2.5.1.2. Hoạt động của thuật tốn Cây quyết định

Ý tưởng cơ bản về hoạt động của thuật tốn cây quyết định như sau:

1. Chọn thuộc tính tốt nhất bằng cách sử dụng các biện pháp lựa chọn thuộc tính (ASM – attribute selection measure) để phân chia các bản ghi.

2. Biến thuộc tính đĩ thành nút quyết định và chia tập dữ liệu thành các tập con nhỏ hơn.

3. Bắt đầu xây dựng cây bằng cách lặp lại quy trình này một cách đệ quy cho mỗi Node con cho đến khi một trong những điều kiện sẽ khớp:

 Tất cả các bộ dữ liệu thuộc về cùng một giá trị thuộc tính.

 Khơng cịn thuộc tính nào nữa.

Data Data Training Data Test Lựa chọn thuộc tính tốt nhất dựa vào chỉ số Gain, Gini Tách dữ liệu thành các tập nhỏ hơn theo thuộc

tính cha

Model tri thức

Biểu diễn mơ hình

1. accuracy – độ chính xác 2. precision - dự đốn 3. recall – độ hồi tưởng Lặp lại xử lý với node con

Các biện pháp lựa chọn thuộc tính

luồng hoạt động của cây quyết định