5. Bố cục của luận văn
3.2.2. Những tham số được hỗ trợ trong thuật toán DT
Thuật toán DT hỗ trợ các tham số mà ảnh hưởng đến hiệu suất và tính chính xác của mô hình khai thác kết quả. Những tham số dưới đây được sử dụng với thuật toán DT:
- COMPLEXITY_PENALTY: Điều khiển sự phát triển của DT. Một giá trị thấp làm tăng số lượng các phần chia tách, và một giá trị cao làm giảm số lượng các phần chia tách. Giá trị mặc định được dựa trên số lượng các thuộc tính cho một mô hình cụ thể, như mô tả trong danh sách sau đây:
Đối với 1 đến 9 thuộc tính, mặc định là 0,5.
Đối với 10 đến 99 thuộc tính, mặc định là 0.9.
Đối với 100 hoặc nhiều thuộc tính, mặc định là 0,99.
- MAXIMUM_INPUT_ATTRIBUTES: Xác định số lượng các thuộc tính đầu vào mà thuật toán có thể xử lý trước khi nó gọi việc lựa chọn tính năng. Mặc định là 255. Thiết lập giá trị là 0 để tắt tính năng này.
- MAXIMUM_OUTPUT_ATTRIBUTES: Xác định số lượng các thuộc tính đầu ra mà các thuật toán có thể xử lý trước khi nó gọi việc lựa chọn tính năng. Mặc định là 255. Thiết lập giá trị là 0 để tắt tính năng này.
- MINIMUM_SUPPORT: Xác định số lượng tối thiểu các trường hợp để một nút lá tạo ra một sự phân chia trong DT. Mặc định là 10. Cần phải tăng giá trị này nếu số liệu là rất lớn.
- SCORE_METHOD: Xác định phương pháp được sử dụng để tính toán điểm phân chia. Các tùy chọn sau đây:
Entropy (1)
Bayesian with K2 Prior (3)
Bayesian Dirichlet Equivalent with uniform prior (default) (4)
- SPLIT_METHOD: Xác định phương pháp được sử dụng để phân chia các nút. Các tùy chọn sau đây:
Binary (1): Cây nên được chia thành hai nhánh bất kể số lượng các giá trị thực tế
Complete (2): Cây có thể tạo ra nhiều sự chia tách như có nhiều giá trị thuộc tính.
Both (3): Có thể sử dụng một trong 2 sự phân chia Binary/ Complete nói trên để tạo ra các kết quả tốt nhất.
- FORCE_REGRESSOR: Chỉ định thuộc tính hồi quy. Tham số này chỉ được sử dụng cho các DT được dự đoán một thuộc tính liên tục.