Trước khi xây dựng mô hình, để việc xây dựng mô hình đạt hiệu quả chúng ta phải đưa vào các tham số cho thuật toán thay vì sử dụng các tham số mặc định. Những tham số này được lưu trên một bảng bên trong cơ sở dữ liệu. Tên của bảng này do ta tự đặt nhưng tên các cột và kiểu dữ liệu phải được định nghĩa như sau[9]:
Tên cột Kiểu dữ liệu
setting_name VARCHAR2(30)
setting_value VARCHAR2(128)
Trong đó, cột setting_namechứa tên tham số và cột setting_value chứa giá trị của tham số. Trong bảng 5.2 là một số tham số cho thuật toán cây quyết định của ODM.
Tên tham số Giá trị tham số (Với khoảng giá trị dùng được)
tree_impurity_metric Chỉ rõ tham số dùng để đo sự không thuần nhất
cho cây quyết định. Để phân lớp (nhị phân hay đa lớp) có hai độ đo được sử dụng đó là Gini và Entropy
tree_impurity_entropy
tree_impurity_gini (mặc định)
83
Tên tham số Giá trị tham số (Với khoảng giá trị dùng được)
Tiêu chuẩn chia cắt: Chiều sâu tối đa của cây ( Số lượng tối đa các nút giữa nút gốc và nút lá bất kỳ, bao gồm cả nút lá).
Giá trị mặc định là 7.
tree_term_minpct_node TO_CHAR(0 <=numeric_expr<= 10)
Không có nút con có số lượng bản ghi nhỏ hơn số này, nó biểu diễn như một tỷ lệ phần trăm các bản ghi đào tạo
Giá trị mặc định là 0.05, tức là 0.05%
tree_term_minpct_split TO_CHAR(0 <=numeric_expr<= 20)
Tiêu chuẩn chia cắt: Số lượng tối thiểu các bản ghi trong một nút cha biểu diễn như phần trăm của tổng số các bản ghi dùng để đào tạo mô hình. Sẽ không tiếp tục phân chia nếu số lượng bản ghi nhỏ hơn giá trị này.
Giá trị mặc định là 0.1, tức là 0.1%.
tree_term_minrec_node TO_CHAR(numeric_expr>= 0)
Không có nút con có số lượng bản ghi nhỏ hơn số này.
Giá trị mặc định là 10.
tree_term_minrec_split TO_CHAR(numeric_expr>= 0)
Tiêu chuẩn chia cắt: Số lượng tối thiểu các bản ghi trong một nút cha biểu diễn như một giá trị. Sẽ không tiếp tục chia cắt nếu số lượng các bản ghi nhỏ hơn số này
Giá trị mặc định là 20.
Bảng 5.2 – Tham số cho thuật toán cây quyết định của ODM