Các tham số xây dựng mô hình cho thuật toán cây quyết định

Một phần của tài liệu Một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định (Trang 81)

Trước khi xây dựng mô hình, để việc xây dựng mô hình đạt hiệu quả chúng ta phải đưa vào các tham số cho thuật toán thay vì sử dụng các tham số mặc định. Những tham số này được lưu trên một bảng bên trong cơ sở dữ liệu. Tên của bảng này do ta tự đặt nhưng tên các cột và kiểu dữ liệu phải được định nghĩa như sau[9]:

Tên cột Kiểu dữ liệu

setting_name VARCHAR2(30)

setting_value VARCHAR2(128)

Trong đó, cột setting_namechứa tên tham số và cột setting_value chứa giá trị của tham số. Trong bảng 5.2 là một số tham số cho thuật toán cây quyết định của ODM.

Tên tham số Giá trị tham số (Với khoảng giá trị dùng được)

tree_impurity_metric Chỉ rõ tham số dùng để đo sự không thuần nhất

cho cây quyết định. Để phân lớp (nhị phân hay đa lớp) có hai độ đo được sử dụng đó là Gini và Entropy

 tree_impurity_entropy

 tree_impurity_gini (mặc định)

83

Tên tham số Giá trị tham số (Với khoảng giá trị dùng được)

Tiêu chuẩn chia cắt: Chiều sâu tối đa của cây ( Số lượng tối đa các nút giữa nút gốc và nút lá bất kỳ, bao gồm cả nút lá).

Giá trị mặc định là 7.

tree_term_minpct_node TO_CHAR(0 <=numeric_expr<= 10)

Không có nút con có số lượng bản ghi nhỏ hơn số này, nó biểu diễn như một tỷ lệ phần trăm các bản ghi đào tạo

Giá trị mặc định là 0.05, tức là 0.05%

tree_term_minpct_split TO_CHAR(0 <=numeric_expr<= 20)

Tiêu chuẩn chia cắt: Số lượng tối thiểu các bản ghi trong một nút cha biểu diễn như phần trăm của tổng số các bản ghi dùng để đào tạo mô hình. Sẽ không tiếp tục phân chia nếu số lượng bản ghi nhỏ hơn giá trị này.

Giá trị mặc định là 0.1, tức là 0.1%.

tree_term_minrec_node TO_CHAR(numeric_expr>= 0)

Không có nút con có số lượng bản ghi nhỏ hơn số này.

Giá trị mặc định là 10.

tree_term_minrec_split TO_CHAR(numeric_expr>= 0)

Tiêu chuẩn chia cắt: Số lượng tối thiểu các bản ghi trong một nút cha biểu diễn như một giá trị. Sẽ không tiếp tục chia cắt nếu số lượng các bản ghi nhỏ hơn số này

Giá trị mặc định là 20.

Bảng 5.2 – Tham số cho thuật toán cây quyết định của ODM

Một phần của tài liệu Một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định (Trang 81)

Tải bản đầy đủ (PDF)

(90 trang)