Thuật toán xây dựng cây quyết định

Một phần của tài liệu (Luận án tiến sĩ) phát triển phương pháp luận trích rút hệ luật ngôn ngữ mờ giải bài toán phân lớp, hồi quy dựa trên đại số gia tử (Trang 86 - 87)

Để xây dựng cây quyết định từ cơ dữ liệu số D của bài toán hồi quy gồm các véc tơ đầu vào dp = (ap,1, ap,2, …,ap,n, ap,n+1) , ap,j Uj R (tập số thực) và giá trị đầu ra ap,n+1 Un+1R. Bước đầu tiên chúng ta cần chuẩn hóa tập dữ liệu D về đoạn [0, 1] bằng chuyển đổi tuyến tính ta được tập D1. Bước thứ 2, với mỗi biến đầu vào/ra, ta xác định một bộ tham số của ĐSGT tương ứng, giả sử là j (j=1, n+1). Với bộ tham số j ta xây dựng ĐSGT sinh ra tập các từ ( )có độ dài không quá kj, tính giá trị định lượng ngữ nghĩa của các từ trong ( )và xây dựng hệ khoảng tương tự ( ). Bước thứ 3 chuyển đổi cơ sở dữ liệu D1 thành cơ sở dữ liệu từ ngôn ngữ D2

theo nguyên tắc sau: với mỗi véc tơ dp = (ap,1, ap,2, …,ap,n, ap,n+1) chuyển đổi thành véc tơ từ ngôn ngữ xp’ = (xp,1, …, xp,n , xp,n + 1), trong đó xp,j ( ) ∈ ( ), j=1,..,n+1. Từ cơ sở dữ liệu ngôn ngữ D2 ta áp dụng thuật toán C4.5 xây dựng cây quyết định có chiều cao tối đamax, việc thiết lập chiều cao tối đa của cây nhằm hạn chế chiều dài của luật được sinh ra.

- Các hệ khoảng tính mờ tương tự ( );

- Chiều cao tối đa của cây: max.

Output: Cây quyết định T;

Begin

D1 = Chuẩn hóa tập dữ liệu số D về đoạn [0,1];

D2 = Chuyển đổi cơ sở dữ liệu số D1 thành cơ sở dữ liệu ngôn ngữ dựa trên các hệ khoảng tính mờ { ( )} +1

=1 và tập các tập từ ngôn ngữ { } +1 =1;

Xây dựng cây quyết định T có chiều cao tối đamax từ cơ sở dữ liệu D2

bằng thuật toán C4.5;

return T;

End;

Mỗi nút của cây quyết định chứa 2 giá trị: một giá trị là tên của biến và một giá trị phân chia của nút cha.

Một phần của tài liệu (Luận án tiến sĩ) phát triển phương pháp luận trích rút hệ luật ngôn ngữ mờ giải bài toán phân lớp, hồi quy dựa trên đại số gia tử (Trang 86 - 87)