Để xây dựng cây quyết định từ cơ dữ liệu số D của bài toán hồi quy gồm các véc tơ đầu vào dp = (ap,1, ap,2, …,ap,n, ap,n+1) , ap,j ∈Uj ⊂ R (tập số thực) và giá trị đầu ra ap,n+1 ∈ Un+1 ⊂ R Bước đầu tiên chúng ta cần chuẩn hóa tập dữ liệu D về đoạn [0, 1] bằng chuyển đổi tuyến tính ta được tập D1 Bước thứ 2, với mỗi biến đầu vào/ra, ta xác định một bộ tham số của ĐSGT tương ứng, giả sử là πj (j=1, n+1) Với bộ tham
số πj ta xây dựng ĐSGT� �� ��
�� ��
theo nguyên tắc sau: với mỗi véc tơ dp = (ap,1, ap,2, …,ap,n, ap,n+1) chuyển đổi thành
��
j=1, ,n+1 Từ cơ sở dữ liệu ngôn ngữ D2 ta áp dụng thuật toán C4 5 xây dựng cây quyết định có chiều cao tối đa τmax, việc thiết lập chiều cao tối đa của cây nhằm hạn chế chiều dài của luật được sinh ra
sinh ra tập các từ�(� �)có độ dài không quá kj, tính giá trị định lượng ngữ nghĩa của các từ trong�(��)và xây dựng hệ khoảng tương tự
�(��) Bước thứ 3 chuyển đổi cơ sở dữ liệu D1 thành cơ sở dữ liệu từ ngôn ngữ D2
��
Input: - Cơ sở dữ liệu của bài toán D;
��
- Chiều cao tối đa của cây: τmax
Output: Cây quyết định T;
Begin
D1 = Chuẩn hóa tập dữ liệu số D về đoạn [0,1];
D2 = Chuyển đổi cơ sở dữ liệu số D1 thành cơ sở dữ liệu ngôn ngữ dựa trên
��
�=1 �=1
Xây dựng cây quyết định T có chiều cao tối đa τmax từ cơ sở dữ liệu
D2 bằng thuật toán C4 5;
return T;
End;
Mỗi nút của cây quyết định chứa 2 giá trị: một giá trị là tên của biến và một giá trị phân chia của nút cha