Thủ tục xây dựng cây quyết định mờ

Một phần của tài liệu Khai phá dữ liệu với cây quyết định (Trang 71)

Tạo ra một nút Gốc có tập mờ của tất cả dữ liệu với giá trị thuộc là 1.

Với kết quả của các tính toán ở trên, ta sử dụng sự thuộc tính Traffic-Jam để

mở rộng cây. Tạo hai nút con với các ví dụ, nơi giá trị thuộc tại những nút con này là sản kết quả của những giá trị thuộc ban đầu tại Gốc và những giá trị thuộc của thuộc tính Traffic-Jam. Ví dụ bị bỏ qua nếu giá trị thuộc của nó là null.

Ví dụ: với nút con trái với giá trị thuộc tính Long, giá trị thuộc của dữ

liệu 1 (D1) μl là 0.25. Giá trị thuộc mới của D1 ở nút này là 0.25 theo tính toán

sau: μNew = μl * μOld = 0.25 *1 =0.25

Tiếp theo ta phải tính toán tỉ lệ của lớp Ck. Đó là phép chia của tổng những giá trị thuộc của lớp Ck cho tổng của mọi giá trị thuộc. Sau đó, so sánh tỉ lệ này và số lượng tập dữ liệu với r và n. Nếu chúng nhỏ hơn và nếu đó cũng là những thuộc tính cho phân lớp thì ta tạo ra một nút mới. Lặp lại những quá trình này cho đến những điều kiện dừng được định nghĩa trong 3.3.1.3. thỏa mãn.

Ví dụ: trong nút con trái, tỉ lệ của lớp No là 1.13/2.09=54%. Số lượng tập dữ liệu là 7. Tỉ lệ của lớp Yes trong nút con phải là 77%. Nếu tham số điều khiển mờ do người dùng định ra là 70%, ta ngừng mở rộng nút này. Trong trường hợp này, nó có nghĩa rằng nếu tắc đường là ngắn (Traffic Jam Short), xác suất của Không-tự lái xe(No) và Có-Tự lái xe(Yes) tương ứng là 23%và 77%

Hình 3.6: Quá trình phát triển cây của thuật toán Fuzzy ID3

Với nút con trái: CNo = 0.25+0.18+0.17 +0.53 =1.13; CYes = 0.33+0.4+0.23=0.96 Tổng CN+CYes = 2.09 nên tỉ lệ của lớp No là 1.13/2.09=54%; Tỉ lệ của lớp Yes là 0.96/2.09=46%;

Với nút con phải: CNo= 0.25+0.37+0.8+0.38=1.8;

CYes=0.12+0.87+1+0.92+0.82+1+0.28+1 = 6.01; CNo + CYes = 7.81 Tỉ lệ của lớp No là: 1.8/7.81=23%; Tỉ lệ của lớp Yes là: 6.01/7.81=77%

Trong trường hợp này nếu r là 95% thì cả hai nút con này đều được mở rộng tiếp, nếu r là 75% thì chỉ nút con trái được mở rộng.

Thuật toán Fuzzy ID3 [8]

1. Tạo ra một nút gốc Root có tập mờ của tất cả dữ liệu với giá trị thuộc là 1 2. Nếu một nút t với tập mờ của dữ liệu D thỏa mãn những điều kiện sau đây, thì nó là một nút lá và được gán tên là tên lớp:

tỉ lệ (của) một lớp Ck >= r : (|DCi| /|D|)  r số lượng một tập dữ liệu ít hơn n

không có những thuộc tính để có thêm những phân lớp

3. Nếu một D nút không thỏa mãn những điều kiện ở trên thì nó không phải là một nút lá. Và một nút con mới được tạo ra như sau:

Với mỗi Ai (i = 1,…, L) tính Information Gain G (3.8), và lựa chọn thuộc tính kiểm tra Amax cực đại trong đó.

Chia D thành các tập con mờ D1,., Dm theo Amax, khi giá trị thuộc của dữ liệu trong Dj là kết quả của giá trị thuộc trong D và giá trị của Fmax,j của giá trị của Amax trong D.

Tạo những nút mới t1,…, tm cho các tập con mờ D1,…, Dm và gắn nhãn các tập mờ Fmax,j để tạo cạnh kết nối giữa những nút tj và t.

Thay thế D bởi Dj ( j = 1, 2, …, m) và lặp lại từ bước 2 một cách đệ quy

Một phần của tài liệu Khai phá dữ liệu với cây quyết định (Trang 71)