Thực nghiệm và thảo luận

Tiểu mục này trình bày các phân tích kết quả thực nghiệm của hệ phân lớp được đề xuất, trong đó thuật toán đồng tối ưu PSO được áp dụng để tối ưu đồng thời các tham số ngữ nghĩa và lựa chọn hệ luật tối ưu.

2.3.2.1. Cài đặt thực nghiệm

Cũng giống như quy trình đã nêu trong 2.1.3.1 các thực nghiệm được cài đặt bằng ngôn ngữ lập trình C#, các tập dữ liệu thực nghiệm trong Bảng PL1.2 được trình bày trong phần Phụ lục và phương pháp kiểm tra chéo 10-folds được áp dụng. Các tham số tính mờ của ĐSGT và các tham số của PSO được thể hiện trong Bảng 2.3, chỉ có điểm khác là số thế hệ của thuật toán PSO đa mục tiêu tối ưu hệ luật là 500 và số luật khởi tạo là no_attrs × no_labels × 10, trong đó no_attrs là số biến và no_labels là số nhãn lớp.

2.3.2.2. Kết quả và thảo luận

Với phương pháp thiết kế hai giai đoạn [59], [61], hai quá trình tối ưu là tách biệt và có thể bỏ sót phương án tối ưu. Chúng ta có thể kiểm chứng bằng cách phân tích dữ liệu theo từng thế hệ của thuật toán đồng tối ưu. Với tập dữ liệu Wine, số liệu thống kê trong lần chạy thứ hai với số thế hệ của vòng tối ưu bên ngoài (tối ưu giá trị của các tham số ngữ nghĩa) là 500. Bảng 2.16 thể hiện thuật toán đồng tối ưu cho kết quả tốt nhất trên tập kiểm tra (thu được sau khi chạy vòng trong tối ưu hệ luật) tại thế hệ của vòng tối ưu tham số thể hiện trên cột “Tốt nhất tại thế hệ” và ứng với độ chính xác trên tập huấn luyện được thể hiện trên cột “Độ chính xác trên tập huấn luyện tại thế hệ tốt nhất” và kết quả tốt nhất này được thể hiện ở cột “Độ chính xác trên tập kiểm tra” (cột 4). Cột “Độ chính xác trên tập huấn luyện tại vòng lặp cuối cùng” thể hiện rằng, tuy độ chính xác trên tập huấn luyện thu được tại thế hệ cuối cùng của vòng tối ưu tham số có thể tốt hơn tại thế hệ “Độ chính xác trên tập huấn luyện tại thế hệ tốt nhất” nhưng cho độ chính xác phân lớp trên tập kiểm tra thu được sau khi

tối ưu hệ luật (cột 6) có thể không tốt hơn. Ta có thể thấy kết quả này tại các nhóm (folder) 2, 5 và 11. Điều này minh chứng rằng các giá trị của các tham số ngữ nghĩa tương ứng với độ chính xác cao nhất trên tập huấn luyện thu được (ở thế hệ cuối cùng) sau khi thực hiện tối ưu các tham số ngữ nghĩa không luôn cho hệ luật phân lớp tối ưu sau khi tối ưu hệ luật. Ví dụ, quan sát trong Bảng 2.16 cho thấy rằng nhóm 2 đạt độ chính xác trên tập huấn luyện là 98,88% tại thế hệ thứ 23, kém hơn độ chính xác tốt nhất trên tập huấn luyện tại thế hệ cuối cùng (của vòng tối ưu tham số ngữ nghĩa) là 99,44% nhưng bộ giá trị tham số ngữ nghĩa thu được tại thế hệ thứ 23 lại cho độ chính xác trên tập kiểm tra sau khi tối ưu hệ luật tốt hơn so với bộ tham số ngữ nghĩa thu được tại thế hệ cuối cùng (tương ứng là 100% và 94,44%).

Để thuận tiện cho việc trình bày, ký hiệu phương pháp phân lớp theo tiếp cận ĐSGT theo hai giai đoạn là HATF [61] và theo đồng tối ưu được đề xuất là HACO.

Bảng 2.16.Dữ liệu thống kê trong lần chạy thứ hai đối với tập dữ liệu Wine.

Folder Tốt nhất tại thế hệ Độ chính xác trên tập huấn luyện tại thế hệ tốt nhất (%) Độ chính xác trên tập kiểm tra (%) Độ chính xác trên tập huấn luyện tại vòng lặp cuối cùng (%) Độ chính xác trên tập kiểm tra (%) 1 46 99,44 100 99,44 100 2 23 98,88 100 99,44 94,44 3 38 98,88 100 98,88 100 4 4 98,88 100 98,88 100 5 179 98,88 100 98,88 100 6 196 99,44 94,12 99,44 94,12 7 5 98,31 100 98,88 88,89 8 57 99,44 100 100 100 9 14 97,75 88,89 98,31 88,89 10 11 97,75 100 98,31 94,44

Các kết quả thực nghiệm và so sánh giữa hai hệ phân lớp trên tập dữ liệu kiểm tra và độ phức tạp của hệ phân lớp được thể hiện trong Bảng 2.17. Bảng 2.17 cho thấy hệ phân lớp HACO có độ chính xác phân lớp trên tập kiểm tra tốt hơn so với hệ phân lớp HATF đối với 20 trên 23 tập dữ liệu được thực nghiệm. Xét trên độ chính xác phân lớp trung bình trên tập kiểm tra, hệ phân lớp HACO có độ chính xác phân lớp trung bình cao hơn và có độ phức tạp của hệ phân lớp thấp hơn so với hệ phân lớp HATF (82,95% và 112,73 tương ứng so với 82,67% và 114,78).

Để đảm bảo ý nghĩa so sánh giữa các kết quả thực nghiệm của hai phương pháp thiết kế hệ phân lớp, phương pháp kiểm định thống kê Wilcoxon với  = 0,05 được sử dụng để kiểm tra giả thuyết tương đương. Kết quả kiểm định giá thuyết thống kê đối với độ chính xác phân lớp được thể hiện trong Bảng 2.17 chỉ ra rằng hệ phân lớp HACO tốt hơn hệ phân lớp HATF vì giá trị p-value = 0,0011184 nhỏ hơn  = 0,05, do đó giả thuyết tương đương giữa hai hệ phân lớp bị bác bỏ và giá trị trung bình của độ chính xác phân lớp của HACO cao hơn HATF. Kết quả kiểm định giả thuyết thống kê đối với độ phức tạp của hệ phân lớp được thể hiện trong Bảng 2.18 chỉ ra rằng hai hệ phân lớp HACO và HATF có độ phức tạp tương đương nhau do giá trị p-value lớn hơn  = 0,05, do đó giả thuyết tương đương về độ phức tạp giữa hai hệ phân lớp không bị bác bỏ. Dựa trên kết quả kiểm định này, chúng ta có thể kết luận rằng hệ phân lớp HACO tốt hơn hệ phân lớp HATF.

Bảng 2.17. Các kết quả thực nghiệm và so sánh giữa hai hệ phân lớp HACO và HATF.

No, Dataset name HACO HATF  RC Pte

#R #RC Ptr Pte #R #RC Ptr Pte 1 Appendicitis 3,93 19,65 91,79 89,09 3,67 16,77 92,38 88,15 2,88 0,94 2 Australian 5,67 51,99 88,27 87,20 5,00 46,50 88,56 87,15 5,49 0,05 3 Bands 6,00 56,40 76,39 73,00 6,00 58,20 78,19 73,46 -1,80 -0,46 4 Bupa 10,33 226,95 76,22 73,22 8,97 181,19 79,78 72,38 45,76 0,84 5 Cleveland 14,70 465,55 70,34 62,12 14,57 468,13 66,64 62,39 -2,59 -0,27 6 Dermatology 11,93 229,41 97,36 94,96 10,43 182,84 96,37 94,40 46,58 0,56 7 Glass 13,50 357,75 79,15 73,07 14,23 474,29 78,78 72,24 -116,54 0,83 8 Haberman 3,00 9,81 76,86 77,50 3,00 10,80 77,60 77,40 -0,99 0,10 9 Hayes-roth 10,17 111,87 90,46 84,79 9,80 114,66 89,40 84,17 -2,79 0,62 10 Heart 7,63 97,44 87,92 84,94 8,37 123,29 89,19 84,57 -25,86 0,37 11 Hepatitis 3,87 20,63 92,17 89,15 3,70 25,53 93,68 89,28 -4,90 -0,13 12 Ionosphere 8,90 102,35 94,81 91,64 8,63 88,03 94,69 91,56 14,32 0,08 13 Iris 4,53 22,97 98,17 98,00 5,30 30,37 98,25 97,33 -7,40 0,67 14 Mammogr, 7,17 75,50 85,88 84,25 7,10 73,84 85,49 84,20 1,66 0,05 15 Newthyroid 5,87 46,78 97,95 95,70 5,33 39,82 96,76 95,67 6,97 0,03 16 Pima 6,93 76,23 78,41 77,22 5,97 56,12 78,69 77,01 20,11 0,21 17 Saheart 6,70 75,04 76,28 70,26 5,63 59,28 75,51 70,05 15,76 0,21 18 Sonar 5,93 46,43 87,78 78,94 5,87 49,31 87,59 78,61 -2,88 0,33 19 Tae 9,93 157,89 71,08 61,67 10,90 210,70 68,97 61,00 -52,81 0,67 20 Vehicle 11,00 178,20 70,67 68,32 11,23 195,07 70,74 68,20 -16,87 0,12 21 Wdbc 4,93 36,83 97,53 96,81 4,00 25,04 97,08 96,78 11,79 0,03 22 Wine 5,87 44,20 99,77 99,05 5,77 40,39 99,60 98,49 3,81 0,56 23 Wisconsin 8,47 83,01 98,01 96,99 7,87 69,81 97,78 96,95 13,20 0,04 Mean 112,73 86,23 82,95 114,78 86,16 82,67

Bảng 2.18. Kiểm định giả thuyết tương đương đối với độ chính xác phân lớp giữa hai hệ phân lớp HACO và HATF.

VS R+ R- E. P-value Hypothesis

HACO vs HATF 240 36 0,0011184 Rejected

Bảng 2.19.Kiểm định giả thuyết tương đương đối với độ phức tạp của hai hệ phân lớp HACO và HATF.

VS R+ R- E. P-value Hypothesis

HACO vs HATF 121 155 ≥ 0,2 Not rejected

Đại số gia tử mở rộng

Các thành phần của hệ mờ