4.2 Bài toán phân lớp các loại ho a IRIS
4.2.2 Áp dụng thuật toán sinh luật IFRG2
Phương pháp sinh luật dựa trên phân hoạch hệ khoảng tương tự trong ĐS2GT,
được thiết kế bởi thuật toán IFRG2. Áp dụng tiêu chuẩn là SR3 = c.s để sàng rút gọn
hệ luật, sử dụng trọng số luật CF3 và phương pháp lập luận single-winner-rule. Trước hết, tối ưu tham số mờ gia tử của mơ hình áp dụng cho bài tốn bằng thuật
tốn FPO-SGA, các tham số thực hiện thuật toán này gồm Np = 300, Gmax = 150, 0.2 ≤ fmj(c-), µj(L) ≤ 0.8, 1 ≤ kj ≤ 2 (j=1,...,4). Số thuộc tính của bài toán nhỏ nên
chúng ta đặt độ dài luật tối đa đúng bằng số thuộc tính L = n = 4. Trọng số cho các
thành phần trong hàm fitness là wp = 0.99, wn = 0, wa = 0.01 (trong thuật toán tối ưu tham số sử dụng phương pháp sinh luật bằng thuật toán IFRG2 và sàng luật để rút
gọn nên số luật trong mỗi kết quả chạy là như nhau, vì vậy chọn wn = 0). Với tỷ lệ số mẫu trong các lớp cân bằng, áp dụng phương pháp sàng cân bằng để chọn ra Ns = 5 hệ luật Set(5) = {S1, S2, S3, S4, S5}, hệ Si gồm Mi = i.3 luật (mỗi lớp lấy ra i luật),
để đánh giá các tham số hàm mục tiêu (3.6). Kết quả bộ tham số gia tử và mức phân
hoạch mờ tối ưu PARiris thu được trong Bảng 4.4 (để ý rằng fm(c+
) = 1- fm(c-), µ(V) = 1- µ(L)).
117
Bảng 4.4: Kết quả tham số tối ưu (PARiris) theo thuật toán IFRG2 cho bài toán IRIS
Sepal length Sepal width Petal length Petal width
fmj(c-) 0.243845 0.584775 0.662068 0.401447
µj(L) 0.648815 0.498686 0.547278 0.314544
kj 1 1 1 1
Với bộ tham số đã tối ưu trong Bảng 4.5, chúng ta thực hiện 2 sơ đồ thử
nghiệm No-RBO và RBO-SGA. Trong sơ đồ No-RBO, áp dụng quá trình sinh luật
HARG gồm thuật toán IFRG2 và phương pháp sàng để xây dựng hệ luật với số luật
là 6 (mỗi lớp sàng lấy ra 2 luật), S6 = HAFRG(PARiris, IFRG2, 6). Đánh giá các
yếu tố của hệ luật S6 này gồm PNr, PRl, PTr và PTe.
Sơ đồ RBO-SGA áp dụng quá trình sinh luật trên để sinh tập luật S300 =
HAFRG(PARiris, IFRG2, 300) (300 luật). Tiếp theo sử dụng thuật toán RBO-SGA
để tìm kiếm tối ưu hệ luật trong tập luật S300 này. Cả hai sơ đồ này được thực hiện với các trường hợp thử nghiệm LV1, 10.CV10, 20.CV20 và 50.CV50. Các tham số thực hiện tối ưu hệ luật gồm Np = 200, Gmax = 150, trọng số các mục tiêu hàm
fitness wp = 0.99, wn = 0.009, wa = 0.001. Số luật tối đa cần tối ưu là Nmax = 7. Kết
quả của 2 sơ đồ trong 4 trường hợp thử nghiệm thể hiện Bảng 4.5 và so sánh với các phương pháp khác (ký hiệu “/” khơng có kết quả thử nghiệm). Rõ ràng kết quả tối
ưu hệ luật tốt hơn cả về số luật và hiệu quả phân lớp, trong khi độ dài hệ luật tăng
khơng nhiều.
So sánh kết quả có áp dụng tối ưu hệ luật (RBO-SGA) với các phương pháp
khác (Bảng 4.5), tỷ lệ phân lớp đúng trên tập kiểm tra (PTe) của luận án đều tốt hơn trong cả 4 trường hợp thử nghiệm. Độ dài trung bình của các luật nhỏ hơn và số
lượng trung bình các luật trong các lần thử nghiệm cũng nhỏ hơn, do đó thể hiện hệ luật kết quả RBO-SGA đơn giản hơn, dễ hiểu và tường minh hơn đối với người
dùng. Hơn nữa, số lần thử nghiệm trong mỗi trường hợp của luận án là khá lớn (100 lần chạy), cho thấy sự ổn định của phương pháp trong ứng dụng. Kết quả trong [60] thấp do tác giả không sử dụng phương pháp tối ưu hệ luật, nhưng nếu so sánh với kết quả không tối ưu hệ luật (No-RBO) của luận án thì cũng thấp hơn nhiều, chẳng
118
hạn trường hợp CV50 [60] có PNr = 9 và PTe = 77.87%, trong khi của luận án đạt
PNr = 6 và PTe = 96.5%.
Bảng 4.5: Kết quả thử nghiệm của bài toán IRIS trên hai sơ đồ khơng tối ưu và có tối ưu hệ luật, và so sánh với các phương pháp FRBCS khác
Phương pháp PNr PRl PTr (%) PTe (%)
Leave-one-out (LV1)
E. G. Mansoori và cộng sự [60] 9 / / 76.0
A. Khotanzad, E. Zhou [50] 5.4 4 / 98.67
Sơ đồ No-RBO 6 1 97.79 96.67
10-folds cross validation (CV10)
S.M. Fakhrahmad và cộng sự [23] / / / 98.3
Sơ đồ No-RBO 6 1 97.51 97.07
Sơ đồ RBO-SGA 5.71 1.68 99.26 98.0
5-folds cross validation (CV20)
Li-Hui Wang và cộng sự [77] 8.85 / / 96.7
I.E. El-Semman và cộng sự [74] / / / 98.0
Sơ đồ No-RBO 6 1 97.09 97.7
Sơ đồ RBO-SGA 5.78 1.67 99.31 98.90
2-folds cross validation (CV50)
E. G. Mansoori và cộng sự [60] 9 / / 77.87 A. Khotanzad, E. Zhou [50] 3.5 / / 95.5 H. Ishibuchi, T. Yamamoto [43] 3 2 / 96.4 C.C. Chen [17] 4.72 / 98.87 96.8 C.Y. Lee và cộng sự [56] / 2 / 98.0 Sơ đồ No-RBO 6 1 96.68 96.5 Sơ đồ RBO-SGA 5.78 1.7 99.67 98.75
Mặt khác, hầu hết các tác giả chỉ đưa ra kết quả đánh giá trên tập kiểm tra mà khơng có kết quả trên tập huấn luyện. Tuy nhiên luận án có đưa ra kết quả này và cho thấy hiệu quả phân lớp trên tập huấn luyện ngày càng tăng khi kích thước của tập huấn luyện giảm, hiệu quả trên tập kiểm tra giảm khi kích thước tập kiểm tra tăng theo các phương pháp thử nghiệm khác nhau. Điều này khá tự nhiên, vì khi
giới hạn kích thước tập luật để tối ưu là như nhau thì tập dữ liệu mẫu để sinh luật
nhỏ dẫn đến tỷ lệ phân lớp đúng trên tập đó sẽ cao và tương tự đối với tập kiểm tra. Thật vậy, nó cũng đúng cho kết quả của các phương pháp khác.
119