Áp dụng thuật toán sinh luật IFRG2

4.2 Bài toán phân lớp các loại ho a IRIS

4.2.2 Áp dụng thuật toán sinh luật IFRG2

Phương pháp sinh luật dựa trên phân hoạch hệ khoảng tương tự trong ĐS2GT,

được thiết kế bởi thuật toán IFRG2. Áp dụng tiêu chuẩn là SR3 = c.s để sàng rút gọn

hệ luật, sử dụng trọng số luật CF3 và phương pháp lập luận single-winner-rule. Trước hết, tối ưu tham số mờ gia tử của mơ hình áp dụng cho bài tốn bằng thuật

tốn FPO-SGA, các tham số thực hiện thuật toán này gồm Np = 300, Gmax = 150, 0.2 ≤ fmj(c-), µj(L) ≤ 0.8, 1 ≤ kj ≤ 2 (j=1,...,4). Số thuộc tính của bài toán nhỏ nên

chúng ta đặt độ dài luật tối đa đúng bằng số thuộc tính L = n = 4. Trọng số cho các

thành phần trong hàm fitness là wp = 0.99, wn = 0, wa = 0.01 (trong thuật toán tối ưu tham số sử dụng phương pháp sinh luật bằng thuật toán IFRG2 và sàng luật để rút

gọn nên số luật trong mỗi kết quả chạy là như nhau, vì vậy chọn wn = 0). Với tỷ lệ số mẫu trong các lớp cân bằng, áp dụng phương pháp sàng cân bằng để chọn ra Ns = 5 hệ luật Set(5) = {S1, S2, S3, S4, S5}, hệ Si gồm Mi = i.3 luật (mỗi lớp lấy ra i luật),

để đánh giá các tham số hàm mục tiêu (3.6). Kết quả bộ tham số gia tử và mức phân

hoạch mờ tối ưu PARiris thu được trong Bảng 4.4 (để ý rằng fm(c+

) = 1- fm(c-), µ(V) = 1- µ(L)).

117

Bảng 4.4: Kết quả tham số tối ưu (PARiris) theo thuật toán IFRG2 cho bài toán IRIS

Sepal length Sepal width Petal length Petal width

fmj(c-) 0.243845 0.584775 0.662068 0.401447

µj(L) 0.648815 0.498686 0.547278 0.314544

kj 1 1 1 1

Với bộ tham số đã tối ưu trong Bảng 4.5, chúng ta thực hiện 2 sơ đồ thử

nghiệm No-RBO và RBO-SGA. Trong sơ đồ No-RBO, áp dụng quá trình sinh luật

HARG gồm thuật toán IFRG2 và phương pháp sàng để xây dựng hệ luật với số luật

là 6 (mỗi lớp sàng lấy ra 2 luật), S6 = HAFRG(PARiris, IFRG2, 6). Đánh giá các

yếu tố của hệ luật S6 này gồm PNr, PRl, PTr và PTe.

Sơ đồ RBO-SGA áp dụng quá trình sinh luật trên để sinh tập luật S300 =

HAFRG(PARiris, IFRG2, 300) (300 luật). Tiếp theo sử dụng thuật toán RBO-SGA

để tìm kiếm tối ưu hệ luật trong tập luật S300 này. Cả hai sơ đồ này được thực hiện với các trường hợp thử nghiệm LV1, 10.CV10, 20.CV20 và 50.CV50. Các tham số thực hiện tối ưu hệ luật gồm Np = 200, Gmax = 150, trọng số các mục tiêu hàm

fitness wp = 0.99, wn = 0.009, wa = 0.001. Số luật tối đa cần tối ưu là Nmax = 7. Kết

quả của 2 sơ đồ trong 4 trường hợp thử nghiệm thể hiện Bảng 4.5 và so sánh với các phương pháp khác (ký hiệu “/” khơng có kết quả thử nghiệm). Rõ ràng kết quả tối

ưu hệ luật tốt hơn cả về số luật và hiệu quả phân lớp, trong khi độ dài hệ luật tăng

khơng nhiều.

So sánh kết quả có áp dụng tối ưu hệ luật (RBO-SGA) với các phương pháp

khác (Bảng 4.5), tỷ lệ phân lớp đúng trên tập kiểm tra (PTe) của luận án đều tốt hơn trong cả 4 trường hợp thử nghiệm. Độ dài trung bình của các luật nhỏ hơn và số

lượng trung bình các luật trong các lần thử nghiệm cũng nhỏ hơn, do đó thể hiện hệ luật kết quả RBO-SGA đơn giản hơn, dễ hiểu và tường minh hơn đối với người

dùng. Hơn nữa, số lần thử nghiệm trong mỗi trường hợp của luận án là khá lớn (100 lần chạy), cho thấy sự ổn định của phương pháp trong ứng dụng. Kết quả trong [60] thấp do tác giả không sử dụng phương pháp tối ưu hệ luật, nhưng nếu so sánh với kết quả không tối ưu hệ luật (No-RBO) của luận án thì cũng thấp hơn nhiều, chẳng

118

hạn trường hợp CV50 [60] có PNr = 9 và PTe = 77.87%, trong khi của luận án đạt

PNr = 6 và PTe = 96.5%.

Bảng 4.5: Kết quả thử nghiệm của bài toán IRIS trên hai sơ đồ khơng tối ưu và có tối ưu hệ luật, và so sánh với các phương pháp FRBCS khác

Phương pháp PNr PRl PTr (%) PTe (%)

Leave-one-out (LV1)

E. G. Mansoori và cộng sự [60] 9 / / 76.0

A. Khotanzad, E. Zhou [50] 5.4 4 / 98.67

Sơ đồ No-RBO 6 1 97.79 96.67

10-folds cross validation (CV10)

S.M. Fakhrahmad và cộng sự [23] / / / 98.3

Sơ đồ No-RBO 6 1 97.51 97.07

Sơ đồ RBO-SGA 5.71 1.68 99.26 98.0

5-folds cross validation (CV20)

Li-Hui Wang và cộng sự [77] 8.85 / / 96.7

I.E. El-Semman và cộng sự [74] / / / 98.0

Sơ đồ No-RBO 6 1 97.09 97.7

Sơ đồ RBO-SGA 5.78 1.67 99.31 98.90

2-folds cross validation (CV50)

E. G. Mansoori và cộng sự [60] 9 / / 77.87 A. Khotanzad, E. Zhou [50] 3.5 / / 95.5 H. Ishibuchi, T. Yamamoto [43] 3 2 / 96.4 C.C. Chen [17] 4.72 / 98.87 96.8 C.Y. Lee và cộng sự [56] / 2 / 98.0 Sơ đồ No-RBO 6 1 96.68 96.5 Sơ đồ RBO-SGA 5.78 1.7 99.67 98.75

Mặt khác, hầu hết các tác giả chỉ đưa ra kết quả đánh giá trên tập kiểm tra mà khơng có kết quả trên tập huấn luyện. Tuy nhiên luận án có đưa ra kết quả này và cho thấy hiệu quả phân lớp trên tập huấn luyện ngày càng tăng khi kích thước của tập huấn luyện giảm, hiệu quả trên tập kiểm tra giảm khi kích thước tập kiểm tra tăng theo các phương pháp thử nghiệm khác nhau. Điều này khá tự nhiên, vì khi

giới hạn kích thước tập luật để tối ưu là như nhau thì tập dữ liệu mẫu để sinh luật

nhỏ dẫn đến tỷ lệ phân lớp đúng trên tập đó sẽ cao và tương tự đối với tập kiểm tra. Thật vậy, nó cũng đúng cho kết quả của các phương pháp khác.

119

Giới thiệu bài toán phân lớp

Áp dụng thuật toán sinh luật IFRG1