2.2 Phương pháp sinh luật mờ dựa trên hệ khoảng tính mờ
2.2.3 Phương pháp rút gọn bằng phép hợp các luật mờ
Hệ luật khởi đầu sinh bởi thuật tốn IFRG1 có độ dài giống nhau và đúng
bằng tập các thuộc tính. Mỗi luật mờ được sinh từ một siêu hộp trong không gian
phân hoạch bởi hệ khoảng tính mờ, tương ứng là các giá trị ngôn ngữ. Khi chọn
mức phân hoạch khoảng tính mờ thấp (tức kj nhỏ) cơ hội mỗi siêu hộp chứa nhiều mẫu dữ liệu ở khác lớp nhau rất cao, do đó luật sinh ra khơng có tính phân biệt lớn giữa các lớp hay luật mờ có tính phổ qt cao. Thơng thường chúng ta xuất phát với
kj lớn để sinh các luật có tính phân biệt (hay tính cá thể) cao, đảm bảo hiệu quả phân lớp đối với tập dữ liệu mẫu. Mặt khác theo mục tiêu (1.6) thì hệ luật phải tinh gọn và hiệu quả, đảm bảo tính phổ quát để thực hiện mục tiêu dự đoán. Phép hợp các
luật mờ được đề xuất với mong muốn tìm những luật mang tính phổ qt hơn, tức bao trùm các luật khác nhưng đảm bảo hiệu quả phân lớp.
Dựa trên định nghĩa mức độ gần nhau của hai khoảng tính mờ (Định nghĩa
2.2), mỗi luật mờ xác định một tập các giá trị ngôn ngữ ở vế trái Aq = (Aq,1, ..., Aq,n)
và tương ứng là tập các khoảng tính mờ. Chúng ta định nghĩa mức độ có thể hợp
của hai luật mờ như sau:
Định nghĩa 2.3. Với hai luật Rq = (Aq ⇒ Cq) và Rp = (Ap⇒ Cp), mức độ có thể
hợp của hai luật Rq, Rp, ký hiệu itg(Rq,Rp), được xác định dựa trên mức độ gần nhau của các thành phần như sau:
i) itg(Rq, Rp) = 0, nếu Cq ≠ Cp, ngược lại
ii) itg(Rq, Rp) = Tex(sm(Ap,1, Aq,1), ..., sm(Ap,n, Aq,n)),
trong đó, Tex là một t-chuẩn mở rộng n ngôi, trong luận án này chúng tơi dùng tốn tử min, hàm sm được xác định từ Định nghĩa 2.2.
66
Theo định nghĩa này hai luật có giá trị itg càng lớn thì mức độ có thể hợp càng
cao, khi itg = 1 hai luật giống nhau và itg = 0 hai luật không thể hợp vì hoặc chúng
ở hai lớp khác nhau hoặc các giá trị ngôn ngữ trong điều kiện luật khơng có quan hệ
ngữ nghĩa. Luật mới được sinh ra có vế phải giống với hai luật trên, vế trái bao gồm các giá trị ngôn ngữ bao hàm ngữ nghĩa các cặp (Aq,j, Ap,j) và có độ dài lớn nhất.
Để đảm bảo hiệu quả phân lớp cũng như tránh mất mát thông tin quá nhiều,
chúng ta đặt ngưỡng mức độ có thể hợp đối với một hệ luật. Khi đó, xét từng cặp
luật nếu giá trị của hàm itg không nhỏ hơn ngưỡng θitg cho trước thì thay thế chúng bằng luật mới tương ứng, lặp lại quá trình này cho đến khi khơng có cặp luật nào
trong hệ thỏa mãn.
Ví dụ 2.2. Minh họa phương pháp hợp các luật. Giả sử cho tập dữ liệu có 2
thuộc tính như trong Hình vẽ 2.3, với mức phân hoạch các khoảng tính mờ kj = 2 và các tham số mờ gia tử đều bằng 0.5, hệ luật sinh bởi thuật toán IFRG1 gồm 9 luật tương ứng 9 hình chữ nhật có chứa mẫu dữ liệu (Hình 2.3).
Hình 2.3: Minh họa phương pháp hợp các luật
Trực quan nhận thấy có thể hợp hai luật R1 và R2 hoặc R2 và R3, R4 và R6 hoặc
R5 và R6, chẳng hạn hợp cặp R1 = ((Lc+, Vc+) ⇒ class“•”) và R2 = ((Vc+, Vc+) ⇒
class“•”) ta được R12 = ((c+, Vc+) ⇒ class“•”). Các luật R8 và R9 khơng thể vì trên thuộc tính X2 cặp giá trị ngơn ngữ Lc-
và Lc+ khơng có quan hệ ngữ nghĩa, tương tự với cặp luật R6 và R7 vì cặp giá trị ngơn ngữ Lc- và Lc+ trên thuộc tính X1. Quá trình
X1 X2 R1 R2 R3 R4 R5 R6 R7 R8 R9 c- c+ Vc+ Lc+ Lc- Vc- c - c + V c + L c + L c - V c -
67
hợp có thể được tiếp tục trên các luật mới, khi đó cặp luật R12 và R3 có thể hợp thành một luật mới R123 = ((c+, c+) ⇒ class“•”) tương ứng với miền quyết định được
tơ màu trong Hình 2.3.
Ví dụ 2.3. Áp dụng phương pháp hợp để rút gọn hệ luật trong Bảng 2.1. Đặt
ngưỡng hợp θitg = 0.1, kết quả hệ luật thu được gồm 6 luật (Bảng 2.3). Xét các cặp luật trong Bảng 2.1 có vế phải giống nhau, tính tốn giá trị hàm đánh giá mức độ
hợp itg(R6,R7) = min(sm(V.long,V.long), sm(V.long,L.long)) = ½.(1-|0.875-0.625|) =
0.125 (trong đó υ(V.long) = 0.875, υ(L.long) = 0.625, hàm sm tính theo Định nghĩa
2.2), hợp hai luật này thành luật R67 = ((V.long,long) ⇒ Virginica). Tương tự, cặp
luật (R67,R8) được hợp thành R678 = ((long, long) ⇒ Virginica).
Bảng 2.3- Hệ 6 luật thu được sau khi hợp từ hệ luật trong bảng 2.1 của Ví dụ 2.1
R1 if petal-length is V.short, and petal-width is V.short then Setosa
R2 if petal-length is L.long, and petal-width is L.long then Versicolor
R3 if petal-length is L.long, and petal-width is L.short then Versicolor
R4 if petal-length is L.short, and petal-width is L.short then Versicolor
R5 if petal-length is L.short, and petal-width is L.long then Versicolor
R6 if petal-length is long, and petal-width is long then Virginica
Cho dù hệ luật thu được giảm 25% số luật nhưng hiệu quả phân lớp được nâng cao hơn so với trong Bảng 2.1, đạt 96.67% đối với tất cả các trường hợp áp dụng
trọng số luật và phương pháp lập luận single-winner-rule, trong khi hệ luật trong Bảng 2.1 chỉ đạt 94.67%. Điều này minh họa cho khả năng ứng dụng của phương
pháp hợp nhằm rút gọn hệ luật nhưng vẫn đảm bảo hiệu năng phân lớp.
Một hạn chế của thuật toán sinh luật IFRG1 là việc bỏ qua xem xét ngữ nghĩa của các hạng từ độ dài nhỏ hơn so với mức phân hoạch kj được chọn để sinh luật. Chẳng hạn Ví dụ 2.1 trên không xét các giá trị ngôn ngữ short và long. Điều này
làm mất tính bình đẳng của các giá trị ngơn ngữ. Hơn nữa, phân hoạch trên Hình 2.2 trực quan ta thấy loại hoa Setosa có thể phân lớp chỉ bằng một thuộc tính petal
68
length hoặc petal width với ngữ nghĩa của giá trị ngơn ngữ V.short. Do đó luật R1
trong Bảng 2.1 có thể loại bỏ điều kiện của một thuộc tính. Đây có thể coi là sự dư thừa các điều kiện trong vế trái luật.
Phần tiếp theo luận án sẽ đề xuất sử dụng đại số chỉ gồm 2 gia tử để xây dựng hệ khoảng tương tự cho tập hạng từ có độ dài khơng quá k (X(k)) và xây dựng phương pháp sinh luật dựa trên hệ khoảng tương tự.