Trong chương này, luận án đã hệ thống lại những kiến thức cơ sở liên quan đến các phương pháp thiết kế các FRBS cho bài toán phân lớp và hồi quy làm cơ sở cho việc nghiên cứu và các đề xuất mới trong luận án như:
- Khái niệm tập mờ, biến ngôn ngữ, luật mờ, hệ luật mờ, bài toán phân lớp, bài toán hồi quy.
- Những kiến thức cơ bản của lý thuyết ĐSGT, ĐSGT mở rộng như các khái niệm, các định lý, hàm định lượng ngữ nghĩa, độ đo tính mờ, hệ khoảng tính mờ, hệ khoảng tương tự.
- Cấu trúc của hệ mờ dựa trên luật mờ, các dạng của luật mờ và các thuật toán sinh luật mờ từ dữ liệu cho bài toán phân lớp, hồi quy dựa trên ĐSGT. Phương pháp lập luận xấp xỉ trên FRBS được sử dụng phổ biến trong giải bài toán phân lớp, hồi quy, các mục tiêu cần đạt được khi thiết kế FRBS.
Chương này cũng trình bày rõ các vấn đề cần phải giải quyết khi thực hiện nhiệm vụ thiết kế FRBS giải bài toán phân lớp, hồi quy; tóm tắt những đề xuất giải quyết vấn đề này trong những năm gần đây. Từ đó, xác định được các vấn đề còn tồn tại và đưa ra những định hướng cần nghiên cứu và giải quyết trong luận án.
Chương 2
PHÁT TRIỂN THUẬT TOÁN NÂNG CAO ĐỘ CHÍNH XÁC CỦA CÁC HỆ PHÂN LỚP VÀ HỒI QUY DỰA TRÊN ĐẠI SỐ GIA TỬ
Trong chương này, luận án đề xuất một số cải tiến trong thiết kế phân hoạch mờ của biến ngôn ngữ và thuật toán xây dựng LRBS nhằm nâng cao độ chính xác phân lớp, hồi quy. Thứ nhất, luận án phát triển một phương pháp thiết kế phân hoạch mờ với ngữ nghĩa của từ ngôn ngữ được xây dựng bằng cách kết hợp giữa ngữ nghĩa khoảng của từ được xác định bằng ĐSGT mở rộng và hàm S. Thiết kế phân hoạch này được áp dụng để xây dựng LRBS giải bài toán hồi quy và giải bài toán phân lớp. Thứ hai, cải tiến thuật toán xây dựng LRBS, luận án phát triển phương pháp sinh luật dựa trên ĐSGT và cây quyết định, đề xuất thuật toán xây dựng hệ luật mờ giải bài toán hồi quy gồm 2 pha: pha thứ nhất tìm tham số mờ tới ưu của ĐSGT của các biến bằng thuật giải di truyền (GA); pha thứ hai tìm kiếm LRBS tối ưu bằng thuật toán phát triển dựa trên thuật toán (2+2)M-PAES do M. Cococcioni và cộng sự đề xuất trong [22]. Thứ ba, luận án phát triển thuật toán HACO dựa trên sự cải tiến thuật toán 2 giai đoạn HATF do P.D. Phong và cộng sự đề xuất trong [61]. Thuật toán đề xuất thực hiện tối ưu đồng thời tham số tập mờ và hệ luật dựa trên chiến lược tối ưu PSO nhằm nâng cao độ chính xác nhưng vẫn đảm bảo độ phức tạp của hệ phân lớp.
2.1. Thiết kế ngữ nghĩa tính toán của các từ của biến ngôn ngữ và ứng dụng
2.1.1 Thiết kế ngữ nghĩa tính toán của các từ ngôn ngữ dựa trên hàm S
Thiết kế phân hoạch mờ là bài toán đầu tiên cần giải quyết khi thực hiện giải bài toán dựa trên hệ luật mờ. Việc thiết kế phân hoạch mờ là công việc quan trọng, nó quyết định đến việc thiết kế thuật toán sinh luật và quá trình tìm kiếm tối ưu hệ luật mờ.
Khi thiết kế phân hoạch chúng ta phải lựa chọn dạng phân hoạch, dạng tập mờ, tham số tập mờ, số tập mờ sử dụng. Hầu hết các thuật toán đã đề xuất theo lý thuyết tập mờ đều sử dụng phân hoạch dạng đơn thể hạt [10-14], [38-43]. Việc sử dụng phân hoạch mờ đơn thể hạt nhằm giảm bớt không gian luật ứng cử được sinh ra do các luật được sinh ra dựa trên tổ hợp của tất cả khả năng có thể của các tập mờ dùng để phân hoạch các thuộc tính. Theo cách sinh luật này thì số luật phải xem xét là hàm mũ theo số thuộc tính của bài toán. Sử dụng phân hoạch đơn hạt cũng nhằm làm giảm số tham số cần điều chỉnh khi thực hiện điều chỉnh tập mờ do số tập mờ dùng để xây dựng phân hoạch thường ít hơn nhiều so với sử dụng đa thể hạt, và ngoài ra nó còn làm
tăng tính dễ giải nghĩa của hệ luật. Tuy nhiên nó lại làm giảm độ chính xác của hệ luật.
Phân hoạch mờ dạng đa thể hạt là sử dụng nhiều phân hoạch mờ đơn thể hạt trên một thuộc tính. Thông thường các phân hoạch mờ đơn thể hạt được sử dụng trong phân hoạch mờ dạng đa thể hạt được thiết kế với các từ ngôn ngữ từ khái quát đến đặc tả. Sử dụng phân hoạch mờ đa thể hạt có tiềm năng nâng cao độ chính xác của hệ luật. Các tiếp cận theo lý thuyết tập mờ cho rằng, phân hoạch mờ đa thể hạt gây khó hiểu với người dùng, tức tính giải nghĩa được kém đồng thời làm tăng độ phức tạp trong quá trình tối ưu hệ luật [16-17], [37]. Do số lượng từ ngôn ngữ được sử dụng trên một thuộc tính nhiều dẫn đến số lượng tham số lớn nếu phải học điều chỉnh tham số tập mờ. Vì lý do này mà không nhiều đề xuất sử dụng phân hoạch đa thể hạt.
02 Vc- Lc- Lc+ Vc+ 12
01 c- W c+ 11
Hình 2.1. Thiết kế phân hoạch đa thể hạt dựa trên ĐSGT trong [59]
02 Vc- Lc- Lc+ Vc+ 12
01 c- c+ 11
00 W 10
Hình 2.2. Một thiết kế phân hoạch mờ đa thể hạt với độ dài tối đa của từ là 2 trong [62] ĐSGT khai thác thứ tự ngữ nghĩa dựa trên ngữ nghĩa vốn có của các từ trong miền giá trị ngôn ngữ của một biến ngôn ngữ để hình thành một cơ sở hình thức toán học, thực hiện ánh xạ ngữ nghĩa vốn có của từ thành ngữ nghĩa định lượng của nó
dạng điểm hoặc khoảng (ĐSGT tuyến tính mở rộng). Dựa trên ngữ nghĩa định lượng, ngữ nghĩa dựa trên tập mờ của từ được xây dựng. Trong [59], [61-63] các tác giả đã áp dụng ĐSGT để xây dựng các phân hoạch mờ cho các biến ngôn ngữ với tập mờ dạng tam giác hoặc hình thang cho các hệ phân lớp, hồi quy dựa trên luật mờ. Các hệ luật mờ thu được đều cho kết quả tốt so với các phương pháp dựa trên lý thuyết tập mờ. 02 Vc Lc- - Lc Vc+ + 12 0 c- W c+ 1
Hình 2.3. Một thiết kế phân hoạch mờ đa thể hạt với hàm thuộc hình thang trong [61] Trong [61] Nguyễn Cát Hồ và cộng sự chứng tỏ rằng, tập mờ dạng hình thang cho kết quả tốt hơn tập mờ dạng tam giác. Tam giác chỉ là trường hợp riêng của hình thang khi đáy trên của nó là một điểm, do đó nó biểu diễn ngữ nghĩa của từ tốt hơn tam giác là điều dễ hiểu. Thực tế chúng ta thấy rằng cả 2 dạng tập mờ này đều vẫn còn hạn chế bởi cả hai dạng tập mờ này đều có 2 cạnh bên được biểu diễn bằng hàm tuyến tính nên chưa thật mềm dẻo và phù hợp với tính mờ của từ ngôn ngữ. Luận án đề xuất một phương pháp thiết kế ngữ nghĩa tính toán dựa trên tập mờ được thiết kế dựa trên việc kết hợp hàm S và ngữ nghĩa khoảng được sinh bởi ĐSGT mở rộng cho các hệ phân lớp và hồi quy. Do hàm S là hàm phi tuyến nên nó sẽ phù hợp với sự biến thiên về ngữ nghĩa vốn có của các từ ngôn ngữ.
Mặt khác, khi thiết kế các phân hoạch mờ để đảm bảo tính giải nghĩa được ở mức phân hoạch thì ngữ nghĩa dạng tập mờ của từ phải đảm bảo được tính khái quát – đặc tả, tính bao hàm ngữ nghĩa vốn có của từ ngôn ngữ. Cụ thể, một từ ngôn ngữ
hx được sinh ra từ từ ngôn ngữ x bởi thêm gia tử h vào từ x có ngữ nghĩa đặc tả hơn từ x nhưng vẫn giữ nguyên ngữ nghĩa gốc của x. Ví dụ, từ “rất trẻ” được sinh ra từ từ “trẻ” bởi thêm gia tử “rất” vào từ “trẻ” thì nó có ngữ nghĩa đặc tả hơn ngữ nghĩa của từ “trẻ” nhưng vẫn giữ được ngữ nghĩa gốc của “trẻ” và ngữ nghĩa của nó phải được bao hàm trong ngữ nghĩa của từ trẻ. Vì vậy, khi thiết kế phân hoạch đòi hỏi phải đảm
1
bảo tính bao hàm ngữ nghĩa, do đó trong cấu trúc phân hoạch mờ thì độ hỗ trợ của tập mờ ứng với từ ngôn ngữ hx phải nằm trọn trong độ hỗ trợ của tập mờ của từ ngôn ngữ x. Nguyễn Cát Hồ và cộng sự cũng đã đưa ra các ràng buộc trên ngữ nghĩa tính toán của các từ ngôn ngữ để đảm bảo tính chất trên trong [63].
2.1.1.1. Thiết kế tập mờ
Mỗi ĐSGT mở rộng �� được xây dựng cho một biến thứ j của tập dữ liệu cảm sinh ra tập từ ngôn ngữ �� (tập từ có độ dài không lớn hơn kj). ĐSGT mở rộng xác định ngữ nghĩa định lượng của từ là các khoảng v(xj,i) = (h0xj,i) (xj,i) biểu thị lõi ngữ nghĩa của từ ngôn ngữ xj,i �Ký kiệu L(•) và R(•) lần lượt là điểm mút trái và mút phải của một khoảng bất kỳ. Giả sử đặt a = R(v(xj,i-1)), c = L(v(xj,i)), d =
R(v(xj,i)), g = L(v(xj,i+1)), khi đó b, e là các điểm uốn thỏa mãn a < b < c và d < e < g
và x là giá trị trên miền xác định của biến thứ j. Ta có hàm biểu diễn độ thuộc của x
vào nửa trái của hàm S, Sleft như sau: 0 , (x a) 0 ≤ x ≤ a , Sleft = (b a)(c a) a ≤ x ≤ b (2.1) 1 1 , (x c)� 2 2 (c b)(c a) , b ≤ x ≤ c x ≥ c
và hàm biểu diễn độ thuộc của v vào nửa phải của hàm S như sau: 1, 1 Sright = (x d ) (d e)(d g) , (x g)2 2 (e d )(g d ) , 0, 0 ≤ x ≤ d d ≤ x ≤ e e ≤ x ≤ e x ≥ g (2.2)
Tập mờ dạng hàm S được biểu diễn như Hình 2.4
� � ) (�� ) (��
a b c d e g
2.1.1.2. Thiết kế phân hoạch mờ
Sử dụng tập mờ được thiết kế ở phần trên với các điểm uốn được lựa chọn dựa trên thực nghiệm b = a + (c – a)/4, e = d + (g – d)/4, luận án thiết kế một phân hoạch dạng đa thể hạt được đề xuất trong [62] (Hình 2.2). Theo phương pháp thiết kế này, các từ hằng bao gồm 0_0, W và 1_0 sẽ lập thành một phân hoạch được gọi là mức 0, các từ có cùng độ dài l kj cùng với các từ hằng ở mức tương ứng 0_l và 1_l
lập thành một phần hoạch mức l.
Một ví dụ Hình 2.5 mô tả thiết kế phân hoạch mờ dựa trên ĐSGT mở rộng và hàm S, với các tham số mờ của ĐSGT mở rộng fm(0) = 0.006352412, f �(�−) = 0.4404566, fm(wj) = 0.0004077147, f �(�+) = 0.4801931, fm(1) = 0.07259017, µL = 0.6891874, h0 = 0.001883381, k = 2.
Hình 2.5. Một ví dụ phân hoạch đa thể hạt với tập mờ S-Function
Để chứng tỏ tính hiệu quả của phương pháp thiết kế ngữ nghĩa tập mờ của từ dựa trên ĐSGT mở rộng và hàm S, luận án áp dụng phương pháp thiết kế này vào xây dựng hệ mờ giải bài toán hồi quy, phân lớp và được trình bày trong các Mục 2.1.2 và 2.1.3.
2.1.2. Ứng dụng thiết kế phân hoạch mờ dựa trên hàm S giải bài toán hồi quy
2.1.2.1. Thuật toán EnHA-PAES-SF
Để giải bài toán hồi quy với thiết kế hoạch mới, luận án đề xuất một thuật toán với tên gọi là EnHA-PAES-SF được cải tiến dựa trên thuật toán đa mục tiêu xây dựng hệ mờ giải bài toán hồi quy HA-PAES-MG-Kmax trong [7], [62]. Thuật toán này thực hiện tối ưu đồng thời tham số tính mờ của ĐSGT ngữ nghĩa dạng tập mờ của từ cùng với hệ luật. Thuật toán EnHA-PAES-SF thiết kế phân hoạch mới dựa trên ĐSGT mở
j j
rộng sử dụng các tập mờ dạng hàm S thay vì dạng tam giác như trong [62] (Hình 2.2) hay hình thang trong [63] (Hình 2.3).
Các thuật toán này dựa trên thuật toán tiến hóa đa mục tiêu (2+2)M-PAES trong [26]. Ý tưởng chính của thuật toán này là tìm kiếm một mặt Pareto chứa các lời giải (FRBS) với hai mục tiêu độ chính xác và tính giải nghĩa được của hệ luật dựa trên quá trình tiến hóa.
Bước đầu tiên thuật toán sinh ra hai cá thế (lời giải) ngẫu nhiên, bổ sung hai cá thể này vào mặt Pareto.
Bước tiếp theo thực hiện quá trình lặp, với mỗi bước lặp thực hiên các công việc sau đây:
+ Chọn ngẫu nhiên hai cá thể cha mẹ từ mặt Pareto
+ Thực hiện lại ghép hai cá thể cha mẹ để sinh ra hai cá thể con, sau đó thực hiện đột biến độc lập trên các thể con.
+ Lần lượt bổ sung các cá thể con vào mặt Pareto nếu nó không bị trội bởi bất kỳ cá thể nào trong mặt Pareto, những cá thể có trong mặt Pareto bị trội bởi cá thể vừa bổ sung sẽ được loại bỏ ra khỏi mặt Pareto. Nếu số cá thể bổ sung vào mặt Pareto vượt quá giới hạn xác định trước thì một cá thể trong vùng có mật độ cao nhất sẽ bị loại bỏ bằng cách chọn ngẫu nhiên.
Quá trình lặp sẽ kết thúc khi thực hiện xong n lần lặp, với n được xác định trước. Các kỹ thuật mã hóa và các toán tử di truyền của thuật toán này được trình bày lại dưới đây, chúng được áp dụng ở đây và trong chương 3.
a. Mã hóa cá thể
Luận án sử dụng một gia tử âm Lj (Little) và một gia tử dương Vj (Very) trên mỗi biến ���và mục tiêu cần tối ưu là tham số tính mờ của ĐSGT và hệ luật. Do đó mỗi cá thể của quần thể được mã hóa gồm hai phần (Cµ, CRB) xem Hình 2.6, trong đó:
- Cµ: Biểu diễn các tham số tính mờ của các ĐSGT mở rộng � � tương ứng với các biến, là một véc tơ = (1,…,n+1), trong đó j = {{h0j
Lj, fm(0j), fm(�−), fm(wj), fm(1j)}, j = 1,..,n+1. Như vậy Cµ gồm 6(n+1) gen các số thực.
- CRB: Biểu diễn hệ luật, mỗi luật được mã hóa bằng một véc tơ gồm n+1 số nguyên. Giả thiết tập các từ được sử dụng trên mỗi biến là �j {Don’tcare} được đánh chỉ số như sau: �j {Don’tcare} = {wjk: k = 0, 1, …, T}, và j = 1,…, n+1, trong đó wj0 = “Don’tcare”, có nghĩa là chỉ số của từ “Don’tcare” là “0”. Khi đó, một luật rq sẽ được mã hóa như là véc tơ (kq1, …, kqn, kq(n+1)). Các luật của hệ luật được sinh
� �
ra bằng hàm sinh luật PrGenRule(dp, {���, �(���): j ≤ n + 1}, max) ở Mục 1.4.4.1
(��) (��)
với d là mẫu dữ liệu được chọn ngẫu nhiên trong tập dữ liệu huấn luyện, bộ tham số tính mờ trong Cµ, và chiều dài tối đa của luật max do người dùng xác định trước.
Để giảm không gian tìm kiếm và RB sinh có tính giải nghĩa cao, ta giới hạn số luật của mỗi RB nằm trong khoảng [Mmin, Mmax].
Gắn với mỗi cá thể là một véc tơ hàm mục tiêu gồm hai thành phần (MSE,
Comp), trong đó MSE biểu thị độ chính xác của hệ luật được xác định theo (1.18) và
Comp là tổng độ dài của các luật trong RB.
C
r1 rM
CRB:
Hình 2.6. Cấu trúc mã hóa một cá thể
b.Các toán tử di truyền
- Tương tự như các thuật toán đề xuất trong [13] ở đây luận án sử dụng lai ghép BLX- trên phần tham số Cµ, và lai ghép one-point crossover trên phần CRB.
Với hai cá thể cha mẹ bất kỳ �1 và �2, thực hiện lai ghép để tạo ra 2 các thể con �1, 2:
+ Trên Cµ: giả sử gen thứ i trên phần Cµ của hai các thể con tương ứng là (xi, yi) và xi, yi [ai, bi) [0, 1], i = 1,..,6(n+1); để sinh ra các cá thể con �1, 2, thì gen
zi trong phần Cµ của chúng được chọn ngẫu nhiên trong đoạn [li, ui], trong đó li =
max {ai, cmin – I}, ui = min {bi, cmax + I} với cmin = min {xi, yi}, cmax = max {xi, yi},
I = (cmax - cmin).
+ Trên phần CRB: thực hiện lai ghép one-point crossover, điểm lai ghép được chọn ngẫu nhiên trong đoạn [1, min-1], trong đó min là số luật ít nhất của 2 cơ sở luật trong �1 và �2.
Lưu ý: Nếu trên CRB toán tử lai ghép không được thực hiện thì đột biến luôn xảy ra.
- Toán tử đột biến
Với mỗi cá thể con �1, �2 thực hiện đột biến theo thứ tự và độc lập trên Cµ và CRB.