Các thực nghiệm

Một phần của tài liệu (Luận án tiến sĩ) phát triển phương pháp luận trích rút hệ luật ngôn ngữ mờ giải bài toán phân lớp, hồi quy dựa trên đại số gia tử (Trang 115 - 126)

Áp dụng quy trình thực nghiệm trình bày trong mục 2.1.2.2, trong các thực nghiệm ở đây, chúng ta giới hạn và xem như ngữ nghĩa cú pháp và định tính của tất cả các biến của tập dữ liệu là giống nhau:

Cú pháp: Hai từ nguyên tử c- và c+, ba hằng số ngôn ngữ 0, W và 1; một gia tử L trong H- và một gia tử V trong H+;

Ngữ nghĩa định tính: Quan hệ dấu của các gia tử được thể hiện trong Bảng 1.1; Ngữ nghĩa định lượng: Khai báo các ràng buộc đối với giá trị của các tham số

tính mờ của các biến: 0,3 ≤ fm(𝑐−), (L) ≤ 0,7, 0 < fm(0) , fm(W) = fm(1j) ≤ 0,1, và

0 < (h0) ≤ 0,2.

Các giá trị của các tham số phục vụ cho việc chạy các MOEA được đề xuất là giống nhau như trong Bảng 2.1, riêng các tập dữ liệu với số thuộc tính lớn hơn 10 thay đổi thì max = 8.

Trong trường hợp A được sử dụng lại để thiết kế các IS-LRBS tối ưu mới khi các LFoC được tăng trưởng lên mức đặc tả cao hơn, luận án áp dụng tham số MaxGen = 200000.

3.4.2.1. Thực nghiệm 1 – Chứng minh ý nghĩa của cấu trúc tr-MGr của các LFoC a. Thử nghiệm thứ nhất để so sánh độ chính xác của LRBS được sinh ra bởi A với hai MOEA thiết kế FRBS khác, tất cả đều sử dụng MOEA (2 + 2) M-PAES.

- IS-LRBS-Design-MOEA A sử dụng LFoC các biến có mức đặc tả k = 3, ký

hiệu là A Gr3;

- Thuật toán thiết kế hệ mờ PKB được đề xuất bởi Alcalá và cộng sự [13], áp dụng MOEA (2+2)M-PAES;

- Các thuật toán HA-PAES-MG-Kmax thiết kế các LRBS theo tiếp cận ĐSGT thiết

kế được nghiên cứu trong [62] cũng áp dụng MOEA (2+2)M-PAES, với chiều dài tối đa của các từ là Kmax = 3, được ký hiệu ở đây là HA3.

Vì cả ba MOEA ở trên được phát triển dựa trên cùng một phương pháp (2+2)M- PAES, sự khác biệt cơ bản của chúng là cấu trúc ngữ nghĩa của các tập mờ được xây dựng được gán cho các từ. Nếu chúng ta có thể khẳng định rằng A Gr3 sinh ra các LRBS có độ

chính xác cao hơn hai MOEA còn lại, thì điều đó cho thấy rằng cấu trúc tr-MGr của các LFoC được đề xuất trong luận án là có ý nghĩa.

Thật vậy, tất cả các kết quả thực nghiệm tại các điểm FIRST của mặt Pareto được biểu diễn trong Bảng 3.1 và áp dụng phương pháp kiểm định giả thiết Wilcoxon, kết quả thống kê được thể hiện trong Bảng 3.2 và 3.3 cho thấy AGr3 đều loại bỏ hết các

thuật toán được đối sánh về tính chính xác trên tập kiểm tra, điều này chứng tỏ nói lên rằng khẳng định cấu trúc tr-MGr của các LFoC được đề xuất trong luận án làm tăng tính chính xác của các LRBS được thiết kế, và vì vậy nó có ý nghĩa.

Các giá trị MSEts trong cột cuối cùng của bảng 3.1 cho thấy độ chính xác của thuật toán AGr3 cao hơn nhiều so với các thuật toán được so sánh. So với thuật toán PKB trên những bài toán phức tạp (có nhiều thuộc tính) cho thấy AGr3 vượt trội hơn,

sau đây là một số cặp biểu thị số thuộc tính và % sai khác giữa các giá trị MSEts của LRBS sinh ra từ AGr3 và thuật toán thuật toán PKB chẳng hạn dữ liệu MTG là (15, -

429,4%), TRE là (15, -300,0%), WAN là (9, - 253,2%), CA là (21, -183,3%) và WIZ là (9, -63,7%). Hơn nữa, AGr3 có thể giảm ít nhất 22% giá trị MSEts của 7 tập dữ liệu, ít nhất 63% giá trị MSEts của 5 tập dữ liệu trong tổng số 9 tập dữ liệu so với PKB.

So với thuật toán HA3, được đề xuất trong [62], sử dụng cấu trúc trg-MGr kết quả thí nghiệm cho thấy các LRBS sinh ra bởi AGr3 có MSE giảm nhỏ hơn 5% cho 5

tập dữ liệu, giảm trên 12% cho 4 tập dữ liệu và giảm trên 17% cho 2 tập dữ liệu có số thuộc tính lớn hơn.

Bảng 3.1.Kết quả đạt được bởi IS-LRBSs-Design-MOEA AGr3, HA-PAES-MG- Kmax (Kmax), và PKB tại điểm FIRST

TT

D

at

-

aset

#R Comp MSEtr MSEts

AGr3 HA3 PKB AGr2 HA3 PKB AGr3 HA3 PKB AGr3 HA3 Diff(%) PKB Diff(%) 1 ELE1 28,3 27,27 27 47,57 46,13 46 138060 141666 145995 193388 202591 -4,76 194028 -0,3 2 ELE2 29,9 29,93 30 61,63 66,97 65 9064 8813 11043 10337 10686 -3,38 12606 -22,0 3 WA 25 25 28 50,87 60,03 103 0,99 1,03 1,64 1,11 1,25 -12,61 3,92 -253,2 4 WI 25 24,87 25 56,07 61,3 91 0,77 0,79 1,3 0,91 0,96 -5,49 1,49 -63,7 5 TR 30 15 11 71,87 29,4 40 0,02 0,03 0,08 0,035 0,04 -14,29 0,14 -300,0 6 AB 29,63 19,8 29 107,03 59,57 107 2,21 2,31 2,32 2,4 2,41 -0,42 2,48 -3,3 7 MTG 18 15 12 31,73 28,13 49 0,01 0,02 0,05 0,017 0,02 -17,65 0,09 -429,4 8 CA 23,36 13,8 10 78,27 44,67 30 4,45 4,58 11,99 4,74 4,86 -2,53 13,43 -183,3 9 PT 24,57 13,33 14 68 38,3 53 59,7 71,89 87 62,75 73,47 -17,08 89 -41,8 Bảng 3.2.So sánh độ phức tạp của hệ luật tại điểm FIRST sử dụng kiểm định giả

thiết Wilcoxon với mức ý nghĩa α = 0,05

A Gr2 vs R+

R− Exact P-

value Confid. -interval

Exact-

confid. Hypoth. (H0)

HA3 12 33 >0,2 [-3,31 , 33,245] 0,96094 Not Rejected

PKB 24 21 >0,2 [-29,685 , 19,415] 0,96094 Not Rejected

Bảng 3.3.So sánh MSEts tại điểm FIRST sử dụng kiểm định giả thiết Wilcoxon với mức ý nghĩa α = 0,05

Từ phân tích này, các tập dữ liệu càng phức tạp thì A Gr3 được đề xuất càng có ảnh

hưởng trong việc cải thiện độ chính xác. Do đó, các tr-MGr có thể giải nghĩa được đề xuất biểu diễn các cấu trúc ngữ nghĩa của các LFoC của các biến thực sự có ý nghĩa.

b. Thử nghiệm thứ hai nhằm so sánh hiệu quả của A với bốn thuật toán được phát triển dựa trên lý thuyết tập mờ

Các thuật toán được so sánh có một số đặc điểm:

- Thuật toán FSMOGFSe+TUNe [14]: giải quyết các bài toán có số chiều và số mẫu dữ liệu lớn, trang bị một số cơ chế để học nhanh các biến và phân hoạch mờ của các nhãn ngôn ngữ cùng với FRB. Trong nghiên cứu thử nghiệm, chỉ có 5 nhãn ngôn ngữ

A Gr3

vs R

+ R− Exact P-

value Confid. -interval

Exact-

confid. Hypoth. (H0)

HA3 45 0 0,00391 [-171,5035 , 412,9555] 0,96094 Rejected

được sử dụng cho mỗi biến và ngữ nghĩa của nhãn được biểu diễn bằng tập mờ tam giác.

- Thuật toán METSK-HDe [34]: một thuật toán nhanh gồm hai giai đoạn cho Mô hình mờ chính xác trong giải các bài toán hồi quy có số chiều và tập dữ liệu lớn sử dụng FRBS gần đúng của Takagi – Sugeno – Kang (TSK). Phân hoạch mờ tam giác của biến được học đồng thời bằng cách thay đổi độ rộng và dịch chuyển lõi của tập.

- Thuật toán MOKLB+MOMs [10]: là thuật toán có hai giai đoạn, các giai đoạn được ký hiệu tương ứng là MOKBL và MOM tương tự như thuật toán METSK-HDe. Đây là thuật toán thực hiện trích chọn thuộc tính, sử dụng phân hoạch mờ tam giác, quá trình điều chỉnh học thực hiện dịch chuyển lõi và thay đổi chiều rộng của các tập mờ.

- Thuật toán và EIT2In-FRBS3 [9]: Thay vì sử dụng các tập mờ loại 1 tiêu chuẩn, thuật toán này sử dụng tập mờ trực cảm khoảng loại 2, đồng thời sử dụng phương pháp sinh luật của Wang và Mendel để trích xuất các luật mờ từ tập dữ liệu.

Bảng 3.4. So sánh kết quả thực nghiệm thuật toán A với các thuật toán FSMOGFSe+TUNe, METSK-HDe, EIT2In-FRBS3 và MOKBL+MOMs

Dataset A Gr3 FSMOGFSe+TUNe

(2011) METSK-HDe (2014) EIT2In-FRBS3 (2019) MOKBL+MOMs (2019)

TT Tên MSEtr MSEts MSEtr MSEts MSEtr MSEts MSEtr MSEts MSEtr MSEts

1 ELE1 1,3806 1,936 1,516 1,95 1,350 2,022 1,73 2,03 1,81 1,87 2 PLA 1,14 1,21 1,106 1,19 1,057 1,136 1,49 1,54 1,17 1,181 3 QUA 0,0168 0,0182 0,0175 0,0178 0,0171 0,0181 0,0175 0,0183 0,017 0,017 4 ELE2 9064 10337 9665 10548 2270 3192 26176 29024 12059 12733 5 FRIE 1,5015 1,917 2,71 3,13 1,075 1,888 0,94 1,57 2,3 2,74 6 MPG6 1,77 3,99 2,86 4,56 1,082 4,478 2,59 4,23 4,29 4,51 7 DELA 1,31 1,45 1,498 1,53 1,190 1,402 1,43 1,50 1,9 1,92 8 DEE 0,044 0,087 0,059 0,093 0,030 0,103 0,053 0,061 0,071 0,088 9 DELE 1,00 1,04 1,072 1,09 0,972 1,031 1,04 1,07 1,4 1,407 10 ANA 0,0019 0,003 0,003 0,003 0,002 0,004 0,006 0,008 0,007 0,008 11 MPG8 1,695 3,957 2,757 4,747 1,154 5,391 2,39 3,45 4,2 4,24 12 ABA 2,205 2,395 2,445 2,509 2,205 2,392 2,69 2,8 2,21 2,4 13 CAL 2,06 2,09 2,94 2,95 1,64 1,71 2,56 2,57 2,14 2,66 14 CON 19,01 25,83 29,901 32,977 15,054 23,885 21,29 41,58 21,59 27,42 15 STP 0,367 0,559 0,764 0,912 0,167 0,387 0,55 0,63 0,45 0,66 16 WAN 0,99 1,11 1,441 1,635 0,701 1,189 1,14 1,35 1,49 1,6 17 WIZ 0,769 0,911 0,929 1,011 0,729 0,944 0,9 1,1 1,54 1,58 18 FOR 101 2297 1418 2628 551,38 5587,44 1058 3410 2060 2006 19 MOR 0,012 0,017 0,016 0,019 0,005 0,013 0,042 0,047 0,017 0,015 20 TRE 0,021 0,035 0,034 0,044 0,017 0,038 0,103 0,176 0,038 0,041 21 BAS 1,0814 2,774 1,413 2,61 0,479 3,6882 0,474 3,66 2,5 2,57 22 CA 4,446 4,74 5,021 5,216 4,376 4,949 4,61 5,56 4,52 4,67 23 POLE 59,7 62,75 100,845 102,81 57,96 61,02 - - 90,47 93,96 24 PUM 0,0661 0,069 0,29 0,29 0,2669 0,2871 - - 0,23 0,27 25 AIL 1,62 1,68 1,95 2 1,39 1,51 - - 1,76 1,821 26 MV 0,51834 0,522 0,158 0,158 0,060 0,061 - - 0,092 0,093 27 HOU 6,67 6,92 9,35 9,4 8,29 8,64 - - 9,07 9,11 28 ELV 6,05 6,27 9,0 9,0 6,75 7,02 - - 10,11 10,7

Ghi chú bảng 3.4: Các giá trị của ELE1, DETA, DELE, CAL, BAS, HOU, ELV,

PUM, và AIL lần lượt theo thứ tự phải nhân với 105, 10-8, 10-6, 109, 105, 108, 10-6, 10-4 và 10-8

Bảng 3.5. So sánh giá trị MSEts giữa AGr3, FSMOGFSe+TUNe, MOKBL+MOMs, EIT2In- FRBS3, và METSK-HDe sử dụng kiểm định Wilcoxon tại mức ý nghĩa α = 0,05.

R+ R− Exact P-value Hypoth (H0)

A Gr3 vs

MOKBL+MOMs 321 85 0,00606 Rejected

FSMOGFSe+TUNe 345 33 4,746E-5 Rejected

METSK-HDe 216 190  0,2 Not Rejected

EIT2In-FRBS3 (22 datasets) 219 34 0,0016728 Rejected

MOKBL+MOMs

METSK-HDe

110 296  0,2 Not Rejected

FSMOGFSe+TUNe 86 320  0,2 Not Rejected

EIT2In-FRBS3 (22 datasets) 78 175  0,2 Not Rejected

Luận án thử nghiệm thuật toán A với mức đặc tả của các LFoC là k= 3, kí hiệu

là AGr3,trên 28 bộ dữ liệu, tương tự như các thuật toán được đối sánh, ngoại trừ thuật toán EIT2In-FRBS3 được áp dụng với 22, kết quả thử nghiệm trình bày trong bảng 3.4, trong đó các số liệu trong cột MSEtr được in nghiêng và các số liệu được in đậm là giá trị tốt nhất trong các thuật toán. Kết quả đối sánh bằng phương pháp kiểm định giả thiết Wilcoxon trong bảng 3.5 cho thấy rằng AGr3 vượt trội hơn tất cả các thuật toán được so sánh ngoại trừ thuật toán METSK-HDe đây là thuật toán có sự khác biệt với các thuật toán còn lại do nó áp dụng các luật mờ TSK thay vì các luật mờ thông thường. Tuy nhiên các thuật toán đối sánh FSMOGFSe + TUNe, MOKBL + MOMs và EIT2In-FRBS3, cũng không thể thể loại bỏ giả thiết H0 khi so với thuật toán METSK-HDe. Vì vậy, METSK-HDe là một trong những thuật toán sinh ra các FRBS có độ chính xác cao, tuy nhiên nó sẽ kém hơn thuật toán A trong các nghiên cứu ở phần dưới đây của luận án.

Với những đặc trưng khác biệt của A so với các thuật toán được đối sánh, và với những kết quả thử nghiệm nêu trên đủ để chứng minh thuật toán A với mức đặc tả k = 3 cho các LFoC sinh ra các LRBS có độ chính xác cao.

3.4.2.2. Thực nghiệm 2 - Chứng minh tính hiệu của khả năng mở rộng cấu trúc ngữ nghĩa của các LFoC và mở rộng LRB

Như đã thảo luận ở trên, nghiên cứu này được thúc đẩy bởi tính mở rộng của tri thức ngôn ngữ của con người và các từ vựng của các biến hiện đang được sử dụng của họ, một trong những mục tiêu chính của nghiên cứu là phát triển các biểu diễn đa thể hình thang của các LFoC (có thể giải nghĩa và) có thể mở rộng của các biến được

khai báo và các LRB có thể mở rộng của các LRBS được thiết kế. Do đó, trong mục này, luận án sẽ lý giải những lợi ích của khả năng mở rộng của chúng.

Để chứng tỏ mục tiêu này, luận án tiến hành các thực nghiệm dưới đây.

a. Lợi ích của khả năng mở rộng của các tr-MGr của các LFoC của các biến hiện được khai báo và các LRBS hiện đang được thiết kế

Giả sử chúng ta tiến hành chạy thuật toán A với mức đặc tả của các LFoC k = 2 (kí hiệu là AGr2) trên tập dữ liệu huấn luyện của bài toán và thu được mặt Pareto tối ưu và mặt Pareto này được lưu trữ trong một tập tin, nó bao gồm tất cả những gì có trong mặt Pareto. Bây giờ giả sử rằng người dùng tập dữ liệu yêu cầu tăng mức đặc tả của tất cả các LFoC từ 2 lên 3 để tăng độ chính xác các LRBS. Và tiếp theo sau yêu cầu này, vào một thời điểm nào đó trong tương lai của vòng đời ứng dụng, các LFoC lại được yêu cầu tăng mức đặc tả của chúng từ 3 lên 4.

Bảng 3.6. Kết quả thực nghiệm khả năng mở rộng khung nhận thức ngôn ngữ của thuật toán A Dataset AGr2 Diffts (%) AGr2,700gen Diffts (%) AGr3 Diffts (%) AGr2↑3 Diffts (%) AGr2↑3↑4

MSEtr MSEts MSEtr MSEts MSEtr MSEts MSEtr MSEts MSEtr MSEts

ELE1 1,507 2,02 3,91 1,4539 2,0503 2,46 1,3806 1,936 7,91 1,4007 2,0768 1,20 1,2439 2,1021 PLA 1,156 1,217 -3,57 1,1447 1,198 -1,95 1,14 1,21 -2,97 1,1162 1,1818 -0,57 1,0951 1,1751 QUA 0,017 0,0181 0,55 0,0169 0,0181 0,55 0,0168 0,0182 0,00 0,0167 0,0182 0,00 0,0165 0,0182 ELE2 9384 11512 - 22,61 8372 9875 -5,18 9064 10337 -10,10 8319 10158 -8,19 7459 9389 FRIE 1,3 1,59 -5,68 1,2058 1,5174 -0,86 1,5015 1,917 -27,42 1,2234 1,5268 -1,48 1,1927 1,5045 MPG6 1,9 4,238 -5,07 2,071 4,0955 -1,53 1,77 3,99 1,08 1,7251 4,0764 -1,06 1,6448 4,0336 DELA 1,328 1,43 -1,71 1,3019 1,4 0,43 1,31 1,45 -3,13 1,292 1,423 -1,21 1,27 1,406 DEE 0,047 0,0902 4,75 0,046 0,089 6,02 0,044 0,087 8,13 0,0438 0,0922 2,64 0,0428 0,0947 DELE 1,002 1,036 -0,29 0,993 1,03 0,29 1,00 1,04 -0,68 0,994 1,035 -0,19 0,9892 1,03 ANA 0,002 0,0032 0,00 0,002 0,0033 -1,13 0,0019 0,003 6,25 0,0018 0,0032 0,00 0,0016 0,003 MPG8 1,812 4,0953 1,46 1,891 3,9736 4,39 1,695 3,957 4,79 1,6144 4,2192 -1,52 1,5555 4,156 ABA 2,281 2,429 -2,52 2,243 2,3836 -0,60 2,205 2,395 -1,08 2,2066 2,3799 -0,44 2,146 2,3694 CAL 2,07 2,1 -6,92 1,9748 1,9993 -1,80 2,06 2,09 -6,42 1,991 2,02 -2,85 1,934 1,964 CON 18,45 23,849 -6,59 16,315 22,154 0,99 19,01 25,83 -15,44 17,142 22,412 -0,16 16,317 22,376 STP 0,379 0,558 - 15,98 0,4255 0,5851 - 21,62 0,367 0,559 -16,19 0,3219 0,5232 -8,75 0,2991 0,4811 WAN 1,005 1,189 - 12,48 0,8919 1,0254 3,00 0,99 1,11 -5,00 0,8949 1,0934 -3,43 0,8645 1,0571 WIZ 0,748 0,871 -3,30 0,6772 0,8575 -1,70 0,769 0,911 -8,04 0,6758 0,8452 -0,24 0,6562 0,8432 FOR 162 3271 -4,67 120 3163 -1,22 101 2297 26,50 128 3467 -10,94 95 3125 MOR 0,013 0,0164 - 49,09 0,0084 0,0151 - 37,27 0,012 0,017 -54,55 0,0082 0,0117 -6,36 0,0073 0,011 TRE 0,023 0,033 - 10,37 0,0207 0,0292 2,34 0,021 0,035 -17,06 0,0202 0,0303 -1,34 0,0186 0,0299 BAS 1,071 2,893 6,95 0,7655 3,154 -1,45 1,0814 2,774 10,78 0,839 2,927 5,85 0,753 3,109 CA 4,326 4,592 - 12,09 3,939 4,374 -6,77 4,446 4,74 -15,70 4,0095 4,2953 -4,85 3,8152 4,0967 POLE 60,87 66,1 - 24,22 51,25 55,66 -4,60 59,7 62,75 -17,92 53,211 58,676 -10,26 48,435 53,213 PUM 0,075 0,077 - 30,51 0,061 0,0649 - 10,00 0,0661 0,069 -16,61 0,063 0,066 -11,86 0,056 0,059 AIL 1,57 1,605 -5,38 1,494 1,551 -1,84 1,62 1,68 -10,31 1,508 1,553 -1,97 1,466 1,523 MV 0,498 0,5058 - 35,97 0,4044 0,4056 -9,02 0,51834 0,522 -40,43 0,4125 0,4173 -12,18 0,3651 0,372 HOU 6,656 6,859 -4,19 6,315 6,6024 -0,29 6,67 6,92 -5,12 6,426 6,685 -1,55 6,296 6,583

Một phần của tài liệu (Luận án tiến sĩ) phát triển phương pháp luận trích rút hệ luật ngôn ngữ mờ giải bài toán phân lớp, hồi quy dựa trên đại số gia tử (Trang 115 - 126)

Tải bản đầy đủ (PDF)

(144 trang)