Ứng dụng thiết kế phân hoạch mờ dựa trên hà mS giải bài toán phân lớp

Một phần của tài liệu (Luận án tiến sĩ) phát triển phương pháp luận trích rút hệ luật ngôn ngữ mờ giải bài toán phân lớp, hồi quy dựa trên đại số gia tử (Trang 74 - 86)

Việc ứng dụng phương pháp thiết kế phân hoạch dựa trên ĐSGT mở rộng và ngữ nghĩa dựa trên tập mờ có dạng hàm S giải bài toán hồi quy bằng hệ dựa trên luật mờ cho kết quả tốt hơn hơn so với ngữ nghĩa dựa trên tập mờ tam giác và hình thang như đã được trình bày ở tiểu mục trên. Việc nghiên cứu áp dụng phương pháp thiết kế phân hoạch này và ngữ nghĩa dựa trên tập mờ có dạng hàm S vào giải bài toán phân lớp dựa trên luật mờ được tiếp tục trình bày trong tiểu mục này. Các kết quả thực nghiệm của các hệ phân lớp dựa trên luật mờ sử dụng cấu trúc phân hoạch k0 (biểu diễn trên Hình 2.5) với ngữ nghĩa tính toán dựa trên tập mờ có dạng hàm S của các từ ngôn ngữ và so sánh đánh giá với các hệ phân lớp khác để minh chứng tính chính xác của các hệ phân lớp được đề xuất. Lưu ý rằng, mức có ít từ nhất của cấu trúc phân hoạch k0 chỉ gồm ba hằng là 0, W1. Luận án áp dụng thuật toán sinh luật mờ từ các mẫu dữ liệu IRFG

trong Mục 1.4.4.2 để sinh tập luật mờ khởi đầu làm đầu vào cho các thuật toán tối ưu các tham số ngữ nghĩa và tối ưu hệ luật. Phương pháp thiết kế hai giai đoạn là tối ưu các tham số ngữ nghĩa và tối ưu hệ luật trong [59], [61] được áp dụng:

(1)Giai đoạn 1: Thiết kế tối ưu các từ ngôn ngữ cùng với ngữ nghĩa tính toán dựa

trên tập mờ của chúng sử dụng giải thuật tối ưu. Sau bước này ta thu được bộ tham số ngữ nghĩa tối ưu.

(2)Giai đoạn 2: Trích xuất từ tập dữ liệu huấn luyện tập luật tối ưu cho hệ phân

lớp trên cơ sở thỏa hiệp giữa tính dễ hiểu và độ chính xác của hệ phân lớp sử dụng giải thuật tối ưu.

Lược đồ thuật toán như sau:

Bắt đầu

Đọc dữ liệu Khởi tạo và tối ưu giá trị của các tham số ngữ

nghĩa

Xuất giá trị các tham số ngữ nghĩa tối ưu Giai đoạn 1: tối ưu các

tham số ngữ nghĩa

Đọc giá trị tối ưu của các tham số ngữ nghĩa Sinh tập luật khởi đầu S0

Tối ưu tập luật khởi đầu

S0

sử dụng PSO Xuất hệ luật tối ưu S cho

FRBC

Kết thúc

Giai đoạn 2: tối ưu hệ luật

52

Các cải tiến cho bài toán phân lớp trong mục này chỉ là thay thế hàm thuộc dạng hình S thay vì dạng hình thang và phân hoạch k0 thay vì phân hoạch k1 như trong [61]. Việc xây dựng các hàm thuộc dạng hình S và phân hoạch k0 không ảnh hưởng

đến tốc độ của các thuật toán được áp dụng, do đó, không ảnh hưởng đến hiệu năng của thuật toán trích rút hệ luật.

2.1.3.1. Quy trình thực nghiệm

Bước 1. Chuẩn bị dữ liệu

Tương tự như các bài toán hồi quy, các tập dữ liệu thực nghiệm được lấy từ kho lưu trữ KEEL và được thể hiện trong Bảng PL2.1 trong phần Phụ lục. Tất cả các thực nghiệm cho các bài toán phân lớp trong luận án này đều áp dụng phương pháp kiểm tra chéo 10-folds tương tự như các phương pháp được so sánh. Mỗi fold được thực nghiệm 3 lần, tổng số lần thực nghiệm là 3 10 = 30 lần.

Bước 2. Môi trường và phương pháp thực nghiệm

Phương pháp lập luận phân lớp được sử dụng trong tất cả các thực nghiệm trong luận án này là single winner rule [40-41]. Tiêu chuẩn sàng luật là c × s, trong đó c

s tương ứng là độ tin cậy và độ hỗ trợ, và trọng số luật lần lượt được tính theo công

thức trong (1.27), (1.29), (1.30).

Các thuật toán được cài đặt bằng ngôn ngữ lập trình C# trong môi trường phát triển Microsoft Visual Studio 2013. Hệ điều hành windows 10, CPU: Core i–7 4715HQ 2.5 GHz, RAM: 8GB, HDD: 512 GB.

Thuật toán tối ưu bầy đàn đa mục tiêu (PSO) [68] được sử dụng cho các bài

toán tối ưu. Số gia tử âm và gia tử dương được sử dụng đều bằng 1, gia tử dương là

Very (V) và gia tử âm là Less (L). Các tham số tính mờ của ĐSGT và các tham số

củathuật toán PSO được thể hiện trong Bảng 2.3.

Bước 3. Tổng hợp kết quả và đánh giá.

Kết quả của 30 lần thực nghiệm được tính trung bình đối với độ chính xác phân lớp và độ phức tạp của hệ luật (gồm hai tiêu chí là số luật trung bình và độ dài trung bình của hệ luật). Sự so sánh và đánh giá được thực hiện dựa trên các tiêu chí này. Ngoài ra, để đảm bảo sự khác biệt của các kết quả thực nghiệm của các hệ phân lớp được so sánh là có ý nghĩa, phương pháp kiểm định giả thuyết thống kê Wilcoxon [27]

được sử dụng để kiểm tra giả thuyết H0 (null hypothesis) có độ tin cậy là 90% (α = 0,1) với giả định rằng các kết quả của các phương pháp được so sánh là tương đương nhau.

Chú ý: quy trình này áp dụng cho tất cả các thử nghiệm giải bài toán phân lớp

trong luận án.

Bảng 2.3. Các tham số thực nghiệm cho bài toán phân lớp Tham số kjmin = 1 kjmax = 3 fm(c-)min = 0,2 fm(c-)max = 0,7 fm(0j)min = 0,00001 fm(0j)max = 0,1 fm(1j)min = 0,00001 fm(1j)max = 0,1 fm(Wj)min = 0,0001 fm(Wj)max = 0,2 (Lj)min = 0,2 (Lj)max = 0,7 (Vj)min = 0,2 (Vj)max = 0,7 (h0,j)min = 0,01 (h0,j)max = 0,5 fm (0j )+fm (cj

2.1.3.2. Kết quả thực nghiệm và thảo luận

Ký hiệu hệ phân lớp với ngữ nghĩa tính toán dựa trên tập mờ dạng hàm S với

phân hoạch k0 được đề xuất và đã được trình bày ở trên tương ứng là FRBC_S, hệ

phân lớp với ngữ nghĩa tính toán dựa trên tập mờ hình thang với phân hoạch k0 và

phân hoạch k1 trong [61] tương ứng là FRBC_TRA_k0FRBC_TRA, hệ phân

Bảng 2.4 thể hiện các kết quả thực nghiệm và so sánh giữa các hệ phân lớp nêu trên, trong đó chữ đậm thể hiện kết quả tốt hơn so với các hệ phân lớp còn lại. Ký hiệu

#R×C là độ phức tạp của hệ phân lớp (tích của số luật trung bình và số điều kiện

trung bình của các luật), Pte là độ chính xác phân lớp trung bình trên tập kiểm tra.

Các kết quả thực nghiệm trong Bảng 2.4 cho thấy, hệ phân lớp được đề xuất

FRBC_S có độ chính xác phân lớp trên tập kiểm tra cao hơn so các hệ phân lớp

FRBC_TRA_k0, FRBC_TRA [61] FRBC_TRI[59] tương ứng đối với 18, 17 và 20 trong số 23 tập dữ liệu được thực nghiệm. So sánh dựa trên độ chính xác phân lớp trung bình của 23 tập dữ liệu được thực nghiệm, hệ phân lớp được đề xuất FRBC_S có độ chính xác phân lớp trung bình là 83,04%, cao nhất so với các hệ phân lớp còn lại. So sánh dựa trên độ phức tạp của hệ phân lớp, các hệ phân lớp không có sự chênh lệch nhiều. Các kết quả kiểm định giả thuyết thống kê Wilcoxon [27] với độ tin cậy 90% (α

= 0,1) sử dụng dữ liệu trong Bảng 2.4 với giả thiết độ chính xác phân lớp và độ phức tạp tương ứng của hai hệ phân lớp là tương đương nhau (Giả thuyết H0) được thể hiện trong Bảng 2.5 và Bảng 2.6. Các giá trị Exact p-value trong Bảng 2.5 đều nhỏ hơn α = 0,1 cho biết rằng giả thuyết tương đương H0 về độ chính xác phân lớp giữa các hệ phân lớp được so sánh bị bác bỏ. Điều này có nghĩa là hệ phân lớp được đề xuất FRBC_S có độ chính xác phân lớp cao hơn so với các hệ phân lớp FRBC_TRA_k0, FRBC_TRA

FRBC_TRI; Các giá trị Exact p-value trong Bảng 2.6 đều lớn hơn α = 0,1 nên giả thuyết tương đương H0 về độ phức tạp của các hệ phân lớp không bị bác bỏ. Do đó, ta có thể khẳng định rằng, với cùng một cách biểu diễn phân hoạch mờ thì các hệ phân lớp dựa trên luật mờ với ngữ nghĩa tính toán dựa trên tập mờ của các từ ngôn ngữ có dạng hàm S được sinh bởi ĐSGT mở rộng cho độ chính xác phân lớp cao hơn so với dạng hình tam giác và hình thang do hàm

S biểu diễn sự biến thiên về ngữ nghĩa tốt hơn và đảm bảo tính giải nghĩa được của

hệ phân lớp như đã được chứng minh trong [62].

Bảng 2.4. Kết quả thực nghiệm của các hệ phân lớp FRBC_S, FRBC_TRA_k0, FRBC_TRA và FRBC_TRI. STT Tập dữ liệu 1 Appendicitis 2 Australian 3 Bands 4 Bupa 5 Cleveland 6 Dermatology 7 Glass 8 Haberman 9 Hayes-roth

10 Heart

STT Tập dữ liệu 11 Hepatitis 12 Ionosphere 13 Iris 14 Mammogr, 15 Newthyroid 16 Pima 17 Saheart 18 Sonar 19 Tae 20 Vehicle 21 Wdbc 22 Wine 23 Wisconsin Trung bình

Bảng 2.5. So sánh độ chính xác giữa các hệ phân lớp bằng phương pháp kiểm định

Wilcoxon với α = 0,1.

So sánh (α = 0,1)

FRBC_S vs FRBC_TRA_k0

FRBC_S vs FRBC_TRA

FRBC_S vs FRBC_TRI

Bảng 2.6. So sánh độ phức tạp giữa các hệ phân lớp bằng phương pháp kiểm định

Wilcoxon với α = 0,1.

So sánh (α = 0,1)

FRBC_S vs FRBC_TRA_k0

FRBC_S vs FRBC_TRA

FRBC_S vs FRBC_TRI

Nhằm thể hiện tính chính xác của hệ phân lớp với ngữ nghĩa tính toán dựa trên tập mờ dạng hàm S được sinh bởi ĐSGT mở rộng được đề xuất so với tiếp cận lý thuyết tập mờ, các kết quả thực nghiệm của hệ phân lớp FRBC_S được so sánh với các

kết quả của hai hệ phân lớp PAES-RCSFURIA [20]. Kết quả so sánh trong Bảng 2.6 cho thấy, hệ phân lớp FRBC_S cho độ chính xác phân lớp trên tập kiểm tra cao hơn hệ phân lớp PAES-RCSFURIA lần lượt là 23 và 20 trên 23 tập dữ liệu được thử nghiệm. Xét trên giá trị trung bình của độ chính xác phân lớp, hệ phân lớp

FRBC_S có giá trị trung bình là 83,04%, cao hơn lần lượt là 2,38% và 2,7% so với

hệ phân lớp PAES-RCSFURIA có giá trị trung bình lần lượt là 80,66% và

80,34%. Phân tích trên độ phức tạp của hệ phân lớp, hệ phân lớp FRBC_S có độ

phức tạp phân lớp thấp hơn rất nhiều so với hai hệ phân lớp còn lại, tương ứng là 119,45 so với 355,23 và 281,49.

Bảng 2.7. Kết quả thực nghiệm của các hệ phân lớp FRBC_S, PAES-RCS và FURIA. STT Tập dữ liệu 1 Appendicitis 2 Australian 3 Bands 4 Bupa 5 Cleveland 6 Dermatology 7 Glass 8 Haberman 9 Hayes-roth ,10 Heart 11 Hepatitis 12 Ionosphere 13 Iris 14 Mammogr, 15 Newthyroid 16 Pima 17 Saheart 18 Sonar 19 Tae 20 Vehicle

21 Wdbc

22 Wine

23 Wisconsin

Trung bình

Bảng 2.8. So sánh độ chính xác của hệ phân lớp FRBC_S so với PAES-RCS và FURIA bằng phương pháp kiểm định Wilcoxon với α = 0,1.

So sánh (α = 0,1)

FRBC_S vs PAES-RCS

FRBC_S vs FURIA

Bảng 2.9. So sánh độ phức tạp của hệ phân lớp FRBC_S so với PAES-RCS và FURIA bằng phương pháp kiểm định Wilcoxon với α = 0,1.

So sánh (α = 0,1)

FRBC_S vs PAES-RCS

FRBC_S vs FURIA

Các kết quả kiểm định giả thuyết thống kê Wilcoxon với độ tin cậy 90% (α = 0,1) sử dụng dữ liệu trong Bảng 2.7 đối với độ chính xác phân lớp và độ phức tạp của hệ phân lớp được thể hiện tương ứng trong Bảng 2.8 và Bảng 2.9. Ta thấy rằng,

các giá trị giá trị Exact p-value đều nhỏ hơn α = 0,1 nên giả thuyết tương đương về

độ chính xác phân lớp và độ phức tạp của hệ phân lớp của FRBC_S tương ứng so

với hai hệ phân lớp được đối sánh PAES-RCSFURIA bị bác bỏ. Do đó, ta có

thể khẳng định rằng hệ phân lớp FRBC_S tốt hơn hai hệ phân lớp còn lại trên cả hai

tiêu chí độ chính xác phân lớp và độ phức tạp của hệ phân lớp.

2.2. Phát triển thuật toán sinh luật dựa trên cây quyết định xây dựng hệ luật mờ giải bài toán hồi quy

Vấn đề sinh luật ứng cử, các phương pháp tiếp cận dựa trên lý thuyết tập mờ thường sinh luật bằng cách tổ hợp tất cả các giá trị ngôn ngữ sử dụng cho các biến như trong [11-19], [37], [43]. Nhược điểm của hướng tiếp cận này là khi tập dữ liệu có nhiều biến thì số luật sinh ra sẽ rất lớn lên đến hàm mũ. Một số đề xuất sinh luật mờ dựa trên cây quyết định (decision tree) giải bài toán phân lớp đã được đề xuất trong

[70], phương pháp này đã làm giảm đáng kể số luật phải xem xét nhờ vào các kỹ thuật như là hạn chế chiều cao, cắt tỉa cây, tuy nhiên lại gặp khó khăn trong quá trình tối ưu tham số tập mờ bởi việc sinh ra cây quyết định đồng thời tối ưu tập mờ sẽ tốn rất nhiều chi phí tính toán do số lượng tham số cần phải tối ưu lớn. Hướng tiếp cận theo lý thuyết ĐSGT, Nguyễn Cát Hồ và cộng sự đề xuất một phương pháp sinh luật từ mẫu dữ liệu, dựa trên hệ khoảng tương tự được xây dựng bằng ĐSGT để phân hoạch miền dữ liệu [4-8], [59], [61-63]. Theo đó, mỗi mẫu dữ liệu sẽ rơi vào một siêu

58

hộp được xây dựng bằng các phân hoạch của các biến, trên cơ sở đó tác giả sinh ra một luật có độ dài (n) bằng số biến của tập mẫu dữ liệu, trong đó các giá trị tiền điều kiện và kết luận là các từ ngôn ngữ tương ứng với các cạnh của siêu hộp. Từ các luật này sinh ra các luật có độ dài nhỏ hơn max < n cho trước. Với phương pháp sinh luật ứng cử này thì số luật tối đa phải xem xét giảm đi đáng kể so với phương pháp sinh luật tổ hợp. Nguyễn Cát Hồ và cộng sự đã chứng minh số luật sinh ra chỉ là hàm đa thức phụ thuộc vào số chiều của dữ liệu và độ dài tối đa của luật [59]. Tuy nhiên, hướng tiếp cận này chúng ta vẫn phải xem xét một số lượng luật khá lớn. Luận án đề xuất một phương pháp xây dựng LRBS giải bài toán hồi quy với các luật được sinh ra dựa trên cây quyết định và ĐSGT. Thuật toán giải quyết cả hai vấn đề sinh luật và tối ưu tham số của các tập mờ. Thuật toán đề xuất gồm 2 pha: pha thứ nhất tối ưu tham số của ĐSGT của mỗi biến của bài toán, ở pha này luận án sử dụng thuật giải di truyền để tìm kiếm tham số tối ưu; pha thứ 2, với bộ tham số tối ưu của ĐSGT tìm được ở pha 1, luận án xây dựng các ĐSGT và sử dụng nó để chuyển đổi cơ sở dữ liệu số của bài toán thành cơ sở dữ liệu giá trị ngôn ngữ tương ứng. Tiếp theo xây dựng cây quyết định từ cơ sở dữ liệu ngôn ngữ, sau đó sinh ra tập luật ứng cử.

Luận án thực hiện cải tiến thuật toán HA-PAES-MG-Kmax [62] để tìm LRBS tối ưu, thuật toán cái tiến được gọi là HA-De-PAES. Trong thuật toán này các bước thực hiện tương tự như thuật toán HA-PAES-MG-Kmax, tuy nhiên chỉ có điểm khác biệt đó là các luật được thêm vào hệ luật của các thể được chọn ngẫu nhiên từ tập luật ứng cử.

Một phần của tài liệu (Luận án tiến sĩ) phát triển phương pháp luận trích rút hệ luật ngôn ngữ mờ giải bài toán phân lớp, hồi quy dựa trên đại số gia tử (Trang 74 - 86)