Phương pháp mô phỏng cho bài toán phân lớp

Một phần của tài liệu phd-thesis-duongthanglong_-_toanvan (Trang 113 - 115)

Mơ hình xây dựng hệ luật mờ phân lớp dựa trên ĐSGT được đề xuất với mục

tiêu xây dựng hệ luật mờ để ứng dụng phân lớp cho các mẫu dữ liệu sao cho hệ luật phải có hiệu quả phân lớp cao, càng đơn giản, dễ hiểu và tường minh đối với người dùng càng tốt. Trong các chương trước chúng ta đã thực hiện một số ví dụ để minh họa cho phương pháp, trong chương này sẽ tập trung ứng dụng mơ hình vào một số bài tốn khá thơng dụng. Các bài toán với tập dữ liệu mẫu được xây dựng bởi nhiều nhà khoa học và công bố công khai tại [76] của Đại học California tại Irvine. Các

bài toán ở đây chủ yếu về lĩnh vực khai phá dữ liệu như phân lớp (classification),

phân cụm (clustering),… và đã được rất nhiều tác giả nghiên cứu sử dụng để thử

nghiệm [10], [17], [20], [23], [30]-[33], [40]-[47], [50], [53], [56], [59], [60], [74]. Các phương pháp ứng dụng thử nghiệm mơ hình được nhiều tác giả áp dụng

đó là k-folds cross validation. Chúng ta chia ngẫu nhiên tập dữ liệu mẫu của bài

toán thành k phần bằng nhau, sử dụng một phần để thẩm định (TEST) mơ hình cịn

lại (k-1) phần để sinh hệ luật (TRAIN). Phương pháp thử nghiệm này nhằm khắc

phục nhược điểm của các mơ hình đó là hiện tượng quá khớp (overfit), tức là mơ

hình sẽ làm việc tốt đối với tập dữ liệu mẫu dùng để xây dựng trong khi cho kết quả rất tồi đối với các mẫu dữ liệu mới. Phương pháp thử nghiệm này sẽ được lặp lại k lần, mỗi lần lấy ra lần lượt một phần trong số k phần để kiểm tra.

Hầu hết các tác giả áp dụng phương pháp này với k = 10, k = 5 và k = 2, để

tiện về sau chúng ta ký hiệu các trường hợp này là CV10 (10% số mẫu kiểm tra),

CV20 (20% số mẫu kiểm tra) và CV50 (50% số mẫu kiểm tra). Trong luận án, với

mong muốn kiểm chứng sự ổn định của mơ hình đối với các bài toán ứng dụng, mỗi trường hợp thử nghiệm sẽ thực hiện nhiều lần với các k-phần chia ngẫu nhiên.

112

Chẳng hạn trường hợp CV10 với số lần thử nghiệm là 10, do đó số lần chạy để thử nghiệm mơ hình là 10×10 = 100 lần. Ký hiệu n×CV10 cho n lần lặp thử nghiệm trong trường hợp CV10, tương tự với n×CV20 và n×CV50.

Ngồi ra, phương pháp thử nghiệm lấy một mẫu dữ liệu ra để kiểm tra, còn lại các mẫu dùng để xây dựng mơ hình, được gọi là Leave-One-Out, ký hiệu LV1.

Phương pháp này sẽ được lặp lại theo lần lượt mỗi mẫu được lấy ra để kiểm tra, như vậy số lần lặp để thử nghiệm đúng bằng số mẫu. Tuy nhiên phương pháp LV1 sẽ phải lặp lại rất nhiều lần nếu tập dữ liệu mẫu có kích thước lớn, do đó chúng ta sẽ khơng áp dụng cho những bài tốn có tập dữ liệu mẫu lớn.

Bây giờ chúng ta sẽ xây dựng quy trình ứng dụng thử nghiệm mơ hình trong các bài toán. Mỗi bài toán với tập dữ liệu được cho, trước hết chúng ta sẽ áp dụng thuật tốn FPO-SGA để tìm kiếm tối ưu bộ tham số mờ gia tử cũng như mức phân hoạch kj dựa trên ĐSGT hoặc ĐS2GT. Sử dụng bộ tham số tối ưu này (PARopt), chúng ta thiết kế hai sơ đồ ứng dụng thử nghiệm. Thứ nhất, áp dụng quá trình

HAFRG để sinh hệ luật đủ nhỏ bằng phép sàng hoặc hợp các luật mờ và đánh giá

kết quả. Sơ đồ này áp dụng cho cả hai phương pháp sinh luật bằng thuật toán

IFRG1 và IFRG2, ký hiệu sơ đồ này là No-RBO. Thứ hai, quá trình HAFRG cũng

được dùng để sinh tập luật với số lượng đủ lớn và thực hiện tìm kiếm tối ưu hệ luật

trên tập luật này bằng thuật toán RBO-SGA, ký hiệu sơ đồ này là RBO-SGA và chỉ áp dụng đối với thuật toán sinh luật IFRG2.

Đánh giá kết quả gồm các yếu tố của hệ luật như sau:

+ PNr : là số luật của hệ thu được,

+ PRl : là độ dài trung bình của luật trong hệ luật, tức tổng số điều kiện trong vế trái các luật chia cho số luật,

+ PTr : là tỷ lệ số mẫu phân lớp đúng trên tập huấn luyện (TRAIN). Thông thường các kết quả nghiên cứu được công bố ít quan tâm đến đánh giá này, tuy nhiên trong luận án có đưa ra kết quả này nhằm tham khảo trong quá trình thử nghiệm.

113

+ PTe : là tỷ lệ số mẫu phân lớp đúng trên tập kiểm tra (TEST).

Đối với mỗi bài toán, chạy nhiều lần thử nghiệm nên các kết quả này sẽ được

tính trung bình trên các lần chạy đó.

Các kết quả thử nghiệm trong luận án được so sánh với các kết quả nghiên cứu theo mơ hình hệ mờ dạng luật dựa trên tập mờ. Sự so sánh này nhằm đảm bảo sự tương ứng về các yếu tố hiệu quả phân lớp, độ phức tạp của hệ được thể hiện ở số

luật và độ dài luật.

Tiếp theo, chúng ta sẽ ứng dụng thử nghiệm mơ hình vào 4 bài tốn gồm phân lớp các loại hoa (IRIS), phân lớp các loại rượu (WINE), phân lớp các loại kính

(GLASS) và phân lớp các loại men sinh học (YEAST).

Một phần của tài liệu phd-thesis-duongthanglong_-_toanvan (Trang 113 - 115)

Tải bản đầy đủ (PDF)

(147 trang)