Phương pháp mô phỏng cho bài toán phân lớp- 123docz.net

Mô hình xây dựng hệ luật mờ phân lớp dựa trên ĐSGT được đề xuất với mục tiêu xây dựng hệ luật mờđể ứng dụng phân lớp cho các mẫu dữ liệu sao cho hệ luật phải có hiệu quả phân lớp cao, càng đơn giản, dễ hiểu và tường minh đối với người dùng càng tốt. Trong các chương trước chúng ta đã thực hiện một số ví dụ để minh họa cho phương pháp, trong chương này sẽ tập trung ứng dụng mô hình vào một số

bài toán khá thông dụng. Các bài toán với tập dữ liệu mẫu được xây dựng bởi nhiều nhà khoa học và công bố công khai tại [76] của Đại học California tại Irvine. Các bài toán ở đây chủ yếu về lĩnh vực khai phá dữ liệu như phân lớp (classification),

phân cụm (clustering),… và đã được rất nhiều tác giả nghiên cứu sử dụng để thử

nghiệm [10], [17], [20], [23], [30]-[33], [40]-[47], [50], [53], [56], [59], [60], [74]. Các phương pháp ứng dụng thử nghiệm mô hình được nhiều tác giả áp dụng

đó là k-folds cross validation. Chúng ta chia ngẫu nhiên tập dữ liệu mẫu của bài

toán thành k phần bằng nhau, sử dụng một phần để thẩm định (TEST) mô hình còn

lại (k-1) phần để sinh hệ luật (TRAIN). Phương pháp thử nghiệm này nhằm khắc phục nhược điểm của các mô hình đó là hiện tượng quá khớp (overfit), tức là mô hình sẽ làm việc tốt đối với tập dữ liệu mẫu dùng để xây dựng trong khi cho kết quả

rất tồi đối với các mẫu dữ liệu mới. Phương pháp thử nghiệm này sẽđược lặp lại k

lần, mỗi lần lấy ra lần lượt một phần trong số k phần để kiểm tra.

Hầu hết các tác giả áp dụng phương pháp này với k = 10, k = 5 và k = 2, để

tiện về sau chúng ta ký hiệu các trường hợp này là CV10 (10% số mẫu kiểm tra),

CV20 (20% số mẫu kiểm tra) và CV50 (50% số mẫu kiểm tra). Trong luận án, với

mong muốn kiểm chứng sựổn định của mô hình đối với các bài toán ứng dụng, mỗi trường hợp thử nghiệm sẽ thực hiện nhiều lần với các k-phần chia ngẫu nhiên.

112

Chẳng hạn trường hợp CV10 với số lần thử nghiệm là 10, do đó số lần chạy để thử

nghiệm mô hình là 10×10 = 100 lần. Ký hiệu n×CV10 cho n lần lặp thử nghiệm trong trường hợp CV10, tương tự với n×CV20 và n×CV50.

Ngoài ra, phương pháp thử nghiệm lấy một mẫu dữ liệu ra để kiểm tra, còn lại các mẫu dùng để xây dựng mô hình, được gọi là Leave-One-Out, ký hiệu LV1.

Phương pháp này sẽđược lặp lại theo lần lượt mỗi mẫu được lấy ra để kiểm tra, như

vậy số lần lặp để thử nghiệm đúng bằng số mẫu. Tuy nhiên phương pháp LV1 sẽ

phải lặp lại rất nhiều lần nếu tập dữ liệu mẫu có kích thước lớn, do đó chúng ta sẽ

không áp dụng cho những bài toán có tập dữ liệu mẫu lớn.

Bây giờ chúng ta sẽ xây dựng quy trình ứng dụng thử nghiệm mô hình trong các bài toán. Mỗi bài toán với tập dữ liệu được cho, trước hết chúng ta sẽ áp dụng thuật toán FPO-SGA để tìm kiếm tối ưu bộ tham số mờ gia tử cũng như mức phân hoạch kj dựa trên ĐSGT hoặc ĐS2GT. Sử dụng bộ tham số tối ưu này (PARopt), chúng ta thiết kế hai sơ đồ ứng dụng thử nghiệm. Thứ nhất, áp dụng quá trình

HAFRG để sinh hệ luật đủ nhỏ bằng phép sàng hoặc hợp các luật mờ và đánh giá kết quả. Sơ đồ này áp dụng cho cả hai phương pháp sinh luật bằng thuật toán

IFRG1 và IFRG2, ký hiệu sơđồ này là No-RBO. Thứ hai, quá trình HAFRG cũng

được dùng để sinh tập luật với số lượng đủ lớn và thực hiện tìm kiếm tối ưu hệ luật trên tập luật này bằng thuật toán RBO-SGA, ký hiệu sơ đồ này là RBO-SGA và chỉ

áp dụng đối với thuật toán sinh luật IFRG2.

Đánh giá kết quả gồm các yếu tố của hệ luật như sau:

+ PNr : là số luật của hệ thu được,

+ PRl : là độ dài trung bình của luật trong hệ luật, tức tổng sốđiều kiện trong vế trái các luật chia cho số luật,

+ PTr : là tỷ lệ số mẫu phân lớp đúng trên tập huấn luyện (TRAIN). Thông

thường các kết quả nghiên cứu được công bố ít quan tâm đến đánh giá này, tuy nhiên trong luận án có đưa ra kết quả này nhằm tham khảo trong quá trình thử

113

+ PTe : là tỷ lệ số mẫu phân lớp đúng trên tập kiểm tra (TEST).

Đối với mỗi bài toán, chạy nhiều lần thử nghiệm nên các kết quả này sẽđược tính trung bình trên các lần chạy đó.

Các kết quả thử nghiệm trong luận án được so sánh với các kết quả nghiên cứu theo mô hình hệ mờ dạng luật dựa trên tập mờ. Sự so sánh này nhằm đảm bảo sự

tương ứng về các yếu tố hiệu quả phân lớp, độ phức tạp của hệ được thể hiện ở số

luật và độ dài luật.

Tiếp theo, chúng ta sẽứng dụng thử nghiệm mô hình vào 4 bài toán gồm phân lớp các loại hoa (IRIS), phân lớp các loại rượu (WINE), phân lớp các loại kính

(GLASS) và phân lớp các loại men sinh học (YEAST).

Phương pháp mô phỏng cho bài toán phân lớp

Áp dụng thuật toán sinh luật IFRG1

Áp dụng thuật toán sinh luật IFRG2