Các mục tiêu khi xây dựng FRBS

Một phần của tài liệu Phát triển phương pháp luận trích rút hệ luật ngôn ngữ mờ giải bài toán phân lớp, hồi quy dựa trên đại số gia tử (Trang 35 - 38)

Với FRBS, người dùng có thể sử dụng các FRBS đã được huấn luyện như là tri thức của họ và họ có thể hiệu chỉnh trong quá trình sử dụng. Do đó, chúng ta không chỉ quan tâm đến độ chính xác mà còn quan tâm đến tính giải nghĩa được của các FRBS. Tuy nhiên, khó khăn trong việc trích rút các FRBS từ dữ liệu là hai mục tiêu này xung đột nhau, tức là khi tăng mục tiêu này thì phải giảm mục tiêu kia. Hơn nữa, ta có thể dễ dàng đánh giá mục tiêu độ chính xác nhưng lại gặp nhiều khó khăn trong việc đánh giá mục tiêu về tính giải nghĩa được do mục tiêu này phụ thuộc vào nhiều yếu tố và tiêu chí đánh giá chưa được thống nhất. Dưới đây là một số phương pháp đánh giá các mục tiêu đã được đề xuất.

1.3.2.1 Đánh giá độ chính xác của FRBS

Với bài toán phân lớp, mục tiêu về độ chính xác được đánh giá bằng tỷ lệ phần trăm phân lớp đúng trên tổng số mẫu được phân lớp của FRBS (công thức 1.17). Như

vậy, tỉ lệ này có giá trị càng lớn càng tốt và bằng 100% khi tất cả các mẫu được phân lớp đúng. max % 100 * ⎯⎯→ = N N perf acc (1.17)

trong đó, Nacc và N lần lượt là số mẫu dữ liệu được phân lớp đúng và số mẫu dữ liệu được phân lớp.

Với bài toán hồi quy, độ đo giá trị sai số bình phương trung bình chia 2, được ký hiệu là MSE (Mean Square Error) và được tính bằng công thức (1.18), thường được sử dụng để đánh giá độ chính xác của các FRBS [7], [19], [22], [25], [34], [49], [62-63], [71-72]. Giá trị MSE càng nhỏ thì sai số dự đoán của FRBS càng thấp, tức là độ chính xác của FRBS càng cao. 2 1 1 (ˆ ) 2 N p p i MSE y y N = =  − (1.18) trong đó yˆp là giá trị suy diễn từ FRBS với mẫu dữ liệu đầu vào dp, được tính theo công thức (1.15).

1.3.2.2 Vấn đề tính giải nghĩa được của FRBS

Hệ dựa trên luật mờ cung cấp tri thức dưới dạng ngôn ngữ dễ hiểu đối với người sử dụng, là cơ sở cho việc mô phỏng cách con người lập luận trong thực tế. Do đó, tính giải nghĩa được của các FRBS là cốt yếu để nghiên cứu mối quan hệ giữa tri thức của con người dưới dạng các từ ngôn ngữ được quan sát trong thực tiễn và các FRBS được thiết kế. Theo Mencar [51], nếu các FRBS không có tính giải nghĩa thì chúng nên được thay thế bằng các phương pháp tính toán số học đơn thuần. Cho đến nay vẫn chưa có sự thống nhất về tiêu chuẩn tính giải nghĩa được, ngay cả thuật ngữ được sử dụng để chỉ tính giải nghĩa được cũng chưa có sự thống nhất dẫn đến có nhiều thuật ngữ đồng nghĩa được sử dụng [33] như: tính dễ giải thích (interpretability), tính dễ hiểu (intelligibility), tính trong suốt (transparency), tính dễ đọc (readability), … Việc lựa chọn một độ đo thống nhất cho tính giải nghĩa được hiện vẫn là vấn đề mở trong cộng đồng nghiên cứu. Một số nghiên cứu cố gắng thiết lập tập các ràng buộc ở các mức khác nhau như mức phân hoạch mờ, mức luật mờ, mức hệ luật mờ, … Khi đó, tính giải nghĩa được của các FRBS được đánh giá theo tỷ lệ thỏa mãn các ràng buộc đó, tức là tỷ lệ thỏa mãn các ràng buộc càng cao thì tính giải nghĩa được càng cao. Trong [33], M.J.Gacto và cộng sự đã đưa ra hai thước đo về tính giải nghĩa được: - Tính giải nghĩa được dựa trên độ phức tạp (complexity-based interpretability): Hướng tiếp cận này đánh giá tính giải nghĩa được của các FRBS trên hai mức là mức cơ sở luật và mức phân hoạch mờ.

• Ở mức cơ sở luật thường: Các độ đo thường được sử dụng là số luật của hệ luật càng ít càng tốt, độ dài của mỗi luật trong hệ càng ngắn càng tốt. • Ở mức phân hoạch mờ: các độ đo thường được sử dụng là số biến và số từ

ngôn ngữ được sử dụng. Số biến được sử dụng ít sẽ làm tăng tính giải nghĩa được của hệ luật. Do giới hạn về lượng thông tin mà con người có thể xử lý được tại một thời điểm nên số từ ngôn ngữ được sử dụng cho mỗi biến không nên vượt quá 7±2 [52].

- Tính giải nghĩa được dựa trên ngữ nghĩa (Semantic-based interpretability):

Hướng tiếp cận này cũng đánh giá tính giải nghĩa được của các FRBC trên hai mức là mức phân hoạch mờ và mức cơ sở luật.

• Ngữ nghĩa ở mức cơ sở luật: Một hệ luật mờ phải đảm tính nhất quán của cơ sở luật, tức là nó không chứa các luật mâu thuẫn, không có hai luật có cùng tiền đề nhưng lại khác phần kết luận; một điểm đầu vào phải có ít nhất một luật hoạt động, số luật bị đốt cháy bởi một dữ liệu đầu vào càng ít càng tốt.

• Ngữ nghĩa ở mức phân hoạch mờ (mức từ ngôn ngữ): Phân hoạch mờ phải phủ hoàn toàn miền xác định của biến. Mỗi điểm dữ liệu phải thuộc vào ít nhất một tập mờ; hàm thuộc tạo nên phân hoạch phải thuộc loại chuẩn, tức là mỗi hàm thuộc phải có ít nhất một điểm dữ liệu trong miền xác định của biến có độ thuộc bằng 1; các hàm thuộc thể hiện ngữ nghĩa của các từ ngôn ngữ (nhãn ngôn ngữ) phải phân biệt được với nhau.

Các thuật toán trích rút các FRBS tối ưu từ dữ liệu cố gắng tích hợp các ràng buộc về tính giải nghĩa được nêu trên, thường là các ràng buộc dựa trên độ phức tạp, thành một số mục tiêu tối ưu về tính giải nghĩa được của hệ luật. Một trong số các mục tiêu tối ưu đó có thể là:

i) Tổng chiều dài của các luật trong cơ sở luật

( ) 1 min M m m Comp length R = = → (1.19)

ii) Chiều dài trung bình độ dài của các luật trong cơ sở luật

( ) 1 min M m m length R ave M = = → (1.20)

Một phần của tài liệu Phát triển phương pháp luận trích rút hệ luật ngôn ngữ mờ giải bài toán phân lớp, hồi quy dựa trên đại số gia tử (Trang 35 - 38)