Bài toán phân lớp được phát biểu như sau: cho một tập các mẫu dữ liệu P = {(D,
C)}, trong đó D = {dp= (ap,1, ap,2, …, ap,n)| p=1, ..., N} là tập dữ liệu, C = {C1, ..., Cm} là tập các nhãn của các lớp, dp U là mẫu dữ liệu thứ p với U = U1 ... Un là tích Đề-các của các miền xác định của n biến A1, ..., An, m là số lớp và N là số mẫu dữ
liệu, khi đó D U. Mỗi dữ liệu dp D thuộc một lớp Cp C tương ứng tạo thành từng cặp (dp, Cp) P.
Giải bài toán phân lớp bằng phương pháp dựa trên hệ mờ dạng luật (Fuzzy rule-
based classification systems - FRBC) là xây dựng một hệ các luật mờ dạng (1.21) và
phương pháp lập luận trên nó.
rq: IfA1 is xrq,1 & … & An is xrq,n ThenAn + 1 is Cq with CFq với q = 1..M (1.21) trong đó A1, A2, …, An là các biến ngôn ngữ thuộc không gian tham chiếu U1, U2, ...,
Un, xrq =(xrq,1,..., xrq,1) là các nhãn ngôn ngữ, yrq = “An + 1 is Cq”, Cq là tên lớp kết luận của rq, CFq[0, 1] là trọng số của luậtvà M là số luật mờ.
Ta ký hiệu hệ luật mờ là S, nó đóng vai trò như một ánh xạ từ tập dữ liệu vào tập nhãn:
S : U → C (1.22) Hệ các luật mờ này biểu diễn tri thức về bài toán, nó không chỉ phản ánh đúng với tập dữ liệu mẫu mà còn có khả năng dự đoán và giúp cho người dùng phán đoán, ra quyết định. Do đó, yêu cầu quan trọng của hệ luật là càng rõ ràng, càng dễ giải nghĩa được với người dùng càng tốt.
Như vậy, hệ S phải đạt các mục tiêu: độ chính xác phân lớp cao, tức là sai số phân lớp cho các dữ liệu ít nhất có thể, số lượng các luật ít cũng như số điều kiện tham gia trong vế trái mỗi luật ít. Mục tiêu về độ chính xác phân lớp nhằm đáp ứng tính đúng đắn của của hệ đối với tập dữ liệu mẫu được cho của bài toán, còn hai mục tiêu sau với mong muốn đạt được tính dễ giải thích của hệ luật. Các luật mờ trong S
phải đơn giản và dễ hiểu đối với người dùng. Gọi fp(S) là hàm đánh giá độ chính xác phân lớp, fn(S) là số luật và fa(S) là độ dài (hay số tiền điều kiện của luật) trung bình của vế trái trong hệ luật S thì mục tiêu là xây dựng hệ luật sao cho:
Ba mục tiêu trên không thể đạt được đồng thời, khi số luật giảm đồng nghĩa với lượng tri thức về bài toán giảm thì nguy cơ phân lớp sai tăng lên. Nhưng khi có quá nhiều luật cũng có thể gây ra sự nhiễu loạn thông tin trong quá trình phân lớp. Bên cạnh đó, số điều kiện của mỗi luật ảnh hưởng đến tính khái quát hay tính đặc tả của luật, cụ thể nếu số điều kiện ít sẽ làm tăng tính phổ quát và ngược lại số điều kiện tăng sẽ làm tăng tính đặc tả của luật đó. Tính khái quát sẽ làm tăng tính dễ giải thích của luật nhưng nguy cơ gây sai số lớn, trong khi tính đặc tả làm giảm tính dễ hiểu nhưng lại tăng tính đúng đắn của luật. Các phương pháp giải quyết bài toán đều phải tìm kiếm sự thỏa hiệp giữa các mục tiêu này bằng giải thuật tối ưu đa mục tiêu.