Phân lớp theo cách tiếp cận tập mờ

Các hệ thống dựa trên luật để phân lớp có bất lợi đối với các thuộc tính liên tục. Ví dụ, xét quy tắc sau đối với sự chấp thuận sử dụng thẻ tín dụng của khách hàng:

IF(năm công tác>=2) AND (thu nhập>=50000) THEN thẻ tín dụng = được dùng

Theo quy tắc này, một khách hàng đã làm việc ít nhất 2 năm sẽ nhận thẻ tín dụng nếu thu nhập chỉ là 49000. Một ngưỡng cứng nhắc như thế dường như không ổn. Chúng ta có thể rời rạc hóa thu nhập theo chủng loại như {thu nhập

thấp, trung bình, cao}, sau đó sử dụng lý thuyết mờ với ngưỡng hoặc là các biên “mờ” để phân loại.

Mỗi loại biểu diễn một tâp mờ. Chú ý rằng một giá trị thu nhập x có thể có thành viên trong nhiều hơn một tập mờ. Các giá trị thành viên của x trong mỗi tập mờ không nhất thiết có tổng bằng 1.

0 0 0.5 1.0 10K 20K 30K 40K 50K 60K 70K Thấp C ác g iá tr ị m ờ th ật Trung bình Cao Thu nhập

Hình 1.3: Các giá trị mờ thật với thu nhập, biểu diễn mức thành viên các giá trị thu nhập theo các loại {thấp, trung bình, cao [6]

Theo hình trên, thu nhập trên hay dưới 49.000 là thuộc loại cao, mặc dù chưa cao bằng 50.000. Các hệ thống logic mờ cung cấp các đồ họa điển hình để yêu cầu thông tin NSD cho các giá trị thuộc tính chuyển đổi để mờ hóa các giá trị thật.

Lý thuyết tập mờ cũng được biết như lý thuyết xác suất. Nó được đề xuất bởi Lotfi Zadeh năm 1965 như một sự lựa chọn thay thế nhau giữa 2 lý thuyết truyền thống là xác suất và logic. Chúng cho chúng ta mức trừu tượng cao và cách giải quyết vừa phải có độ đo chính xác của dữ liệu. Điều quan trọng nhất, lý thuyết tập mờ cho phép chúng ta giải quyết các yếu tố không chính xác và mơ hồ (48.000 hay 49.000). Không giống như khái niệm tập “rõ”, trong lý thuyết “mờ” các phần tử có thể thuộc vào nhiều hơn một tập mờ. Ví dụ, thu nhập 49000 thuộc trong 2 tập trung bình và cao nhưng ở mức độ khác nhau. Khi sử dụng ký hiệu của lý thuyết mờ chúng ta có:

mthu nhập trung bình(49.000) = 0,15 và m thu nhập cao(49.000) = 0,96

Ở đây m kí hiệu cho hàm thành viên, hoạt động trên tập mờ về thu nhập (trung bình hay cao). Trong lý thuyết mờ, các giá trị thành viên trong mỗi phần tử x (ví dụ như là 49.000) có tổng không bằng 1. Điều này không giống như lý thuyết xác suất (rằng buộc theo một tiên đề về tổng).

Lý thuyết tập mờ có ích cho các hệ thống khai phá dữ liệu khi thực hiện phân lớp dựa trên các luật. Nó cung cấp các toán tử/thao tác để tổ hợp các độ đo mờ. Giả thiết rằng, bổ sung vào trong tập mờ đối với thu nhập, chúng ta xác định các tập mờ người lao động ít tuổi hơn, người nhiều tuổi hơn cho thuộc tính năm công tác. Giả sử chúng ta có môt quy tắc, thử nhiệm thu nhập cao, người nhiều tuổi trong phần IF của quy tắc. Nếu hai độ đo mờ này là AND cùng nhau thì cực tiểu độ đo của chúng được lấy là độ đo của quy tắc. Nói khác đi:

m(thu nhập cao AND người cao tuổi)(x) = min(mthu nhập cao(x),mngười cao tuổi(x))

Có thể nói đây là mắt xích một liên kết mạnh, một liên kết yếu. nếu 2 độ đo là OR thì cực đại độ đo của chúng được chọn là độ đo của quy tắc, nghĩa là:

m(thu nhập cao OR người cao tuổi)(x) = max(mthu nhập cao(x),mngười cao tuổi(x)) Bằng trực giác, ta nói rằng xâu mạnh, một xâu mạnh nhất.

Cho một bộ để phân loại, có hơn 1 quy tắc có thể dùng. Mỗi quy tắc áp dụng góp phần gợi ý hành viên trong các loại đó. Một cách điển hình, các giá trị đúng đối với chủng loại dự đoán là được lấy tổng, và các tổng này được tổ hợp.

Các hệ thống logic mờ đã được dùng trong nhiều lĩnh vực để phân loại, bao gồm nghiên cứu thị trường, tài chính, chăm sóc sức khỏe, và kỹ nghệ môi trường.

Phân lớp dựa trên các quy tắc IF-THEN

Phân lớp dựa trên luật kết hợp