Theo lý thuyết tập mờ [LAZ65] [ZHJ91], một phần tử thuộc vào một tập nào đó với một “mức độ thuộc” (membership value) nằm trong khoảng [0, 1]. Giá trị này được xác định dựa vào hàm thuộc (membership function) tương ứng với mỗi tập mờ. Ví dụ, cho x là một thuộc tính cùng với miền xác định Dx (còn được gọi là tập vũ trụ), hàm thuộc xác định “mức độ thuộc” của mỗi giá trị x (∈ Dx)vào tập mờfx có dạng sau: [ ]0,1 : ) ( x → x f x D m (3.1)
Bây giờ chúng ta thửứng dụng khái niệm tập mờ vào việc rời rạc hóa dữ liệu để giải quyết một số vấn đề còn vướng mắc ở phân trên.
Ví dụ thuộc tính Tuổi với tập xác định trong khoảng [0, 120], chúng ta gắn cho nó ba tập mờ tương ứng là Tuổi_trẻ, Tuổi_trung_niên, và Tuổi_già và đồ thị hàm thuộc tương ứng với ba tập mờ này như sau:
Hình 5 - Đồ thị hàm thuộc của các tập mờ "Tuổi_trẻ", "Tuổi_trung_niên", và "Tuổi_già"
Dùng tập mờđể rời rạc hóa dữ liệu, chúng ta đã khắc phục được vấn đề “điểm biên gãy” nhờ tập mờ tạo ra những điểm biên mịn hơn rất nhiều. Ví dụ, trong đồ thị ở hình 5, tuổi 59 và 60 có “mức độ thuộc” vào tập mờ Tuổi_già tương ứng là 0.85 và 0.90. Tuổi 30 và 29 có “mức độ thuộc” vào tập mờ Tuổi_trẻ lần lượt là 0.70 và 0.75.
Một ví dụ khác về các tập mờ ứng với thuộc tính Lượng cholesterol trong máu là Cholesterol_thấp và Cholesterol_cao.
Hình 6 - Đồ thị hàm thuộc của hai tập mờ "Cholesterol_thấp" và "Cholesterol_cao"
Đối với những thuộc tính hạng mục (categorical) có tập giá trị {v1, v2, …, vk} và k không quá lớn thì gắn với mỗi giá trị vi một tập mờ A_Vi (A là tên thuộc tính) có hàm thuộc xác định như sau: mA_Vi(x) bằng 1 nếu x = vi và bằng 0 nếu x ≠ vi. Thực ra, A_Vi hoàn toàn giống như tập rõ vì giá trị hàm thuộc của nó chỉ là 0 hoặc 1. Trường hợp k quá lớn, lúc đó chúng ta có thể chia khoảng và gán tập mờ cho từng khoảng hoặc hỏi ý kiến chuyên gia có hiểu biết về dữ liệu mà chúng ta đang khai phá.
Rời rạc hóa áp dụng tập mờ, chúng ta có một sốđiểm lợi sau:
• Giải quyết được vấn đề “điểm biên gãy” nhờ tập mờ có thể phân khoảng mịn hơn nhờ vào “độ trơn” của hàm thuộc.
• Rời rạc hóa bằng phân khoảng đôi khi tạo ra số khoảng rất lớn và do đó số thuộc tính nhị phân cũng rất lớn. Còn khi sử dụng tập mờ thì số lượng tập mờ gắn với mỗi thuộc tính là không đáng kể. Ví dụ, áp dụng phân khoảng cho thuộc tính Lượng cholesterol chúng ta sẽ thu được 5 khoảng con trong khoảng [100, 600] ban đầu, còn áp dụng tập mờ thì ta chỉ cần hai tập mờ là
Cholesterol_thấp và Cholesterol_cao.
• Ưu điểm thứ ba tập mờ đem lại là nó cho phép chúng ta biểu diễn luật kết hợp dưới dạng tự nhiên hơn, gần gũi với người sử dụng hơn.
• Ưu điểm thứ tư mà tập mờ đem lại là giá trị thuộc tính sau khi rời rạc hóa (sau khi tính qua hàm thuộc) biến thiên trong khoảng [0, 1] cho biết “mức độ thuộc” ít hay nhiều (các thuộc tính nhị phân trước đây chỉ có một trong hai giá trị 0, 1). Điều này cho chúng ta khả năng ước lượng chính xác hơn “độđóng góp” của các bản ghi trong CSDL vào một tập phổ biến nào đó.
• Ưu điểm thứ năm mà sang phần sau chúng ta sẽ thấy rõ hơn là mặc đù các thuộc tính đã được mờ hóa, nhưng vẫn giữ nguyên được một số tính chất của thuộc tính nhị phân, do đó vẫn có thể áp dụng các thuật toán khai phá luật kết hợp nhị phân vào khai phá luật kết hợp mờ với một chút sửa đổi. Ví dụ tính chất “mọi tập con khác rỗng của tập phổ biến cũng là tập phổ biến và mọi tập chứa tập không phổ biến đều là tập không phổ biến” (downward closure property) [AS94] vẫn còn đúng nếu chúng ta chọn được phép toán T-norm (T-chuẩn) phù hợp.
• Một ưu điểm nữa đối với rời rạc hóa dựa vào tập mờ là nó có thể áp dụng tốt cho cả hai dạng CSDL: CSDL quan hệ (relational databases) và CSDL dạng giao dịch (transactional databases).