Rời rạc hoá thuộc tính dựa vào tập mờ

Theo lý thuyết tập mờ, một phần tử thuộc vào một tập nào đó với một “mức độ thuộc” (membership value) nằm trong khoảng [0, 1]. Giá trị này được xác định dựa vào hàm thuộc (membership function) tương ứng với mỗi tập mờ. Bây giờ chúng ta áp dụng khái niệm tập mờ vào việc rời rạc hóa dữ liệu để giải quyết một số vấn đề còn vướng mắc ở phần trên.

Ví dụ thuộc tính thời gian đàm thoại tính theo phút có tập xác định trong khoảng [0,1440], chúng ta gắn cho nó 5 tập mờ tương ứng là tgdt_rất ngắn, tgdt_ngắn, tgdt_trung_bình, tgdt_dài, tgdt_rất_dài và đồ thị hàm thuộc tương ứng với các tập mờ này như sau:

Ví dụ, trong đồ thị ở hình trên, thời gian đàm thoại 5 phút và 6 phút có “mức độ thuộc” vào tập mờ tgdt_ngắn tương ứng là 0.88 và 0.77. Thời gian đàm thoại 10 phút và 11 phút có “mức độ thuộc” vào tập mờ tgdt_trung bình tương ứng là 0.45 và 0.17.

Đối với những thuộc tính hạng mục (categorical) A có tập giá trị {v1, v2, …, vk} và k không quá lớn thì gắn với mỗi giá trị vi một tập mờ A_vi có hàm thuộc xác định như sau:

Ví dụ thuộc tính loại cước có tập giá trị là liên tỉnh (LT), nội tỉnh (NT), quốc tế (QT), dịch vụ (DV), di động (DD), IP171(IP). Ta gắn thuộc tính loại cước với sáu tập mờ tương ứng là:

1 nếu loạicước =’LT’ 0 nếu loạicước ≠’LT’ m1(loạicước) = 1 nếu loạicước =’NT’ 0 nếu loạicước ≠’NT’ m2(loạicước) = 1 nếu loạicước =’QT’ 0 nếu loạicước ≠’QT’ m3(loạicước) = 1 nếu x = vi 0 nếu x ≠ vi mA_vi (x) = 1 Rất ngắn

Thời gian đàm thoại Mức độ thuộc

Hình 3.1. Đồ thị hàm thuộc của thuộc tính thời gian đàm thoại Rất dài Dài Trung bình Ngắn 16:40 11:37 08:03 05:23 02:15

Thực ra, A_vi hoàn toàn giống như tập rõ vì giá trị hàm thuộc của nó chỉ là 0 hoặc 1. Trường hợp k quá lớn, lúc đó chúng ta có thể chia khoảng và gán tập mờ cho từng khoảng hoặc hỏi ý kiến chuyên gia có hiểu biết về dữ liệu mà chúng ta đang khai phá.

Các ưu điểm khi áp dụng tập mờ để rời rạc hóa dữ liệu:

• Ưu điểm thứ nhất: Giải quyết được vấn đề “điểm biên gãy” nhờ tập mờ có thể phân khoảng mịn hơn nhờ vào “độ trơn” của hàm thuộc.

• Ưu điểm thứ hai: Rời rạc hóa bằng phân khoảng đôi khi tạo ra số khoảng rất lớn và do đó số thuộc tính nhị phân cũng rất lớn. Còn khi sử dụng tập mờ thì số lượng tập mờ gắn với mỗi thuộc tính là không đáng kể. Ví dụ, áp dụng phân khoảng cho thuộc tính giờ bắt đầu gọi chúng ta sẽ thu được 24 khoảng con trong [0, 23], mỗi khoảng tương ứng cách nhau một giờ, còn áp dụng tập mờ thì ta chỉ cần năm tập mờ là sáng, trưa, chiều, tối, đêm.

• Ưu điểm thứ ba tập mờ đem lại là nó cho phép chúng ta biểu diễn luật kết hợp dưới dạng tự nhiên hơn, gần gũi với người sử dụng hơn.

• Ưu điểm thứ tư là giá trị thuộc tính sau khi rời rạc hóa (sau khi tính qua hàm thuộc) biến thiên trong khoảng [0, 1] cho biết “mức độ thuộc” ít hay nhiều (các thuộc tính nhị phân trước đây chỉ có một trong hai giá trị 0, 1). Điều này cho chúng ta khả năng ước lượng chính xác hơn “độ đóng góp” của các bản ghi trong CSDL vào một tập phổ biến nào đó.

• Ưu điểm thứ năm là mặc dù các thuộc tính đã được mờ hóa, nhưng vẫn giữ nguyên được một số tính chất của thuộc tính nhị phân, do đó vẫn có thể áp dụng các thuật toán khai phá luật kết hợp nhị phân vào khai

1 nếu loạicước =’DV’ 0 nếu loạicước ≠’DV’ m4(loạicước) = 1 nếu loạicước =’DD’ 0 nếu loạicước ≠’DD’ m5(loạicước) =

1 nếu loạicước =’IP’ 0 nếu loạicước ≠’IP’ m6(loạicước) =

phá luật kết hợp mờ với một chút sửa đổi.

• Một ưu điểm nữa đối với rời rạc hóa dựa vào tập mờ là nó có thể áp dụng tốt cho cả hai dạng CSDL: CSDL quan hệ (relational databases) và CSDL dạng giao dịch (transactional databases).

Rời rạc hoá thuộc tính dựa vào tập mờ

Xu hướng trong khai phá dữ liệu

Luật kết hợp nhị phân