CHƯƠNG II KHAI PHÁ LUẬT KẾT HỢP MỜ
2.3. Áp dụng tập mờ để rời rạc hóa và các ƣu điểm
Theo lý thuyết tập mờ [18], một phần tử thuộc vào một tập nào đó với một “mức độ thuộc” (membership value) nằm trong khoảng [0, 1]. Giá trị này được xác định dựa vào hàm thuộc (membership function) tương ứng với mỗi tập mờ. Bây giờ chúng ta áp dụng khái niệm tập mờ vào việc rời rạc hóa dữ liệu để giải quyết một số vấn đề còn vướng mắc ở phần trên.
Ví dụ 2.5: Thuộc tính thời_gian_đàm_thoại (tgdt) đƣợc tính theo đơn vị phút, có tập xác định trong khoảng [0, 1440] chúng ta gắn cho nó 5 tập mờ tương ứng là
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn
tgdt_rất ngắn, tgdt_ngắn, tgdt_trungbình, tgdt_dài và đồ thị tương ứng với tập mờ nhƣ sau:
Hàm thuéc
Rất ngắn Ngắn Trung bình Dài Rất dài
0 3 6 9 12 15 18 T.gian đàm thoạ i
1
Hình 2.1. Đồ thị hàm thuộc của thuộc tính thời gian đàm thoại
Ví dụ trong đồ thị ở hình trên, thời gian đàm thoại là 5 phút và 5 phút 30 giây có mức độ thuộc vào tập tgdt_ngắn tương ứng là 0.7 và 0.67.
Đối với những thuộc tính hạng mục (categorical) A có tập giá trị {v1, v2, …, vk}và k không quá lớn thì gắn với mỗi giá trị vi một tập mờ A_vi có hàm thuộc xác định nhƣ sau:
i i
v x nÕu
v x nÕu
0 1 x m
A_vi
Ví dụ thuộc tính hạng mục vùng_cước có tập giá trị là „LT‟, „NT‟, „QT‟, „DV‟,
„DD‟, „IP‟
Tương ứng với: (LT) liên tỉnh, (NT) nội tỉnh, (QT) quốc tế, dịch vụ (DV), di động (DD), IP171 (IP). Ta gắn thuộc tính vùng_ cước với sáu tập mờ tương ứng là m1, m2, m3, m4, m5, m6 trong đó:
LT' ' vùng_c-ớc nÕu
LT' ' vùng_c-ớc nÕu
vùng_c-ớc 0
1 m1
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn
NT' ' vùng_c-ớc nÕu
NT' ' vùng_c-ớc nÕu
vùng_c-ớc 0
1 m2
QT' ' vùng_c-ớc nÕu
QT' ' vùng_c-ớc nÕu
vùng_c-ớc
0 1 m3
DV' ' vùng_c-ớc nÕu
DV' ' vùng_c-ớc nÕu
vùng_c-ớc 0
1 m4
DD' ' vùng_c-ớc nÕu
DD' ' vùng_c-ớc nÕu
vùng_c-ớc 0
1 m5
IP' ' vùng_c-ớc nÕu
IP' ' vùng_c-ớc nÕu
vùng_c-ớc 0
1 m6
Thực ra A_Vi giống như tập rõ vì giá trị hàm thuộc của nó chỉ là 0 hoặc 1. Trường hợp k quá lớn, chúng ta chia khoảng và gán tập mờ cho từng khoảng.
Các ƣu điểm của việc áp dụng tập mờ để rời rạc hóa dữ liệu:
1. Giải quyết đƣợc vấn đề “điểm biên gãy” nhờ tập mờ có thể phân khoảng mịn hơn nhờ vào “độ trơn” của hàm thuộc.
2. Rời rạc hóa bằng phân khoảng đôi khi tạo ra số khoảng rất lớn và do đó số thuộc tính nhị phân cũng rất lớn. Còn khi sử dụng tập mờ thì số lƣợng tập mờ gắn với mỗi thuộc tính là không đáng kể. Ví dụ, áp dụng phân khoảng cho thuộc tính giờ bắt đầu gọi chúng ta sẽ thu đƣợc 24 khoảng con trong [0, 23], mỗi khoảng tương ứng cách nhau một giờ, còn áp dụng tập mờ thì ta chỉ cần 5 tập mờ là sáng, trƣa, chiều, tối, đêm.
3. Tập mờ đem lại là nó cho phép chúng ta biểu diễn luật kết hợp dưới dạng tự
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn
nhiên hơn, gần gũi với người sử dụng hơn.
4. Giá trị thuộc tính sau khi rời rạc hóa (sau khi tính qua hàm thuộc) biến thiên trong khoảng [0, 1] cho biết “mức độ thuộc” ít hay nhiều. Điều này cho chúng ta khả năng ƣớc lƣợng chính xác hơn “độ đóng góp” của các bản ghi trong CSDL vào một tập phổ biến nào đó.
5. Mặc dù các thuộc tính đã đƣợc mờ hóa, nhƣng vẫn giữ nguyên đƣợc một số tính chất của thuộc tính nhị phân, do đó vẫn có thể áp dụng các thuật toán khai phá luật kết hợp nhị phân vào khai phá luật kết hợp mờ với một vài thay đổi. Ví dụ tính chất “mọi tập con khác rỗng của tập phổ biến cũng là tập phổ biến và mọi tập chứa tập không phổ biến đều là tập không phổ biến” vẫn còn đúng nếu ta chọn phép toán T-norm (T-chuẩn) phù hợp.
6. Đối với rời rạc hóa dựa vào tập mờ là nó có thể áp dụng tốt cho cả hai dạng CSDL: CSDL quan hệ (relational databases) và CSDL dạng giao dịch (transactional databases).