3. Chương 3: Một số phương pháp KPDL sinh luật kết hợp
3.3. Thuật toán Charm
3.3.1.1. Một số khái niệm
Ta ký hiệu:
+ I là tập các mục đơn (Itemset).
+ T = {1, 2,..., n} là tập các định danh của các giao dịch (Tidset). Khi đó CSDL là quan hệ nhị phân I T.
Nếu mục i xuất hiện trong giao dịch t ta viết (i, t) hoặc i t.
Tập XI gọi là tập mục và YT là tập các định danh. Để thuận tiện, ta ký hiệu tập mục
Bảng 3.18: Cơ sở dữ liệu minh hoạ thuật toán Charm.
Với dữ liệu cho ở bảng trên thì I = {A,C,D,T,W}, T = {1,2,3,4,5,6}, minsup = 3 (50%). Với mỗi tập mục X I ta ký hiệu tập định danh tương ứng của nó là t(X), cụ thể t(X) là tập tất cả các định danh của T có chứa X, t là một ánh xạ được xác định như sau:
t: I T, t(X) = {yT |xX thì x y}, ngoài ra ta quy ước t() = T. Ví dụ: t(ACW) = 1345, t() = 123456.
Với mỗi tập giao dịch YT, ta ký hiệu tập mục tương ứng của nó là i(Y), cụ thể i(Y) là tập các mục của I mà tập mục này có trong tất cả các giao dịch trong Y, i là một ánh xạ được xác định như sau:
i: T I, i(Y) = {xI | yY, x y}, ngoài ra ta quy ước i() = I. Ví dụ: i(245) = CDW, i() = ACDTW.
Ta nói các ánh xạ t và i định nghĩa một kết nối Galois () giữa các tập có thứ tự P(I) và
Một số tính chất: (1) Tính chất 1: + t(X) = t(x) | xX. + i(Y) = i(y) | yY. Ví dụ: + t(ACW) = t(A) t(C) t(W) = 1345 123456 12345 = 1345. + i(245) = i(2) i(4) i(5) = CDW ACDW ACDTW = CDW. (2) Tính chất 2:
+ X1 X2 => t(X1) t(X2). + Y1 Y2 => t(Y1) t(Y2). Ví dụ:
+ ACW ACTW => t(ACW) = 1345 t(ACTW) = 135. + 245 2456 => i(245) = CDW t(2456) = CD. (3) Tính chất 3:
+ X i(t(X)). + Y t(i(Y)). Ví dụ:
+ i(t(AC)) = i(1345) = ACW AC. + t(i(24)) = t(CDW) = 245 24.