Ta kí hiệu:
I- tập các mục
T={ 1,2,.. .,n} - Tập các định danh của các tác vụ Khi đó cơ sở dữ liệu là quan hệ nhị phân ô c I x T
Nếu mục i xuất hiện trong tác vụ t ta viết (i,t) 6 ô hoặc i õ t.
Tập X c l gọi là tập mục và tập Y c T gọi là tập định danh. Để thuận tiện, ta kí hiệu tập mục {A,C,W} là ACW và định danh {2,4,5} là 245.
Độ hỗ trợ của tập mục X, kí hiệu là supp(X)- là số các tác vụ trong đó nó xuất hiện. Tập mục X là phổ biến nếu độ hỗ trợ của nó supp(X) > minsupp.
Một luật kết hợp là biểu thức X] —>p x 2, ở đó X] và x 2 là các tập mục và Xi n X2
Độ hỗ trợ của luật là supp(Xi u x 2) và độ tin cậy là p = supp(X! u X2)/supp(Xi). Một luật là tin cậy nếu p > minconf.
Kết nối Galois
Giả sử õ 3 I X T là quan hệ nhị phân của cơ sở dữ liệu cho khai phá luật kết hợp. Với mỗi tập X c l ta ký hiệu tập định danh tương ứng của nó là t(X), t(X) là tập tất cả các định danh của T có chứa X. t là một ánh xạ được xác định như sau:
t : I - » T v ớ i t ( X ) = { y e T / V x e X , X ổ y }
Với mỗi Y eT , ta ký hiệu tập mục tương ứng của nó là i(Y), i(Y) là tập các mục của I mà tập mục này có trong tất cả các giao định danh trong y, i là một ánh xạ được xác định như sau:
i : T —> I với i(Y)={xeI/ Vy e Y, X ổ y} Kểt nối Galois có các tính chất cơ bản sau:
+ Tính chất 1: X , c X 2 => t(X0 a t(X2) + Tính chất 2: X, C x 2 => t(X j) 3 t(X 2) Y1e Y 2 =>i(Y1) 3 i ( Y 2) + Tính chất 3: X c i(t(X)) v à Y c t(i(Y» Toán tử đóng và tập đóng
Kí hiệu P(S) là tập các tập con của s.
Định nghĩa toán tử đóng: Cho tập s, hàm c: P(S) —> P(S) gọi là toán tử đóng trên
s nếu với mọi X, Y c s, c thỏa mãn các tính chất sau:
+ Tính chất 1: Mở rộng (Extention): X (= c(X).
+ Tính chất 2: Đơn điệu (Monotonicity): nếu Yc: X thì c(Y) C c(X). + Tính chất 3: Không tăng (Idenpotency): c(c(X))=c(X)
Ta có: C j t ( X ) = i*t(X) = i(t(X)) là ánh xạ hợp từ P(I) -» P(I)
và Cti(Y) = t * i( Y ) = t ( i( Y ) ) là ánh xạ hợp từ P (T ) -> P (T )
cả hai đều là toán tử đóng ừên tập mục I và tập định danh T. Người ta gọi i*t và t*i là một Round-Trip.
Cách xác định tập phổ biến:
Để xác định tập X có phổ biến không, ta tìm tập đóng X ’ nhỏ nhất chứa X. Nếu không tồn tại tập X ’ thì X không là tập phổ biến.
Cây tìm kiếm “tập mục-tập định danh” và lớp tương đương (Itemset-Tidset search tree and Equivalence Classes)
Ký hiệu X X t(X) hay X X Y với Y=t(X) là một cặp “tập mục-tập định danh”
(itemset-tidset pair) và gọi là IT-pair.
X]XY 1 là con x 2 X Y2 được viết là: XjxY 1 < x 2 X Y2 nếu Xi C x 2 hoặc YiCỊ Y2. Qui ước phép hội và phép tuyển trên các IT-pair được xác định như sau:
( XjxY j) V ( X 2 X Y 2) = c it( X , u X a) X ( Y , n Y 2)
(X jxY i) A (X2 X Y 2) = (X , n x 2) X c it(Y , u Y 2)
Độ hỗ trợ của tập đóng X hay khái niệm X X Y là số các phần tử của tập định danh đóng Y = t(Y), tức là supp(X) = |Y| = |t(X)|. Tập mục đóng hay khái niệm X X
Y ỢT-pairj được gọi là phổ biến nếu độ hỗ trợ của nó lớn hơn hoặc bằng giá trị minsupp cho trước.
Định lỷ 1: Độ hỗ trợ của một tập mục X bất kỳ bằng độ hỗ trợ của toán tử đóng của nó, tức là supp(X)= supp(cịt(X)).
Chứng minh:
Độ hỗ ừợ của tập X là số các tác vụ có chứa X, tức là số phần tử của tập định danh t(X), s(X)= |t(X)|, và s(cjt(X)) = |t(cit(X))|. Để chứng minh định lý ta cần chi ra
Vì Cti là toán tử đóng, nên nó thỏa mãn tính chất mở rộng hay:
t(X) C cti(t(X)) - t(i(t(X))) = t(cit(X)).
Mặt khác CitCŨng là toán tử đóng do đó ta có: X C Cjt(X ) => t(X ) 2 t(cit(X)). Vậy ta có t(X) = t(cit(X)).
Định lý trên cho thấy tất cả các tập mục phổ biến được xác định duy nhất bởi tập đóng hoặc khái niệm phổ biến. Hơn nữa, tập các tập mục phổ biến đóng là nhỏ hơn rất nhiều so với tập mục phổ biến. Và đặc biệt nhỏ hơn trong trường hợp CSDL giầu.
Các tính chất cơ bản của cặp tập mục - tập định danh ỰT-pair):
Cho Xj X t(Xj) và Xj X t(Xj) là hai phần tử của lớp [P], với Xi <f Xj trong đó f là một hàm sắp thứ tự toàn phần ( Dựa theo thứ tự từ điển hoặc độ hỗ trợ). Theo đó ta có các tính chất sau:
+ Tính chất 1: Nếu t(Xj) = t(Xj) thì Cjt(XjUXj) = cit(Xị)= Cjt(Xj).
+ Tính chất 2: Nếu t(Xị) c t(Xj) thì Cjt(Xj) * cit(Xj), nhưng cit(XjUXj) = Cit(Xi)
+ Tính chất 3: Nếu t(Xj) 3 t(Xj) thì cit(Xi) * Cjt(Xj), nhưng Cjt(XjUXj) = cit(Xj) + Tính chất 4: Nấu t(Xj) -Ạ t(Xj) thì cit(Xj) * Cjt(Xj) Ỷ Cit(XjUXj)