Cho I là tập các mục, T = {1, 2, ..., n} là tập các định danh. Cơ sở dữ liệu nhị phân d IT. Với cơ sở dữ liệu này nếu mục I xuất hiện trong giao tác t chúng ta viết (i, t) d hoặc i d t.
Định nghĩa 2.7 Cho quan hệ nhị phân d IT là cơ sở dữ liệu vào cho khai phá luật kết hợp, với X I, Y T. Có ánh xạ:
t: I T, t(X) ={y T | xX, xdy}. i: T I, i(Y) ={x I | yY, xdy}.
Ta gọi cặp (t, i) là kết nối Galois giữa những tập thứ tự bộ phận P(I) và P(T).
Chúng ta biểu thị cặp (X, t(X)) thành Xt(x) và cặp (i(Y),Y) thành i(Y)Y. Hình 2.10a đưa ra 2 ánh xạ minh họa kết nối Galois trong đó t(x) là tập tất cả các giao tác mà chứa tập mục X, tương tự i(Y) là tập mục được chứa trong tất cả các giao tác của tập Y.
Ví dụ: t(ACW) = 1345 và i(245) = CDW.
Trong đó tập mục là giao của những tập mục riêng. t(X) = xX t(x), i(Y) = yYi(Y).
i(245) = i(2) i(4) i(5) = CDW ACDW ACDTW = CDW. Kết nối Galois thỏa mãn các tính chất sau:
1.X1 X2 t(X1) t(X2).
Ví dụ: ACW ACTW thì t(ACW) = 1345 135 = t(ACTW).
2. Y1 Y2 i(Y1) i(Y2).
Ví dụ: tập định danh: 245 2456 khi đó i(245) = CDW CD = i(2456).
3. X i(t(X)) và Y t(i(Y)).
Ví dụ: AC i(t(AC)) = i(1345) = ACW.
Định nghĩa 2.8 Cho S là tập hợp, hàm c: P(S)P(S) xác định giữa các tập trong S, gọi là toán tử đóng (closure operator) trên S nếu với mọi X, Y
S, c thỏa các tính chất sau:
1. Mở rộng (extension): X C(X).
2. Đơn điệu (monotonicity): nếu X Y thì c(X) c(Y).
3. Không tăng: c(c(X)) = c(X).
Giả sử X I và Y T. cit biểu thị sự hợp thành của hai ánh xạ toi (X) = i(t(X)) và cti = t o i (Y) = t(i(Y)) thì cit: P(I)P(I) và cti: P(T) P(T) đều là toán tử đóng trên tập mục và tập định danh. Người ta gọi i o t và t o i là round trip. Hình 2.10b minh họa round trip này bắt đầu với tập mục X.
Định nghĩa 2.9 Giả sử tập mục X I là tập các mục trong cơ sở dữ liệu, tập X gọi là tập đóng nếu cit(X)=X.
Hình 2.10a Kết nối Galois Hình 2.10b Round – Trip
Ví dụ: giả sử X = AC áp dụng tính chất mở rộng thì tập X là tập con của tập đóng của nó.
Tức là: cit(AC)=i(t(AC))=i(1345)=ACW.
AC cit(AC) = ACW nên AC không phải là tập đóng.
Để kiểm tra tập mục X có phải là tập thường xuyên hay không ta tìm tập thường xuyên đóng nhỏ nhất chứa X. Nếu không tồn tại tập đóng thường xuyên nào chứa X thì X không phải là tập thường xuyên.
Ví dụ: kiểm tra tập mục ATW có thường xuyên không? Chúng ta xem trên dàn tìm được tập mục ACTW là tập đóng nhỏ nhất chứa nó nên ATW là tập mục thường xuyên có cùng độ hỗ trợ như ACTW. Ngược lại, DT không phải là tập mục thường xuyên vì không có tập thường xuyên đóng nào chứa nó cả. Các mục Các giao tác t(X) Y i t Y i(Y) X Các mục Các giao tác t(X) Cit(X)= i(t(X) X t i
Hình 2.11 Dàn và các tập mục thường xuyên.
Bất kỳ một tập X nào đều tồn tại một tập định danh đóng Y mà Y = t(X) và X = i(Y) (ngược lại cho bất kỳ tập định danh đóng nào cũng tồn tại một tập mục đóng).
Ví dụ: tập mục đóng ACW có tập định danh đóng tương ứng 1345.
Một cặp tập mục đóng và tập định danh đóng XxY được gọi là một khái niệm (concept).
Một khái niệm X1Y1 là khái niệm con của X2Y2 là X1Y1 X2Y2 khi và chỉ khi X1 X2, (Y1Y2)
Việc kết nối các khái niệm trong dàn được thực hiện bởi 2 phép tính sau: + Phép tuyển: (X1Y1)(X2Y2)=cit(X1X2)(Y1Y2). + Phép hội: (X1Y1)(X2Y2)= (X1X2) cti (Y1Y2). ACTW (ACTW135) ACW (ACW1345) ATW (ATW135) ACT (ACT135) CDW (CDW245) CTW (CTW135) AC (AC1345) AT (AT135) AW (AW1345) CD (CD2456) CT (CT1356) CW (CW12345) DW (DW245) TW (TW135) A (A1345) C (C123456) D (D 2456) T (T1356) W (W12345)
Ví dụ:
(ACDW45)(CDT56)=cit(ACDWCDT)(4556)= ACDTW5. (ACDW45)(CDT56) = Cit(ACDWCDT)(4556) = CDCti(456)
= CD2456.
Để xác định độ hỗ trợ của tập mục đóng X hoặc khái niệm XY cũng chính là của tập định danh đóng: Y = t(X) tức là Supp(X) =Y =t(x).
Định nghĩa 2.10 Một tập mục đóng hoặc khái niệm được gọi là thường xuyên nếu độ hỗ trợ của nó lớn hơn hoặc bằng minSup.
Hình 2.12 thể hiện tất cả những khái niệm thường xuyên với minSup 50% của cơ sở dữ liệu hình 2.2a
Hình 2.12 Dàn khái niệm thường xuyên.
(CDW245) (CD2456) (CT2356) (C123456) (ACTW135) (ACW1345) (CW12345)
Định lý 2.3 [12] Độ hỗ trợ của tập mục X bất kỳ bằng độ hỗ trợ tập đóng của nó tức là supp(X) = supp(cit(X)).
Chứng minh: độ hỗ trợ của tập mục X là số giao tác mà tập X xuất hiện chính là số phần tử của tập định danh t(X), supp(X) = t(X) vì supp(cit(X)) =
t(cit(X)). Để chứng minh định lý ta phải chứng minh t(X) = t(cit(X)) .
Vì cti là toán tử đóng nên nó thỏa mãn tính mở rộng t(X) cti (t(X)) = t(i(t(X))) = t(cit(X) vậy t(X) t(cit(X)). Mặc kkác cit cũng là toán tử đóng nên X cit(X). Suy ra t(X) t(cit(X)) do tính chất 1 của kết nối galois. Vậy
t(X)=t(cit(X))
Định lý này cho thấy tập mục thường xuyên được xác định bởi các tập mục đóng thường xuyên. Hơn nữa, tập của những tập mục đóng thường xuyên là nhỏ hơn tập các tập mục thường xuyên, ví dụ minh họa trong hình 2.12 cho thấy chỉ có 7 tập mục đóng thường xuyên trong khi đó tới 19 tập mục thường xuyên (thể hiện trong dàn hình 2.11).