Tập mục thường xuyên đóng

Một phần của tài liệu Khai phá dữ liệu và thuật toán khai phá luật kết hợp (Trang 74)

Cho I là tập các mục, T = {1, 2, ..., n} là tập các định danh. Cơ sở dữ liệu nhị phân d IT. Với cơ sở dữ liệu này nếu mục I xuất hiện trong giao tác t chúng ta viết (i, t) d hoặc i d t.

Định nghĩa 2.7 Cho quan hệ nhị phân d IT là cơ sở dữ liệu vào cho khai phá luật kết hợp, với X I, Y T. Có ánh xạ:

t: I T, t(X) ={y T | xX, xdy}. i: T I, i(Y) ={x I | yY, xdy}.

Ta gọi cặp (t, i) là kết nối Galois giữa những tập thứ tự bộ phận P(I) và P(T).

Chúng ta biểu thị cặp (X, t(X)) thành Xt(x) và cặp (i(Y),Y) thành i(Y)Y. Hình 2.10a đưa ra 2 ánh xạ minh họa kết nối Galois trong đó t(x) là tập tất cả các giao tác mà chứa tập mục X, tương tự i(Y) là tập mục được chứa trong tất cả các giao tác của tập Y.

Ví dụ: t(ACW) = 1345 và i(245) = CDW.

Trong đó tập mục là giao của những tập mục riêng. t(X) = xX t(x), i(Y) = yYi(Y).

i(245) = i(2)  i(4)  i(5) = CDW  ACDW ACDTW = CDW. Kết nối Galois thỏa mãn các tính chất sau:

1.X1 X2 t(X1) t(X2).

Ví dụ: ACW  ACTW thì t(ACW) = 1345  135 = t(ACTW).

2. Y1 Y2 i(Y1) i(Y2).

Ví dụ: tập định danh: 245  2456 khi đó i(245) = CDW  CD = i(2456).

3. X i(t(X)) và Y t(i(Y)).

Ví dụ: AC  i(t(AC)) = i(1345) = ACW.

Định nghĩa 2.8 Cho S là tập hợp, hàm c: P(S)P(S) xác định giữa các tập trong S, gọi là toán tử đóng (closure operator) trên S nếu với mọi X, Y

S, c thỏa các tính chất sau:

1. Mở rộng (extension): X C(X).

2. Đơn điệu (monotonicity): nếu X Y thì c(X) c(Y).

3. Không tăng: c(c(X)) = c(X).

Giả sử X IY T. cit biểu thị sự hợp thành của hai ánh xạ toi (X) = i(t(X)) và cti = t o i (Y) = t(i(Y)) thì cit: P(I)P(I) và cti: P(T) P(T) đều là toán tử đóng trên tập mục và tập định danh. Người ta gọi i o tt o i là round trip. Hình 2.10b minh họa round trip này bắt đầu với tập mục X.

Định nghĩa 2.9 Giả sử tập mục X I là tập các mục trong cơ sở dữ liệu, tập X gọi là tập đóng nếu cit(X)=X.

Hình 2.10a Kết nối Galois Hình 2.10b Round – Trip

Ví dụ: giả sử X = AC áp dụng tính chất mở rộng thì tập X là tập con của tập đóng của nó.

Tức là: cit(AC)=i(t(AC))=i(1345)=ACW.

AC  cit(AC) = ACW nên AC không phải là tập đóng.

Để kiểm tra tập mục X có phải là tập thường xuyên hay không ta tìm tập thường xuyên đóng nhỏ nhất chứa X. Nếu không tồn tại tập đóng thường xuyên nào chứa X thì X không phải là tập thường xuyên.

Ví dụ: kiểm tra tập mục ATW có thường xuyên không? Chúng ta xem trên dàn tìm được tập mục ACTW là tập đóng nhỏ nhất chứa nó nên ATW là tập mục thường xuyên có cùng độ hỗ trợ như ACTW. Ngược lại, DT không phải là tập mục thường xuyên vì không có tập thường xuyên đóng nào chứa nó cả. Các mục Các giao tác t(X) Y i t Y i(Y) X Các mục Các giao tác t(X) Cit(X)= i(t(X) X t i

Hình 2.11 Dàn và các tập mục thường xuyên.

Bất kỳ một tập X nào đều tồn tại một tập định danh đóng Y mà Y = t(X) và X = i(Y) (ngược lại cho bất kỳ tập định danh đóng nào cũng tồn tại một tập mục đóng).

Ví dụ: tập mục đóng ACW có tập định danh đóng tương ứng 1345.

Một cặp tập mục đóng và tập định danh đóng XxY được gọi là một khái niệm (concept). (adsbygoogle = window.adsbygoogle || []).push({});

Một khái niệm X1Y1 là khái niệm con của X2Y2 là X1Y1 X2Y2 khi và chỉ khi X1  X2, (Y1Y2)

Việc kết nối các khái niệm trong dàn được thực hiện bởi 2 phép tính sau: + Phép tuyển: (X1Y1)(X2Y2)=cit(X1X2)(Y1Y2). + Phép hội: (X1Y1)(X2Y2)= (X1X2) cti (Y1Y2). ACTW (ACTW135) ACW (ACW1345) ATW (ATW135) ACT (ACT135) CDW (CDW245) CTW (CTW135) AC (AC1345) AT (AT135) AW (AW1345) CD (CD2456) CT (CT1356) CW (CW12345) DW (DW245) TW (TW135) A (A1345) C (C123456) D (D 2456) T (T1356) W (W12345)

Ví dụ:

(ACDW45)(CDT56)=cit(ACDWCDT)(4556)= ACDTW5. (ACDW45)(CDT56) = Cit(ACDWCDT)(4556) = CDCti(456)

= CD2456.

Để xác định độ hỗ trợ của tập mục đóng X hoặc khái niệm XY cũng chính là của tập định danh đóng: Y = t(X) tức là Supp(X) =Y =t(x).

Định nghĩa 2.10 Một tập mục đóng hoặc khái niệm được gọi là thường xuyên nếu độ hỗ trợ của nó lớn hơn hoặc bằng minSup.

Hình 2.12 thể hiện tất cả những khái niệm thường xuyên với minSup 50% của cơ sở dữ liệu hình 2.2a

Hình 2.12 Dàn khái niệm thường xuyên.

(CDW245) (CD2456) (CT2356) (C123456) (ACTW135) (ACW1345) (CW12345)

Định lý 2.3 [12] Độ hỗ trợ của tập mục X bất kỳ bằng độ hỗ trợ tập đóng của nó tức là supp(X) = supp(cit(X)).

Chứng minh: độ hỗ trợ của tập mục X là số giao tác mà tập X xuất hiện chính là số phần tử của tập định danh t(X), supp(X) = t(X) vì supp(cit(X)) =

t(cit(X)). Để chứng minh định lý ta phải chứng minh t(X) = t(cit(X)) .

cti là toán tử đóng nên nó thỏa mãn tính mở rộng t(X) cti (t(X)) = t(i(t(X))) = t(cit(X) vậy t(X) t(cit(X)). Mặc kkác cit cũng là toán tử đóng nên X cit(X). Suy ra t(X) t(cit(X)) do tính chất 1 của kết nối galois. Vậy

t(X)=t(cit(X))

Định lý này cho thấy tập mục thường xuyên được xác định bởi các tập mục đóng thường xuyên. Hơn nữa, tập của những tập mục đóng thường xuyên là nhỏ hơn tập các tập mục thường xuyên, ví dụ minh họa trong hình 2.12 cho thấy chỉ có 7 tập mục đóng thường xuyên trong khi đó tới 19 tập mục thường xuyên (thể hiện trong dàn hình 2.11).

Một phần của tài liệu Khai phá dữ liệu và thuật toán khai phá luật kết hợp (Trang 74)