, x ik }→ {x ik
2.4.3 Khai phá luật kết hợp tổng quát
Tập các mục I = {i1, i2, ..., in} trong các bài toán khai phá lu ật kết hợp cơ sở nêu trên đư ợc coi là bình đẳng với nhau. Tuy nhiên, trong thực tế, có nhiều trường hợp cần phải phân cấp cho các mục này. Ví dụ, I = {Áo vét, quần áo
43
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên htt p ://www.lr c - tnu. ed u. v n
thư ờng nói Áo vét là một loại Quần áo khoác. Trong nh ững trường hợp như vậy, người
ta bi ểu diễn các mục của tập Ithành m ột cây phâncấp.
Sự phân cấp có thể được sử dụng để cắt tỉa những luật không đáng quan tâm hoặc không mang thêm một thông tin nào mới hơn so với các luật liên quan đến mức trên của nó.
Gọi I = {i1, i2, .., in} là tập mục. G là một cây đồ thị có hướng trên các mục của I. Một cạnh trên G đi từ p → q mô tả một quan hệ, p được gọi là cha của q và q được gọi là con của p.
Ta sử dụng những chữ cái viết thường để ký hiệu cho các mụ c, các chữ cái viết hoa để ký hiệu cho các tập mục.
x được gọi là một tổ tiên của x (x đ ược gọi là con ch áu của x) nếu có
một cạnh đi từ x đến x. Lưu ý rằng, một nút của G không được coi là tổ tiên của chính nó.
Gọi D là cơ sở dữ liệu giao dịch, trong đó mỗi giao dịch T là một tập các mục, T ⊆ I. Ta nói rằng, giao dịch T hỗ trợ cho mục x ∈ I nếu x có mặt trong T hoặc x là một tổ tiên của một số mục trong T. Một giao dịch T hỗ trợ một tập X ⊆ I nếu T hỗ trợ cho mỗi mục trong X.
Định nghĩa 2.15: Một luật kết hợp tổng quát là luật có dạng X ⇒Y, trong đó X ⊂ I, Y ⊂ I, X ∩ Y = ∅ và không có mục nào trong Y là tổ tiên của một mục nào đó trong X.
Luật X ⇒Y tồn tại trên D với một độ tin cậy c và m ột độ hỗ trợ có ý nghĩa như định nghĩa 2.1, 2.2. Việc đưa vào thêm điều kiện không có một mục nào trong Y là tổ tiên của một mục nào đó trong X là để tránh trường hợp xuất hiện luật có dạng x ⇒x, luật này luôn luôn có độ tin cậy bằng 100%.
Sở dĩ gọi luật X ⇒Y là luật tổng quát vì cả X và Y có thể chứa các mục ở bất kỳ mức nào của cây phân cấp G. Bài toán khai phá luật kết hợp tổng quát thực chất cũng chỉ khai phá các luật mà độ hỗ trợ và độ tin cậy của nó lớn hơn hoặc bằng các ngưỡng minsup và minconf tương ứng.
44
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên htt p ://www.lr c - tnu. ed u. v n
Z Z
⇒
Z
X Y
45
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên htt p ://www.lr c - tnu. ed u. v n
conf(X ⇒ Y) = Pr(Y \ X) (2.21)
Nếu tập {x, y} có độ hỗ trợ tối thiểu thì các tập{x, y}, { x, y},{ x,
y}
cũng sẽ có độ hỗ trợ tối thiểu. Tuy nhiên, nếu luật x ⇒y có độ hỗ trợ tối thiểu và có độ tin cậy tối thiểu thì chỉ có luật x ⇒y mới đảm bảo có cả độ hỗ trợ tối thiểu lẫn độ tin cậy, còn các luật x ⇒ y, x ⇒ y chỉ có độ hỗ trợ tối thiểu
nhưng chưa hẳn đã có độ tin cậy tối thiểu.
Độ hỗ trợ của một mục trong cây phân cấp G là không bằng tổng các độ hỗ trợ của các mục con của chúng vì một số mục con có mặt trong một giao dịch đơn. Do đó, ta không tựr c tiếp suy ra các luật trên các mục ở mức cao của cây phân cấp từ các luật tại mức thấp hơn.
Các luật đáng quan tâm (Interesting rules)
Luật X ⇒Y là không đáng quan tâm nếu sup(X ⇒Y) ≈ sup(X) ∗
sup(Y) và sử dụng giá trị chi-square(2) để ki ểm tra luật về ý nghĩa thống kê. Tuy nhiên, điều kiệ n này không cắt tỉa được nhiều luật nên người ta sử dụng thông tin trong cây phân cấp để đưa ra một điều kiện khác cho phép cắt tỉa được nhiều
luật hơn. Gọi
là một tổ tiên của Z (Z và là các tập mục, Z, Z ⊆
⊃ ) nếu có thể
tạo Z từ Z bằng cách thay thế một hoặc một số mục trong Z bởi các tổ tiên của
chúng và Z và Z có cùng số lượng mục.
Các luật X ⇒Y , X ⇒Y , X ⇒Y
được gọi là tổ tiên của luật X ⇒ Y.
Cho trước một tập luật, ta gọi X ⇒Y là tổ tiên đ óng của X ⇒Y nếu không tồn tại luật X’ ⇒Y’ mà X’⇒Y’ là tổ tiên của X ⇒Y và là tổ
tiên của X’ ⇒ Y’(Tương ựt
áp dụng định lý này cho các luật X ⇒Y ,
X ⇒Y ).
Với một luật X ⇒ Y, đặt Z = X ∪Y. Độ hỗ trợ của Z sẽ bằng độ hỗ trợ của luật X ⇒Y. Ký hiệu
46
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên htt p ://www.lr c - tnu. ed u. v n
E [Pr(Z )] là độ hỗ trợ kỳ vọng của Pr(Z) trên cơ sở