1. Lý thuyết về luật kết hợp
1.2. Một số tính chất của luật kết hợp [6]
Trƣớc hết ta phải giả sử rằng với luật X Y, X có thể là rỗng, còn Y phải luôn khác rỗng và X Y vì nếu không thì: confidence(XY)
= 1
support(X) Y)
support(X
Ta có các tính chất sau :
1) Nếu X Z và YZ là thoả trên D , thì không nhất thiết là XYX.
Để ý đến trƣờng hợp X Y = và các giao dịch trên D hỗ trợ Z nếu và chỉ nếu chúng hỗ trợ X hoặc hỗ trợ Y. Khi đó support(X Y) = 0 và
Tƣơng tự ta cũng có : Nếu XY và ZZ không thể suy ra XYZ. 2) Nếu luật XYZ là thoả trên D thì XZ và YZ có thể không thoả trên D.
Chẳng hạn, khi Z là có mặt trong một giao dịch chỉ nếu cả X và Y đều có mặt trong giao dịch đó, nghĩa là support(XY)=support(Z). Nếu support cho X và Y lớn hơn support(XY), thì 2 luật trên sẽ không có confidence yêu cầu. Tuy nhiên, nếu XYZ là thoả trên D thì có thể suy ra XY và XZ cũng thoả trên D Vì support(XY) ≥ support(XYZ) và support(XZ) ≥ support(XYZ).
3) Nếu XY và YZ là thoả trên D thì không thể khẳng định rằng XZ cũng giữ đƣợc trên D.
Giả sử T(X)T(Y) T(Z) và confidence(XY) = confidence(YZ) = minconf. Khi đó ta có confidence(XZ) = minconf < minconf vì minconf <1, nghĩa là luật XZ không có cofidence tối thiểu.
4) Nếu luật A (L-A) không có confidence tối thiểu thì cũng không có luật nào trong các luật B (L-B) có confidence tối thiểu trong đó L-A.B là các intemset và BA.
Thật vậy, theo tính chất TC1, vì BA. Nên support(B) ≥ support(A) và theo định nghĩa của confidence, ta có :
confidence(B (L-B)) = ) ( sup ) ( sup B port L port ) ( sup ) ( sup A port L port <minconf.
Cũng vậy, nếu luật (L-C) C là thoả trên D, thì các luật (L-K) K với KC và K cũng thoả trên D.
Bài toán khai phá luật kết hợp:
Có thể diễn đạt một bài toán khai phá luật kết hợp nhƣ sau[2][3][8]: Cho một tập các item I, một cơ sở dữ liệu giao dịch D, ngƣỡng support tối thiểu minsup, ngƣỡng confidence tối thiểu minconf, tìm tất cả các luật kết hợp XY trên D sao cho: support(XY) minsup và confidence(XY)
minconf.