6. Cỏc thuật toỏn khai phỏ dữ liệu nhờ luật kết hợp:
6.1.3. Thuật toỏn sinh cỏc luật kết hợp từ tậpmục phổ biến6 :
:
Sau khi cỏc tập mục phổ biến từ cỏc tỏc vụ trong cơ sở dữ liệu đó đƣợc tỡm thấy, nú cú thể sinh thẳng ra cỏc luật kết hợp mạnh (tức luật thỏa món cả độ hỗ trợ cực tiểu và độ tin cậy cực tiểu). Việc này cú thể thực hiện bằng việc sử dụng cỏch tớnh độ cậy của luật. Ta cú độ tin cậy của luật X Y là:
conf (XY) = P(Y/X) = supp(XY)/ supp(X)
Trong đú supp(XY) là độ hỗ trợ của XY và supp(X) là độ hỗ trợ của X.
Cú thể coi tỉ số trờn là tỉ số giữa: số cỏc tỏc vụ chứa XY và số cỏc tỏc vụ chứa X. Dựa trờn biểu thức tớnh toỏn đú, cỏc luật kết hợp cú thể sinh ra theo nguyờn tắc là với mỗi tập mục phổ biến X và tập con khỏc rỗng S của X, ta cú sẽ cú luật:
S (X-S) Nếu: supp(x) >= minconf supp(s)
Trong đú: minconf là ngưỡng độ tin cậy cực tiểu.
Vỡ cỏc luật đƣợc sinh ra từ cỏc tập mục phổ biến nờn độ hỗ trợ đƣợc thỏa món một cỏch tự động, tức là độ hỗ trợ của luật chớnh là supp (X).
Ta xột cơ sở dữ liệu đó cho trong bảng 2.5 giả sử dữ liệu chứa tập mục phổ biến X = {B,D}. Khi đú những luật kết hợp nào là cú thể sinh ra từ X?
Ta cú cỏc tập con thực sự và khỏc rỗng của X là: {B}, {D}
Khi đú cỏc luật kết hợp tỡm đƣợc cựng độ tin cậy nhƣ sau: B D, với độ tin cậy conf = 100%
D B, với độ tin cậy conf = 67%
Nếu ngƣỡng tin cậy cực tiểu minconf = 50% thỡ cỏc luật trờn là cỏc luật kết hợp mạnh. Sau đõy ta sẽ trỡnh bày thuật toỏn tỡm cỏc luật kết hợp từ cỏc tập mục phổ biến.
Cú hai hƣớng tiếp cận trong việc sinh cỏc luật kết hợp từ cỏc tập mục phổ biến. Hƣớng tiếp cận thứ nhất là sử dụng cỏc tập mục lớn sinh cỏc tập mục con theo nguyờn tắc ƣu tiờn độ sõu. Nếu tập mục lớn X khụng sinh ra đƣợc luật thỡ ta khụng cần xột đến cỏc tập con S của nú nữa. Chẳng hạn, nếu luật ABCE D khụng đủ độ tin cậy thỡ ta khụng cần xột đến luật ABC DE. Điều này cú thể chứng minh nhƣ sau:
Nếu luật S (X-S) khụng thỏa món độ tin cậy, tức là: conf (S(X-Y) < minconf, thế thỡ với bất kỳ tập con S’ nào của S ta cú:
S’ S nờn supp(S’) supp(S). Do đú: conf(S’(X-S’)= ) ( sup ) ( sup ) ' ( sup ) ( sup s p x p s p x p = conf(S(X-S) <minconf
Tức là độ tin cậy của luật S’ (X-S’) cũng nhỏ hơn minconf.
Hƣớng thứ hai là sử dụng nguyờn tắc hợp hai luật cú chung cỏc mục ở đầu của phần kết luận của luật. Điều này là cú thể vỡ rằng nếu luật với tập con cú đủ độ tin cậy thỡ luật với tập cha cũng đủ độ tin cậy. Vớ dụ: nếu luật AB CD cú đủ độ tin cậy thỡ luật ABC D cũng đủ độ tin cậy.
Thuật toỏn:
forall large itemsets lk, k2 do begin
H1={cỏc phần kết luận của cỏc luật nhận đƣợc từ lk với l-mục ở kết luận}; call ap_genrules (lk, H1)
end
Procedure ap_genrules(lk:lagerk-iemsets, Hm:set of m-itemconsequộnt) if (k>m+1) then begin.
Hm+1=apriori_gen(Hm); forall hm+1 Hm+1 do begin conf=support(lk)/support(lk-hm+1);
if(confminconf) then output the rule (lk-hm+1) hm+1 else
delete hm+1 from Hm+1 end
call ap_genrules(lk,Hm+1); end
Sau đõy ta sẽ phõn tớch tại sao thuật toỏn 2 lại nhanh hơn thuật toỏn 1
Vớ dụ: ta xột tập mục ABCDE, giả sử rằng ACDE B và ABCE D là cỏc luật cú 1 mục ở phần kết luận thỏa món độ hỗ trợ cực tiểu minconf.
Trong thuật toỏn đơn giản ở trờn, gọi đệ qui genrules (ABCDE, ACDE) sẽ kiểm tra cỏc luật với 2 mục ở phần kết luận là: ACD BE, ADE BC, CDE BA, ACE
BD.
Luật thứ nhất khụng xảy ra vỡ E BE và ABCD E khụng thỏa món độ tin cậy với lý do tƣơng tự.
Chỉ cú một luật với 2-mục ở phần kết luận nhận đƣợc là ACE BD, ở đú B và D là cỏc kết luận của cỏc luật hợp lệ cú 1-mục ở phần kết luận. Thuật toỏn nhanh hơn ở chỗ chỉ kiểm tra 1 luật này.