Khai phá luật kết hợp trọng số chuẩn hóa

, x ik }→ {x ik

2.4.2.2. Khai phá luật kết hợp trọng số chuẩn hóa

Định nghĩa 2.10: Một k-itemset X đư ợc gọi là một tập mục không phổ biến

(small itemset) n ếu độ hỗ trợ trọng số chuẩn hóa của nó nhỏ hơwn minsup. Ngh ĩa là:

=1 ∑ w

* sup port( X ) <w min

sup (2.9)

k i ∈( X )

Định nghĩa 2.11: Độ hỗ trợ trọng số chuẩn hóa (Nomalized Weighted Support) của một luật X ⇒ Y được cho bởi biểu thức sau:

=1 ∑ w

* sup port( X ∪

Y ) (2.10)

k i ∈( X ∪Y )

Trong đó, k là kích thước của tập mục (X ∪ Y).

Ngược lại, tập mục X sẽ được gọi là k-itemset trọng số phổ biến.

Định nghĩa 2.12: Một luật kết hợp trọng số chuẩn hóa nhị phân X ⇒ Y được gọi là đáng quan tâm nếu độ tin cậy của luật X ⇒ Y lớn hơn hoặc bằng độ tin cậy tối thiểu (minconf) và (X ∪ Y) là m ột tập mục trọng số phổ biến (chuẩn hóa).

Định nghĩa 2.13: Số đếm hỗ trợ tối thiểu của một k -itemset phổ biến chứa Y được gọi là biên k-support của tập mục Y với trọng số chuẩn hóa và được cho bởi:

B(Y , k ) = k *w min sup

W (Y , k ) *

(2.11)

Cách tiếp cận khác cho trường hợp trọng số chuẩn hóa

Ta thiết lập một thuật toán trong đó việc sinh ra các tập mục trọng số phổ biến tương tự như trong hàm appriori_gen() cũng như việc cắt tỉa các tập mục ứng cử trong mỗi giai đoạn. Tuy nhiên, tính chất “Tập con của một tập mục phổ biến là mộ t tập mục phổ biến” sẽ không còn đúng trong trường hợp trọng số

chuẩn hóa.

Định nghĩa 2.14: Tập cha bật thấp ( low-order superset): Cho một tập mụ c X = {x1, x2, xn}, đặt trọng số nhỏ nhất của các mục là w i. Một tập mục Y = X ∪ Z, Z có các trọng số đều nhỏ hơn wi. Thì Y được gọi là một tập cha bậc thấp của X.

Định nghĩa 2.15: Tập con bật cao ( high-order subset): Một tập mục Y⊂ X trong đó, mỗi tập mục của Y đều có trọng số lớn hơn hoặc bằng trọng số mỗi mục trong (X – Y), được gọi là một tập con bậc cao của X.

Bổ đề 2.2: Nếu một tập mục Y là phổ biến thì bất kỳ tập con bật cao nào của Y cũng phải là tập mục phổ biến.

Chứng minh: Cho X là một tập con bật cao của Y. Trọng số trung bình

của X là lớn hơn hoặc bằng trọng số trung bình của Y. Độ hỗ trợ của X lớn hơn hoặc bằng độ hỗ trợ của Y. Do đó, độ hỗ trợ trọng số của X sẽ lớn hơn hoặc bằng độ hỗ trợ trọng số của Y. Vậy nếu Y là tập mục phổ biến thì X cũng là tập mục phổ biến.

Bổ đề 2.3: Một (k+1)-itemset X phổ biến phải là một tập cha bật thấp của một số k-itemset phổ biến Y.

Chứng minh: Nếu X là tập mục phổ biến, thì từ bổ đề 2.2, bất kỳ tập con

bật cao nào của X cũng phải là một tập mục phổ biến. Gọi x là một mục thuộc X với trọng số thấp nhất. Khi đó Y = X – x là một tập con bật cao của X và l à tập phổ biến. Vậy, X là một tập cha bật thấp của Y.

Thuật toán khai phá luật kết hợp trọng số chuẩn hóa (MINVAL(W))

Ký hiệu trong thuật toán:

D: Cơ sở dữ liệu giao dịch; w: Tập các trọng số của các mục Lk: Tập các k-itemset phổ biến

Ck: Tập các k-itemset trọng số ứng cử SC(X): Số lượng giao dịch chứa tập mục X

wminsup: Ngưỡng hỗ trợ trọng số chuẩn hóa

Ck: Tập các i-temset ứng cử.

Nội dung thuật toán MINVAL(W)

Vào: D, wminsup, minconf, wi (trọng số của các mục) được sắp xếp theo thứ tự tăng dần, tổng số giao dịch và tổng số các mục.

Thuật toán chính (wminsup, minconf, D, w) L = ;

for (i=1; i<= size; i++) Ci = Li = ;

for (mỗi giao dịch) do

(SC, C1, size)=counting(D, w); k=1; while(Ck ≠ ) do begin k++; Ck = Join(Ck-1); Ck=Prunce(Ck); (Lk)=Checking(Ck, D); L = L ∪ Lk; Giải thích end; Rule(SC, L) end;

(1) Ở giai đoạn 1, thuật toán MINVAL(W) giống như trong thuật toán MINVAL(O) với thủ tục Counting(D, w).

(2) Các t ập mục trọng s ố phổ biến và tập mục ứng cử được sinh ra như sau:

- Các thủ tục Join, Prune và Checking sinh ra Lk và Ck. Công việc chính của bước Join(Lk-1) là sinh ra Ck. Theo bổ đề 2.3, một itemset ứng cử phải là một tập cha bật thấp của một số (k-1)-itemset phổ biến. Trong bước này, ta nối các tập mục trọng số phổ biến trong Lk-1 với một trong các tập mục có trọng số thấp hơn để có tạo ra một tập cha bật thấp.

- Khi thực hiện thủ tục Prune, một k-itemset X ửng cử sẽ được cắt tỉa nếu tất cả các biên j-support của X (j ≤ k) đều lớn hơn số đếm hỗ trợ nhỏ nhất trong số các (k-1)-subset của X, đó là một ước lượng và là một cận trên số đếm hỗ trợ của k-itemset X. Sự khác nhau giữa phương pháp tỉa này và phương pháp tỉa trong hàm apriori_gen() ở chỗ, phương pháp này không cần phải kiểm tra các tập con của các tập mục phổ biến thay vào đó nó sử dụng các giá trị biên support.

r m

- Thủ tụ c Ch eck ing sẽ th ực h iện tương tự n h ư MINVAL(O), chỉ có sự khác biệt, các tâp mục ứng cử còn lại sẽ là tập các tập mục phổ biến Lk và giai đoạn kế tiếp sẽ dựa vào Lk để sinh ra các tập ứng cử.

(3) Thủ tục Rule(SC, L) thực hiện sinh các luật từ các tập mục trọng số phổ biến tương tự như trong thuật toán MINVAL(O).

Khai phá luật kết hợp trọng số chuẩn hóa

Các khái niệm cơ bản [18, 22]

Cách tiếp cận khai phá luật kết hợp