Các khái niệm cơ bản [18, 22]

Một phần của tài liệu KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP SONG SONG (Trang 30 - 34)

KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU 2.1 Mở đầu

2.2.1Các khái niệm cơ bản [18, 22]

Đặt: I = {i1,…,in}: tập n mục (Item, còn gọi là thuộc tính) phân biệt. D: CSDL giao dịch

Mỗi giao dịch (Transaction - còn gọi là bản ghi - record) T ∈ D được định nghĩa như một tập con các mục trong I (T ⊆ I) và có một định danh duy nhất có dạng <TID, i1,…, ik>.

Một giao dịch T ∈ D hỗ trợ cho tập mục X, X ⊆ I nếu nó chứa tất cả các mục của X, nghĩa là X ⊆ T, trong một số trường hợp người ta dùng ký hiệu T(X) để chỉ tập các giao dịch hỗ trợ cho X. Ký hiệu sup(X) (support(X) hoặc s(X)) là tỷ lệ phần trăm của các giao dịch hỗ trợ X trên tổng các giao dịch có trong D, nghĩa là:

sup(X) = Pr(X) = {T D | X

| D |

T } (2.1)

Ta có 0 ≤ sup(X) ≤ 1 với mọi tập mục X.

Định nghĩa 2.1: Cho một tập X ⊆ I và một ngưỡng hỗ trợ tối thiểu (minimum support) minisup∈ (0,1] (được xác định bởi người sử dụng). Một tập mục X được gọi là một tập mục phổ biến (Frequent Itemset hoặc Large Iteset)

với độ hỗ trợ tối thiểu minsup nếu và chỉ nếu sup(X) minsup.

Một tập mục phổ biến được sử dụng như là một tập đáng quan tâm trong

các thuật toán, ngược lại, những tập mục không phải tập mục phổ biến là những tập không đáng quan tâm. Trong các trình bày sau này, ta sử dụng những cụm từ

khác như ‘‘X có độ hỗ trợ tối thiểu ’’ , ‘‘X không có độ hỗ trợ tối thiểu ’’

cũng chỉ để nói lên X thỏa mãn hay không thỏa mãn sup(X) minsup.

Một tập mục X được gọi là k-itemset nếu lực lượng của X bằng k (tức là X = k).

Một số tính chất liên quan đến tập mục phổ biến:

Tính chất 2.1: Nếu A ⊆ B, A, B là các tập mục thì sup(A) sup(B) vì tất cả các giao dịch của D hỗ trợ B thì cũng hỗ trợ cho A.

Tính chất 2.2 : Một tập mục B không có độ hỗ tối thiểu trên D nghĩa là

sup(B) < minsup thì mọi tập cha A của B sẽ không phải là tập mục phổ biến vì

sup(A) sup(B) <minsup.

Tính chất 2.3: Nếu tập mục B là một tập mục phổ biến trên D, nghĩa là

sup(B) minsup thì mọi tập con A của B đều là tập phổ biến trên D

sup(A) sup(B) >minsup.

Định nghĩa 2.2: Một luật kết hợp là một quan hệ có dạng X ⇒Y, trong đó X, Y ⊂ I là tập các mục còn gọi là itemset, và X Y = . Ở đây, X được gọi là tiền đề, Y là hệ quả của luật.

Hai thông số quan trọng của luật kết hợp là độ hỗ trợ độ tin cậy.

Định nghĩa 2.3: Độ hỗ trợ (support) của luận kết hợp X ⇒ Y là tỷ lệ phần trăm giữa các giao dịch chứa X Y và tổng số các giao dịch trong CSDL.

{T D | X Y T }

sup(X Y) = Pr(X Y ) =

| D | (2.2)

Bởi vậy, ta nói độ hỗ trợ của luật bằng 5% nghĩa là có 5% tổng số giao dịch có chứa X ∪ Y. Độ hỗ trợ mang ý nghĩa thống kê của luật kết hợp. Tro ng khi, một độ hỗ trợ cao cho luật kết hợp thường được mong muốn nhất, tuy nhiên điều đó không phải luôn luôn đúng. Ví dụ, nếu ta sử dụng luật kết hợp để dự đoán thất bại các nút chuyển mạch trong mạng điện thoại dựa vào tập sự kiện nào đó xuất hiện trước một thất bại, mặc dù hai sự kiện này không thường xuyên xuất hiện, các luật kết hợp chỉ ra quan hệ này vẫn có tầm quan trọng đáng kể.

Định nghĩa 2.4: Đối với một số giao dịch được đưa ra, độ tin cậy (confidence) của luật kết hợp X ⇒ Y là tỷ lệ phần trăm giữa số giao dịch có chứa X Y và số giao dịch chứa X.

conf (X Y) = p (Y I X I) = p(Y T XT ) =sup( X Y ) (2.3) p( XT ) sup( X )

Vì vậy, nếu ta nói rằng một luật có độ tin cậy conf = 85% có nghĩa là 85% các giao dịch hỗ trợ cho X thì cũng hỗ trợ cho Y. Độ ti n cậy của luật cho biết mức độ tương quan trong tập dữ liệu (dataset) giữa hai tập mục X và Y và là tiêu chuẩn đánh giá độ tin cậy của một luật.

Việc khai thác các luật kết hợp từ cơ sở dữ liệu D chính là việc tìm tất cả các luật có đ ộ hỗ trợ và độ tin cậy lớn hơn ngư ỡng hỗ trợ (độ hỗ trợ tối thiểu) và

ngưỡng tin cậy (độ tin cậy tối thiểu) do ngư ời sử dụng xác định trước. Ngưỡng hỗ

trợ và ngưỡng tin cậy lần lượt được ký hiệu là minsup mincof. Chú ý r ằng, nếu luật X⇒ Y th ỏa mãn trên D thì c ả X và Y đềulà các t ập mục phổ biến trên D.

Một số tính chất liên quan đến luật kết hợp

Tính chất 2.4: Nếu X ⇒ Z và Y ⇒ Z là thỏa mãn trên D thì không nhất thiết X ∪ Y ⇒ Z là đúng.

Xét trư ờng hợp X∩Y = ∅ và các giao d ịch trong D có hỗ trợ cho Z nếu và chỉ nếu chúng chỉ chứa X hoặc Y, khi đó conf(X ∪ Y ⇒ Z) = 0. Tương t ự, ta c ũng có: Nếu X ⇒ Y và Z ⇒ Z th ỏa mãn trên D thì cũng không thể suy ra X⇒ Y ∪

Z.

Tính chất 2.5: Nếu luật X ∪ Y ⇒ Z thỏa mãn trên D thì không nhất thiết X ⇒ Z và Y ⇒ Z thỏa mãn trên D.

Chẳng hạn, khi Z có mặt trong giao dịch chỉ khi cả X và Y đều có mặt trong giao dịch đó, nghĩa là sup(X ∪ Y) =sup(Z). Nếu sup(X) ≥ sup(X ∪ Y) và sup(Y) ≥ sup(X ∪ Y) thì 2 luật trên sẽ không có độ tin cậy yêu cầu.

Tuy nhiên, nếu X ⇒ Y ∪ Z thỏa mãn trên D thì suy ra đ ược X ⇒ Y và X ⇒ Z cũng thỏa mãn trên D.

k i i

1 k

1

Giả sử T(X) ⊆ T(Y) ⊆ T(Z) và conf(X ⇒ Y) = conf(Y ⇒ Z) = minconf. Khi đó, ta có conf(X ⇒ Z) = minconf2 < minconf minconf< 1, nghĩa là luật X ⇒ Z không có độ tin cậy tối thiểu.

Tính chất 2.7: Nếu luật X ⇒ (L - X) không có độ tin cậy tối thiểu thì không có luật nào trong các luật Y ⇒ (L – Y) có độ tin cậy tối thiểu, trong đó Y ⊆ X ; X,Y ⊂ L.

Thật vậy, theo tính chất 2.1, vì Y ⊆ X nên sup(Y) ≥ sup(X) và theo định nghĩa độ tin cậy, ta có:

confidence(Y (L – Y)) = sup port (L)

≤ sup port (Y ) sup port (L) sup port ( X ) < min conf

Nếu luật (L – X) ⇒ X thỏa mãn trên D thì các luật (L – Y) ⇒ Y với Y ⊆ X và Y ≠ ∅ cũng thỏa mãn trên D.

Một phần của tài liệu KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP SONG SONG (Trang 30 - 34)