Phát biểu bài toán khai phá luật kết hợp

I = {i1, i2, …, in } là tập bao gồm n mục (Item – còn gọi là các thuộc tính - attribute).X ⊆ I được gọi là tập mục (Itemset).

T = {t1, t2, .v.v.tm} là tập gồm m giao dịch (Transasction – còn gọi là bản ghi - Record), mỗi giao dịch được định danh bởi TID (Transaction Identification).

R là một quan hệ nhị phân trên I và T. Nếu giao dịch t có chứa mục I thì ta viết (i, t) ∈ R.(T, I, R) là ngữ cảnh khai thác dữ liệu. Một CSDL D, về mặt hình thức, chính

là một quan hệ nhị phân R như trên.

Về ý nghĩa, một CSDL là một tập các giao dịch, mỗi giao dịch t là một tập mục, t ∈ 2I (2I là tập các tập con của I).

Trợ lại ví dụ về CSDL giao dịch: I = {A, B, C, D, E}, T = {1, 2, 3, 4} Thông tin về các giao dịch cho ở bảng sau:

Bảng 2. 3. Ví dụ về một CSDL giao dịch – D

Cho một tập mục X ∈ I. Ký hiệu s (X) là Độ hỗ trợ (Support) của một tập mục X là tỷ

lệ phần trăm số giao dịch trong CSDL D chứa X trên tổng số cac giao dịch trong CSDL D. S (X) = Card (X)/Card (D)%

Tập mục phổ biến: Cho một tập mục X ⊆ I và ngưỡng phổ biến tối thiểu

Minsup ∈ (0, 1], (Minsup được xác định bởi người sử dụng). Một tập mục X được gọi

là một tập phổ biến theo ngưỡng Minsup nếu và chỉ nếu độ hỗ trợ của nó lớn hơn hoặc bằng một ngưỡng Minsup: s (X)≥ Minsup.

Ký hiệu FX (T, I, R, Minsup) = {X⊆ I | s (X) ≥ Minsup}

Với (T, I, R) trong ví dụ CSDL bảng 1, và giá trị ngưỡng Minsup = 50% sẽ liệt kê các tập mục phổ biến (Frenquent-Itemset) như sau:

Bảng 2.4. Tập mục thường xuyên Minsup = 50%

Loai tập mục phổ biến Các tập mục phổ biến

1-Itemset {A} {B} {C} {E}

2-Itemset {A, C} {B, C} {B, E} {C, E} 3-Itemset {B,C,E}

Độ hỗ trợ s của luật kết hợp X → Y là tỷ lệ phần trăm các giao dịch trong D có

chứa X và Y là s (X → Y) = Card (X∪Y)/Card (D) %

Luật kết hợp có dạng X c→ Y trong đó: X, Y là các tập mục thoả mãn điều kiện X ∩Y = Ø và c là độ tin cậy.

Độ tin cậy của luật c = s (X ∪Y)/s (X)%: Là tỷ lệ phần trăm các giao dịch

trong D có chứa X thì chứa Y. Về mặt xác suất, độ tin cậy c của một luật kết hợp là xác suất (có điểu kiện) xảy ra Y với điều kiện đã xẩy ra X

Luật kết hợp tin cậy: Một luật được xem là tin cậy nếu độ tin cậy c của nó lớn hơn hoặc bằng một ngưỡng Minconf ∈ (0, 1] nào đó do người dùng xác định. Ngưỡng

Minconf phản ánh mức độ xuất hiện của Y khi cho trước X.( ( c ≥ Minconf) (Minimum Confidence))

Luật kết hợp cần tìm là luật kết hợp thoả mãn Minsup và Minconf cho trước. Chúng ta chỉ quan tâm đến các luật có độ hỗ trợ lớn hơn độ hỗ trợ tối thiểu và độ tin cậy lớn hơn độ tin cậy tối thiểu.

Hầu hết các thuật toán khai phá luật kết hợp thường chia thành 2 pha:

Pha 1 : Tìm tất cả các tập mục phổ biến từ cơ sở dữ liệu tức là tìm tất cả các tập mục X thoả s (X) ≥ Minsup.

Pha 2: Sinh các luật tin cậy từ các tập phổ biến đã tìm thấy ở pha 1. Nếu X là một tập mục phổ biến thì luật kết hợp được sinh ra từ X có dạng:

X’ c X \ X’, trong đó: X’ là tập con khác rỗng của X.

X\X’ là hiệu của hai tập hợp X và X’.

Với tập mục phổ biến trong bảng 2.4 thì chúng ta có thể sinh luật kết hợp sau đây với minsup >=50% và Minconf >80%

Bảng 2.5. Luật kết hợp sinh từ tập mục phổ biến {B,C,E}

Tập phổ biến tối đại: Cho M ∈ FX (T, I, R, Minsup) M được gọi là tập mục phổ

biến tối đại nếu không tồn tại X ∈ FX (T, I, R, Minsup), M ≠X, M ⊂ X