Phát biểu bài toán khai phá luật kết hợp

I ={i1 , i2 , …, in } là tập bao gồm n mục (Item – còn gọi là các thuộc tính - attribute). X ⊆ I được gọi là tập mục (itemset).

T = {t1, t2, … tm} là tập gồm m giao dịch (transacstion – còn gọi là bản ghi - record), mỗi giao dịch được định danh bởi TID (Transaction Identification).

R là một quan hệ nhị phân trên I và T (hay R ⊆ IxT). Nếu giao dịch t có chứa mục I thì ta viết (i, t) ∈ R (hoặc iRt). (T, I, R) là ngữ cảnh khai thác dữ

liệu. Một CSDL D, về mắt hình thức, chính là một quan hệ nhị phân R như trên. Về ý nghĩa, một CSDL là một tập các giao dịch, mỗi giao dịch t là một tập mục, t ∈ 2I (2I là tập cấc tập con của I).

Ví dụ về CSDL giao dịch: I = {A, B, C, D, E}, T = {1, 2, 3, 4, 5, 6} Thông tin về các giao dịch cho ở bảng sau:

Định danh giao dịch (TID) Tập mục (itemset)

1 A B D E 2 B C E 3 A B D E 4 A B C E 5 A B C D E 6 B C D E Bảng 3.2: Ví dụ về một CSDL giao dịch – D

Cho một tập mục X ∈ I. Ký hiệu s(X) là Độ hỗ trợ(support) của một tập mục

X – là tỷ lệ phần trăm số giao dịch trong CSDL D chứa X trên tổng số các giao dịch trong CSDL D. s(X) = Card(X)/Card(D)%

Tập mục phổ biến: Cho một tập mục X ⊆ I và ngưỡng phổ biến tối thiểu minsup ∈ (0, 1],(minsup được xác định bởi người sử dụng). Một tập mục X được gọi là một tập phổ biến theo ngưỡng minsup nếu và chỉ nếu độ hỗ trợ của nó lớn hơn hoặc bằng một ngưỡng minsup: s(X)≥ minsup.

Ký hiệu FX(T, I, R, minsup) = {X⊆ I | s(X) ≥ minsup}

Với (T, I, R) trong ví dụ CSDL bảng 1, và giá trị ngưỡng minsup = 50% sẽ liệt kê các tập mục phổ biến (frenquent-itemset) như sau:

Tập mục phổ biến Độ hỗ trợ (s) tương ứng

B 100%

E, BE 83%

A, C, D, AB, AE, BC, BD,ABE 67% AD, CE, DE, ABD, ADE, BCE, BDE 50%

Bảng 3.3: Tập mục thường xuyên minsup = 50%

Độ hỗ trợ s của luật kết hợp X → Y là tỷ lệ phần trăm các giao dịch trong D có chứa X và Y là s(X → Y) = Card(X∪Y)/Card(D) %

Luật kết hợp có dạng X c→ Y trong đó:

X, Y là các tập mục thoả mãn điều kiện X ∩Y = Ø và c là độ tin cậy.

Độ tin cậy của luật c = s(X ∪Y)/s(X)%: Là tỷ lệ phần trăm các giao dịch trong D có chứa X thì chứa Y. Về mặt xác suất, độ tin cậy c của một luật kết hợp là xác suất (có điểu kiện) xảy ra Y với điều kiện đã xảy ra X

Luật kết hợp tin cậy: Một luật được xem là tin cậy nếu độ tin cậy c của nó lớn hơn hoặc bằng một ngưỡng minconf ∈ (0, 1] nào đó do người dùng xác

định. Ngưỡng minconf phản ánh mức độ xuất hiện của Y khi cho trước X. (( c ≥

minconf) (minimum Confidence))

Luật kết hợp cần tìm là luật kết hợp thoả mãn Minsup và minconf cho trước. Chúng ta chỉ quan tâm đến các luật có độ hỗ trợ lớn hơn Độ hỗ trợ tối thiểu và độ tin cậy lớn hơn Độ tin cậy tối thiểu.

Hầu hết các thuật toán khai phá luật kết hợp thường chia thành 2 pha:

Pha 1 : Tìm tất cả các tập mục phổ biến từ cơ sở dữ liệu tức là tìm tất cả các tập mục X thoả s(X) ≥ minsup.

Pha 2: Sinh các luật tin cậy từ các tập phổ biến đã tìm thấy ở pha 1.

Nếu X là một tập mục phổ biến thì luật kết hợp được sinh ra từ X có dạng: X’ c X \ X’ ,

trong đó:

X’ là tập con khác rỗng của X.

X\X’ là hiệu của hai tập hợp X và X’.

c là độ tin cậy của luật thoả mãn c ≥ minconf

Với tập mục phổ biến trong bảng 2 thì chúng ta có thể sinh luật kết hợp sau đây:

Luật kết hợp Độ tin cậy c ≥ minconf ?

A100 →% BE Có

E 80→% AB Có AB 100 →% E Có AE 100 →% B Có

BE 80→% A Có

Bảng 3.4: Luật kết hợp sinh từ tập mục phổ biến ABE

Tập phổ biến tối đại: Cho M ∈ FX(T, I, R, minsup) M được gọi là tập mục

phổ biến tối đại nếu không tồn tại X ∈ FX(T, I, R, minsup), M ≠X, M ⊂ X

Phát biểu bài toán khai phá luật kết hợp

Phương pháp khai phá dữ liệu

Các kiểu cây quyết định