Phát biểu bài toán khai phá luật kết hợp

CHƯƠNG I TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.5. Phát biểu bài toán khai phá luật kết hợp

Trước khi tìm hiểu về luật kết hợp ta có một số khái niệm sau:

Cơ sở dữ liệu giao dịch (Transaction DB):

Ví dụ 1.1:

Giao tác (TID) Tập mục (itemset)

1 A, B, D, E

2 B, C, E

3 A, B, D, E

4 A, B, C, E

5 A, B, C, D, E

6 B, C, D

Bảng 1.1. Ví dụ về một CSDL dạng giao dịch + Tập các hạng mục (itemset): I = {i1, i2, … , im}

Theo bảng trên ta có: I = {A, B, C, D, E}

+ Giao dịch t = {t1, t2, … , tn} sao cho các ti  I t = {1, 2, 3, 4, 5, 6}

t1 = {A, B, D, E}

+ CSDL giao dịch T là gồm tập các giao dịch T = {t1, t2, … , tn}, với ti = {ii1, ii2, … , iik} và iij  I.

+ Giao dịch t chứa X nếu X là tập các hạng mục trong I và X  t.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn

X = {B, D}

Độ hỗ trợ (support):

Ký hiệu: - count(X): số giao dịch trong T có chứa X.

- T: tổng số giao dịch trong T.

Độ hỗ trợ của tập các mục X (ký hiệu supp(X) trong CSDL T là tỷ lệ giữa số các giao dịch trong T chứa X trên tổng số giao dịch trong T.

supp(X) = count(X) / T

Ví dụ 1.2: Xét CSDL giao dịch ví dụ 1.1: T= 6

Tính toán độ hỗ trợ cho các tập 1 mục suy ra bảng độ hỗ trợ sau:

X = {A} thì count(X) = 4 nên ta có supp(X) = 4/6 = 66,7%

Mục Count(X) Độ hỗ trợ supp(X)

A 4 66,7%

B 5 83,3%

C 4 66,7%

D 4 66,7%

E 5 83,3%

Bảng 1.2. CSDL giao dịch với độ hỗ trợ Luật kết hợp:

Một luật kết hợp là một biểu thức có dạng X Y, trong đó X, Y là các tập mục (X  I, Y I) và X  Y = .

Đối với luật kết hợp X Y, X gọi là tiền đề, Y là kết luận của luật.

Hai thông số quan trọng của luật kết hợp là độ hỗ trợ (support) và độ tin cậy (confident). Đó là hai thước đo cho tính tin cậy và mức độ chính xác của luật.

Độ hỗ trợ của luật kết hợp:

Độ hỗ trợ đo tính tin cậy của luật bằng tỷ lệ giữa số các giao dịch trong T chứa X  Y (ký hiệu count(X Y )) trên tổng số giao dịch trong T.

Độ hỗ trợ của luật X Y ký hiệu là supp(X Y) và đƣợc tính bằng:

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn

supp(X Y) = supp(X  Y)

Hay supp(X Y) = count(X  Y) / T

Độ tin cậy của luật kết hợp:

Độ tin cậy đo mức độ chính xác của luật bằng tỷ lệ tập giao dịch có chứa XY so với tập giao dịch có chứa X. Độ tin cậy của luật X Y, ký hiệu conf(X

Y) và đƣợc tính bằng:

conf(X Y) = supp(X  Y) / supp(X) Hay conf(X Y) = count(X  Y) / count(X)

Từ định nghĩa ta có: 0 ≤ supp(XY) ≤ 1 và 0 ≤ conf(XY) ≤ 1. Theo quan niệm xác suất, độ hỗ trợ là xác suất xuất hiện tập mục X  Y, còn độ tin cậy là xác suất có điều kiện xuất hiện Y khi đã xuất hiện X.

Luật kết hợp XY đƣợc coi là một “tri thức” (“mẫu có giá trị”) nếu xảy ra đồng thời: supp(XY)  minsup và conf(XY)  minconf, với minsup và minconf là hai ngưỡng tối thiểu do người sử dụng đưa ra làm tiêu chuẩn cho quá trình khai phá các luật kết hợp.

Ví dụ 1.3: Tính supp và conf của các luật kết hợp trong CSDL giao dịch ở ví dụ 1.1

T=6

Dạng luật XY count(X) Count(XY) Supp(XY) Conf(XY)

AC 4 2 2/6=33,3% 2/4=50%

CA 4 2 2/6=33,3% 2/4=50%

CB 4 4 4/6=66,7% 4/4=100%

BC 5 4 4/6=66,7% 4/5=80%

BD 5 4 4/6=66,7% 4/5=80%

Bảng 1.3. Tính độ hỗ trợ và độ tin cậy

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn

Tập phổ biến (Frequent Itemset):

Một tập mục S đƣợc gọi là tập phổ biến nếu độ hỗ trợ của lớn hơn hoặc bằng một ngưỡng minsup được cho bởi người sử dụng: supp(S)  minsup.

Ví dụ 1.4: Xét CSDL giao dịch ở ví dụ 1 với minsup=50% ta tìm đƣợc các tập phổ biến sau:

Các tập phổ biến Độ hỗ trợ Supp

B 6/6 =100%

E, BE 5/6 = 83,3%

A, C, D, AB, AE, BC, BD, ABE 4/6 = 66,7%

AD, CE, ABD, ADE, BCE, BDE 3/6 = 50%

Bảng 1.4. Các tập phổ biến - Tất cả các tập con của tập phổ biến thì đều là tập phổ biến.

1.5.2. Phát biểu bài toán luật kết hợp

Cho một CSDL T, độ hỗ trợ tối thiểu minsup, độ tin cậy tối thiểu minconf.

Bài toán khai phá luật kết hợp là bài toán tìm tất cả các luật X →Y (X, Y I và X  Y = ) thỏa mãn supp(XY) ≥ minsup và conf(X→Y) ≥ minconf.

Hầu hết các thuật toán được đề xuất để khai phá luật kết hợp thường được chia thành hai pha [13] [11]:

Pha 1: Tìm tất cả các tập mục phổ biến từ CSDL, tức là tìm tất cả các tập mục X thỏa mãn supp(X) ≥ minsup.

Pha 2: Sinh các luật tin cậy từ các tập phổ biến đã tìm thấy ở pha 1.

Pha này tương đối đơn giản và tốn ít thời gian so với pha trên. Nếu X là một tập phổ biến thì luật kết hợp đƣợc sinh từ X có dạng: X‟c X\X‟ với X‟ là tập con khác rỗng của X, X\X‟ là hiệu của hai tập hợp, c là độ tin cậy của luật thỏa mãn điều kiện c ≥ minconf.

Ví dụ 1.5: Với tập phổ biến ADE có độ tin cậy supp(ADE) = 50% ở bảng 1.4 và minconf = 70% thì chúng ta sinh ra các luật kết hợp sau đây:

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn

Luật kết hợp

(XY) Conf(XY) Độ tin cậy conf ≥ minconf ?

ADE =supp(ADE)/supp(A)=75% Có

DAE 75% Có

EAD 60% Không

ADE 100% Có

DEA 100% Có

AED 75% Có

Phát biểu bài toán khai phá luật kết hợp

Thuật toán Apriori khai phá luật kết hợp

Luật kết hợp có thuộc tính số