Chương 2 PHÁT HIỆN LUẬT KẾT HỢP HIẾM TRÊN CƠ SỞ DỮ LIỆU TÁC VỤ
2.1.2. Tập Sporadic tuyệt đối hai ngưỡng
Định nghĩa 2.1: Tập X được gọi là tập Sporadic tuyệt đối hai ngưỡng nếu: minSup ≤ sup(X) < maxSup, và
51
Tập Sporadic tuyệt đối hai ngưỡng X được gọi là tập Sporadic tuyệt đối hai ngưỡng cực đại nếu không tồn tại tập Sporadic tuyệt đối hai ngưỡng nào chứa nó thực sự.
Định nghĩa 2.2: Ngữ cảnh khai phá dữ liệu là bộ ba Dˆ = (O, INF, R), trong
đó O là tập các tác vụ, INF là tập tất cả các mục dữ liệu không phổ biến theo maxSup nhưng phổ biến theo minSup và RÍ INF´O là quan hệ nhị phân. Mỗi cặp (i,t) ÎR ký hiệu cho sự kiện đối tượng t ÎO quan hệ với mục dữ liệu i ÎINF.
Định nghĩa 2.3 (Kết nối Galois): Cho Dˆ = (O, INF, R) là ngữ cảnh phát hiện dữ liệu. Với O ÍO và I ÍINF, xác định:
f: 2O® 2INF g: 2INF® 2O
f(O) = {i | iÎI ; "tÎO; (i,t)ÎR} g(I) = {t | tÎO ; "iÎI; (i,t)ÎR}
f(O) là tập mục dữ liệu chung cho tất cả các đối tượng của O và g(I) là tập các
đối tượng quan hệ với tất cả các mục dữ liệu trong I. Cặp ánh xạ (f,g) gọi là kết nối Galois giữa tập các tập con của O và tập các tập con của INF.
Toán tử h = fog trong 2INF và h’ = gof trong 2O gọi là toán tửđóng Galois.
Định nghĩa 2.4: X là tập Sporadic tuyệt đối hai ngưỡng, X được gọi là đóng nếu h(X) = X.
Tập Sporadic tuyệt đối hai ngưỡng đóng X được gọi là tập Sporadic tuyệt đối hai ngưỡng đóng cực đại nếu nó không phải là tập con thực sự của bất kỳ tập Sporadic không tuyệt đối hai ngưỡng đóng nào.
Nhận xét 2.1:
- Khi ngưỡng minSup = O1 , với O là tổng số tất cả các tác vụ trong Dˆ thì bài toán phát hiện luật Sporadic tuyệt đối hai ngưỡng trở thành bài toán phát hiện luật Sporadic tuyệt đối được đề xuất trong [49]. Còn khi minSup = minAS, là ngưỡng được xác định trong thuật toán Apriori-Inverse thì bài toán phát hiện luật Sporadic tuyệt đối hai ngưỡng trở thành bài toán phát hiện luật Sporadic tuyệt đối theo cách tiếp cận được đề xuất trong Apriori-Inverse.
- Theo định nghĩa 2.1, tập Sporadic tuyệt đối hai ngưỡng là tập không phổ
52
nghĩa 2.4, tập Sporadic tuyệt đối hai ngưỡng đóng cũng là tập phổ biến đóng theo
độ hỗ trợ minSup.
Tính chất 2.1: Tập Sporadic tuyệt đối hai ngưỡng có tính chất Apriori, tức là tập con của tập Sporadic tuyệt đối hai ngưỡng là tập Sporadic tuyệt đối hai ngưỡng.
Chứng minh: Giả sử X là tập Sporadic tuyệt đối hai ngưỡng nào đó và tập X’ÍX, ta cần chứng minh X’ cũng là tập Sporadic tuyệt đối hai ngưỡng.
Thật vậy do X’ÍX nên minSup≤ sup(X)< sup(X’). Mặt khác với mọi xÎX’ thì xÎX nên sup(x)<maxSup và do đó sup(X’)≤ sup(x)< maxSup. Từ đó suy ra X’ là tập Sporadic tuyệt đối hai ngưỡng■
Tính chất đối ngẫu của tính chất này là mọi tập chứa tập con không phải là tập Sporadic tuyệt đối hai ngưỡng cũng không là tập Sporadic tuyệt đối hai ngưỡng.
Tính chất 2.2: Độ hỗ trợ của tập Sporadic tuyệt đối hai ngưỡng X bằng độ hỗ
trợ bao đóng của nó, tức là sup(X) = sup(h(X)).
Chứng minh: Theo định nghĩa 2.3 thì sup(X) = |g(X)| và sup(h(X)) = |g(h(X))|. Vậy chỉ cần chứng minh g(X) = g(h(X)).
(i) Từ nhận xét 2.1, X là tập phổ biến theo ngưỡng minSup nên theo tính chất 1.1 – mục (2’) ta có g(X) Í h’(g(X)) = g(f(g(X)) = g(h(X)). Vậy g(X) Í g(h(X)).
(ii) Theo tính chất 1.1 – mục (2) thì X Í h(X) nên g(h(X)) Í g(X) (tính chất 1.1 – mục (1)).
Từ (i) và (ii) có g(X) = g(h(X))■
Tính chất 2.3: Nếu X là tập Sporadic tuyệt đối hai ngưỡng cực đại thì X là tập
đóng.
Chứng minh: Giả sử X là tập Sporadic tuyệt đối hai ngưỡng cực đại bất kỳ. Theo tính chất 1.1- mục (2) ta có XÍh(X).
(i) Theo tính chất 2.3 và do X là tập Sporadic tuyệt đối hai ngưỡng nên minSup ≤ sup(h(X)) = sup(X).
(ii) Mặt khác với mọi xÎh(X), sup(x)< maxSup là hiển nhiên vì h(X)ÍINF và theo định nghĩa của INF.
53
Từ (i) và (ii) suy ra h(X) là tập Sporadic tuyệt đối hai ngưỡng chứa X. Do X là tập Sporadic tuyệt đối hai ngưỡng cực đại nên suy ra X = h(X)■
Tính chất 2.4: Các luật kết hợp được sinh ra từ các tập Sporadic tuyệt đối hai ngưỡng và từ các tập Sporadic tuyệt đối hai ngưỡng cực đại là như nhau.
Chứng minh: Ta chỉ cần chứng minh rằng mọi luật Sporadic tuyệt đối hai ngưỡng đều có thểđược sinh ra từ các tập Sporadic tuyệt đối hai ngưỡng cực đại.
Giả sử A ® B là luật như vậy, nên AÈB là tập Sporadic tuyệt đối hai ngưỡng và A ® B là luật kết hợp theo độ hỗ trợ cực tiểu minSup và độ tin cậy cực tiểu minConf. Từ [64] suy ra rằng A ® B cũng được sinh ra từ tập phổ biến cực đại với
độ hỗ trợ cực tiểu là minSup.
Không giảm tính tổng quát ta có thể coi rằng AÈB là tập phổ biến cực đại theo
độ hỗ trợ cực tiểu minSup và ta sẽ chứng minh AÈB là tập Sporadic tuyệt đối hai ngưỡng cực đại.
Giả sử ngược lại $C: CÉAÈB sao cho minSup ≤ sup(C) < sup(AÈB)< maxSup, như vậy có nghĩa C là tập phổ biến theo độ hỗ trợ cực tiểu minSup thực sự
chứa AÈB. Điều này mâu thuẫn với giả thiết về AÈB■