Chương 2 PHÁT HIỆN LUẬT KẾT HỢP HIẾM TRÊN CƠ SỞ DỮ LIỆU TÁC VỤ
2.1.2. Tập Sporadic tuyệt đối hai ngưỡng
Định nghĩa 2.1: Tập X được gọi là tập Sporadic tuyệt đối hai ngưỡng nếu:
minSup ≤ sup(X) < maxSup, và
"x Ỵ X, sup(x) < maxSup.
51
Tập Sporadic tuyệt đối hai ngưỡng X được gọi là tập Sporadic tuyệt đối hai
ngưỡng cực đại nếu không tồn tại tập Sporadic tuyệt đối hai ngưỡng nào chứa nó
thực sự.
Định nghĩa 2.2: Ngữ cảnh khai phá dữ liệu là bộ ba Dˆ = (O, INF, R), trong
đó O là tập các tác vụ, INF là tập tất cả các mục dữ liệu không phổ biến theo
maxSup nhưng phổ biến theo minSup và R Í INF´O là quan hệ nhị phân. Mỗi cặp (i,t) Ỵ R ký hiệu cho sự kiện đối tượng t Ỵ O quan hệ với mục dữ liệu i Ỵ INF.
Định nghĩa 2.3 (Kết nối Galois): Cho Dˆ = (O, INF, R) là ngữ cảnh phát hiện
dữ liệu. Với O Í O và I Í INF, xác định:
f: 2O ® 2INF g: 2INF ® 2O
f(O) = {i | iỴI ; "tỴO; (i,t)ỴR} g(I) = {t | tỴO ; "iỴI; (i,t)ỴR} f(O) là tập mục dữ liệu chung cho tất cả các đối tượng của O và g(I) là tập các
đối tượng quan hệ với tất cả các mục dữ liệu trong I. Cặp ánh xạ (f,g) gọi là kết nối
Galois giữa tập các tập con của O và tập các tập con của INF.
Toán tử h = fog trong 2INF và h’ = gof trong 2O gọi là tốn tử đóng Galois.
Định nghĩa 2.4: X là tập Sporadic tuyệt đối hai ngưỡng, X được gọi là đóng
nếu h(X) = X.
Tập Sporadic tuyệt đối hai ngưỡng đóng X được gọi là tập Sporadic tuyệt đối hai ngưỡng đóng cực đại nếu nó khơng phải là tập con thực sự của bất kỳ tập
Sporadic không tuyệt đối hai ngưỡng đóng nào.
Nhận xét 2.1:
- Khi ngưỡng minSup = O1 , với O là tổng số tất cả các tác vụ trong Dˆ thì bài toán phát hiện luật Sporadic tuyệt đối hai ngưỡng trở thành bài toán phát hiện
luật Sporadic tuyệt đối được đề xuất trong [49]. Còn khi minSup = minAS, là
ngưỡng được xác định trong thuật tốn Apriori-Inverse thì bài tốn phát hiện luật
Sporadic tuyệt đối hai ngưỡng trở thành bài toán phát hiện luật Sporadic tuyệt đối
theo cách tiếp cận được đề xuất trong Apriori-Inverse.
- Theo định nghĩa 2.1, tập Sporadic tuyệt đối hai ngưỡng là tập không phổ
biến theo ngưỡng maxSup nhưng là tập phổ biến theo ngưỡng minSup. Theo định
52
nghĩa 2.4, tập Sporadic tuyệt đối hai ngưỡng đóng cũng là tập phổ biến đóng theo độ hỗ trợ minSup.
Tính chất 2.1: Tập Sporadic tuyệt đối hai ngưỡng có tính chất Apriori, tức là
tập con của tập Sporadic tuyệt đối hai ngưỡng là tập Sporadic tuyệt đối hai
ngưỡng.
Chứng minh: Giả sử X là tập Sporadic tuyệt đối hai ngưỡng nào đó và tập
X’ÍX, ta cần chứng minh X’ cũng là tập Sporadic tuyệt đối hai ngưỡng.
Thật vậy do X’ÍX nên minSup≤ sup(X)< sup(X’). Mặt khác với mọi xỴX’ thì xỴX nên sup(x)<maxSup và do đó sup(X’)≤ sup(x)< maxSup. Từ đó suy ra X’ là
tập Sporadic tuyệt đối hai ngưỡng■
Tính chất đối ngẫu của tính chất này là mọi tập chứa tập con không phải là tập Sporadic tuyệt đối hai ngưỡng cũng không là tập Sporadic tuyệt đối hai ngưỡng.
Tính chất 2.2: Độ hỗ trợ của tập Sporadic tuyệt đối hai ngưỡng X bằng độ hỗ
trợ bao đóng của nó, tức là sup(X) = sup(h(X)).
Chứng minh: Theo định nghĩa 2.3 thì sup(X) = |g(X)| và sup(h(X)) = |g(h(X))|.
Vậy chỉ cần chứng minh g(X) = g(h(X)).
(i) Từ nhận xét 2.1, X là tập phổ biến theo ngưỡng minSup nên theo tính chất 1.1 – mục (2’) ta có g(X) Í h’(g(X)) = g(f(g(X)) = g(h(X)). Vậy g(X) Í g(h(X)).
(ii) Theo tính chất 1.1 – mục (2) thì X Í h(X) nên g(h(X)) Í g(X) (tính chất
1.1 – mục (1)).
Từ (i) và (ii) có g(X) = g(h(X))■
Tính chất 2.3: Nếu X là tập Sporadic tuyệt đối hai ngưỡng cực đại thì X là tập
đóng.
Chứng minh: Giả sử X là tập Sporadic tuyệt đối hai ngưỡng cực đại bất kỳ.
Theo tính chất 1.1- mục (2) ta có XÍh(X).
(i) Theo tính chất 2.3 và do X là tập Sporadic tuyệt đối hai ngưỡng nên
minSup ≤ sup(h(X)) = sup(X).
(ii) Mặt khác với mọi xỴh(X), sup(x)< maxSup là hiển nhiên vì h(X)ÍINF và theo định nghĩa của INF.
53
Từ (i) và (ii) suy ra h(X) là tập Sporadic tuyệt đối hai ngưỡng chứa X. Do X là tập Sporadic tuyệt đối hai ngưỡng cực đại nên suy ra X = h(X)■
Tính chất 2.4: Các luật kết hợp được sinh ra từ các tập Sporadic tuyệt đối hai
ngưỡng và từ các tập Sporadic tuyệt đối hai ngưỡng cực đại là như nhau.
Chứng minh: Ta chỉ cần chứng minh rằng mọi luật Sporadic tuyệt đối hai
ngưỡng đều có thể được sinh ra từ các tập Sporadic tuyệt đối hai ngưỡng cực đại. Giả sử A ® B là luật như vậy, nên AÈB là tập Sporadic tuyệt đối hai ngưỡng và A ® B là luật kết hợp theo độ hỗ trợ cực tiểu minSup và độ tin cậy cực tiểu
minConf. Từ [64] suy ra rằng A ® B cũng được sinh ra từ tập phổ biến cực đại với
độ hỗ trợ cực tiểu là minSup.
Khơng giảm tính tổng qt ta có thể coi rằng AÈB là tập phổ biến cực đại theo
độ hỗ trợ cực tiểu minSup và ta sẽ chứng minh AÈB là tập Sporadic tuyệt đối hai
ngưỡng cực đại.
Giả sử ngược lại $C: CÉAÈB sao cho minSup ≤ sup(C) < sup(ẰB)<
maxSup, như vậy có nghĩa C là tập phổ biến theo độ hỗ trợ cực tiểu minSup thực sự chứa AÈB. Điều này mâu thuẫn với giả thiết về AÈB■