b. Thử nghiệm trên CSDL thực
2.2.2. Tập Sporadic không tuyệt đối hai ngưỡng
ở đây minSup, maxSup (minSup < maxSup) tương ứng được gọi là độ hỗ trợ cận
dưới, cận trên và minConf là độ tin cậy cực tiểu của luật.
Các luật kết hợp trong trường hợp này được gọi là luật Sporadic không tuyệt đối hai ngưỡng. Các tập Sporadic của các luật đó cũng được gọi là tập Sporadic
khơng tuyệt đối hai ngưỡng.
Khi đó vấn đề phát hiện luật Sporadic không tuyệt đối trong [50] thực chất là một trường hợp riêng của việc phát hiện luật Sporadic không tuyệt đối hai ngưỡng,
ở đó minSup có giá trị bằng
O
1
, với O là tổng số các tác vụ của tệp dữ liệu.
Khác với nghiên cứu của các tác giả trong [50], chúng tôi áp dụng hướng tiếp cận phát hiện tập mục dữ liệu đóng trong việc tìm các tập Sporadic khơng tuyệt đối hai ngưỡng vì thế sẽ cho phép thu hẹp khơng gian tìm kiếm và loại bỏ được nhiều luật dư thừa. Thuật tốn tìm các tập Sporadic khơng tuyệt đối hai ngưỡng cũng được phát triển dựa trên tư tưởng của thuật toán CHARM [94].
2.2.2. Tập Sporadic không tuyệt đối hai ngưỡng
Định nghĩa 2.5: Tập X được gọi là tập Sporadic không tuyệt đối hai ngưỡng
nếu:
minSup ≤ sup(X) < maxSup, và
$x Ỵ X, sup(x) ³ maxSup
Tập Sporadic không tuyệt đối hai ngưỡng X được gọi là tập Sporadic không
tuyệt đối hai ngưỡng cực đại nếu nó khơng là tập con thực sự của bất kỳ tập
Sporadic không tuyệt đối hai ngưỡng nào.
Định nghĩa 2.6: X là tập Sporadic không tuyệt đối hai ngưỡng, X được gọi là
tập Sporadic khơng tuyệt đối hai ngưỡng đóng nếu nó là tập đóng, tức là h(X) = X.
63
Tập Sporadic không tuyệt đối hai ngưỡng đóng X được gọi là tập Sporadic
khơng tuyệt đối hai ngưỡng đóng cực đại nếu nó khơng phải là tập con thực sự của
bất kỳ tập Sporadic khơng tuyệt đối hai ngưỡng đóng nào.
Nhận xét 2.2: Theo định nghĩa 2.5, tập Sporadic không tuyệt đối hai ngưỡng
là tập không phổ biến theo ngưỡng maxSup nhưng là tập phổ biến theo ngưỡng minSup.
Tính chất Apriori của các tập Sporadic không tuyệt đối hai ngưỡng là không
được bảo toàn, tức là tập con của tập Sporadic không tuyệt đối hai ngưỡng chưa
chắc là tập có tính chất như vậy.
Tính chất 2.5: Độ hỗ trợ của tập Sporadic không tuyệt đối hai ngưỡng X bằng
độ hỗ trợ bao đóng của nó, tức là sup(X) = sup(h(X)).
Việc chứng minh tính chất này là tương tự như chứng minh tính chất 2.3.
Tính chất 2.6: Tập các tập Sporadic khơng tuyệt đối hai ngưỡng cực đại và
tập các tập Sporadic khơng tuyệt đối hai ngưỡng đóng cực đại là trùng nhau.
Chứng minh: Ta chỉ cần chứng minh rằng mọi tập Sporadic không tuyệt đối
hai ngưỡng cực đại cũng là tập đóng.
Giả sử X là tập Sporadic cực đại hai ngưỡng nào đó, trước hết ta chứng minh rằng X là tập phổ biến cực đại theo minSup.
Thật vậy X là tập phổ biến theo minSup là hiển nhiên theo định nghĩa 2.5. Giả sử ngược lại X không phải là cực đại theo minSup thì tồn tại X’ là tập phổ biến theo minSup và X Ì X’. Theo tính chất Apriori thì sup(X’) ≤ sup(X) < maxSup. Mặt
khác vì X là tập Sporadic không tuyệt đối hai ngưỡng nên tồn tại xỴX Ì X’ sao cho sup(x) ³ maxSup. Từ đó suy ra X’ là tập Sporadic khơng tuyệt đối hai ngưỡng chứa X. Điều này mâu thuẫn với giả thiết X là tập Sporadic không tuyệt đối hai ngưỡng cực đại.
Mặt khác, theo tính chất của phép kết nối Galois ln có X Í h(X) và do
sup(h(X)) = sup(X) ³ minSup nên h(X) cũng là tập phổ biến theo minSup nên khi X là tập phổ biến cực đại theo minSup thì h(X)=X hay X là tập Sporadic khơng tuyệt
đối hai ngưỡng đóng cực đại■
64
Nhận xét 2.3: Giả sử X là tập Sporadic không tuyệt đối hai ngưỡng, X là tập
phổ biến cực đại theo độ hỗ trợ cực tiểu minSup thì X cũng là tập Sporadic không
tuyệt đối hai ngưỡng cực đại.
Việc chứng minh nhận xét này được suy trực tiếp từ cách chứng minh tính chất 2.6 ở trên.
Tính chất 2.7: Các luật kết hợp được sinh ra từ các tập Sporadic không tuyệt
đối hai ngưỡng và từ các tập Sporadic không tuyệt đối hai ngưỡng cực đại là như
nhau.
Chứng minh: Ta chỉ cần chứng minh mọi luật Sporadic không tuyệt đối hai
ngưỡng đều được sinh ra từ các tập Sporadic không tuyệt đối hai ngưỡng cực đại. Giả sử A ® B là luật như vậy, nên AÈB là tập Sporadic không tuyệt đối hai
ngưỡng và A ® B là luật kết hợp theo độ hỗ trợ cực tiểu minSup và độ tin cậy cực tiểu minConf. Từ [64] suy ra rằng A ® B cũng được sinh ra từ tập phổ biến cực đại với độ hỗ trợ cực tiểu là minSup.
Không giảm tính tổng qt ta có thể coi rằng ẰB là tập phổ biến cực đại theo
độ hỗ trợ cực tiểu minSup và ta sẽ chứng minh AÈB là tập Sporadic không tuyệt đối hai ngưỡng cực đại.
Giả sử ngược lại $C: CÉAÈB sao cho minSup ≤ sup(C) < sup(ẰB)<
maxSup, như vậy có nghĩa C là tập phổ biến cực đại theo độ hỗ trợ cực tiểu minSup thực sự chứa AÈB. Điều này mâu thuẫn với giả thiết về ẰB■
Các tính chất 2.6, 2.7 là cơ sở để đề xuất thuật tốn tìm tập Sporadic không
tuyệt đối hai ngưỡng dưới đây.