Tập Sporadic không tuyệt đối hai ngưỡng

Một phần của tài liệu Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng.PDF (Trang 62)

b. Thử nghiệm trên CSDL thực

2.2.2.Tập Sporadic không tuyệt đối hai ngưỡng

ở đây minSup, maxSup (minSup < maxSup) tương ứng được gọi là độ hỗ trợ cận dưới, cận trên và minConf là độ tin cậy cực tiểu của luật.

Các luật kết hợp trong trường hợp này được gọi là luật Sporadic không tuyệt

đối hai ngưỡng. Các tập Sporadic của các luật đó cũng được gọi là tập Sporadic không tuyệt đối hai ngưỡng.

Khi đó vấn đề phát hiện luật Sporadic không tuyệt đối trong [50] thực chất là một trường hợp riêng của việc phát hiện luật Sporadic không tuyệt đối hai ngưỡng,

ởđó minSup có giá trị bằng

O

1

, với O là tổng số các tác vụ của tệp dữ liệu.

Khác với nghiên cứu của các tác giả trong [50], chúng tôi áp dụng hướng tiếp cận phát hiện tập mục dữ liệu đóng trong việc tìm các tập Sporadic không tuyệt đối hai ngưỡng vì thế sẽ cho phép thu hẹp không gian tìm kiếm và loại bỏ được nhiều luật dư thừa. Thuật toán tìm các tập Sporadic không tuyệt đối hai ngưỡng cũng

được phát triển dựa trên tư tưởng của thuật toán CHARM [94].

2.2.2. Tp Sporadic không tuyt đối hai ngưỡng

Định nghĩa 2.5: Tập X được gọi là tập Sporadic không tuyệt đối hai ngưỡng nếu:

minSup ≤ sup(X) < maxSup, và

$x Î X, sup(x) ³ maxSup

Tập Sporadic không tuyệt đối hai ngưỡng X được gọi là tập Sporadic không tuyệt đối hai ngưỡng cực đại nếu nó không là tập con thực sự của bất kỳ tập Sporadic không tuyệt đối hai ngưỡng nào.

Định nghĩa 2.6: X là tập Sporadic không tuyệt đối hai ngưỡng, X được gọi là tập Sporadic không tuyệt đối hai ngưỡng đóng nếu nó là tập đóng, tức là h(X) = X.

63

Tập Sporadic không tuyệt đối hai ngưỡng đóng X được gọi là tập Sporadic không tuyệt đối hai ngưỡng đóng cực đại nếu nó không phải là tập con thực sự của bất kỳ tập Sporadic không tuyệt đối hai ngưỡng đóng nào.

Nhận xét 2.2: Theo định nghĩa 2.5, tập Sporadic không tuyệt đối hai ngưỡng là tập không phổ biến theo ngưỡng maxSup nhưng là tập phổ biến theo ngưỡng minSup.

Tính chất Apriori của các tập Sporadic không tuyệt đối hai ngưỡng là không

được bảo toàn, tức là tập con của tập Sporadic không tuyệt đối hai ngưỡng chưa chắc là tập có tính chất như vậy.

Tính chất 2.5: Độ hỗ trợ của tập Sporadic không tuyệt đối hai ngưỡng X bằng

độ hỗ trợ bao đóng của nó, tức là sup(X) = sup(h(X)).

Việc chứng minh tính chất này là tương tự như chứng minh tính chất 2.3.

Tính chất 2.6: Tập các tập Sporadic không tuyệt đối hai ngưỡng cực đại và tập các tập Sporadic không tuyệt đối hai ngưỡng đóng cực đại là trùng nhau.

Chứng minh: Ta chỉ cần chứng minh rằng mọi tập Sporadic không tuyệt đối hai ngưỡng cực đại cũng là tập đóng.

Giả sử X là tập Sporadic cực đại hai ngưỡng nào đó, trước hết ta chứng minh rằng X là tập phổ biến cực đại theo minSup.

Thật vậy X là tập phổ biến theo minSup là hiển nhiên theo định nghĩa 2.5. Giả

sử ngược lại X không phải là cực đại theo minSup thì tồn tại X’ là tập phổ biến theo minSup và X Ì X’. Theo tính chất Apriori thì sup(X’) ≤ sup(X) < maxSup. Mặt khác vì X là tập Sporadic không tuyệt đối hai ngưỡng nên tồn tại xÎX Ì X’ sao cho sup(x) ³ maxSup. Từđó suy ra X’ là tập Sporadic không tuyệt đối hai ngưỡng chứa X. Điều này mâu thuẫn với giả thiết X là tập Sporadic không tuyệt đối hai ngưỡng cực đại.

Mặt khác, theo tính chất của phép kết nối Galois luôn có X Í h(X) và do sup(h(X)) = sup(X) ³ minSup nên h(X) cũng là tập phổ biến theo minSup nên khi X là tập phổ biến cực đại theo minSup thì h(X)=X hay X là tập Sporadic không tuyệt

64 (adsbygoogle = window.adsbygoogle || []).push({});

Nhận xét 2.3: Giả sử X là tập Sporadic không tuyệt đối hai ngưỡng, X là tập phổ biến cực đại theo độ hỗ trợ cực tiểu minSup thì X cũng là tập Sporadic không tuyệt đối hai ngưỡng cực đại.

Việc chứng minh nhận xét này được suy trực tiếp từ cách chứng minh tính chất 2.6 ở trên.

Tính chất 2.7: Các luật kết hợp được sinh ra từ các tập Sporadic không tuyệt

đối hai ngưỡng và từ các tập Sporadic không tuyệt đối hai ngưỡng cực đại là như

nhau.

Chứng minh: Ta chỉ cần chứng minh mọi luật Sporadic không tuyệt đối hai ngưỡng đều được sinh ra từ các tập Sporadic không tuyệt đối hai ngưỡng cực đại.

Giả sử A ® B là luật như vậy, nên AÈB là tập Sporadic không tuyệt đối hai ngưỡng và A ® B là luật kết hợp theo độ hỗ trợ cực tiểu minSup và độ tin cậy cực tiểu minConf. Từ [64] suy ra rằng A ® B cũng được sinh ra từ tập phổ biến cực đại với độ hỗ trợ cực tiểu là minSup.

Không giảm tính tổng quát ta có thể coi rằng AÈB là tập phổ biến cực đại theo

độ hỗ trợ cực tiểu minSup và ta sẽ chứng minh AÈB là tập Sporadic không tuyệt

đối hai ngưỡng cực đại.

Giả sử ngược lại $C: CÉAÈB sao cho minSup ≤ sup(C) < sup(AÈB)< maxSup, như vậy có nghĩa C là tập phổ biến cực đại theo độ hỗ trợ cực tiểu minSup thực sự chứa AÈB. Điều này mâu thuẫn với giả thiết về AÈB

Các tính chất 2.6, 2.7 là cơ sở để đề xuất thuật toán tìm tập Sporadic không tuyệt đối hai ngưỡng dưới đây.

Một phần của tài liệu Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng.PDF (Trang 62)