Tập Sporadic không tuyệt đối hai ngưỡng

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng (Trang 62 - 64)

b. Thử nghiệm trên CSDL thực

2.2.2. Tập Sporadic không tuyệt đối hai ngưỡng

ở đây minSup, maxSup (minSup < maxSup) tương ứng được gọi là độ hỗ trợ cận

dưới, cận trên và minConf là độ tin cậy cực tiểu của luật.

Các luật kết hợp trong trường hợp này được gọi là luật Sporadic không tuyệt đối hai ngưỡng. Các tập Sporadic của các luật đó cũng được gọi là tập Sporadic

khơng tuyệt đối hai ngưỡng.

Khi đó vấn đề phát hiện luật Sporadic không tuyệt đối trong [50] thực chất là một trường hợp riêng của việc phát hiện luật Sporadic không tuyệt đối hai ngưỡng,

ở đó minSup có giá trị bằng

O

1

, với O là tổng số các tác vụ của tệp dữ liệu.

Khác với nghiên cứu của các tác giả trong [50], chúng tôi áp dụng hướng tiếp cận phát hiện tập mục dữ liệu đóng trong việc tìm các tập Sporadic khơng tuyệt đối hai ngưỡng vì thế sẽ cho phép thu hẹp khơng gian tìm kiếm và loại bỏ được nhiều luật dư thừa. Thuật tốn tìm các tập Sporadic khơng tuyệt đối hai ngưỡng cũng được phát triển dựa trên tư tưởng của thuật toán CHARM [94].

2.2.2. Tập Sporadic không tuyệt đối hai ngưỡng

Định nghĩa 2.5: Tập X được gọi là tập Sporadic không tuyệt đối hai ngưỡng

nếu:

minSup ≤ sup(X) < maxSup, và

$x Ỵ X, sup(x) ³ maxSup

Tập Sporadic không tuyệt đối hai ngưỡng X được gọi là tập Sporadic không

tuyệt đối hai ngưỡng cực đại nếu nó khơng là tập con thực sự của bất kỳ tập

Sporadic không tuyệt đối hai ngưỡng nào.

Định nghĩa 2.6: X là tập Sporadic không tuyệt đối hai ngưỡng, X được gọi là

tập Sporadic khơng tuyệt đối hai ngưỡng đóng nếu nó là tập đóng, tức là h(X) = X.

63

Tập Sporadic không tuyệt đối hai ngưỡng đóng X được gọi là tập Sporadic

khơng tuyệt đối hai ngưỡng đóng cực đại nếu nó khơng phải là tập con thực sự của

bất kỳ tập Sporadic khơng tuyệt đối hai ngưỡng đóng nào.

Nhận xét 2.2: Theo định nghĩa 2.5, tập Sporadic không tuyệt đối hai ngưỡng

là tập không phổ biến theo ngưỡng maxSup nhưng là tập phổ biến theo ngưỡng minSup.

Tính chất Apriori của các tập Sporadic không tuyệt đối hai ngưỡng là không

được bảo toàn, tức là tập con của tập Sporadic không tuyệt đối hai ngưỡng chưa

chắc là tập có tính chất như vậy.

Tính chất 2.5: Độ hỗ trợ của tập Sporadic không tuyệt đối hai ngưỡng X bằng

độ hỗ trợ bao đóng của nó, tức là sup(X) = sup(h(X)).

Việc chứng minh tính chất này là tương tự như chứng minh tính chất 2.3.

Tính chất 2.6: Tập các tập Sporadic khơng tuyệt đối hai ngưỡng cực đại và

tập các tập Sporadic khơng tuyệt đối hai ngưỡng đóng cực đại là trùng nhau.

Chứng minh: Ta chỉ cần chứng minh rằng mọi tập Sporadic không tuyệt đối

hai ngưỡng cực đại cũng là tập đóng.

Giả sử X là tập Sporadic cực đại hai ngưỡng nào đó, trước hết ta chứng minh rằng X là tập phổ biến cực đại theo minSup.

Thật vậy X là tập phổ biến theo minSup là hiển nhiên theo định nghĩa 2.5. Giả sử ngược lại X không phải là cực đại theo minSup thì tồn tại X’ là tập phổ biến theo minSup và X Ì X’. Theo tính chất Apriori thì sup(X’) ≤ sup(X) < maxSup. Mặt

khác vì X là tập Sporadic không tuyệt đối hai ngưỡng nên tồn tại xỴX Ì X’ sao cho sup(x) ³ maxSup. Từ đó suy ra X’ là tập Sporadic khơng tuyệt đối hai ngưỡng chứa X. Điều này mâu thuẫn với giả thiết X là tập Sporadic không tuyệt đối hai ngưỡng cực đại.

Mặt khác, theo tính chất của phép kết nối Galois ln có X Í h(X) và do

sup(h(X)) = sup(X) ³ minSup nên h(X) cũng là tập phổ biến theo minSup nên khi X là tập phổ biến cực đại theo minSup thì h(X)=X hay X là tập Sporadic khơng tuyệt

đối hai ngưỡng đóng cực đại■

64

Nhận xét 2.3: Giả sử X là tập Sporadic không tuyệt đối hai ngưỡng, X là tập

phổ biến cực đại theo độ hỗ trợ cực tiểu minSup thì X cũng là tập Sporadic không

tuyệt đối hai ngưỡng cực đại.

Việc chứng minh nhận xét này được suy trực tiếp từ cách chứng minh tính chất 2.6 ở trên.

Tính chất 2.7: Các luật kết hợp được sinh ra từ các tập Sporadic không tuyệt

đối hai ngưỡng và từ các tập Sporadic không tuyệt đối hai ngưỡng cực đại là như

nhau.

Chứng minh: Ta chỉ cần chứng minh mọi luật Sporadic không tuyệt đối hai

ngưỡng đều được sinh ra từ các tập Sporadic không tuyệt đối hai ngưỡng cực đại. Giả sử A ® B là luật như vậy, nên AÈB là tập Sporadic không tuyệt đối hai

ngưỡng và A ® B là luật kết hợp theo độ hỗ trợ cực tiểu minSup và độ tin cậy cực tiểu minConf. Từ [64] suy ra rằng A ® B cũng được sinh ra từ tập phổ biến cực đại với độ hỗ trợ cực tiểu là minSup.

Không giảm tính tổng qt ta có thể coi rằng ẰB là tập phổ biến cực đại theo

độ hỗ trợ cực tiểu minSup và ta sẽ chứng minh AÈB là tập Sporadic không tuyệt đối hai ngưỡng cực đại.

Giả sử ngược lại $C: CÉAÈB sao cho minSup ≤ sup(C) < sup(ẰB)<

maxSup, như vậy có nghĩa C là tập phổ biến cực đại theo độ hỗ trợ cực tiểu minSup thực sự chứa AÈB. Điều này mâu thuẫn với giả thiết về ẰB■

Các tính chất 2.6, 2.7 là cơ sở để đề xuất thuật tốn tìm tập Sporadic không

tuyệt đối hai ngưỡng dưới đây.

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng (Trang 62 - 64)

Tải bản đầy đủ (PDF)

(133 trang)