Ký hiệu mô tả trong thuật toán Apriori

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Một số phương pháp khai phá dữ liệu sinh luật kết hợp Luận văn ThS Công nghệ thông tin 1.01.10 (Trang 30 - 31)

Chúng ta nhắc lại tính chất quan trọng đã nêu ở trên (còn gọi là tính chất Apriori) được sử dụng để rút gọn không gian tìm kiếm: Tất cả các tập con khác rỗng của tập mục phổ biến phải là tập mục phổ biến hay nói ngược lại: Nếu một tập mục không là phổ biến thì mọi tập mục chứa nó cũng không phải là phổ biến. Cụ thể: cho các tập mục I, A trong đó

sup(I) < minsup thì sup(I A) < minsup.

Quay lại thuật toán Apriori, ta xem xét cụ thể bước kết nốibước tỉa tại bước k: + Bước kết nối:

Để tìm Ck ta kết nối Lk-1 với chính nó. Ký hiệu li [j] là mục thứ j trong tập mục li. Như trên chúng ta đã quy ước các mục trong mọi giao dịch và trong mọi tập mục có trật tự từ điển. Phép nối Lk-1 với chính Lk-1 được thực hiện như sau: cho l1 , l2  Lk-1, l1 và l2 được kết nối nếu (l1 [1]=l2 [1]) ^ (l1 [2]=l2 [2]) ^ ... ^ (l1 [k-2]=l2 [k-2]) ^ (l1 [k-1]<l2 [k-2]).

Điều kiện (l1 [k-1]<l2 [k-2]) để đảm bảo không sinh lặp ứng cử. Kết quả của kết nối trên là tập mục sau: l = l1 [1]l1 [2]...l1 [k-2]l1 [k-1]l2 [k-1].

+ Bước tỉa:

Ta cần tìm Lk là tập tất cả các tập k-mục phổ biến. Ta khẳng định LkCk và do vậy chỉ cần quét CSDL để xác định độ hỗ trợ cho các tập mục trong Ck và so sánh với minsup

nhận được Lk. Tuy nhiên, Ck có thể rất lớn, và do đó khối lượng tính rất lớn. Để rút gọn kích thước của Ck, tính chất Apriori được áp dụng như sau: Bất kỳ tập con (k-1)-mục nào của ứng cử k-mục mà không có mặt trong Lk-1 thì ứng cử đó không phổ biến và ta loại nó khỏi Ck. Việc kiểm tra tập con (k-1)-mục này có thể làm nhanh bằng cách duy trì một cây băm của tất cả các tập mục phổ biến đã tìm thấy.

TID Items T100 1, 2, 5 T200 2, 4 T300 2, 3 T400 1, 2, 4 T500 1, 3 T600 2, 3 T700 1, 3 T800 1, 2, 3, 5 T900 1, 2, 3

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Một số phương pháp khai phá dữ liệu sinh luật kết hợp Luận văn ThS Công nghệ thông tin 1.01.10 (Trang 30 - 31)