.2 Khai thác cây WAP sử dụng thuật toán WAP-mine

Một phần của tài liệu Khai thác k mẫu tuần tự phổ biến dựa trên roaring bitmap (Trang 31 - 32)

Ở ví dụ này, như hình 2.2a, chúng ta bắt đầu với item e, bổ sung item này vào tập chuỗi phổ biến là fs = {e} và theo liên kết đầu đểtìm các chuỗi bba:1, baba:1,

ab:2, ta có item a và b đều có độ hỗtrợ là 4, chúng được coi là các chuỗi phổbiến 1. Bây giờ, xây dựng cây con WAP cho hậu tố |e như hình 2.2b cho các chuỗi

bba:1, baba:1, ab:2 và khai thác cây này để có hậu tố điều kiện |be như hình 2.2c theo liên kết đầu của b, dẫn đến chuỗi be được bổsung vào tập chuỗi phổbiến là fs

= {e, be}. Theo liên kết đầu của b trên cây WAP|e (tìm kiếm điều kiện theo e) cho ra b:1, ba:1, b:-1, a:2 với độ hỗ trợ của b(1) và a(3), độ hỗ trợ của b nhỏ hơn

minSup nên xóa nó, kết quảlà a:1, a:2, cho ra cây điều kiện WAP|be như hình 2.2c. Tiếp theo, bổsung các chuỗi phổ biến mới tìm được vào tập fs, fs = {e, be,abe} và theo liên kết đầu của nó trên cây WAP|be cho kết quảlà Ø (hình 2.2c). Sau đó, thuật tốn duyệt lùi đệ quy đối với cây WAP|(b) để khai thác liên kết a cho cây WAP|ae (hình 2.2d). Khai thác đầy đủ của cây WAP ví dụ được mơ tả ở hình 2.2, tập chuỗi phổ biến tìm được fs = {e, be, abe, ae, b, bb, ab, a, ba}. Thuật toán WAP-mine

được khẳng định là tốt hơn GSP. Mặc dù duyệt CSDL chỉ hai lần và tránh vấn đề phát sinh chuỗi ứng viên bùng nổ như các phương pháp phát sinh và kiểm tra ứng viên và phương pháp dựa trên Apriori, nhưng WAP-mine cũng gặp phải vấn đề về tiêu tốn bộnhớ vì nó phải xây dựng lại nhiều cây WAP trung gian một cách đệ quy suốt quá trình khai thác khi số lượng mẫu phổ biến tăng. Vấn đề này được giải quyết bởi thuật toán PLWAP [14].

Thut toán FS-Miner

FS-Miner [10] là thuật toán phát triển mẫu với phép chiếu cây tương tự như WAP-mine và hỗtrợ khai thác tương tác và gia tăng. FS-Miner quan trọng ởchỗnó bắt đầu khai thác ngay lập tức các mẫu 2-sequences từlần duyệt CSDL lần thứhai (tại k=2). Nó có thể làm như vậy nhờ biểu diễn nén trên câyFS, trong đó sử dụng một bảng liên kết đầu các cạnh chứkhông phải các nút và item đơn so với cây WAP và cây PLWAP. Xét ví dụ trên dữ liệu ở bảng 2.2, và chỉ xét trường hợp chuỗi kề nhau (ví dụ, cba là chuỗi con kềcủa bcbae,nhưngca thì khơng). Hình 2.3 biểu diễn

bảng đầu liên kết tạo ra cùng với cây FS cho các chuỗi trong bảng 2.2.

Một phần của tài liệu Khai thác k mẫu tuần tự phổ biến dựa trên roaring bitmap (Trang 31 - 32)

Tải bản đầy đủ (PDF)

(76 trang)