So sánh Charm với Apriori, Close, Pascal, Mafia và- 123docz.net

Qua minh hoạ trên phần nào cho ta thấy thuật toán Charm nhanh hơn và tốt hơn thuật toán Apriori, không những vậy trong môi trường thực nghiệm với một số CSDL cụ thể nó cũng tốt hơn những thuật toán khác như Close [108], Pascal [102], Mafia [103] và Closet [107] (trong khuôn khổ của luận văn, tôi chỉ đề cập thêm tới giải thuật Closet còn các giải thuật còn lại đọc giả có thể tham khảo chi tiết trong các tài liệu tương ứng và các tài liệu liên quan khác), đó là do những ưu điểm sau đây:

(1) Thuật toán Charm chỉ tìm các tập mục đóng phổ biến và trong quá trình tìm không cần phải sinh ra mọi tập mục phổ biến có thể có.

(2) Áp dụng chiến lược tỉa các ứng cử nếu tập con của nó không phổ biến đồng thời tỉa các nhánh nếu nó không thoả tính chất đóng. Hơn thế và quan trọng nhất là thuật toán Charm cho phép cho phép bỏ qua nhiều mức, tỉa nhiều nhánh dựa trên 4 tính chất của IT- pair để nhanh chóng tìm ra tập mục đóng phổ biến.

(3) Không yêu cầu cấu trúc dữ liệu phức tạp, các phép toán cơ sở chỉ đơn giản là hợp 2 tập mục và giao 2 tập định danh.

(4) Áp dụng tốt cho cả mẫu phổ biến ngắn hay dài, CSDL thưa hay dày. Mặc dù về mặt hình thức Charm chỉ quét CSDL đúng 1 lần, tuy nhiên cây IT-tree thường khá lớn vì không những lưu tập mục ta còn lưu cả tập định danh nên ta phải có cách lưu trữ ngoài do vậy bản chất là quét CSDL nhiều lần. Và cũng chính vì nó lưu cả tập định danh nên nếu

lực lượng trung bình của các tập định danh càng lớn thì giải thuật Charm sẽ tỏ ra kém hữu hiệu hơn.

(5) Tính đúng đắn của thuật toán Charm đã được chứng minh [110]. Độ phức tạp thuật toán là O(|C|*l) với C là tập các tập mục đóng phổ biến và l là độ dài trung bình của tập định danh (Tidset) trong C.

3.4. Thuật toán Closet

3.4.1. Giới thiệu

Cũng vào năm 2000, nhóm tác giả J. Pei, J. Han, Y. Yin và R. Mao ngoài việc đề xuất thuật toán FP-Growth trong khai phá luật kết hợp thông thường, còn đề xuất một thuật toán không sinh ứng cử khác trong khai phá luật kết hợp đóng là Closet [107]. Giống như FP-Growth, đây là một thuật toán khai phá rất hiệu quả dựa trên ý tưởng chia để trị, xuất phát từ CSDL ban đầu, chia nhỏ chúng thành các CSDL phụ thuộc mẫu để khai phá và cứ như vậy cho tới khi CSDL phụ thuộc mẫu đủ nhỏ (suy biến) để có thể khai phá trực tiếp. Các khái niệm và ký hiệu trong giải thuật Closet cũng được sử dụng khá nhất quán với giải thuật FP-Growth như CSDL phụ thuộc mẫu, FP-tree, ..., do đó đọc giả nên tham khảo giải thuật FP-Growth tại phần 3.2 trước.

TID Items 1 a, c, d, e, f 2 a, b, e 3 c, e, f 4 a, c, d, f 5 c, e, f

Bảng 3.25: Cơ sở dữ liệu minh hoạ thuật toán Closet.

Ký hiệu:

+ TDB là CSDL tổng thể D cần khai phá.

+ TDB|d là CSDL phụ thuộc mẫu chứa tập mục (mẫu) d. + f_list là tập các mục đơn ứng với CSDL tổng thể D.

+ f_list|d là tập các mục đơn ứng với CSDL phụ thuộc mẫu chứa d. + FCI là tập các tập mục đóng phổ biến (Frequent Closed Itemsets).

So sánh Charm với Apriori, Close, Pascal, Mafia và Closet

Ký hiệu mô tả trong thuật toán Apriori

Thủ tục Has_Infrequent_Subset