So sánh Closet với A-Close và Charm

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Một số phương pháp khai phá dữ liệu sinh luật kết hợp Luận văn ThS Công nghệ thông tin 1.01.10 (Trang 68 - 70)

Qua minh hoạ trên phần nào cho ta thấy thuật toán Closet rất tốt, không những vậy trong môi trường thực nghiệm với một số CSDL cụ thể nó cũng tốt hơn những thuật toán khác như Close (A-Close) [108], và Charm [110], [111], đó là do những ưu điểm sau đây:

(1) Thuật toán Closet chỉ tìm các tập mục đóng phổ biến và trong quá trình tìm không cần phải sinh ra mọi tập mục phổ biến có thể có.

(2) Giống thuật toán FP-Growth, Closet sử dụng chiến lược chia để chế ngự (divide and conquer) và áp dụng ý tưởng khai phá phát triển (growth), hoàn toàn không sinh ứng cử. Đồng thời áp dụng chiến lược tỉa các mẫu nếu không phổ biến hoặc không thoả tính chất đóng. Sử dụng cấu trúc dữ liệu đặc biệt FP-tree để nén dữ liệu và tăng tốc khai phá

trong khi vẫn duy trì đầy đủ thông tin cho khai thác các mẫu phổ biến. Cây FP-tree không bao giờ lớn hơn CSDL gốc và nếu áp dụng kỹ thuật sắp xếp giảm dần theo tần suất thì các mục phổ biến sẽ được chia sẻ nhiều hơn, độ nén sẽ cao hơn và tốc độ khai phá nhanh hơn. Độ cao của cây tổng thể chỉ bằng kích thước của tác vụ lớn nhất (sau khi đã lọc bỏ các mục không thoả minsup).

(3) Áp dụng tốt cho cả mẫu phổ biến ngắn hay dài, CSDL thưa hay dày. Chỉ quét CSDL đúng 2 lần.

(4) Tính đúng đắn của thuật toán Closet đã được chứng minh [107]. Thời gian xây dựng cây FP-tree là O(n) với n là số lượng giao dịch. Tuy nhiên tổng thời gian khai phá trên các cây FP-tree phụ thuộc là tương đối khó đánh giá nhưng nó tỉ lệ với số mẫu phổ biến được sinh ra. Ngoài ra giải thuật là tương đối phức tạp, không hề đơn giản như Charm.

4. Chương 4: Xây dựng ứng dụng minh hoạ

4.1. Giới thiệu

Chương này trình bày kết quả xây dựng chương trình thử nghiệm khai phá luật kết hợp trên tinh thần áp dụng các giải thuật đã trình bày vào khai phá CSDL đơn hàng thực tế và so sánh thời gian chạy của chúng với nhau.

Orders OrderID: nvarchar(30) CustomerID: nvarchar(30) EmployeeID: nvarchar(30) OrderDate: datetime RequiredDate: datetime Order_Details OrderID: nvarchar(30) ProductID: nvarchar(30) UnitPrice: float Quantity: float Discount: float Customers CustomerID: nvarchar(30) CompanyName: nvarchar(40) ContactName: nvarchar(30) ContactTitle: nvarchar(30) Address: nvarchar(60) City: nvarchar(15) Country: nvarchar(15) Phone: nvarchar(24) Fax: nvarchar(24) Products ProductID: nvarchar(30) ProductName: nvarchar(40) SupplierID: nvarchar(30) CategoryID: nvarchar(30)

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Một số phương pháp khai phá dữ liệu sinh luật kết hợp Luận văn ThS Công nghệ thông tin 1.01.10 (Trang 68 - 70)