- Mệnh đề 2.7: Số cây COUI-tree cần xây dựng và khai phá trong hai thuật toán COUI-Mine2 và COUI-Mine3 là bằng nhau.
Chứng minh:
Trong thuật toán COUI-Mine2, các giao tác đƣợc nén lên lên cây UP-tree. Bảng đầu mục của cây chứa các mục dữ liệu có lợi ích TWU cao. Ở bƣớc khai phá cây thuật toán xây dựng và khai phá cây COUI-tree cho từng mục dữ liệu trong bảng đầu mục này, do đó số cây COUI-tree cần xử lý bằng số mục dữ liệu có lợi ích TWU cao trong cơ sở dữ liệu.
Trong thuật toán COUI-Mine3, cơ sở dữ liệu đƣợc chuyển thành dạng mảng giao tác và lƣu ở bộ nhớ ngoài. Mảng giao tác có phần chỉ số chứa toàn bộ các mục
dữ liệu của cơ sở dữ liệu. Khi khai phá mảng giao tác, thuật toán duyệt cần chỉ số , chỉ xây dựng và khai phá cây COUI-tree cho các mục dữ liệu có lợi ích TWU cao. Do đó số cây COUI-tree mà thuật toán COUI-Mine3 xử lý cũng bằng số mục dữ liệu có lợi ích TWU cao trong cơ sở dữ liệu.
Vậy, số cây COUI-tree mà hai thuật toán COUI-Mine2 và COUI-Mine3 cần xây dựng và khai phá là bằng nhau và cùng bằng số mục dữ liệu có lợi ích TWU cao trong cơ sở dữ liệu.
- Thuật toán COUI-Mine3 đƣợc phát triển từ thuật toán COUI-Mine2 bằng cách thay cây UP-tree của thuật toán COUI-Mine2 bởi mảng giao tác, lƣu tại bộ nhớ ngoài. Theo mệnh đề 2.7, số cây COUI-tree mà hai thuật toán cần xây dựng và khai phá bằng nhau, cấu trúc cây COUI-tree và cách khai phá nó trong hai thuật toán nhƣ nhau, do vậy, có thể phát biểu mệnh đề 2.8 sau về tính dừng của thuật toán thuật toán COUI-Mine3.
Mệnh đề 2.8: Thuật toán COUI-tree đảm bảo tính dừng và tìm ra tập tất cả các tập mục lợi ích cao.
- Thuật toán thuật toán COUI-Mine3 thực hiện chậm hơn thuật toán COUI- Mine2 trong cả bƣớc chuyển đổi dữ liệu và bƣớc khai phá. Ở bƣớc chuyển đổi dữ liệu, thuật toán COUI-Mine2 xây dựng cây UP-tree lƣu ở bộ nhớ trong thuật toán COUI-Mine3 xây dựng mảng giao tác ở bộ nhớ ngoài. Ở bƣớc khai phá, thuật toán COUI-Mine2 đọc dữ liệu từ cây UP-tree ở bộ nhớ trong còn thuật toán COUI- Mine3 phải đọc dữ liệu từ mảng giao tác ở bộ nhớ ngoài. Thao tác đọc/ghi với bộ nhớ ngoài chậm hơn đọc/ghi với bộ nhớ trong và còn phụ thuộc vào thiết bị phần cứng.
- Thuật toán COUI-Mine3 phù hợp khi khai phá trên những tập dữ liệu rất lớn vì thuật toán chỉ đƣa vào bộ nhớ trong một phần rất nhỏ của dữ liệu. Thuật toán sẵn sàng cho khai phá tƣơng tác, có thể khai phá với các ngƣỡng lợi ích khác nhau mà không cần chuyển đổi lại dữ liệu. Khi đã chuyển đổi dữ liệu, thời gian khai phá giảm rất nhiều vì thuật toán chỉ còn mất thời gian cho bƣớc khai phá mảng giao tác.
- Kết quả thử nghiệm trên các tập dữ liệu thực và dữ liệu nhân tạo cho thấy thuật toán COUI-Mine3 khai phá hiệu quả trên những tập dữ liệu rất lớn.