b. Thử nghiệm trên CSDL thực
2.2.3. Thuật tốn tìm tập Sporadic không tuyệt đối hai ngưỡng đóng
2.2.3.1. Ý tưởng của thuật tốn
Thuật tốn MCISI tìm các tập Sporadic khơng tuyệt đối hai ngưỡng đóng cực
đại bằng cách:
- Xuất phát từ tập các mục dữ liệu ban đầu của tập dữ liệu, thiết lập hai tập: (1) Tập các mục dữ liệu phổ biến theo maxSup. (2) Tập các mục dữ liệu không phổ
65
biến theo maxSup nhưng phổ biến theo minSup. Các phần tử trong hai tập này được sắp xếp theo một trình tự nhất định (chẳng hạn, xếp theo thứ tự từ vựng).
- Tiếp theo sẽ kết hợp từng mục dữ liệu trong tập (1) với các mục dữ liệu còn lại bên phải của tập này và với tất cả các mục dữ liệu khác trong (2) để khởi tạo
khơng gian tìm kiếm các tập Sporadic khơng tuyệt đối hai ngưỡng đóng. Kết quả
của việc kết hợp này sẽ là tập các tập hai mục dữ liệu có chứa ít nhất một mục dữ liệu phổ biến theo maxSup. Độ hỗ trợ của các tập hai mục dữ liệu này là nhỏ hơn độ hỗ trợ maxSup nhưng không nhỏ hơn độ hỗ trợ minSup. Nói cách khác, các tập mục dữ liệu này không phổ biến theo độ hỗ trợ cận trên maxSup nhưng phổ biến theo độ hỗ trợ cận dưới minSup.
- Thực hiện tìm các tập Sporadic khơng tuyệt đối hai ngưỡng đóng trên khơng gian khởi tạo theo tinh thần thuật toán CHARM [94]. Thuật toán sẽ duyệt và tìm kiếm theo chiều sâu của khơng gian tìm kiếm các tập Sporadic khơng tuyệt đối hai ngưỡng đóng. Tất cả các tập khơng phải là tập Sporadic không tuyệt đối hai ngưỡng cũng như các nhánh khơng phải là tập đóng đều bị tỉa. Chiến lược tỉa cũng trên cơ sở dựa vào bốn tính chất của các cặp tập mục dữ liệu và tập định danh.