• Thử nghiệm với kích thước dữ liệu (số bản ghi tăng dần) và thời gian tìm kiếm luật
• Thử nghiệm kết quả bằng cách biến thiên độ hỗ trợ và độ tin cậy
• Thử nghiệm số luật tìm được khi biến thiên các trọng số hàm thuộc của các tập mờ
• Thử nghiệm với các toán tử T-norm khác nhau (phép lấy min và tích đại số) • Thử nghiệm chuyển từ luật kết hợp mờ sang luật kết hợp với thuộc tính được
Chương IV. Khai phá song song luật kết hợp mờ
Một trong những bước quan trọng của khai phá luật kết hợp là tìm tất cả các tập thuộc tính phổ biến trong CSDL. Đây là bước tương đối phức tạp và tốn nhiều thời gian của CPU (CPU-bound) lẫn thời gian vào ra (I/O-bound) nên các nhà làm tin học đã bỏ nhiều công sức để cải tiến những thuật toán cũ hoặc tìm ra các thuật toán mới nhằm tăng tốc độ tìm kiếm [AS94] [MTV94] [BCJ01] [PHM01] [ZH99] [PBTL99]. Những thuật toán này đều ở dạng tuần tự (sequential algorithms) và làm việc tương đối tốt với những CSDL có kích cỡ không quá lớn (tiêu chí đánh giá CSDL lớn hay nhỏ phụ thuộc vào số thuộc tính và số bản ghi). Tuy nhiên, những thuật toán này sẽ giảm tính hiệu quả một cách đáng kể khi gặp phải những CSDL lớn (hàng trăm megabyte trở lên) do hạn chế về dung lượng bộ nhớ trong và tốc độ tính toán của một máy tính đơn lẻ.
Với sự phát triển bùng nổ của công nghệ phần cứng, theo đó các hệ máy tính song song có sức mạnh tính toán vượt trội ra đời đã mở ra một hướng tiếp cận mới trong KPDL, đó là KPDL song song. Từ năm 1995 trở lại đây, các nhà nghiên cứu đã không ngừng đề xuất các thuật toán song song và phân tán cho bài toán phát hiện luật kết hợp [AM95] [PCY95] [AS96] [HKK97] [ZHL98] [ZPO01] [DP01]. Những thuật toán song song khá đa dạng do một phần chúng được thiết kế phụ thuộc vào kiến trúc của từng hệ máy tính song song cụ thể.
Trong phần đầu tiên của chương này tôi muốn trình bày sơ lược một số thuật toán song song đã đuợc đề xuất và thử nghiệm. Phần tiếp theo tôi xin đề xuất một thuật toán song song cho bài toán khai phá luật kết hợp mờ chạy trên hệ thống PC- Cluster với cơ chế truyền thông điệp của MPI (Message Passing Interface) [MPIS95] [EMPI97] [JDMPI97]. Đây là một thuật toán khá lý tưởng bởi nó hạn chế tối đa được quá trình đồng bộ hóa và trao đổi dữ liệu trong trong tiến trình song song hóa. Tuy nhiên, hạn chế của thuật toán này là chỉ làm việc được với luật kết hợp mờ và luật kết hợp với thuộc tính số và do đó nó phù hợp với CSDL dạng quan hệ hơn là dạng giao dịch.