Luật kết hợp hiếm hàm ý chỉ các luật kết hợp không xảy ra thường xuyên trong các CSDL. Mặc dù ít khi xảy ra, nhưng trong nhiều trường hợp chúng lại là các luật rất có giá trị.
Phát hiện luật kết hợp hiếm là một phần của bài toán phát hiện luật kết hợp và hiện đang nhận được nhiều sự quan tâm của các nhà nghiên cứu. Luật kết hợp hiếm
được ứng dụng ở nhiều các lĩnh vực khác nhau. Các luật hiếm sẽ giúp cho việc học
phát âm từ, xác định ảnh hưởng của các hoạt động trong việc học trực tuyến đến kết quả đánh giá cuối cùng của sinh viên, xác định được các bệnh hiếm gặp trong y
khoa, dự báo việc hỏng thiết bị truyền thông, phát hiện dấu hiệu tràn dầu trên hình
ảnh vệ tinh, hay giúp xác định được các mặt hàng tuy ít xảy ra trong các giao dịch
mua bán nhưng lại có giá trị lớn hoặc mang lại lợi nhuận cao trong kinh tế [21, 26, 46, 47, 49, 50, 53, 56, 58, 59, 66, 68, 72, 75, 76, 80, 83-85, 90, 93]. Như đã được
giới thiệu, L. Szathmary và cộng sự [76] trình bày hai ứng dụng nổi tiếng của luật
kết hợp hiếm, đó là luật kết hợp hiếm “ăn chay” ® “bệnh tim mạch” trong CSDL
điều trị bệnh nhân Stanislas ở Pháp và luật kết hợp hiếm giữa các loại thuốc hạ lipid
trong máu Cerivastatin ảnh hưởng tới một số bệnh nhân (dẫn tới quyết định thu hồi loại thuốc này trên thị trường dược phẩm).
Phần lớn các thuật toán phát hiện luật kết hợp hiện nay thường chỉ thực hiện tìm các tập phổ biến cho các luật có độ hỗ trợ và độ tin cậy cao. Việc ứng dụng các thuật toán này, chẳng hạn như thuật tốn Apriori để tìm tập hiếm (có độ hỗ trợ nhỏ
39
hơn một giá trị chung minSup nào đó cho trước) tương ứng với các luật hiếm là
khơng hiệu quả vì khi đó phải đặt ngưỡng độ hỗ trợ cực tiểu rất nhỏ nên số lượng
các tập tìm được sẽ khá lớn (trong khi chỉ có một phần trong các tập tìm được là tập không phổ biến theo ngưỡng độ hỗ trợ cực tiểu minSup), chi phí cho việc tìm kiếm sẽ tăng lên. Nhằm khắc phục những khó khăn này, các thuật tốn riêng tìm các luật hiếm đã được phát triển theo cách tiếp cận chính được trình bày trong phần 1.4.2.