E. Cohen và cộng sự [30] giới thiệu kỹ thuật tìm luật hỗ trợ có độ tin cậy cao và bỏ qua ràng buộc theo ngưỡng độ hỗ trợ. Các tác giả xem CSDL như một ma
trận kích thước n´m (n: số lượng giao dịch, m: số lượng mục dữ liệu) gồm các phần tử có giá trị 0/1. Ma trận được giả định là "thưa" cho nên số lượng giá trị 1 trên một dòng (một giao dịch) có cỡ r (r<m). Độ tương tự của hai cột (mục dữ liệu) được tính bằng thương của số lượng hàng có giá trị 1 ở cả hai cột chia cho số lượng hàng chứa giá trị 1 hoặc ở một cột hoặc ở cả hai cột. Theo kỹ thuật này, đầu tiên, mọi cặp hai
cột có độ tương tự vượt qua ngưỡng được xác định, và sau đó, mọi cặp hai cột có độ
32
tin cậy cao được xác định nhờ áp dụng giải pháp tỉa. Để kỹ thuật nói trên đáp ứng được với CSDL lớn (n cỡ 109, m cỡ 106, và r cỡ 102), các tác giả đề xuất cách tiếp cận ba giai đoạn: tính tốn chữ ký băm cho các cột, sinh ứng viên và cắt tỉa. Việc loại bỏ ràng buộc về độ hỗ trợ là một giải pháp hay, nhưng lại có nhược điểm là chi phí xử lý cao.
K. Wang và cộng sự [83] chỉ ra rằng các phương pháp phát hiện luật kết hợp truyền thống là không hiệu quả với trường hợp phát hiện luật có độ hỗ trợ rất nhỏ
hay khơng sử dụng độ hỗ trợ. Vì vậy, các tác giả đề xuất phương pháp tìm tất cả các luật thỏa mãn điều kiện độ tin cậy cực tiểu mà không xét đến ngưỡng độ hỗ trợ cực tiểu. Các luật thỏa mãn điều kiện này được gọi là “luật tin cậy”. Khác với phương
pháp dựa trên độ hỗ trợ, luật tin cậy khơng thỏa mãn tính chất đóng (vì luật r1: Tuổi >35 L Giới tính = Nam ® Lương = Thấp có độ tin cậy nhỏ hơn các luật: r2:Giới
tính = Nam ® Lương = Thấp hay luật r3: Tuổi >35 ® Lương = Thấp).
Trong nghiên cứu này, các tác giả đã đề xuất phương pháp cắt tỉa dựa vào độ tin cậy để sinh luật. Giả thiết có 3 luật r1, r2 và r3 mơ tả như trên. Các luật r2 và r3 là hai trường hợp đặc biệt của luật r1. Độ tin cậy của luật r2 và r3 phải lớn hơn hoặc
bằng độ tin cậy của r1. Vì vậy, có thể loại bỏ r1 khi r2 hoặc r3 là không tin cậy. Từ
nhận xét này các tác giả đưa ra quy tắc: Với mỗi thuộc tính ai khơng xuất hiện ở
trong luật x ® c thì: (i) các luật có được bằng cách bổ sung thêm thuộc tính ai vào phần tiền đề của luật có độ hỗ trợ ít nhất là bằng luật x ® c; (ii) Nếu luật x ® c là luật tin cậy thì luật có được bằng cách bổ sung thêm thuộc tính ai vào phần tiền đề cũng là luật tin cậy. Tính chất này cịn được gọi là tính chất đóng khơng gian
(universal-existential upward closure). Các tác giả sử dụng tính chất này để sinh các luật mà khơng sử dụng ràng buộc về độ hỗ trợ. Tuy nhiên cũng giống như trường
hợp phát hiện luật dựa trên độ hỗ trợ, phương pháp này cũng yêu cầu nhiều bộ nhớ cho việc tìm các ứng cử viên trong quá trình thực hiện.
H. Xiong và cộng sự [90] nghiên cứu các tập mục dữ liệu trong đó chứa các
mục với độ hỗ trợ ở các mức khác nhau. Các tác giả giới thiệu độ đo H-độ tin cậy để khai phá các mẫu có bó cụm cao (hyperclique). Các mẫu bó cụm cao là một dạng
của luật kết hợp có chứa các đối tượng có liên kết cao với nhau, tức là, mỗi cặp các
33
đối tượng trong một mẫu bó cụm cao có đặc điểm giống nhau (hệ số tương quan) ở
trên một ngưỡng xác định. H-độ tin cậy có đặc tính rất hữu ích trong việc loại bỏ
các tập ứng cử viên có các mục dữ liệu có độ hỗ trợ khác nhau. H-độ tin cậy có tính chất anti-monotone (tức là nếu P Í P’ thì hconf(P) ³ hconf(P’)). Một mẫu bó cụm cao P là mẫu kết hợp có liên kết mạnh vì mỗi mục dữ liệu bất kỳ x Ỵ P trong một
tác vụ hàm ý thể hiện P\{x} trong cùng tác vụ. Độ đo H-độ tin cậy được thiết lập
nhằm lưu giữ những mối liên kết cao dạng này. Mặc dù đã có các mẫu bó cụm cao trong q trình sinh luật chúng ta vẫn có thể bỏ qua các luật giá trị. Ví dụ, tập dữ liệu {A,B,C} tạo ra các luật có độ tin cậy thấp A ® BC, B ® AC và C ® AB,
nhưng luật có độ tin cậy cao AB ® C có thể bị bỏ qua.