Chúng ta có thể sinh ra các tập luật kết hợp từ các tập mục phổ biến với độ tin cậy tối thiểu là 70%.
R1: I1 ^ I2 I5
Độ tin cậy = sc{I1,I2,I5}/sc{I1,I2} = 2/4 = 50% R1 sẽ bị loại bỏ.
R2: I1 ^ I5 I2
Độ tin cậy = sc{I1,I2,I5}/sc{I1,I5} = 2/2 = 100% R2 sẽ được chọn.
R3: I2 ^ I5 I1
Độ tin cậy = sc{I1,I2,I5}/sc{I2,I5} = 2/2 = 100% R3 sẽ được chọn.
R4: I1 I2 ^ I5
Độ tin cậy = sc{I1,I2,I5}/sc{I1} = 2/6 = 33% R4 sẽ bị loại bỏ.
R5: I2 I1 ^ I5
Độ tin cậy = sc{I1,I2,I5}/{I2} = 2/7 = 29% R5 sẽ bị loại bỏ.
R6: I5 I1 ^ I2
Độ tin cậy = sc{I1,I2,I5}/ {I5} = 2/2 = 100% R6 sẽ được chọn.
2.2.5 Một số kỹ thuật cải tiến thuật toán Apriori
Apriori là một thuật toán khá hiệu quả trong việc tìm kiếm tập mục phổ biến, tuy nhiên thuật toán này còn tồn đọng một số vấn đề như:
Phải duyệt CSDL nhiều lần, do mỗi lần sinh tập mục ứng viên phải duyệt CSDL một lần.
Chưa tối ưu hóa được tập các ứng viên, vì thế số lượng các ứng viên trong tập mục là khá lớn.
Hai vấn đề này làm tăng chi phí khi thực hiện thuật toán. Có nhiều cải tiến của thuật toán Apriori được đề xuất để nâng cao hiệu quả của thuật toán ban đầụ Một số cải tiến đó được tóm lược như sau[9]:
(1) Kỹ thuật dựa trên bảng băm (hash-based technique): Thực hiện băm các tập mục thành các nhóm tương ứng. Kĩ thuật hàm băm có thể được dùng để giảm kích thước của k-tập mục ứng viên, Ck, với k > 1.
Ví dụ, khi quét mỗi giao dịch trong CSDL để sinh tập mục phổ biến 1- itemset F1 từ tập các ứng viên C1, chúng ta có thể sinh tất cả các tập mục phổ biến F2 với mỗi giao dịch, băm chúng vào các nhóm khác nhau trong cấu trúc
bảng băm, và tăng số đếm các nhóm tương ứng. Một tập mục có độ dài 2-
itemsets tương ứng với nhóm có số đếm 2 trong bảng băm dưới mức ngưỡng độ hỗ trợ tối thiểu thì không thể là phổ biến và vì vậy có thể loại bỏ khỏi tập ứng viên. Kỹ thuật dựa trên bảng băm có thể giảm số lượng ứng viên tập k- item được (đặc biệt khi k = 2).