Thực tiễn cho thấy, với cùng một CSDL, có thể có nhiều tập mục có tần suất xuất hiện rất cao nhưng nhiều tập mục khác lại có tần suất xuất hiện rất thấp và việc sử dụng một ngưỡng độ hỗ trợ (tương ứng với giả thiết tần suất xuất hiện của các
mục là như nhau) là không hợp lý [5]. Hướng tiếp cận phát hiện luật kết hợp với độ hỗ trợ nhiều mức được đưa ra nhằm khắc phục điều bất hợp lý này, theo đó, người dùng có thể đưa ra ngưỡng độ hỗ trợ cực tiểu khác nhau cho từng mục dữ liệu. Bằng việc đặt độ hỗ trợ cực tiểu thấp cho các mục dữ liệu tần số thấp cho phép người sử
dụng sẽ tìm được các luật kết hợp đa dạng hơn.
B. Lui và cộng sự [59] giới thiệu thuật toán MSApriori phát hiện luật kết hợp với độ hỗ trợ cực tiểu cho từng mục dữ liệu (mục dữ liệu i có độ hỗ trợ cực tiểu
MIS(i); MIS - minimum item supports). Độ hỗ trợ của tập mục X = min{MIS (i):
"iỴX}. Tương tự cho định nghĩa độ hỗ trợ cực tiểu của một luật. Như vậy, luật
r: a1a2…ak ® ak+1…ar thỏa mãn độ hỗ trợ cực tiểu nếu có độ hỗ trợ lớn hơn hoặc
bằng min(MIS(a1), MIS(a2), …, MIS(ar)). Trong thực nghiệm, các tác giả xây dựng công thức thiết lập giá trị MIS cho từng mục dữ liệu dựa trên các tham số: (1) LS là ngưỡng độ hỗ trợ nhỏ nhất, (2) tham số β (0≤β≤1.0) và (3) tần số xuất hiện (tính
theo %) của các mục dữ liệu trong CSDL. Hai tham số LS và β được người sử dụng xác định. Mặc dù thuật tốn MSApriori có tính đến tần suất xuất hiện của các mục
29
dữ liệu trong CSDL nhưng chỉ tiêu để phát hiện luật phụ thuộc chủ yếu vào giá trị
của tham số β chứ không phải là tần suất xuất hiện của từng mục dữ liệu.
H. Yun và cộng sự [93] chỉ ra rằng việc xác định giá trị tham số β trong thuật toán MSApriori phù hợp nhất sẽ gặp rất nhiều khó khăn, đặc biệt trong các CSDL
có nhiều mục dữ liệu. Khắc phục hạn chế này, các tác giả đề xuất thuật toán RSAA (Relative Support Apriori Algorithm) nhằm sinh các luật trong đó có mục dữ liệu
hiếm mà không sử dụng thêm tham số nào khác do người sử dụng đưa vào. Thuật
toán sử dụng các tham số: (1) Độ hỗ trợ thứ nhất: là giá trị do người sử dụng đưa
vào (giống như độ hỗ trợ dùng trong phát hiện luật kết hợp phổ biến); (2) Độ hỗ trợ thứ hai: là giá trị do người sử dụng đưa vào dùng để phát hiện luật kết hợp hiếm (độ hỗ trợ này luôn nhỏ hơn độ hỗ trợ thứ nhất); và (3) Độ hỗ trợ quan hệ (relative
support) theo công thức do các tác giả đề xuất. Tương tự MSApriori, thuật toán
RSAA cũng cần đặt ngưỡng độ hỗ trợ cực tiểu riêng cho mỗi mục dữ liệu. Việc sử dụng ngưỡng độ hỗ trợ cực tiểu khác nhau dẫn đến vấn đề cần phải có cách lựa
chọn ngưỡng độ hỗ trợ cực tiểu phù hợp cho từng mục dữ liệu.
Z. Chunjiang và cộng sự [29] cũng sử dụng cách đặt ngưỡng độ hỗ trợ như
trong [59]. Tuy nhiên thuật toán sử dụng cách tiếp cận FP-Tree nên thực hiện nhanh hơn thuật toán MSApriori.
R.U. Kiran và P.K. Reddy [46] chỉ ra một số hạn chế của thuật toán MSApriori. Để khắc phục hạn chế đó, các tác giả sử dụng tham số SD (support
difference) để xác định độ hỗ trợ cực tiểu cho các mục dữ liệu. Tham số SD liên
quan đến tần suất xuất hiện của mục dữ liệu vì vậy tập mục dữ liệu chứa mục dữ liệu này được xem như là tập phổ biến. Thuật toán IMSApriori (Improved Multiple Support Apriori Algorithm) được đề xuất để tìm các tập phổ biến [46].
Phát triển nghiên cứu này, hai tác giả trên [47] sử dụng mơ hình ràng buộc cực tiểu (minimum constraint model) áp dụng cho các CSDL rất thưa và đề xuất thuật
toán sử dụng tiếp cận của thuật toán FP-growth thay cho thuật toán Apriori.
30