Phát hiện luật kết hợp với độ hỗ trợ nhiều mức

Một phần của tài liệu Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng.PDF (Trang 28 - 30)

Thực tiễn cho thấy, với cùng một CSDL, có thể có nhiều tập mục có tần suất xuất hiện rất cao nhưng nhiều tập mục khác lại có tần suất xuất hiện rất thấp và việc sử dụng một ngưỡng độ hỗ trợ (tương ứng với giả thiết tần suất xuất hiện của các mục là như nhau) là không hợp lý [5]. Hướng tiếp cận phát hiện luật kết hợp với độ

hỗ trợ nhiều mức được đưa ra nhằm khắc phục điều bất hợp lý này, theo đó, người dùng có thểđưa ra ngưỡng độ hỗ trợ cực tiểu khác nhau cho từng mục dữ liệu. Bằng việc đặt độ hỗ trợ cực tiểu thấp cho các mục dữ liệu tần số thấp cho phép người sử

dụng sẽ tìm được các luật kết hợp đa dạng hơn.

B. Lui và cộng sự [59] giới thiệu thuật toán MSApriori phát hiện luật kết hợp với độ hỗ trợ cực tiểu cho từng mục dữ liệu (mục dữ liệu i có độ hỗ trợ cực tiểu MIS(i); MIS - minimum item supports). Độ hỗ trợ của tập mục X = min{MIS (i):

"iÎX}. Tương tự cho định nghĩa độ hỗ trợ cực tiểu của một luật. Như vậy, luật r: a1a2…ak ® ak+1…ar thỏa mãn độ hỗ trợ cực tiểu nếu có độ hỗ trợ lớn hơn hoặc bằng min(MIS(a1), MIS(a2), …, MIS(ar)). Trong thực nghiệm, các tác giả xây dựng công thức thiết lập giá trị MIS cho từng mục dữ liệu dựa trên các tham số: (1) LS là ngưỡng độ hỗ trợ nhỏ nhất, (2) tham số β (0≤β≤1.0) và (3) tần số xuất hiện (tính theo %) của các mục dữ liệu trong CSDL. Hai tham số LS và βđược người sử dụng xác định. Mặc dù thuật toán MSApriori có tính đến tần suất xuất hiện của các mục

29

dữ liệu trong CSDL nhưng chỉ tiêu để phát hiện luật phụ thuộc chủ yếu vào giá trị

của tham sốβ chứ không phải là tần suất xuất hiện của từng mục dữ liệu.

H. Yun và cộng sự [93] chỉ ra rằng việc xác định giá trị tham sốβ trong thuật toán MSApriori phù hợp nhất sẽ gặp rất nhiều khó khăn, đặc biệt trong các CSDL có nhiều mục dữ liệu. Khắc phục hạn chế này, các tác giảđề xuất thuật toán RSAA (Relative Support Apriori Algorithm) nhằm sinh các luật trong đó có mục dữ liệu hiếm mà không sử dụng thêm tham số nào khác do người sử dụng đưa vào. Thuật toán sử dụng các tham số: (1) Độ hỗ trợ thứ nhất: là giá trị do người sử dụng đưa vào (giống nhưđộ hỗ trợ dùng trong phát hiện luật kết hợp phổ biến); (2) Độ hỗ trợ

thứ hai: là giá trị do người sử dụng đưa vào dùng để phát hiện luật kết hợp hiếm (độ

hỗ trợ này luôn nhỏ hơn độ hỗ trợ thứ nhất); và (3) Độ hỗ trợ quan hệ (relative support) theo công thức do các tác giả đề xuất. Tương tự MSApriori, thuật toán RSAA cũng cần đặt ngưỡng độ hỗ trợ cực tiểu riêng cho mỗi mục dữ liệu. Việc sử

dụng ngưỡng độ hỗ trợ cực tiểu khác nhau dẫn đến vấn đề cần phải có cách lựa chọn ngưỡng độ hỗ trợ cực tiểu phù hợp cho từng mục dữ liệu.

Z. Chunjiang và cộng sự [29] cũng sử dụng cách đặt ngưỡng độ hỗ trợ như

trong [59]. Tuy nhiên thuật toán sử dụng cách tiếp cận FP-Tree nên thực hiện nhanh hơn thuật toán MSApriori.

R.U. Kiran và P.K. Reddy [46] chỉ ra một số hạn chế của thuật toán MSApriori. Để khắc phục hạn chế đó, các tác giả sử dụng tham số SD (support difference) để xác định độ hỗ trợ cực tiểu cho các mục dữ liệu. Tham số SD liên quan đến tần suất xuất hiện của mục dữ liệu vì vậy tập mục dữ liệu chứa mục dữ

liệu này được xem như là tập phổ biến. Thuật toán IMSApriori (Improved Multiple Support Apriori Algorithm) được đề xuất để tìm các tập phổ biến [46].

Phát triển nghiên cứu này, hai tác giả trên [47] sử dụng mô hình ràng buộc cực tiểu (minimum constraint model) áp dụng cho các CSDL rất thưa và đề xuất thuật toán sử dụng tiếp cận của thuật toán FP-growth thay cho thuật toán Apriori.

30

Một phần của tài liệu Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng.PDF (Trang 28 - 30)