Phát hiện luật kết hợp với độ hỗ trợ nhiều mức

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng (Trang 28 - 30)

Thực tiễn cho thấy, với cùng một CSDL, có thể có nhiều tập mục có tần suất xuất hiện rất cao nhưng nhiều tập mục khác lại có tần suất xuất hiện rất thấp và việc sử dụng một ngưỡng độ hỗ trợ (tương ứng với giả thiết tần suất xuất hiện của các

mục là như nhau) là không hợp lý [5]. Hướng tiếp cận phát hiện luật kết hợp với độ hỗ trợ nhiều mức được đưa ra nhằm khắc phục điều bất hợp lý này, theo đó, người dùng có thể đưa ra ngưỡng độ hỗ trợ cực tiểu khác nhau cho từng mục dữ liệu. Bằng việc đặt độ hỗ trợ cực tiểu thấp cho các mục dữ liệu tần số thấp cho phép người sử

dụng sẽ tìm được các luật kết hợp đa dạng hơn.

B. Lui và cộng sự [59] giới thiệu thuật toán MSApriori phát hiện luật kết hợp với độ hỗ trợ cực tiểu cho từng mục dữ liệu (mục dữ liệu i có độ hỗ trợ cực tiểu

MIS(i); MIS - minimum item supports). Độ hỗ trợ của tập mục X = min{MIS (i):

"iỴX}. Tương tự cho định nghĩa độ hỗ trợ cực tiểu của một luật. Như vậy, luật

r: a1a2…ak ® ak+1…ar thỏa mãn độ hỗ trợ cực tiểu nếu có độ hỗ trợ lớn hơn hoặc

bằng min(MIS(a1), MIS(a2), …, MIS(ar)). Trong thực nghiệm, các tác giả xây dựng công thức thiết lập giá trị MIS cho từng mục dữ liệu dựa trên các tham số: (1) LS là ngưỡng độ hỗ trợ nhỏ nhất, (2) tham số β (0≤β≤1.0) và (3) tần số xuất hiện (tính

theo %) của các mục dữ liệu trong CSDL. Hai tham số LS và β được người sử dụng xác định. Mặc dù thuật tốn MSApriori có tính đến tần suất xuất hiện của các mục

29

dữ liệu trong CSDL nhưng chỉ tiêu để phát hiện luật phụ thuộc chủ yếu vào giá trị

của tham số β chứ không phải là tần suất xuất hiện của từng mục dữ liệu.

H. Yun và cộng sự [93] chỉ ra rằng việc xác định giá trị tham số β trong thuật toán MSApriori phù hợp nhất sẽ gặp rất nhiều khó khăn, đặc biệt trong các CSDL

có nhiều mục dữ liệu. Khắc phục hạn chế này, các tác giả đề xuất thuật toán RSAA (Relative Support Apriori Algorithm) nhằm sinh các luật trong đó có mục dữ liệu

hiếm mà không sử dụng thêm tham số nào khác do người sử dụng đưa vào. Thuật

toán sử dụng các tham số: (1) Độ hỗ trợ thứ nhất: là giá trị do người sử dụng đưa

vào (giống như độ hỗ trợ dùng trong phát hiện luật kết hợp phổ biến); (2) Độ hỗ trợ thứ hai: là giá trị do người sử dụng đưa vào dùng để phát hiện luật kết hợp hiếm (độ hỗ trợ này luôn nhỏ hơn độ hỗ trợ thứ nhất); và (3) Độ hỗ trợ quan hệ (relative

support) theo công thức do các tác giả đề xuất. Tương tự MSApriori, thuật toán

RSAA cũng cần đặt ngưỡng độ hỗ trợ cực tiểu riêng cho mỗi mục dữ liệu. Việc sử dụng ngưỡng độ hỗ trợ cực tiểu khác nhau dẫn đến vấn đề cần phải có cách lựa

chọn ngưỡng độ hỗ trợ cực tiểu phù hợp cho từng mục dữ liệu.

Z. Chunjiang và cộng sự [29] cũng sử dụng cách đặt ngưỡng độ hỗ trợ như

trong [59]. Tuy nhiên thuật toán sử dụng cách tiếp cận FP-Tree nên thực hiện nhanh hơn thuật toán MSApriori.

R.U. Kiran và P.K. Reddy [46] chỉ ra một số hạn chế của thuật toán MSApriori. Để khắc phục hạn chế đó, các tác giả sử dụng tham số SD (support

difference) để xác định độ hỗ trợ cực tiểu cho các mục dữ liệu. Tham số SD liên

quan đến tần suất xuất hiện của mục dữ liệu vì vậy tập mục dữ liệu chứa mục dữ liệu này được xem như là tập phổ biến. Thuật toán IMSApriori (Improved Multiple Support Apriori Algorithm) được đề xuất để tìm các tập phổ biến [46].

Phát triển nghiên cứu này, hai tác giả trên [47] sử dụng mơ hình ràng buộc cực tiểu (minimum constraint model) áp dụng cho các CSDL rất thưa và đề xuất thuật

toán sử dụng tiếp cận của thuật toán FP-growth thay cho thuật toán Apriori.

30

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng (Trang 28 - 30)

Tải bản đầy đủ (PDF)

(133 trang)