Phát hiện luật kết hợp không sử dụng độ hỗ trợ cực tiểu

Một phần của tài liệu Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng.PDF (Trang 31 - 33)

E. Cohen và cộng sự [30] giới thiệu kỹ thuật tìm luật hỗ trợ có độ tin cậy cao và bỏ qua ràng buộc theo ngưỡng độ hỗ trợ. Các tác giả xem CSDL như một ma trận kích thước n´m (n: số lượng giao dịch, m: số lượng mục dữ liệu) gồm các phần tử có giá trị 0/1. Ma trận được giảđịnh là "thưa" cho nên số lượng giá trị 1 trên một dòng (một giao dịch) có cỡ r (r<m). Độ tương tự của hai cột (mục dữ liệu) được tính bằng thương của số lượng hàng có giá trị 1 ở cả hai cột chia cho số lượng hàng chứa giá trị 1 hoặc ở một cột hoặc ở cả hai cột. Theo kỹ thuật này, đầu tiên, mọi cặp hai cột có độ tương tự vượt qua ngưỡng được xác định, và sau đó, mọi cặp hai cột có độ

32

tin cậy cao được xác định nhờ áp dụng giải pháp tỉa. Để kỹ thuật nói trên đáp ứng

được với CSDL lớn (n cỡ 109, m cỡ 106, và r cỡ 102), các tác giả đề xuất cách tiếp cận ba giai đoạn: tính toán chữ ký băm cho các cột, sinh ứng viên và cắt tỉa. Việc loại bỏ ràng buộc vềđộ hỗ trợ là một giải pháp hay, nhưng lại có nhược điểm là chi phí xử lý cao.

K. Wang và cộng sự [83] chỉ ra rằng các phương pháp phát hiện luật kết hợp truyền thống là không hiệu quả với trường hợp phát hiện luật có độ hỗ trợ rất nhỏ

hay không sử dụng độ hỗ trợ. Vì vậy, các tác giảđề xuất phương pháp tìm tất cả các luật thỏa mãn điều kiện độ tin cậy cực tiểu mà không xét đến ngưỡng độ hỗ trợ cực tiểu. Các luật thỏa mãn điều kiện này được gọi là “luật tin cậy”. Khác với phương pháp dựa trên độ hỗ trợ, luật tin cậy không thỏa mãn tính chất đóng (vì luật r1: Tuổi >35 L Giới tính = Nam ® Lương = Thấp có độ tin cậy nhỏ hơn các luật: r2:Giới tính = Nam ® Lương = Thấp hay luật r3: Tuổi >35 ® Lương = Thấp).

Trong nghiên cứu này, các tác giả đã đề xuất phương pháp cắt tỉa dựa vào độ

tin cậy để sinh luật. Giả thiết có 3 luật r1, r2 và r3 mô tả như trên. Các luật r2 và r3 là hai trường hợp đặc biệt của luật r1. Độ tin cậy của luật r2 và r3 phải lớn hơn hoặc bằng độ tin cậy của r1. Vì vậy, có thể loại bỏ r1 khi r2 hoặc r3 là không tin cậy. Từ

nhận xét này các tác giả đưa ra quy tắc: Với mỗi thuộc tính ai không xuất hiện ở

trong luật x ® c thì: (i) các luật có được bằng cách bổ sung thêm thuộc tính ai vào phần tiền đề của luật có độ hỗ trợ ít nhất là bằng luật x ® c; (ii) Nếu luật x ® c là luật tin cậy thì luật có được bằng cách bổ sung thêm thuộc tính ai vào phần tiền đề

cũng là luật tin cậy. Tính chất này còn được gọi là tính chất đóng không gian (universal-existential upward closure). Các tác giả sử dụng tính chất này để sinh các luật mà không sử dụng ràng buộc về độ hỗ trợ. Tuy nhiên cũng giống như trường hợp phát hiện luật dựa trên độ hỗ trợ, phương pháp này cũng yêu cầu nhiều bộ nhớ

cho việc tìm các ứng cử viên trong quá trình thực hiện.

H. Xiong và cộng sự [90] nghiên cứu các tập mục dữ liệu trong đó chứa các mục với độ hỗ trợ ở các mức khác nhau. Các tác giả giới thiệu độ đo H-độ tin cậy

để khai phá các mẫu có bó cụm cao (hyperclique). Các mẫu bó cụm cao là một dạng của luật kết hợp có chứa các đối tượng có liên kết cao với nhau, tức là, mỗi cặp các

33

đối tượng trong một mẫu bó cụm cao có đặc điểm giống nhau (hệ số tương quan) ở

trên một ngưỡng xác định. H-độ tin cậy có đặc tính rất hữu ích trong việc loại bỏ

các tập ứng cử viên có các mục dữ liệu có độ hỗ trợ khác nhau. H-độ tin cậy có tính chất anti-monotone (tức là nếu P Í P’ thì hconf(P) ³ hconf(P’)). Một mẫu bó cụm cao P là mẫu kết hợp có liên kết mạnh vì mỗi mục dữ liệu bất kỳ x Î P trong một tác vụ hàm ý thể hiện P\{x} trong cùng tác vụ. Độ đo H-độ tin cậy được thiết lập nhằm lưu giữ những mối liên kết cao dạng này. Mặc dù đã có các mẫu bó cụm cao trong quá trình sinh luật chúng ta vẫn có thể bỏ qua các luật giá trị. Ví dụ, tập dữ

liệu {A,B,C} tạo ra các luật có độ tin cậy thấp A ® BC, B ® AC và C ® AB, nhưng luật có độ tin cậy cao AB ® C có thể bị bỏ qua.

Một phần của tài liệu Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng.PDF (Trang 31 - 33)