Phương pháp sinh luật kết hợp mạnh

Một phần của tài liệu Khai phá mẫu phổ biến, luật kết hợp và thước đo tương quan (Trang 27)

Từ tập mục phổ biến được tìm thấy từ CSDL giao dịch nhờ thuật toán Apriori, có thể dễ dàng sinh các luật kết hợp mạnh từ chúng.

Luật kết hợp mạnh là luật kết hợp thỏa mãn cả hai độ hỗ trợ tối thiểu – minsup và độ tin cậy tối thiểu – minconf. Để thực hiện được việc này ta sử dụng phương trình sau để tính độ tin cậy của luật:

(2.1)

Trong đó: support_count (AB) là số giao dịch có chứa các tập mục AB và

support_count (A) là số giao dịch có chứa tập mục A.

Dựa vào công thức này, luật kết hợp có thể được sinh ra như sau:

Với mỗi tập mục phổ biến l, sinh tất cả các tập con khác rỗng của l. s≠, s l, sinh luật có dạng s( l-s), nếu

với min_conf là ngưỡng tin cậy tối thiểu. Do các luật được sinh từ tập mục phổ biến, mỗi tập mục tự động thỏa mãn độ hỗ trợ tối thiểu – minsup.

Ví dụ 2.3. Sinh luật kết hợp

Sử dụng một CSDL giao dịch được thể hiện trong Bảng 2.1 để thể hiện quá trình sinh luật kết hợp. Theo ví dụ 2.1, ta tìm được hai tập mục phổ biến có độ dài bằng 3 (3- itemsets) là {I1,I2,I5} và {I1,I2,I3}.

Xét tập mục phổ biến l= {I1,I2,I3}. Những tập con khác rỗng của l gồm:

{I1,I2}, {I1,I5}, {I5,I2}, {I1}, {I2}, {I5}. Kết quả, ta thu được các luật kết hợp cùng với độ tin cậy của chúng như sau:

I1˄I2I5 độ tin cậy =2/4=50% I1˄I5I2 độ tin cậy =2/2=100% I2˄I5I1 độ tin cậy =2/2=100% I1I2˄I5 độ tin cậy =2/6=33% I2I1˄I5 độ tin cậy =2/7=29% I5I1˄I2 độ tin cậy =2/2=100%

Giả sử ngưỡng tin cậy tối thiểu min-conf là 70%, thì chỉ có luật thứ hai, thứ ba và luật cuối cùng được lấy ra, và các luật này là các luật kết hợp mạnh ( do độ hỗ trợ -

confidence lớn hơn min-conf = 70%). Ta thấy rằng, không giống như quy tắc phân loại luật thông thường, luật kết hợp có thể chứa nhiều hơn một liên kết ở vế phải của luật.

Một phần của tài liệu Khai phá mẫu phổ biến, luật kết hợp và thước đo tương quan (Trang 27)