1.2.3.1 Giới thiệu luật kết hợp
Trong lĩnh vực khai phõ dữ liệu, mục đợch của luật kết hợp lỏ tớm ra cõc mối quan hệ giữa cõc đối tượng trong khối lượng lớn dữ liệu. Nội dung cơ bản của luật kết hợp được tụm tắt như dưới đĩy.
Cho cơ sở dữ liệu T gồm cõc giao dịch t1, t2, …, tn.
T = {t1, t2, …, tn}. T gọi lỏ cơ sở dữ liệu giao dịch (Transaction Database)
Mỗi giao dịch ti bao gồm tập cõc phần tử I (gọi lỏ itemset) I = {i1, i2, …, im}. Một itemset gồm k phần tử gọi lỏ k-itemset
Mục đợch của luật kết hợp lỏ tớm ra sự kết hợp (association) hay tương quan
(correlation) giữa cõc phần tử. Những luật kết hợp nỏy cụ dạng X→Y
1.2.3.2 Độ hỗ trợ vỏ độ tin cậy
Độ hỗ trợ (Support) của luật kết hợp X→ Y lỏ tần suất của giao dịch chứa tất cả cõc phần tử trong cả hai tập X vỏ Y. Vợ dụ, độ hỗ trợ của
luật X→Y lỏ 5% cụ nghĩa lỏ 5% cõc giao dịch X vỏ Y được mua cỳng nhau.
∪ ) �(� � �������( →� �) = �( ∪� �) = � Trong đụ: - �(� ∪ �) lỏ số giao dịch của tập � ∪ � - N lỏ tổng số giao dịch.
Độ tin cậy (Confidence) của luật kết hợp X→Y lỏ xõc suất xảy ra Y khi đọ biết X. Vợ dụ độ tin cậy của luật kết hợp {Tõo} → {Cam} lỏ 80% cụ nghĩa lỏ 80% khõch hỏng mua Tõo cũng mua Cam.
Cừng thức để tợnh độ tin cậy của luật kết hợp X→Y lỏ xõc suất cụ điều kiện
Y khi đọ biết X như sau:
∪ ) �(� � ����������( →� �) = �(�|�) =
) �(� Trong đụ: n(X) lỏ số giao dịch chứa X
Để thu được cõc luật kết hợp, ta thường õp dụng hai tiởu chợ: độ hỗ trợ tối thiểu (minimum support viết tắt lỏ min_sup) vỏ độ tin cậy tối thiểu (minimum
confidence viết tắt lỏ min_conf). Cõc luật thỏa mọn cụ giõ trị support vỏ confidence lớn hơn hoặc bằng cả min_sup vỏ min_conf gọi lỏ cõc luật mạnh. min_sup vỏ min_conf gọi lỏ cõc giõ trị ngưỡng vỏ phải xõc định trước khi sinh
cõc luật kết hợp.
Một giao dịch mỏ tần suất xuất hiện của nụ ≥ min_sup gọi lỏ tập phổ biến
(frequent itemset).
1.2.3.3 Một số loại luật kết hợp
- Luật kết hợp nhị phĩn (Binary association rules)
- Luật kết hợp định lượng (Quantitative association rules) - Luật kết hợp mờ (Fuzzy association rules)
Thuật tõn phổ biến nhất tớm cõc luật kết hợp lỏ thuật tõn Apriori sử dụng luật kết hợp nhị phĩn.
1.2.3.4 Thuật tõn Apriori
Apriori lỏ thuật tõn được Agarwal vỏ cộng sự [6] đề xuất vỏo năm 1994. Bỏi tõn được phõt biểu như sau: Tớm t cụ độ hỗ trợ support thỏa mọn support
min_sup vỏ độ tin cậy Confidence min_conf. Ký hiệu Lk lỏ tập cõc tập k - mục phổ biến, Ck tập cõc tập k-mục ứng viởn. Bỏi tõn đặt ra lỏ:
1. Tớm tất cả cõc tập mục phổ biến với giõ trị min_sup nỏo đụ.
2. Sử dụng cõc tập mục phổ biến để sinh ra cõc luật kết hợp với độ tin cậy
min_conf nỏo đụ.
Luận õn sử dụng thuật tõn Apriori tớm tất cả cõc tập mục phổ biến lớn hơn giõ trị tối thiểu min_sup.
Giả mọ vỏ mừ tả thuật tõn được trớnh bỏy dưới đĩy:
Thuật tõn 1.1: Thuật tõn Apriori
Đầu vỏo: Cơ sở dữ liệu giao dịch; min_sup: độ phổ biến tối thiểu
1: L[1] = {1-itemset} 2: k = 2 3: While(L[k-1]!=ì) 4: C[k] = getUnion(L[k-1]) 5: C[k] = pruning(C[k]) 6: L[k] = getAboveMinSup(C[k], min_sup) 7 k = k+1 Đầu ra: L
Mừ tả: Thuật tõn 1.1 nhận cõc tham số đầu vỏo gồm CSDL giao dịch vỏ giõ độ phổ biến tối thiểu min_sup. Khởi tạo tập ứng viởn gồm 1 phần tử cụ giõ trị phổ biến lớn hơn giõ trị min_sup (dúng 1). Thực hiện mở rộng độ dỏi cõc phần tử từ 2 (dúng 2). Với mỗi lần mở rộng, tạo cõc tập ứng viởn kợch thước k phần tử (k
–itemset) từ cõc tập phổ biến cụ kợch thước (k-1) phần tử (dúng 4) vỏ loại bỏ cõc tập ứng viởn nếu cụ tập mục khừng thường xuyởn (dúng 5). Tợnh tõn tập phổ biến cuối cỳng bằng cõch nhận những tập hợp thỏa mọn hỗ trợ tối thiểu (dúng 6). Kết quả thu được cõc tập phổ biến cụ độ phổ biến lớn hơn min_sup.