CHƯƠNG 1 : CƠ SỞ LÝ LUẬN
1.3. Các Kỹ Thuật Khai Phá Dữ Liệu
1.3.2. Luật Kết Hợp
Khai phá luật kết hợp (Association Rule-AR) là một kỹ thuật quan trọng của khai phá dữ liệu được ra đời và rất được chú ý. Mục đích của luật kết hợp là tìm ra các mối quan hệ giữa các đối tượng trong khối lượng lớn dữ liệu. Nội dung cơ bản của luật kết hợp được mô tả như sau:
Cho cơ sở dữ liệu giao dịch T gồm có T = {t1, t2,…, tn}, I = {i1, i2, …, im}, với I gọi là itemset. Một itemset sẽ có k items được gọi k-itemset.
Hình 1-8 Công thức tính độ hỗ trợ và độ tin cậy của luật kết hợp X→Y
Nguồn: “Bis.Thuật toán Apriori khai phá luật kết hợp [Bài viết trên Blog]. Truy xuất từ: http://bis.net.vn/forums/t/389.aspx”
Trong đó: N tổng số giao dịch n(X) số giao dịch chứa X
Các luật có độ hỗ trợ và độ tin cậy lớn hơn hoặc bằng cả độ hỗ trợ tối thiểu (min_sup) và độ tin cậy tối thiểu (min_conf) thì được gọi là các luật mạnh.
Độ hỗ trợ tối thiểu (min_sup) và độ tin cậy tối thiểu (min_conf) là các giá trị ngưỡng (threshold) được xác định trước khi sinh các luật kết hợp.
Thuật toán Apriori
Apriori được đề xuất vào năm 1994 bởi Agrawal và R. Srikant là thuật toán khai phá tập mục phổ biến cho các luật kết hợp boolean. Vấn đề phát hiện tất cả các luật kết hợp có độ hỗ trợ và độ tin cậy vượt quá ngưỡng xác định. Tư tưởng chính của thuật toán này chính là:
Tìm ra tất cả tập mục phổ biến với min_sup nào đó.
Từ tập mục phổ biến tìm ra các luật kết hợp mạnh (thoả mãn 2 tham số min_sup và min_conf).
Các bước của thuật toán Apriori (Chức, 2011):
1. Duyệt toàn bộ dữ liệu giao dịch sao cho để có được support S của 1- itemset. Để có được 1-itemset (L1) bằng cách so sánh S với min_sup. 2. Sinh ra candidate k-itemset bằng cách sử dụng L(k-1) nối (join) L(k-1).
Các itemsets nào không phải là frequent itemsets thì loại bỏ thu được k- itemset.
4. Thực hiện lặp lại từ bước 2 cho đến khi không tìm thấy được frequent itemsets Candidate set (C) trống.
5. Với mỗi frequent itemset I, tạo ra tất cả các tập con s không rỗng của I. 6. Với mỗi tập con s mà không rỗng của I đó, sinh ra các luật s => (I-s)
nếu độ tin cậy (Confidence) của nó lớn hơn hoặc bằng min_conf.
Hình 1-9 Mô tả thuật toán Apriori
Nguồn: “ongxuanhong.Khai thác tập phổ biến (frequent itemsets) với thuật toán Apriori [Bài viết trên Blog]. Truy xuất từ:
https://ongxuanhong.wordpress.com/2015/08/23/khai-thac-luat-tap-pho-bien- frequent-itemsets-voi-thuat-toan-apriori/”