12.1 Khai phá dữ liệu với luật kết hợp 12.1.1 Khái niệm
Khai phá luật kết hợp trong cơ sở dữ liệu (CSDL) là kỹ thuật giúp tìm hiểu những sự kết hợp và những mối quan hệ đáng quan tâm từ những tập lớn dữ liệu chứa các hạng mục hàng được mua. Nó cho thấy tần suất một hạng mục xuất hiện trong giao dịch. Một ví dụ điển hình là Phân tích Dựa trên Thị trường
Phân tích Dựa trên Thị trường là một trong những kỹ thuật chính được sử dụng rộng rãi với những quan hệ lớn để cho thấy mối quan hệ giữa những hạng mục hàng được mọi người mua cùng nhau thường xuyên.
Việc xác định các quan hệ này không phân biệt vai trò khác nhau và các đặc tính dữ liệu vốn có của các mục dữ liệu mà chỉ dựa vào sự xuất hiện cùng lúc của chúng.
12.1.2 Các khái niệm cơ bản
Để minh họa cho các khái niệm, ta lấy ví dụ CSDL với các giao dịch sau.8
TID Itemset 1 A,B 2 B,D 3 B,C 4 A,B,D 5 A,C • Item: mặt hàng (), (), (), ().
• Itemset: danh sách các hạng mục trong giỏ hàng như {, , , }.
• Transaction: tập các hạng mục được mua trong một giỏ hàng và được lưu kèm với TID để tiện xử lí.
• Frequent item: là mẫu xuất hiện thường xuyên trong tập dữ liệu như {, } xuất hiện khá nhiều trong các giao dịch.
• Support: được tính bằngsupp(X) = count|D(|X). X là tập các hạng mục, D là CSDL giao dịch.Độ phổ biến được tính bằng số giao dịch chứa các hạng mục trong X chia cho tổng số lượng giao dịch. Đây là độ đo độ phổ biến khi xuất hiện cùng nhau của 1 tập các hạng mục cho trước.
• : là Itemset thỏa mãn Minsupp – do người dùng xác định. Nếusupp(S)≥minsuppthì S là tập phổ biến.
• Association Rule: kí hiệuX →Y, nghĩa là khi X có mặt thì Y cũng có mặt (với xác suất nào đó). Ví dụ,A→B;A, B →C.
8Khai thác tập phổ biến (frequent itemsets) với thuật toán Apriori, Ông Xuân Hồng,
https://ongxuanhong.wordpress.com/2015/08/23/khai-thac-luat-tap-pho-bien-frequent-itemsets-voi-thuat-toan- apriori/ (truy cập lần cuối 25/07/2021)
• Confidence: được tính bằngconf(X) = suppsupp(X(X+Y)). Độ tin cậy cho ta độ đo tần suất xuất hiện của những hạng mục trong Y khi đã biết trước X sẽ xuất hiện và được tính bằng tổng số giao dịch có cả X và Y chia cho tổng số giao dịch chỉ chứa X.
12.1.3 Bài toán khai phá luật kết hợp
Cho độ Minsupp và Minconf do người dùng xác định và tập các hạng mục I và CSDL D mẫu từ lịch sử giao dịch của doanh nghiệp.
Bài toán khai thác luật kết hợp là bài toán tìm tất cả các luật dạngX → Y(X, Y là tập con của I và X giao Y = ) thỏa mãn độ phổ biến và độ tin cậy tối thiểu supp(X → Y) ≥ minsupp, conf(X →Y)≥minconf 9.
12.1.4 Quy trình khai thác luật kết hợp
Bước 1: Tìm tất cả các tập phổ biến (theo ngưỡng Minsupp). Bước 2: Xây dựng luật từ các tập phổ biến
• Đối với mỗi tập phổ biến S, tạo ra tất cả các tập con khác rỗng của S.
• Đối với mỗi tập con khác rỗng A củaS(|A|<|S|). LuậtA→(S−A)là luật kết hợp cần tìm nếu:conf(A→(S−A)) = suppsupp((AS)) ≥minconf .
Từ bài toán khai thác luật kết hợp chuyển thành bài toán khai thác tập phổ biến : độ phức tạp tính toán cao.
12.1.5 Hiện thực - Khai phá luật kết hợp với Analysis Service của SQL Server12.1.5.a Mô tả dữ liệu sử dụng trong mô hình 12.1.5.a Mô tả dữ liệu sử dụng trong mô hình
Dữ liệu dùng để xây dựng mô hình phát hiện luật kết hợp là dữ liệu demo trong database hệ thống đã tạo.. Mô hình sử dụng 2 bảng chứa dữ liệu về đơn hàng(Order) và chi tiết số hàng trong mỗi đơn(ProductOrder). Cấu trúc 2 bảng như sau:
9Khai thác tập phổ biến (frequent itemsets) với thuật toán Apriori, Ông Xuân Hồng,
https://ongxuanhong.wordpress.com/2015/08/23/khai-thac-luat-tap-pho-bien-frequent-itemsets-voi-thuat-toan- apriori/ (truy cập lần cuối 25/07/2021)
Hình 4:Dữ liệu demo bảng Order
Cũng như quy trình xây dựng các Data Mining Model khác, quy trình xây dựng mô hình khai phá luật kết hợp theo 3 bước sau10:
• Tạo một Mining Model structure • Hiệu chỉnh model
• Khai phá dữ liệu từ model