Dưới đây là bài giảng Chương 4 - Khai phá luật kết hợp. Mời các bạn tham khảo bài giảng để hiểu rõ hơn về khai phá luật kết hợp; các thuật toán khai phá vô hướng luật kết hợp (giá trị lôgic đơn chiều) trong CSDL giao dịch; khai phá kiểu đa dạng luật kết hợp/tương quan; khai phá kết hợp dựa theo ràng buộc; khai phá mẫu dãy.
Chương 4: Khai phá luật kết hợp Dựa theo “Data Mining: Concepts and Techniques” Chapter Mining Association Rules in Large Databases ©Jiawei Han and Micheline Kamber www.cs.uiuc.edu/~hanj May 11, 2021 Chương 4: Khai phá luật kết hợp Khai phá luật kết hợp (Association rule) Các thuật tốn khai phá vơ hướng luật kết hợp (giá trị lôgic đơn chiều) CSDL giao dịch Khai phá kiểu đa dạng luật kết hợp/tương quan Khai phá kết hợp dựa theo ràng buộc Khai phá mẫu dãy May 11, 2021 Khái niệm sở: Tập phổ biến luật kết hợp Một số ví dụ “luật kết hợp” (associate rule) •“98% khách hàng mà mua tạp chí thể thao mua tạp chí ơtơ” kết hợp “tạp chí thể thao” với “tạp chí ơtơ” •“60% khách hàng mà mua bia siêu thị mua bỉm trẻ em” kết hợp “bia” với “bỉm trẻ em” •“Có tới 70% người truy nhập Web vào địa Url vào địa Url phiên truy nhập web” kết hợp “Url 1” với “Url 2” Khai phá liệu sử dụng Web (Dữ liệu từ file log site, chẳng hạn MS cung cấp) •Các Url có gắn với nhãn “lớp” đặc trưng có luật kết hợp liên quan lớp Url May 11, 2021 Khái niệm sở: Tập phổ biến luật kết hợp [IV06] Renáta Iváncsy, István Vajk (2006) Frequent Pattern Mining in Web Log Data, Acta Polytechnica Hungarica, 3(1):77-90, 2006 May 11, 2021 Khái niệm sở: Tập phổ biến luật kết hợp Cơ sở liệu giao dịch (transaction database) • Giao dịch: danh sách mặt hàng (mục: item) phiếu mua hàng khách hàng Giao dịch T tập mục • Tập tồn mục I = {i1, i2, …, ik} “tất mặt hàng” Một giao dịch T tập I: T I Mỗi giao dịch T có định danh TID • A tập mục A I T giao dịch: Gọi T chứa A A T • Độ hỗ trợ A (s(A)) xác suất xuất A D: s(A)=|TD, T A} • minsup>0 (độ hỗ trợ tối thiểu), A “phổ biến” ((frequent)): s(A) minsup • Luật kết hợp • Gọi A B “luật kết hợp” A I, B I AB= • Luật kết hợp AB có độ hỗ trợ (support): s (AB) = s(AB), AB phổ biến AB phổ biến Luật kết hợp A B có độ tin cậy (confidence) c CSDL D D có c% giao dịch T A TB: xác suất P(B|A) • Support (A B) = P(AB) : s (A B) • Confidence (A B) = P(B|A) : c (A B) • Luật A B gọi đảm bảo độ hỗ trợ s D s(A B) s Luật AB gọi đảm bảo độ tin cậy c D c(A B) c Tập mạnh May 11, 2021 Khái niệm bản: Mẫu phổ biến luật kết hợp Tập mục I={i1, …, ik} CSDL giao dịch D = {d I} A, B I, AB=: A B luật kết hợp Bài tốn tìm luật kết hợp Cho trước độ hỗ trợ tối thiểu s>0, độ tin cậy tối thiếu c>0 Hãy tìm luật kết hợp mạnh XY Transaction-id Items bought 10 A, B, C 20 A, C 30 A, D 40 B, E, F Customer buys both Giả sử min_support = 50%, min_conf = 50%: A C (50%, 66.7%) C A (50%, 100%) Customer buys diaper Customer buys beer May 11, 2021 Hãy trình bày nhận xét khái niệm luật kết hợp với khái niệm phụ thuộc hàm Các tính chất Armstrong Một ví dụ tìm luật kết hợp Transaction-id Items bought 10 A, B, C 20 A, C 30 A, D 40 B, E, F Min support 50% Min confidence 50% Frequent pattern Support {A} 75% {B} 50% {C} 50% {A, C} For rule A C: support = support({A}{C}) = 50% confidence = support({A}{C})/support({A}) = 66.6% May 11, 2021 50% Khai niệm khai phá kết hợp May 11, 2021 Khái niệm khai phá luật kết hợp Khai phá luật kết hợp: Tìm tất mẫu phổ biến, kết hợp, tương quan, cấu trú nhan-quả tập mục đối tượng CSDL quan hệ kho chứa thông tin khác Mẫu phổ biến (Frequent pattern): mẫu (tập mục, dãy mục…) mà xuất phổ biến CSDL [AIS93] Động lực: tìm mẫu quy (regularities pattern) DL Các mặt hàng mua nhau? — Bia bỉm (diapers)?! Mặt hàng mua sau mua PC ? Kiểu DNA nhạy cảm với thuộc này? Có khả tự động phân lớp Web hay không ? May 11, 2021 Mẫu phổ biến khai phá luật kết hợp toán chất khai phá DL Nền tảng nhiều toán KPDL chất Kết hợp, tương quan, nhân Mẫu tuần tự, kết hợp thời gian vịng, chu kỳ phận, kết hợp khơng gian đa phương tiện Phân lớp kết hợp, phân tích cụm, khối tảng băng, tích tụ (nén liệu ngữ nghĩa) Ứng dụng rộng rãi Phân tích DL bóng rổ, tiếp thị chéo (crossmarketing), thiết kế catalog, phân tích chiến dịch bán hàng Phân tích Web log (click stream), Phân tích chuỗi DNA v.v May 11, 2021 10 Không đơn điêu KP theo ràng buộc TDB (min_sup=2) Chống đơn điệu (Anti-monotonicity) Một tập mục S vi phạm ràng buộc, tập lớn vi phạm sum(S.Price) v chống đơn điệu sum(S.Price) v không chống đơn điệu Ví dụ C: range(S.profit) 15 chống đơn điệu Tập mục ab vi phạm C Cũng tập chưa ab May 11, 2021 TID Transaction 10 a, b, c, d, f 20 b, c, d, f, g, h 30 a, c, d, e, f 40 c, e, f, g Item Profit a 40 b c -20 d 10 e -30 f 30 g 20 h -10 59 Ràng buộc chống đơn điệu May 11, 2021 Ràng buộc Chống đơn điệu v S No S V no S V yes min(S) v no min(S) v yes max(S) v yes max(S) v no count(S) v yes count(S) v no sum(S) v ( a S, a ) yes sum(S) v ( a S, a ) no range(S) v yes range(S) v no avg(S) v, { , , } convertible support(S) yes support(S) no 60 Tính đơn điệu KP luật dựa theo ràng buộc TDB (min_sup=2) Tính đơn điệu Khi tập mục S thỏa mãn ràng buộc, tập lớn thỏa mãn sum(S.Price) v đơn điệu min(S.Price) v đơn điệu Ví dụ C: range(S.profit) 15 Tập mục ab đảm bảo C Cũng tập chứa ab May 11, 2021 TID Transaction 10 a, b, c, d, f 20 b, c, d, f, g, h 30 a, c, d, e, f 40 c, e, f, g Item Profit a 40 b c -20 d 10 e -30 f 30 g 20 h -10 61 Ràng buộc đơn điệu May 11, 2021 Ràng buộc Đơn điệu v S yes S V yes S V no min(S) v yes min(S) v no max(S) v no max(S) v yes count(S) v no count(S) v yes sum(S) v ( a S, a ) no sum(S) v ( a S, a ) yes range(S) v no range(S) v yes avg(S) v, { , , } convertible support(S) no support(S) yes 62 Tính đọng Tính đọng: Cho A1, tập mục bảo đảm ràng buộc cô đọng C, S bảm đảm C dựa A1 , chằng hạn., S chứa tập thuộc A1 Tư tưởng: Bỏ qua xem xét CSDL giao dịch, có tập mục S bảo đảm ràng buộc C xác định dựa theo việc chọn mục min(S.Price) v cô đọng sum(S.Price) v khơng đọng Tối ưu hóa: Nếu C đọng đẩy đếm trước May 11, 2021 63 Ràng buộc cô đọng May 11, 2021 Ràng buộc Cô đọng v S yes S V yes S V yes min(S) v yes min(S) v yes max(S) v yes max(S) v yes count(S) v weakly count(S) v weakly sum(S) v ( a S, a ) no sum(S) v ( a S, a ) no range(S) v no range(S) v no avg(S) v, { , , } no support(S) no support(S) no 64 Thuật tốn Apriori— Ví dụ Database D TID 100 200 300 400 itemset sup C1 {1} {2} Scan D {3} {4} {5} Items 134 235 1235 25 L2 itemset sup C2 itemset sup 2 {1 {1 {1 {2 {2 {3 C3 itemset {2 5} Scan D {1 3} {2 3} {2 5} {3 5} May 11, 2021 2} 3} 5} 3} 5} 5} 2 L1 itemset sup {1} {2} {3} {5} 3 C2 itemset {1 2} Scan D {1 {1 {2 {2 {3 3} 5} 3} 5} 5} L3 itemset sup {2 5} 65 Thuật tốn Nạve: Apriori +ràng buộc Database D TID 100 200 300 400 itemset sup C1 {1} {2} Scan D {3} {4} {5} Items 134 235 1235 25 L2 itemset sup C2 itemset sup 2 {1 {1 {1 {2 {2 {3 C3 itemset {2 5} Scan D {1 3} {2 3} {2 5} {3 5} May 11, 2021 2} 3} 5} 3} 5} 5} 2 L1 itemset sup {1} {2} {3} {5} 3 C2 itemset {1 2} Scan D L3 itemset sup {2 5} {1 {1 {2 {2 {3 3} 5} 3} 5} 5} Constraint: Sum{S.price < 5} 66 Thuật toán Apriori ràng buộc: Đẩy ràng buộc chống đơn điệu xuống sâu Database D TID 100 200 300 400 itemset sup C1 {1} {2} Scan D {3} {4} {5} Items 134 235 1235 25 L2 itemset sup C2 itemset sup 2 {1 {1 {1 {2 {2 {3 C3 itemset {2 5} Scan D {1 3} {2 3} {2 5} {3 5} May 11, 2021 2} 3} 5} 3} 5} 5} 2 L1 itemset sup {1} {2} {3} {5} 3 C2 itemset {1 2} Scan D L3 itemset sup {2 5} {1 {1 {2 {2 {3 3} 5} 3} 5} 5} Constraint: Sum{S.price < 5} 67 Thuật toán Apriori ràng buộc: Đẩy ràng buộc chống đơn điệu xuống sâu Database D TID 100 200 300 400 itemset sup C1 {1} {2} Scan D {3} {4} {5} Items 134 235 1235 25 L2 itemset sup C2 itemset sup 2 {1 {1 {1 {2 {2 {3 C3 itemset {2 5} Scan D {1 3} {2 3} {2 5} {3 5} May 11, 2021 2} 3} 5} 3} 5} 5} 2 L1 itemset sup {1} {2} {3} {5} 3 C2 itemset {1 2} Scan D L3 itemset sup {2 5} {1 {1 {2 {2 {3 3} 5} 3} 5} 5} Constraint: min{S.price CSDL dãy TT SID 10 20 Một phần tử chứa tập mục Tập mục phần tử không thứ t , viết chúng theo ABC sequence 30 40 dãy Cho độ hỗ trợ min_sup =2, mẫu sequential pattern May 11, 2021 72 Một số chủ đề khai phá liệu nóng May 11, 2021 73 .. .Chương 4: Khai phá luật kết hợp Khai phá luật kết hợp (Association rule) Các thuật toán khai phá vô hướng luật kết hợp (giá trị lôgic đơn chiều) CSDL giao dịch Khai phá kiểu đa dạng luật. .. 10 Chương 4: Khai phá luật kết hợp Khai phá luật kết hợp (Association rule) Các thuật toán khai phá vô hướng luật kết hợp (giá trị lôgic đơn chiều) CSDL giao dịch Khai phá kiểu đa dạng luật. .. May 11, 2021 50% Khai niệm khai phá kết hợp May 11, 2021 Khái niệm khai phá luật kết hợp Khai phá luật kết hợp: Tìm tất mẫu phổ biến, kết hợp, tương quan, cấu trú nhan-quả tập mục đối tượng