Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
4,79 MB
Nội dung
DATA MINING KHAI PHÁ DỮ LIỆU CHƯƠNG 3: TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP NỘI DUNG GIỚI THIỆU CÁC ĐỊNH NGHĨA CƠ BẢN PHÁT HIỆN LUẬT KẾT HỢP Sinh tập mục thường xuyên Giải thuật Apriori Giải thuật FP - Growth Sinh luật kết hợp 1 GIỚI THIỆU CÁC ĐỊNH NGHĨA CƠ BẢN 2 CÁC ĐỊNH NGHĨA CƠ BẢN Tính chất tập mục thường xuyên (tập phổ biến): Tất tập tập mục thường xuyên tập mục thường xuyên Thảo luận: Tại sao? Chứng minh? Nếu tập không tập mục thường xuyên tập cha có tập mục thường xuyên không? Ví dụ • I = { Beer, Bread, Jelly, Milk, PeanutButter} • X= {Bread,PeanutButter} ; Count(X) = |D| = s(X) = 60% X tập mục thường xuyên • X2 = {Bread} s(X2) = ? • X3 = {PeanutButter} s(X3) = ? X2, X3 có tập mục thường xuyên? • X4 = {Milk}, X5={Milk, Bread} X4, X5 có tập mục thường xuyên? CÁC ĐỊNH NGHĨA CƠ BẢN CÁC ĐỊNH NGHĨA CƠ BẢN Mối liên hệ độ hỗ trợ độ tin cậy s(X Y) = s(X∪Y) c(X Y) = s(X∪Y) / s(X) Ví dụ luật kết hợp (VD1) c PHÁT HIỆN LUẬT KẾT HỢP PHÁT HIỆN LUẬT KẾT HỢP 10 PHÁT HIỆN LUẬT KẾT HỢP 11 Lattice biểu diễn tập mục cần xét 12 Sinh tập mục thường xuyên 13 Ví dụ TIDs 10 20 30 40 Items A, B, C A, C A, D B, E, F Tìm luật kết hợp thỏa mãn: minsup =50% minconf = 80% 14 Ví dụ TIDs Items 10 A, B, C 20 A, C 30 A, D 40 B, E, F Luật A C: s(A C) = s(A∪C) = 50% c(A C) = s(A∪C) / s(A) = 66,6% (loại) Luật C A: s(C A) = s(A∪C) = 50% c(C A) = s(A∪C) / s(C) = 100% (chọn) 15 Các chiến lược sinh tập mục thường xuyên 16 Giảm bớt số lượng tập mục cần xét 17 Apriori: Loại bỏ dựa độ hỗ trợ 18 Apriori: Loại bỏ dựa độ hỗ trợ 0,5 19 Giải thuật Apriori 20 10 Các tập mục thường xuyên đóng 25 Tập mục thường xuyên: lớn vs đóng 26 13 Tập mục thường xuyên: lớn vs đóng 27 Tập mục thường xuyên: lớn vs đóng 28 14 Bài tập Cho CSDL minsupp=50%, minconf=80% Sử dụng thuật toán Apriori để tìm tất tập mục thường xuyên, tập mục thường xuyên lớn nhất, tập mục thường xuyên đóng Tìm tất LKH thỏa mãn ngưỡng minconf cho Liệt kê LKH thỏa mãn ngưỡng cho có dạng (item1 ∧ item2) item3 kèm theo supp, conf 29 Thuật toán FP-Growth 30 15 31 32 16 60% 33 60% 34 17 60% 35 60% 36 18 Bài tập Cho CSDL bên Xây dựng FP với minsupp = 25% Nếu minsupp = 40% FP thay đổi nào? 37 38 19 39 40 20 41 42 21 60% 43 60% 60% 44 22 45 46 23 47 48 24 49 50 25 Sinh luật kết hợp 51 Sinh luật kết hợp 52 26 Apriori: Sinh luật 53 Kiểm tra: 20 phút Cho CSDL sau Tìm luật kết hợp thỏa mãn điều kiện: Minsupp = 50% Minconf = 60% TID Items A, C, D B, C, E A, B, C, E B, E 54 27 ... item3 kèm theo supp, conf 29 Thuật toán FP-Growth 30 15 31 32 16 60% 33 60% 34 17 60% 35 60% 36 18 Bài tập Cho CSDL bên Xây dựng FP với minsupp = 25% Nếu minsupp = 40% FP thay đổi nào? 37 38 19 39 ... tập mục thường xuyên 13 Ví dụ TIDs 10 20 30 40 Items A, B, C A, C A, D B, E, F Tìm luật kết hợp thỏa mãn: minsup =50% minconf = 80% 14 Ví dụ TIDs Items 10 A, B, C 20 A, C 30 A, D 40 B, E, F Luật... Count(X) = |D| = s(X) = 60% X tập mục thường xuyên • X2 = {Bread} s(X2) = ? • X3 = {PeanutButter} s(X3) = ? X2, X3 có tập mục thường xuyên? • X4 = {Milk}, X5={Milk, Bread} X4, X5 có tập mục thường