Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 66 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
66
Dung lượng
2,22 MB
Nội dung
Chương 3: Khai phá luật kết hợp Khai phá liệu (Data mining) Nội dung 3.1 Tổng quan khai phá luật kết hợp 3.2 Biểu diễn luật kết hợp 3.3 Khám phá mẫu thường xuyên 3.4 Khám phá luật kết hợp từ mẫu thường xuyên 3.5 Khám phá luật kết hợp dựa ràng buộc 3.6 Phân tích tương quan 3.7 Tóm tắt 3.0 Tình – Market basket analysis 3.0 Tình - Tiếp thị chéo 3.0 Tình - Tiếp thị chéo 3.0 Tình … Phân tích liệu giỏ hàng (basket data analysis) Tiếp thị chéo (cross-marketing) Thiết kế catalog (catalog design) Phân loại liệu (classification) gom cụm liệu (clustering) với mẫu phổ biến … 3.1 Tổng quan khai phá luật kết hợp Quá trình khai phá luật kết hợp Các khái niệm Phân loại luật kết hợp 3.1 Tổng quan khai phá luật kết hợp Quá trình khai phá luật kết hợp Preprocessing Raw Data Mining Items of Interest Relationship s among Items (Rules) Postprocessing User 3.1 Tổng quan khai phá luật kết hợp Quá trình khai phá luật kết hợp Preprocessing Raw Data Mining Items of Interest Transactional/ Relational Data Items Transaction Items_bought 2000 A, B, C 1000 A, C 4000 A, D 5000 B, E, F … A, B, C, D, F, … Relationship s among Items (Rules) Postprocessing User Association Rules A → C (50%, 66.6%) … Bài toán phân tích giỏ thị trường 3.1 Tổng quan khai phá luật kết hợp Dữ liệu mẫu AllElectronics (sau trình tiền xử lý) 10 3.5 Khám phá luật kết hợp dựa ràng buộc Metarules Chỉ định dạng luật (về cú pháp – syntactic) mong muốn khám phá Dựa kinh nghiệm, mong đợi trực giác nhà phân tích liệu Tạo nên giả thuyết (hypothesis) mối quan hệ (relationships) luật mà người dùng quan tâm Quá trình khám phá luật kết hợp + trình tìm kiếm luật trùng với metarules cho trước 52 3.5 Khám phá luật kết hợp dựa ràng buộc Metarules Mẫu luật (rule template): P1 ∧ P2 ∧ … ∧ Pl ⇒ Q1 ∧ Q2 ∧ … ∧ Qr P1, P2, …, Pl, Q1, Q2, …, Qr: vị từ cụ thể (instantiated predicates) hay biến vị từ (predicate variables) Thường liên quan đến nhiều chiều/thuộc tính Ví dụ metarules Metarule P1(X, Y) ∧ P2(X, W) ⇒ buys(X, “office software”) Luật thỏa metarule age(X, “30 39”) ∧ income(X, “41k 60k”) ⇒ buys(X, “office software”) 53 3.5 Khám phá luật kết hợp dựa ràng buộc Ràng buộc biến S1, S2, … A và/hoặc B luật A B Quan hệ tập hợp cha/con: S1 ⊆/⊂ S2 Miền trị S1 θ value, θ ∈ {=, , =} value ∈/∉ S1 ValueSet θ S1 S1 θ ValueSet, θ ∈ {=, , ⊆, ⊂, ⊄} Các hàm kết hợp (aggregate functions) Agg(S1) θ value, Agg() ∈ {min, max, sum, count, avg}, θ ∈ {=, , =} 54 3.5 Khám phá luật kết hợp dựa ràng buộc Tính chất ràng buộc Anti-monotone Monotone Succinctness Convertible 55 3.5 Khám phá luật kết hợp dựa ràng buộc Tính chất ràng buộc Anti-monotone “A constraint Ca is anti-monotone iff for any pattern S not satisfying Ca, none of the super-patterns of S can satisfy Ca” Ví dụ: sum(S.Price) = value 56 3.5 Khám phá luật kết hợp dựa ràng buộc Tính chất ràng buộc Succinctness “A subset of item Is is a succinct set, set if it can be expressed as σp(I) for some selection predicate p, where σ is a selection operator” “SP⊆2I is a succinct power set, set if there is a fixed number of succinct set I1, …, Ik ⊆I, s.t SP can be expressed in terms of the strict power sets of I1, …, Ik using union and minus” “A constraint Cs is succinct provided SATCs(I) is a succinct power set” Có thể tạo tường minh xác tập thỏa succinct constraints Ví dụ: min(S.Price) {video}) = 0.89 < {game} {video} tương quan nghịch 64 3.7 Tóm tắt Khai phá luật kết hợp Được xem đóng góp quan trọng từ cộng đồng sở liệu việc khám phá tri thức Các dạng luật: luật kết hợp luận lý/luật kết hợp lượng số, luật kết hợp đơn chiều/luật kết hợp đa chiều, luật kết hợp đơn mức/luật kết hợp đa mức, luật kết hợp/luật tương quan thống kê Các dạng phần tử (item)/mẫu (pattern): Frequent itemsets/subsequences/substructures, Closed frequent itemsets, Maximal frequent itemsets, Constrained frequent itemsets, Approximate frequent itemsets, Top-k frequent itemsets Khám phá frequent itemsets: giải thuật Apriori giải thuật FP-Growth dùng FP-tree 65 Hỏi & Đáp … 66 ... quan 3. 7 Tóm tắt 3. 0 Tình – Market basket analysis 3. 0 Tình - Tiếp thị chéo 3. 0 Tình - Tiếp thị chéo 3. 0 Tình … Phân tích liệu giỏ hàng (basket data analysis) Tiếp thị chéo (cross-marketing)... 3. 3 Khám phá mẫu thường xuyên Giải thuật Apriori 29 3. 3 Khám phá mẫu thường xuyên Giải thuật Apriori 30 3. 3 Khám phá mẫu thường xuyên Dữ liệu mẫu AllElectronics (sau trình tiền xử lý) 31 ... 3. 1 Tổng quan khai phá luật kết hợp 3. 2 Biểu diễn luật kết hợp 3. 3 Khám phá mẫu thường xuyên 3. 4 Khám phá luật kết hợp từ mẫu thường xuyên 3. 5 Khám phá luật kết hợp dựa ràng buộc 3. 6