Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 35 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
35
Dung lượng
2,14 MB
Nội dung
Học phần: Khai phá liệu Bài 2: Khai phá luật kết hợp Nội dung Giới thiệu toán phân tích giỏ hàng Luật kết hợp Một số độ đo phổ biến Tập mục thường xuyên Tổng quan toán khai phá luật kết hợp Thuật toán Apriori Sinh luật kết hợp Nội dung mở rộng Hướng dẫn thực hành 2.1 Bài tốn phân tích giỏ hàng TID Items 100 Banana, milk, bread 200 Milk, bread, coffee 300 Coffee, milk, Sunsilk shampoo 400 Potato, fish, banana, pepper 500 Bread, milk 600 Potato, fish, rice … … 2.1 Bài tốn phân tích giỏ hàng (tt) Những mặt hàng thường khách hàng mua lần mua hàng? Thiết kế gian hàng Lên kế hoạch bán giảm giá cho mặt hàng/nhóm mặt hàng Lên kế hoạch tiếp thị/các chiến lược quảng cáo v.v 2.2 Luật kết hợp (association rules) Cho tập mục (mặt hàng, v.v.) Cho D tập giao dịch mà giao dịch T tập mục, Mỗi giao dịch có mã định danh riêng gọi TID Cho A tập mục (mặt hàng) Một giao dịch T gọi chứa A Một luật kết hợp diễn đạt hình thức , với 2.3 Một số độ đo phổ biến Luật tập giao dịch D có độ hỗ trợ support – s, với s phần trăm số giao dịch D chứa , (cả A B) support( = P( Luật tập giao dịch D có độ tin cậy – confidence – c, với c phần trăm giao dịch D có chứa A chứa B confidence = P(B|A) 2.3 Một số độ đo phổ biến (tt) Những luật kết hợp thỏa mãn độ hỗ trợ tối thiểu (min_sup) độ tin cậy tối thiểu (min_conf) gọi luật mạnh 2.4 Tập mục thường xuyên – Frequent itemset Một tập mục chứa k mục gọi k-itemset Ví dụ: ◦ tập {computer, antivirus_software} 2itemset Tần suất xuất tập mục số giao dịch chứa tập mục (hay gọi frequency, support count, count tập mục) 2.4 Tập mục thường xuyên – Frequent itemset (tt) Nếu độ hỗ trợ (support) tập mục I lớn độ hỗ trợ tối thiểu (min_sup) I đươc gọi tập mục thường xuyên Tập hợp k-itemset thường xuyên ký hiệu 2.5 Tổng quan toán khai phá luật kết hợp Nếu xem tập chứa tất mục (hay mặt hàng) tương tự nhà kho hay cửa hàng mục (mặt hàng) có biến kiểu logic (Boolean) biểu đạt có hàng hay hết hàng mặt hàng Khi giỏ hàng (basket) biểu diễn vector giá trị Boolean Các vector phân tích để tìm mẫu hành vi mua hàng phản ánh mặt hàng thường mua 10 2.6 Thuật toán Apriori (tt) Giả sử thiết lập giá trị min_sup_count = Tương ứng với min_sup = 2/9 = 22% Tập 1-itemset xác định cách đếm tần suất xuất sở liệu giao dịch TID Danh mục T100 I1, I2, I5 T200 I2, I4 T300 I2, I3 T400 I1, I2, I4 T500 I1, I3 T600 I2, I3 T700 I1, I3 T800 I1, I2, I3, I5 T900 I1, I2, I3 21 2.6 Thuật toán Apriori (tt) TID Danh mục T100 I1, I2, I5 T200 I2, I4 T300 I2, I3 T400 I1, I2, I4 T500 I1, I3 T600 I2, I3 T700 I1, I3 T800 I1, I2, I3, I5 T900 I1, I2, I3 22 2.6 Thuật toán Apriori (tt) 2.6 Thuật toán Apriori (tt) 24 2.6 Thuật toán Apriori (tt) 2.7 Sinh luật kết hợp từ tập luật thường xuyên luật kết hợp sinh Các sau: ◦ Với tập mục thường xuyên l, sinh tất tập không rỗng l ◦ Với tập không rỗng s l, tạo luật “” 26 2.7 Sinh luật kết hợp từ tập luật thường xuyên l = {I1, I2, I5} Các luật kết hợp Xét thu sau • 27 2.8 Sử dụng WEKA Explorer để khai phá luật kết hợp 28 2.8 Sử dụng WEKA Explorer để khai phá luật kết hợp (tt) 29 2.8 Sử dụng WEKA Explorer để khai phá luật kết hợp (tt) 30 2.8 Sử dụng WEKA Explorer để khai phá luật kết hợp (tt) 31 2.8 Sử dụng WEKA Explorer để khai phá luật kết hợp (tt) 32 2.8 Sử dụng WEKA Explorer để khai phá luật kết hợp (tt) 33 2.8 Sử dụng WEKA Explorer để khai phá luật kết hợp (tt) Cảm ơn BẠN theo dõi! ... I1, I2, I5 T200 I2, I4 T300 I2, I3 T400 I1, I2, I4 T500 I1, I3 T600 I2, I3 T700 I1, I3 T800 I1, I2, I3, I5 T900 I1, I2, I3 21 2. 6 Thuật toán Apriori (tt) TID Danh mục T100 I1, I2, I5 T200 I2, I4... T300 I2, I3 T400 I1, I2, I4 T500 I1, I3 T600 I2, I3 T700 I1, I3 T800 I1, I2, I3, I5 T900 I1, I2, I3 22 2. 6 Thuật toán Apriori (tt) 2. 6 Thuật toán Apriori (tt) 24 2. 6 Thuật toán Apriori (tt) 2. 7... “” 26 2. 7 Sinh luật kết hợp từ tập luật thường xuyên l = {I1, I2, I5} Các luật kết hợp Xét thu sau • 27 2. 8 Sử dụng WEKA Explorer để khai phá luật kết hợp 28 2. 8 Sử dụng WEKA Explorer để khai