Bài giảng khai phá dữ liệu chương 2 phan mạnh thường

52 418 1
Bài giảng khai phá dữ liệu  chương 2   phan mạnh thường

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Chương LUẬT KẾT HỢP (Association Rules) Nội dung Khái niệm Thuật toán Apriori Tìm tập phổ biến tối đại với FP-Tree Phân loại luật kết hợp Tối ưu tập luật Các khái niệm Bài toán phân tích giỏ hàng  Phân tích thói quen mua hàng khách hàng cách tìm “mối kết hợp” mặt hàng mà khách mua  Mục tiêu giúp gia tăng doanh số, tạo thuận lợi cho khách mua hàng siêu thị  Bài toán Agrawal thuộc nhóm nghiên cứu IBM đưa vào năm 1994 7/12/2014 www.lhu.edu.vn Các khái niệm Luật kết hợp  Khai phá luật kết hợp:  Tìm tần số mẫu, mối kết hợp, tương quan, hay cấu trúc nhân tập đối tượng sở liệu giao tác, sở liệu quan hệ, kho thông tin khác  Tính hiểu được: dễ hiểu  Tính sử dụng được: Cung cấp thông tin thiết thực  Tính hiệu quả: Đã có thuật toán khai thác hiệu  Các ứng dụng:  Phân tích bán hàng siêu thị, cross-marketing, thiết kế catalog, loss-leader analysis, gom cụm, phân lớp, 7/12/2014 www.lhu.edu.vn Các khái niệm Luật kết hợp  Định dạng thể đặc trưng cho luật kết hợp:  khăn  bia [0.5%, 60%]  mua:khăn  mua:bia [0.5%, 60%]  “Nếu mua khăn mua bia 60% trường hợp Khăn bia mua chung 0.5% dòng liệu."  Các biểu diễn khác:  mua(x, “khăn")  mua(x, “bia") [0.5%, 60%]  khoa(x, "CS") ^ học(x, "DB")  điểm(x, "A") [1%, 75%] Các khái niệm Luật kết hợp khăn  bia [0.5%, 60%] “NẾU mua khăn THÌ mua bia 60% trường hợp 0.5% số dòng liệu" Tiền đề, vế trái luật Mệnh đề kết quả, vế phải luật Support, tần số, độ hỗ trợ (“trong phần trăm liệu điều vế trái vế phải xảy ra") Confidence, độ mạnh, độ tin cậy (“nếu vế trái xảy có khả vế phải xảy ra") Các khái niệm Luật kết hợp • Độ ủng hộ: biểu thị tần số luật có giao tác support(A  B [ s, c ]) = p(AB) = support ({A,B}) • Độ tin cậy: biểu thị số phần trăm giao tác có chứa B số giao tác có chứa A confidence(A  B [ s, c ]) = p(B|A) = p(AB) / p(A) = support({A,B}) / support({A}) Các khái niệm Luật kết hợp  Độ hỗ trợ tối thiểu  : (minsupp)  Cao  tập phần tử (itemset) phổ biến  luật hợp lệ thường xuất  Thấp  nhiều luật hợp lệ xuất  Độ tin cậy tối thiểu  : (minconf)  Cao  luật tất “gần đúng"  Thấp  nhiều luật, phần lớn “không chắn"  Giá trị tiêu biểu:  = -10 %,  = 70 - 90 % Các khái niệm Luật kết hợp  Giao tác:  Dạng quan hệ  Item itemsets: Dạng kết phần tử đơn lẻ tập phần tử  Support tập I: số lượng giao tác có chứa I  Min Support : ngưỡng cho support  Tập phần tử phổ biến: có độ ủng hộ (support)   Các khái niệm Ví dụ  Cho: (1) CSDL giao tác, (2) giao tác danh sách mặt hàng mua (trong lượt mua khách hàng) Frequent item sets ID giao tác Hàng mua 100 A,B,C 200 A,C 400 A,D 500 B,E,F Tập phổ biến {A} {B} {C} {D}, {E} {F} {A,C} Các cặp khác support or 75% or 50% or 25% or 50% max 25%  Tìm: tất luật có support >= minsupport  If support 50% and confidence 50%, then A  C [50%, 66.6%], C  A [50%, 100%] Khai phá luật kết hợp  Quá trình hai buớc để khai phá luật kết hợp: BƯỚC 1: Tìm tập phổ biến: tập phần tử có độ support tối thiểu  Mẹo Apriori: Tập tập phổ biến tập phổ biến: • ví dụ, {AB} tập phổ biến {A} {B} tập phổ biến  Lặp việc tìm tập phổ biến với kích thước từ đến k (tập có kích thước k) BƯỚC 2: Dùng tập phổ biến để tạo luật kết hợp.Rakesh Agrawal, 1993 Một số dạng luật kết hợp Luật kết hợp nhiều chiều  Các mối kết hợp chiều nhiều chiều  Một chiều: Các thuộc tính tập thuộc tính luật quy đại lượng (ví dụ, quy “mua") Bia, khoai tây chiên  bánh mì [0.4%, 52%] mua(x, “Bia") ^ mua(x, “Khoai tây chiên")  mua(x, “Bánh mì") [0.4%, 52%]  Nhiều chiều: Các thuộc tính thuộc tính luật quy hai hay nhiều đại lượng (ví dụ: “mua", “thời gian giao dịch", “loại khách hàng") Trong ví dụ sau là: quốc gia, tuổi, thu nhập Một số dạng luật kết hợp Luật kết hợp nhiều chiều CID quoc gia Ý Pháp Pháp Ý Ý Pháp tuoi 50 40 30 50 45 35 thu nhap thap cao cao trung bình cao cao CÁC LUẬT: quốc gia = Pháp  thu nhập = cao [50%, 100%] thu nhập = cao  quốc gia = Pháp [50%, 75%] tuổi = 50  quốc gia = Ý [33%, 100%] Một số dạng luật kết hợp Luật kết hợp nhiều cấp  Các mối kết hợp cấp nhiều cấp  Một cấp: Mối kết hợp phần tử hay thuộc tính cấp khái niệm (ví dụ cấp hệ thống phân cấp) Bia, Khoai tây chiên  Bánh mì [0.4%, 52%]  Nhiều cấp: Mối kết hợp phần tử hay thuộc tính nhiều cấp khái niệm khác (ví dụ nhiều cấp hệ thống phân cấp) Bia:Karjala, Khoai tây chiên:Estrella:Barbeque  Bánh mì [0.1%, 74%] Một số dạng luật kết hợp Luật kết hợp nhiều cấp  Khó tìm mẫu tốt cấp gần gốc  độ ủng hộ cao = luật  độ ủng hộ thấp = nhiều luật, không tốt  Tiếp cận: suy luận cấp khái niệm phù hợp  Một dạng phổ biến tri thức thuộc tính tổng quát hóa hay chi tiết hóa dựa vào khái niệm  Các luật kết hợp nhiều cấp: luật phối hợp mối kết hợp với khái niệm Một số dạng luật kết hợp Luật kết hợp nhiều cấp  Các phần tử thường tạo thành phân cấp  Các phần tử cấp thấp cho có độ ủng hộ thấp  Các luật tập cấp thích hợp hữu ích  CSDL giao tác mã hóa dựa chiều cấp Thực phẩm bánh mì sữa sữa không béo 2% lúa mì Vinamilk Yomost trắng Một số dạng luật kết hợp Luật kết hợp nhiều cấp Thực phẩm sữa bánh mì sữa không béo Vinamilk 2% lúa mì ID giao tác T1 T2 T3 T4 T5 Mat hang {111, 121, 211, 221} {111, 211, 222, 323} {112, 122, 221, 411} {111, 121} {111, 122, 211, 221, 413} trắng Yomost 121= sữa - 2% - Vinamilk Một số dạng luật kết hợp Luật kết hợp nhiều cấp  Tiếp cận trên-xuống, tiến theo chiều sâu:  Trước tiên tìm luật mạnh cấp cao: sữa  bánh mì [20%, 60%]  Sau tìm luật “yếu hơn” cấp thấp chúng: sữa 2%  bánh mì lúa mì [6%, 50%]  Khai thác thay đổi luật kết hợp nhiều cấp:  Các luật kết hợp sữa   Các luật kết hợp sữa  nhiều cấp khác nhau: bánh mì lúa mì với nhiều khái niệm: bánh mì Wonder Một số dạng luật kết hợp Luật kết hợp nhiều cấp  Tổng quát hóa/chuyên biệt hóa giá trị thuộc tính…  từ chuyên biệt sang tổng quát: support luật tăng (có thêm luật hợp lệ)  từ tổng quát sang chuyên biệt: support luật giảm (có luật trở thành không hợp lệ, độ ủng hộ chúng giảm xuống nhỏ ngưỡng qui định)  Bậc thấp => nhiều luật thô sơ Pepsi light 0.5l bottle  Taffel Barbeque Chips 200gr  Bậc cao => luật không hay Food  Clothes Tối ưu tập luật Lọc bỏ luật thừa  Có luật dư thừa có mối quan hệ “tổ tiên” phần tử  Ví dụ (sữa có lớp con):  sữa  bánh mì lúa mì [support= 8%, conf = 70%]  sữa 2%  bánh mì lúa mì [support = 2%, conf = 72%]  Ta nói luật thứ tổ tiên luật thứ hai  Một luật dư thừa độ ủng hộ gần với giá trị “mong đợi”, dựa tổ tiên luật  Luật thứ hai dư thừa Tối ưu tập luật Khai phá luật dựa ràng buộc  Khai thác giga-byte liệu theo cách thăm dò, có tương tác?  Điều có khả thi không? - Bằng cách sử dụng tốt ràng buộc!  Các loại ràng buộc dùng khai thác liệu?  Ràng buộc dạng tri thức: phân lớp, kết hợp, …  Ràng buộc liệu: câu truy vấn dạng SQL • Tìm cặp sản phẩm bán chung VanCouver tháng 12/98  Những ràng buộc kích thước/cấp bậc: • Có liên quan vùng, giá, nhãn hiệu, loại khách hàng  Những ràng buộc hấp dẫn: • Những luật mạnh (min_support  3%, min_confidence  60%) Tối ưu tập luật Ràng buộc luật  Có hai loại ràng buộc luật:  Ràng buộc dạng luật: khai thác theo siêu luật (meta-rule) • Metarule: P(X, Y) ^ Q(X, W) lấy(X, "database systems") • Luật đối sánh: tuổi(X, "30 39") ^ thu nhập(X, "41K 60K") lấy(X, "database systems")  Ràng buộc nội dung luật: tạo câu truy vấn dựa ràng buộc (Ng, et al., SIGMOD’98) • sum(LHS) < 100 ^ min(LHS) > 20 ^ count(LHS) > ^ sum(RHS) > 1000 Tối ưu tập luật Ràng buộc luật  Ràng buộc 1-biến ràng buộc 2-biến (Lakshmanan, et al SIGMOD’99):  1-biến: Ràng buộc hạn chế bên (L/R) luật, ví dụ; • sum(LHS) < 100 ^ min(LHS) > 20 ^ count(LHS) > ^ sum(RHS) > 1000  2-biến: Ràng buộc hạn chế hai bên (L R) luật • sum(LHS) < min(RHS) ^ max(RHS) < 5* sum(LHS) Tối ưu tập luật Tóm tắt  Khai thác luật kết hợp:  Quan trọng KDD  Khái niệm đơn giản ý tưởng cung cấp sở cho mở rộng phương pháp khác  Nhiều báo công bố đề tài  Đã có nhiều kết hấp dẫn  Hướng nghiên cứu lý thú:  Phân tích mối kết hợp dạng liệu khác: liệu không gian, liệu đa phương tiện, liệu thời gian thực, … Tối ưu tập luật Bài tập lý thuyết TID 100 200 300 400 500 600 700 800 900 Items ACEG ABCDH ABCD ACDE ABCF ADEH ABCDF CDEG ACDF  Sử dụng thuật toán Apriori  Tìm tập phổ biến có ngưỡng MinSup=30%  Tìm luật kết hợp có ngưỡng MinSup=30% MinConf >= 70% Tối ưu tập luật Bài tập lý thuyết TID 100 200 300 400 500 Items f,a,b,d,g,i,m,p a,b,c,f,l,m,o a,c,h,j,o b,c,k,s,p a,f,b,c,l,p,m,n  Sử dụng thuật toán FP-TREE  Tìm tập phổ biến có ngưỡng MinSup=3  Tìm luật kết hợp có ngưỡng MinSup=3 MinConf >= 70% [...]... 123 45 Không gian tìm kiếm của CSDL D 123 4 123 12 124 13 123 5 124 5 125 134 135 14 15 23 1 2 145 24 3 1345 23 4 25 4 23 45 23 5 34 35 5 24 5 45 345 Thuật toán Apriori Ví dụ Áp dụng mẹo Apriori trên Cấp 1 123 45 123 4 123 124 12 13 125 14 1 123 5 124 5 1345 134 135 145 23 4 15 23 24 25 2 3 4 23 45 23 5 34 24 5 35 5 345 45 Thuật toán Apriori Ví dụ Áp dụng mẹo Apriori trên Cấp 2 123 45 123 4 123 124 12 125 13 14 1 123 5... Phần tử 100 20 0 300 400 1 2 1 2 34 35 23 5 5 {1} Duyệt D {2} {3} {4} {5} L1 Độ ủng hộ 2 3 3 1 3 Tập {1} {2} {3} {5} Độ ủng hộ 2 3 3 3 Thuật toán Apriori Ví dụ C2 Tập {1 2} {1 3} {1 5} {2 3} {2 5} {3 5} C2 Duyệt D Tập Độ ủng hộ {1 2} 1 {1 3} 2 {1 5} 1 {2 3} 2 {2 5} 3 {3 5} 2 L2 Tập Độ ủng hộ {1 3} 2 {2 3} 2 {2 5} 3 {3 5} 2 Thuật toán Apriori Ví dụ C3 Tập {2 3 5} L3 Duyệt D Tập Độ ủng hộ {2 3 5} 2 Thuật toán... 123 5 124 5 1345 134 135 145 23 4 15 23 24 25 2 3 4 23 45 23 5 34 24 5 35 5 345 45 Thuật toán Apriori Ví dụ Áp dụng mẹo Apriori trên Cấp 2 123 45 123 4 123 124 12 125 13 14 1 123 5 124 5 1345 134 135 145 23 4 15 23 24 25 2 3 4 23 45 23 5 34 24 5 35 5 345 45 Tập phổ biến tối đại ( maximal frequent sets)  Tập phổ biến (frequent sets)  Tập phổ biến tối đại ( maximal frequent sets)  Định nghĩa: M là tập phổ biến... C:3 D:1 D:1 A :2 E:1 C:1 D:1 D:1 E:1 null E:1 B:1 A :2 C:1 E:1 C:1 D:1 D:1 E:1 Những giao tác có bao gồm item E E:1 Thuật toán FP-Tree (New) Header table null B:1 A :2 C:1 E:1 C:1 D:1 D:1 E:1 E:1 Với mỗi nhánh cây bao gồm E • Loại bỏ E • Thêm vào cây mới • Xây dựng lại bảng Header cho cây mới A 2 C 2 D 2 Cây điều kiện cho item E null Item B bị loại bỏ do support(B)=1 nhỏ hơn minsup =2 C:1 A :2 C:1 D:1 D:1... null A 2 Cây điều kiện cho tập item DE A :2 null C:1 D:1 A :2 D:1 Các tập phổ biến sau khi kết thúc tiến trình đệ quy do cây chỉ còn một đường đi Tập các đường đi bắt đầu với E và kết thúc với D Lần lượt thêm từng đường dẫn vào cây mới sau khi đã loại bỏ D Tập phổ biến: DE (2) , ADE (2) Thuật toán FP-Tree null C:1 (New) Header table A:1 C:1 null D:1 Kết thúc quá trình đệ quy do cây rỗng Tập phổ biến: CE (2) ... thước 1 sẽ tạo ra 107 tập ứng viên kích thước 2 • Để phát hiện một mẫu phổ biến kích thước 100, ví dụ {a1, a2, …, a100}, cần tạo 21 00  1030 ứng viên  Duyệt CSDL nhiều lần: • Cần duyệt (n +1 ) lần, n là chiều dài của mẫu dài nhất Thuật toán Apriori Hạn chế của thuật toán Apriori  Thực tế:  Đối với tiếp cận Apriori căn bản thì số lượng thuộc tính trên dòng thường khó hơn nhiều so với số lượng dòng giao... vào cây: TID 1 2 3 4 5 6 7 8 9 10 Items {A,B} {B,C,D} {A,C,D,E} {A,D,E} {A,B,C} {A,B,C,D} {B,C} {A,B,C} {A,B,D} {B,C,E} B:1 A:1 Thêm TID =2 vào cây: null B :2 A:1 C:1 D:1 Thuật toán FP-Tree TID 1 2 3 4 5 6 7 8 9 10 Items {A,B} {B,C,D} {A,C,D,E} {A,D,E} {A,B,C} {A,B,C,D} {B,C} {A,B,C} {A,B,D} {B,C,E} Header table B 8 A 7 C 7 D 5 E 3 Transaction Database null B:8 C:3 D:1 A:5 C:3 D:1 D:1 A :2 E:1 C:1 D:1... FP-Tree (New) Header table null null A :2 Quá trình đệ quy kết thúc do cây rỗng Tập phổ biến: AE (2) Tập các đường đi bắt đầu từ E và kết thúc với A Thêm lần lượt từng đường đi vào cây mới (sau khi loại bỏ A) Thuật toán FP-Tree Procedure FFP-growth(Tree, α) { (1) Nếu Tree có chứa một đường đi đơn P (2) Thì với mỗi cách kết hợp  của các nút trong đường đi P thực hiện (3) phát sinh tập mẫu Uα, support = min(support... kích thước 2)  Tạo các luật kết hợp từ các tập phổ biến thì nhanh  Ghi nhớ 2:  Khi tạo các tập phổ biến, ngưỡng độ ủng hộ được sử dụng  Khi tạo luật kết hợp, ngưỡng độ tin cậy được sử dụng  Thực tế, việc tạo các tập phổ biến và tạo các luật kết hợp thật sự chiếm thời gian bao lâu?  Xét một ví dụ nhỏ trong thực tế…  Các thử nghiệm được thực hiện với Pentium IV 2GHz, có bộ nhớ chính 5 12 MB & Windows... A") mua=SQLServer, mua=DMBook  mua=DBMiner [2% ,60%] mua(x, "SQLServer") ^ mua(x, "DMBook")  mua(x, "DBMiner") [0 .2% , 60%]  Định lượng: Luật liên quan đến mối kết hợp giữa các phần tử hay thuộc tính định lượng tuổi=30 39, thu nhập= 42 48K  mua=PC [1%, 75%] tuổi(x, "30 39") ^ thu nhập(x, " 42 48K")  mua(x, "PC") [1%, 75%] ... béo Vinamilk 2% lúa mì ID giao tác T1 T2 T3 T4 T5 Mat hang {111, 121 , 21 1, 22 1} {111, 21 1, 22 2, 323 } {1 12, 122 , 22 1, 411} {111, 121 } {111, 122 , 21 1, 22 1, 413} trắng Yomost 121 = sữa - 2% - Vinamilk... 135 145 23 4 15 23 24 25 23 45 23 5 34 24 5 35 345 45 Thuật toán Apriori Ví dụ Áp dụng mẹo Apriori Cấp 123 45 123 4 123 124 12 125 13 14 123 5 124 5 1345 134 135 145 23 4 15 23 24 25 23 45 23 5 34 24 5 35... CSDL D 123 4 123 12 124 13 123 5 124 5 125 134 135 14 15 23 145 24 1345 23 4 25 23 45 23 5 34 35 24 5 45 345 Thuật toán Apriori Ví dụ Áp dụng mẹo Apriori Cấp 123 45 123 4 123 124 12 13 125 14 123 5 124 5 1345

Ngày đăng: 03/12/2015, 05:45

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan