Khai thác tập phổ biến và luật kết hợp

20 4.3K 19
Khai thác tập phổ biến và luật kết hợp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Khai thác tập phổ biến và luật kết hợp

1KHAI THÁC DỮ LIỆU & ỨNG DỤNG(DATA MINING)GV : NGUYỄN HOÀNG TÚ ANH2BÀI 3- PHẦN 1KHAI THÁC TẬP PHỔ BIẾN & LUẬT KẾT HỢP 3NỘI DUNG1. Gii thiu2. Các khái niệm cơ bản3. Bài toán khai thác tập phổ biến4GIỚI THIỆU Mẫu phổ biến : là mẫu (tập các hạng mục, chuỗi con, cấu trúc con, đồ thị con, …) xuất hiện thường xuyên trong tập DL– Agrawal, Imielinski, Swami – 1993 – trong ngữ cảnh bài toán tập phổbiến luật kết hợp Mục đích : Tìm các hiện tượng thường xuyên xảy ra trong DL– Những sản phẩm nào thường được mua chung ? Bia tã lót– Người ta thường mua gi tiếp theo sau khi mua máy PC ?– Dạng DNA nào có phản ứng với công thức thuốc mới ?– Làm thế nào đề phân loại tự động văn bản Web ? Ứng dụng :– Áp dụng trong phân tích CSDL bán hàng– Mở rộng sang quảng cáo, thiết kế catalog, phân tích chiến dịch bán hàng, Web log, chuỗi DNA, … 5GIỚI THIỆU Bài toán khai thác tập phổ biến là bài toán rất quan trọng lĩnh vực KTDL : vạch ra tính chất ẩn, quan trọng của tập DL Là nền tảng cho nhiều nhiệm vụ KTDL khác :– Phân tích luật kết hợp, mối tương quan– Mẫu tuần tự, cấu trúc ( Vd : đồ thị con)– Phân tích DL không gian, đa phương tiện, phụthuộc thời gian– Phân loại : phân loại dựa trên luật kết hợp– Phân tích nhóm: gom nhóm dựa trên mẫu phổ biến – ….6NỘI DUNG1. Giới thiệu2. Các khái nim cơ bn3. Bài toán khai thác tập phổ biến 7KHÁI NIỆM CƠ BẢN1. CSDL GIAO DỊCH (Transaction DB)VD giỏ mua hàng:o Giỏ 1: {Bánh mì, Trứng, Sữa}o Giỏ 2: {Bánh mì, Đường}…o Giỏ n: {Bánh qui, ngũcốc, sữa}TID Produces 1 MILK, BREAD, EGGS 2 BREAD, SUGAR 3 BREAD, CEREAL 4 MILK, BREAD, SUGAR 5 MILK, CEREAL 6 BREAD, CEREAL 7 MILK, CEREAL 8 MILK, BREAD, CEREAL, EGGS 9 MILK, BREAD, CEREAL 8KHÁI NIỆM CƠ BẢNTID A B C D E 1 1 1 0 0 1 2 0 1 0 1 0 3 0 1 1 0 0 4 1 1 0 1 0 5 1 0 1 0 0 6 0 1 1 0 0 7 1 0 1 0 0 8 1 1 1 0 1 9 1 1 1 0 0 TID Products 1 A, B, E 2 B, D 3 B, C 4 A, B, D 5 A, C 6 B, C 7 A, C 8 A, B, C, E 9 A, B, C ITEMS:A = milkB= breadC= cerealD= sugarE= eggsBiến đổi CSDL vềdạng nhị phân 91. CSDL GIAO DỊCH (tt)Định nghĩa :o Hạng mục (Item) : mặt hàng trong giỏ hay một thuộc tínho Tập các hạng mục (itemset) I = {i1, i2, …, im} : VD : I = {sữa, bánh mì, ngũ cốc, sữa chua}Tập k hạng mục (k-itemset)o Giao dịch (Transation) : tập các hạng mục được mua trong một giỏ ( có TID – mã giao dịch) : (Tid, tập hạng mục)o Giao dịch t : tập các hạng mục sao cho t ⊆Io VD : t = { bánh mì, sữa chua, ngũ cốc}o CSDL giao dịch : tập các giao dịcho CSDL D = {t1,t2, …, tn} , ti={ii1,ii2, …, iik} với iij∈ I : CSDL giao dịchKHÁI NIỆM CƠ BẢN102. ĐỘ PHỔ BIẾN TẬP PHỔ BIẾN Giao dịch t chứa X nếu X là tập các hạng mục trong I X ⊆ tVD : X = { bánh mì, sữa chua}Độ phổ biến (supp) của tập các hạng mục X trong CSDL D là tỷ lệ giữa số các giao dịch chứa X trên tổng số các giao dịch trong D Supp(X) = count(X) / | D |Tập các hạng mục phổ biến S hay tập phổbiến (frequent itemsets) là tập các hạng mục có độ phổ biến thỏa mãn độ phổ biến tối thiểu minsupp (do người dùng xác định) Nếu supp(S) ≥≥≥≥ minsupp thì S - tập phổ biến .KHÁI NIỆM CƠ BẢN 113. TÍNH CHẤT TẬP PHỔ BIẾN Tất cả các tập con của tập phổbiến đều là tập phổ biến Thảo luận :Tại sao ?Nu tp con không ph bin thì tp bao nó (tp cha) có ph bin hay không ?KHÁI NIỆM CƠ BẢN12I = { Beer, Bread, Jelly, Milk, PeanutButter}X= {Bread,PeanutButter} ; Count(X) = 3 |D| = 5→→→→ supp(X) = 60%→→→→ X- tập phổ biếnX2= {Bread} →→→→ supp(X2) = ? X3 = {PeanutButter} →→→→ supp(X3) = ?; X2và X3có phổ biến ?X4= {Milk}, X5={Milk, Bread} →→→→ X4 X5có phổ biến ?VÍ DỤ 1Minsupp = 60% 13minsupp=30%TẬP PHỔ BIẾN của VD 114KHÁI NIỆM CƠ BẢN4. TẬP PHỔ BIẾN TỐI ĐẠI (Max-Pattern)Tp ph bin & không tn ti tp nào bao nólà ph bin (Bayardo –SIGMOD’98){B, C, D, E}, {A, C, D}-tập phổ biến tối đại {B, C, D}- không phải tập phổ biến tối đạiTid Items10 A,B,C,D,E20 B,C,D,E,30 A,C,D,FMinsupp=2 15KHÁI NIỆM CƠ BẢN5. TẬP PHỔ BIẾN ĐÓNG (Closed Pattern)Tp ph bin & không tn ti tp nào bao nó có cùng đph bin nh nó. (Pasquier, ICDT’99)Tp ph bin ĐÓNG là trng hp nén các tp ph bin (có mt thông tin){A, B}, {A, B, D}, {A,B, C} - tập phổ biến đóng. {A, B} - không phải tập phổbiến tối đạiMinsupp=2TID Items10 a, b, c 20 a, b, c30 a, b, d40 a, b, d, 50 c, e, f166. LUẬT KẾT HỢP( Association rule)LKH có dng : X ⇒⇒⇒⇒ Y, với X, Y ⊂⊂⊂⊂ I, X ∩∩∩∩Y ={}Ý nghĩa : khi X có mặt thì Y cũng có mặt ( với xác suất nào đó)LKH thng được đánh giá dựa trên 2 độ đo:Độ phổ biến (support) : supp (X ⇒⇒⇒⇒ Y ) =P (X ∪∪∪∪ Y)supp (X ⇒⇒⇒⇒ Y ) = supp(X∪∪∪∪Y)Độ tin cậy (confidence) : conf (X ⇒⇒⇒⇒ Y ) = P(Y | X)conf (X ⇒⇒⇒⇒ Y ) = supp(X∪∪∪∪Y) / supp(X)KHÁI NIỆM CƠ BẢN 17VÍ DỤ LUẬT KẾT HỢP (VD1)Ký hiệu : s – supp, α - conf187. MÔ TẢ BÀI TOÁN KHAI THÁC LKHCho độ phổ biến tối thiểu (minsupp) độ tin cậy tối thiểu (minconf) do người dùng xác định. Cho tập các hạng mục I={i1,i2,…,im} CSDL giao dịch D={t1,t2, …, tn}, với ti={ii1,ii2, …, iik} iij∈ I. Bài toán khai thác LKH là bài toán tìm tt ccác luật dạng X ⇒⇒⇒⇒ Y (X, Y ⊂ I X ∩Y = {})thỏa mãn độ phổ biến độ tin cậy tối thiểu supp (X ⇒⇒⇒⇒ Y ) ≥≥≥≥ minsuppconf (X ⇒⇒⇒⇒ Y ) ≥≥≥≥ minconfKHÁI NIỆM CƠ BẢN 19 Thời gian : 8’ Trình bày ý tưởng gii quyt vn đ trc lp trong vòng 3’ Tình huống :– Cho CSDL bên với các giá trị minsupp =50 % vàminconf = 60%– Tìm tt c các lut kt hp tha mãn minsupp minconf– Nhận xét ?Minsupp = 50%Minconf = 60%Trs-id Items bought10 B, C20 A, B, C30 D, B, F40 A, EBài tập theo nhóm20KHÁI NIỆM CƠ BẢN8. QUI TRÌNH KHAI THÁC LKHB1 : Tìm tất cả các tập phổ biến ( theo ngưỡng minsupp)B2 : Tạo ra các luật từ các tập phổ biếnĐối với mỗi tập phổ biến S, tạo ra tất cả các tập con khác rỗng của SĐối với mỗi tập con khác rỗng A của S,o Luật A ⇒⇒⇒⇒ (S - A) là LKH cần tìm nếu :  conf (A ⇒⇒⇒⇒ (S - A)) = supp(S) / supp(A) ≥≥≥≥ minconf T bài toán khai thác LKH chuyn thành bài toán khai thác tp ph bin : độ phức tạp tính toán cao. [...]... E Bài tập theo nhóm 20 KHÁI NIỆM CƠ BẢN 8. QUI TRÌNH KHAI THÁC LKH B1 : Tìm tất cả các tập phổ biến ( theo ngưỡng minsupp) B2 : Tạo ra các luật từ các tập phổ biến Đối với mỗi tập phổ biến S, tạo ra tất cả các tập con khác rỗng của S Đối với mỗi tập con khác rỗng A của S, o Luật A ⇒ ⇒⇒ ⇒ (S - A) là LKH cần tìm nếu :  conf (A ⇒ ⇒⇒ ⇒ (S - A)) = supp(S) / supp(A) ≥ ≥≥ ≥ minconf  T bài toán khai thác. .. conf 18 7. MƠ TẢ BÀI TỐN KHAI THÁC LKH Cho độ phổ biến tối thiểu (minsupp) độ tin cậy tối thiểu (minconf) do người dùng xác định. Cho tập các hạng mục I={i 1 ,i 2 ,…,i m } CSDL giao dịch D={t 1 ,t 2 , …, t n }, với t i ={i i1 ,i i2 , …, i ik } i ij ∈ I. Bài tốn khai thác LKH là bài tốn tìm tt c các luật dạng X ⇒ ⇒⇒ ⇒ Y (X, Y ⊂ I X ∩Y = {}) thỏa mãn độ phổ biến độ tin cậy tối thiểu... minconf KHÁI NIỆM CƠ BẢN 11 3. TÍNH CHẤT TẬP PHỔ BIẾN Tất cả các tập con của tập phổ biến đều là tập phổ biến Thảo luận : Tại sao ? Nu tp con khơng ph bin thì tp bao nó (tp cha) có ph bin hay khơng ? KHÁI NIỆM CƠ BẢN 12 I = { Beer, Bread, Jelly, Milk, PeanutButter} X= {Bread,PeanutButter} ; Count(X) = 3 |D| = 5 → →→ → supp(X) = 60%→ →→ → X- tập phổ biến X 2 = {Bread} → →→ → supp(X 2 ) =... 35 BÀI TẬP PHẦN 1 1. Hãy tìm hiểu trong tài liệu tham khảo [2][3] và trình bày chi tiết một phương pháp cải tiến quá trình tìm luật kết hợp từ tập phổ biến (Bước 2 trong qui trình khai thác luật kết hợp) ? Giải thích vì sao nó hiệu quả hơn. 2. Tìm hiểu các phương pháp cải tiến thuật tốn Apriori. Trình bày chi tiết MỘT cải tiến ( ý tưởng, mã giả ) 3. Áp dụng một trong các phương pháp cải tiến đó vào... Apriori_Tid khơng tính độ phổ biến của các tập hạng mục từ các mẫu tin của CSDL mà xây dựng cấu trúc lưu trữ mới C k cho CSDL ban đầu . Mỗi mẫu tin trong C k có dạng <Tid, {X k }> với X k là tập phổ biến k- hạng mục xuất hiện trong giao dịch có mã Tid. Nếu một giao dịch không chứa bất kỳ một tập phổ biến k hạng mục thì giao dịch này khơng được đưa vào C k . 17 VÍ DỤ LUẬT KẾT HỢP (VD1) Ký hiệu... Mining http://www-users.cs.umn.edu/~kumar/dmbook/ch6.pdf 38 CÁC CÔNG VIỆC CẦN LÀM 1. Thực hiện bài tập 1 4. – Nộp bài qua Moodle trước 23h00 ngày thứ 2 – 25/8/2008 2. Chuẩn bị bài 3 : Khai thác tập phổ biến luật kết hợp – Xem nội dung các bài tập nhóm thuộc bài 3 – Phần 2. – Cách thực hiện : • Đọc slide, xem các ví dụ • Tham khảo trên Internet tài liệu tham khảo 7 KHÁI NIỆM CƠ BẢN 1. CSDL GIAO DỊCH (Transaction... ) 3. Áp dụng một trong các phương pháp cải tiến đó vào bài tập 4.a. Nêu rõ đã cải tiến ở phần nào . 36 BÀI TẬP PHẦN 1 4. Cho CSDL sau minsupp=50%, minconf=80% a) Sử dụng thuật tốn Apriori để tìm tất cả các tập phổ biến, tập phổ biến tối đại, tập phổ biến đóng. b) Tìm tất cả LKH thỏa mãn ngưỡng minconf đã cho c) ng dng ci tin ca câu 1 vào vic tìm các LKH tha mãn ngng minconf. So sánh hiu... eggs Biến đổi CSDL về dạng nhị phân 5 GIỚI THIỆU  Bài toán khai thác tập phổ biến là bài toán rất quan trọng lĩnh vực KTDL : vạch ra tính chất ẩn, quan trọng của tập DL  Là nền tảng cho nhiều nhiệm vụ KTDL khác : – Phân tích luật kết hợp, mối tương quan – Mẫu tuần tự, cấu trúc ( Vd : đồ thị con) – Phân tích DL không gian, đa phương tiện, phụ thuộc thời gian – Phân loại : phân loại dựa trên luật kết. .. Pseudo-Code Input : CSDL D, minsupp Output : L : các tập phổ biến trong D C k : Tập ứng viên kích thước k L k : Tập phổ biến kích thước k L 1 = Tìm _tập_ phổ_ biến_ 1_hạng mục(D); for (k = 1; L k ≠∅; k++) { C k+1 = apriori_gen(L k ); // Tạo tập ứng viên (k+1) hạng mục for mỗi giao tác t ∈ D { // Duyệt CSDL để tính support C t = subset(C k+1 , t); // Lấy ra tập con của t là ứng viên for mỗi ứng viên c ∈ C t c.count... b). d) Liệt kê LKH thỏa mãn ngưỡng đã cho có dạng (item1 ∧ item2) ⇒ item3 kèm theo supp, conf của nó. TID 100 200 300 400 Date 15/1/03 15/1/03 19/1/03 25/1/03 Items_bought K, A, D, B, C, I D, A, C, E, B C, A, B, E, D B, A, D, I, K 1 KHAI THÁC DỮ LIỆU & ỨNG DỤNG (DATA MINING) GV : NGUYỄN HOÀNG TÚ ANH 2 BÀI 3- PHẦN 1 KHAI THÁC TẬP PHỔ BIẾN & LUẬT KẾT HỢP 31 CÁC KỸ THUẬT CẢI TIẾN THUẬT TỐN . ≥≥≥≥ minsupp thì S - tập phổ biến .KHÁI NIỆM CƠ BẢN 113. TÍNH CHẤT TẬP PHỔ BIẾN Tất cả các tập con của tập ph biến đều là tập phổ biến Thảo luận :Tại. Apriori để tìm các tập phổ biến với minsupp = 22 %2. Liệt kê các tập phổ biến tối đại v tập phổ biến đóng. 3. Tìm tất cả các luật kết hợp thỏa mãna.

Ngày đăng: 31/08/2012, 16:12

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan