Slide bài giảng Bài toán khai thác tập phổ biến

11 1.9K 20
Slide bài giảng Bài toán khai thác tập phổ biến

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài toán khai thác tập phổ biến

11KHAI THÁC DỮ LIỆU & ỨNG DỤNG(DATA MINING)GV : NGUYỄN HOÀNG TÚ ANH2BBBBÀÀÀÀI 3 I 3 I 3 I 3 ---- PHPHPHPHẦN 2N 2N 2N 2KHAI THÁC TẬP PHỔ BIẾN & LUẬT KẾT HỢP3NỘI DUNG1.Gii thiu2. Bài toán khai thác tập phổbiến3. Độ đo tính lý thú4GIỚI THIỆU Bài toán khai thác tập phổ biếnbài toán rất quan trọng lĩnh vực KTDL : vạch ra tính chất ẩn, quan trọng của tập DLTất cả các tập con của tập phổ biến đều làtập phổ biến Tập phổ biến tối đại, tập bao phổ biếnBài toán khai thác LKH là bài toán tìm tt ccác luật dạng X ⇒⇒⇒⇒ Y (X, Y ⊂ I và X ∩Y ={})thỏa mãn độ phổ biến và độ tin cậy tối thiểu supp (X ⇒⇒⇒⇒ Y ) ≥≥≥≥ minsuppconf (X ⇒⇒⇒⇒ Y ) ≥≥≥≥ minconf 25GIỚI THIỆUBài toán khai thác tp ph bin là bài toán tìm tt c các tp các hng mc S (hay tp phbin S) có đ ph bin tha mãn đ ph bin ti thiu minsupp supp(S) ≥≥≥≥minsuppCách giải quyết : dựa trên tính chất của tập phổbiếnTìm kiếm theo chiều rộng : Thuật toán Apriori (1994)Phát triển mẫu : Thuật toán FP-Growth (2000)Tìm kiếm trên CSDL hàng dọc : Thuật toán Charm (2002)6GIỚI THIỆU Các hạn chế của Thuật toán AprioriPhải duyệt CSDL nhiều lần Khi khai thác các mẫu dài cần duyệt CSDL nhiều lần và tạo lượng lớn tập ứng viênVí dụ : Để tìm tập phổ biến i1 i2… i100 :• Số lần duyệt CSDL : 100• Số lượng ứng viên : 2100-1 = 1.27*1030!Vấn đề : tạo ứng viên và kiểm tra  Có thể tránh việc tạo ứng viên hay không ?7NỘI DUNG1. Giới thiệu2. Bài toán khai thác tp ph bin Thut toán FP-Growth3. Độ đo tính lý thú8THUẬT TOÁN FP-GROWTH1. BẢN CHẤTKhai thác tập phổ biến khôngsử dụng hàm tạo ứng viên.Nén CSDL thành cấu trúc cây FP (Frequent Patern)Duyệt đệ qui cây FP để tạo tập phổ biến 39THUẬT TOÁN FP-GROWTH2. QUI TRÌNHB0 : Thit lp cây FPB1 : Thiết lập cơ sở mẫu điều kiện (conditional pattern bases) cho mỗi hạng mục phổ biến (mỗi nút trên cây FP).B2 : Thiết lập cây FP điều kiện (conditional FP tree) từ mỗi cơ sở mẫu điều kiện B3 : Khai thác đệ qui cây FP điều kiện vàphát triển mẫu phổ biến cho đến khi cây FP điều kiện chỉ chứa 1 đường dẫn duy nhất -tạo ra tất cả các tổ hợp của mẫu phổ biến 10THIẾT LẬP CÂY FP (B0)Header TableItem frequency head f 4c 4a 3b 3m 3p 3minsupp = 60%TID Items bought (ordered) frequent items100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}200 {a, b, c, f, l, m, o} {f, c, a, b, m}300 {b, f, h, j, o, w} {f, b}400 {b, c, k, s, p} {c, b, p}500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}1. Tìm tập phổ biến 1- hạngmục (duyệt CSDL 1 lần)2. Sắp xếp tập phổ biến giảm dần vào trong F-list3. Sắp xếp CSDL theo F-list. Duyệt CSDL lần nữa và thiết lập cây FPF-list=f-c-a-b-m-p11THIẾT LẬP CÂY FP (B0)Header TableItem frequency head f 4c 4a 3b 3m 3p 3minsupp = 31. Tìm tập phổ biến 1-hạng mục (duyệt CSDL 1 lần)2. Sắp xếp tập phổ biến giảm dần vào trong F-list3. Duyệt CSDL lần nữa vàthiết lập cây FPF-list=f-c-a-b-m-p{}f:1c:1a:1m:1p:1TID Items bought (ordered) frequent items100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}200 {a, b, c, f, l, m, o} {f, c, a, b, m}300 {b, f, h, j, o, w} {f, b}400 {b, c, k, s, p} {c, b, p}500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}12THIẾT LẬP CÂY FP (B0)Header TableItem frequency head f 4c 4a 3b 3m 3p 3minsupp = 3TID Items bought (ordered) frequent items100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}200 {a, b, c, f, l, m, o} {f, c, a, b, m}300 {b, f, h, j, o, w} {f, b}400 {b, c, k, s, p} {c, b, p}500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}1. Tìm tập phổ biến 1-hạng mục (duyệt CSDL 1 lần)2. Sắp xếp tập phổ biến giảm dần vào trong F-list3. Duyệt CSDL lần nữa vàthiết lập cây FPF-list=f-c-a-b-m-p{}f:2c:2a:2b:1m:1p:1m:1 413THIẾT LẬP CÂY FP (B0)Header TableItem frequency head f 4c 4a 3b 3m 3p 3minsupp = 3TID Items bought (ordered) frequent items100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}200 {a, b, c, f, l, m, o} {f, c, a, b, m}300 {b, f, h, j, o, w} {f, b}400 {b, c, k, s, p} {c, b, p}500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}1. Tìm tập phổ biến 1-hạng mục (duyệt CSDL 1 lần)2. Sắp xếp tập phổ biến giảm dần vào trong F-list3. Duyệt CSDL lần nữa và thiết lập cây FPF-list=f-c-a-b-m-p{}f:3c:2a:2b:1m:1p:1m:1b:114THIẾT LẬP CÂY FP (B0)Header TableItem frequency head f 4c 4a 3b 3m 3p 3minsupp = 31. Tìm tập phổ biến 1-hạng mục (duyệt CSDL 1 lần)2. Sắp xếp tập phổ biến giảm dần vào trong F-list3. Duyệt CSDL lần nữa và thiết lập cây FPF-list=f-c-a-b-m-p{}f:4 c:1b:1p:1b:1c:3a:3b:1m:2p:2m:1TID Items bought (ordered) frequent items100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}200 {a, b, c, f, l, m, o} {f, c, a, b, m}300 {b, f, h, j, o, w} {f, b}400 {b, c, k, s, p} {c, b, p}500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}15Bài tập theo nhómTID Items1 {A,B}2 {B,C,A}3 {A,D,B}4 {A,B,E}5 {A,C}6 {A,B,C}7 {B,C}8 {B,C,D}9 {B,E}10 {A,E}11 {A,C,E}12 {A,D,E}• Thời gian : 15’• Trình bày kết quả ra giấy theo nhóm•Yêu cầu: Xây dựng cây FP từ CSDL bên với minsupp = 25 %• Nếu Minsupp = 40% thìcây FP sẽ thay đổi như thếnào ?16Qui định trình bày bài nộpBài tập nộp theo nhóm Ngày nộp :  Tên nhóm : ( chỉ ghi tên các thành viên có mặt)– Thành viên 1:– Thành viên 2:– …– Thành viên 12: Nội dung : 517ĐÁP ÁN18THUẬT TOÁN FP-GROWTH (B1) Xây dng cơ s mu điu kin (Conditional pattern base)– Bắt đầu từ mẫu phổ biến cuối bảng của cây FP– Duyệt cây FP theo kết nối của mỗi hạng mục phổ biến (VD hạng mục p)– Gom tất cả đường dẫn tiền tố biến đổi (transformed prefix) của hạng mục (p) đểtạo cơ sở mẫu điều kiện (của p)Conditional pattern basesitem cond. pattern basec f:3a fc:3b fca:1, f:1, c:1m fca:2, fcab:1p fcam:2, cb:1{}f:4 c:1b:1p:1b:1c:3a:3b:1m:2p:2 m:1Header TableItem frequency head f 4c 4a 3b 3m 3p 319THUẬT TOÁN FP-GROWTH (B2) Xây dựng cây FP-điều kiện– Vi mi cơ s mu :• Đếm số lượng mỗi mẫu trong cơ sở mẫu• Thit lp cây FP cho tp ph bin ca mu cơ sp-conditional FP-tree{}Header TableItem frequency head c 3VD : Với cơ cở mẫu điều kiện cho p là : {fcam:2, cb:1}c:3minsupp = 320THUẬT TOÁN FP-GROWTH (B2)Ví dụ : m-conditional pattern base: fca:2, fcab:1{}f:3c:3a:3m-conditional FP-tree{}f:4 c:1b:1p:1b:1c:3a:3b:1m:2p:2 m:1Header TableItem frequency head f 4c 4a 3b 3m 3p 3 Xây dựng cây FP-điều kiện– Vi mi cơ s mu :• Đếm số lượng mỗi mẫu trong cơ sở mẫu• Thit lp cây FP cho tp ph bin ca mu cơ sminsupp = 3 621VÍ DỤ{ }{ }f{ (f:3) } | c{ (f:3) }c{ (f:3, c:3) } | a{ (fc:3) }a{ }{ (fca:1), (f:1), (c:1) }b{ (f:3, c:3, a:3) } | m{ (fca:2), (fcab:1) }m{ (c:3) } | p{ (fcam:2), (cb:1) }pConditional FP-treeConditional pattern-baseItem22THUẬT TOÁN FP-GROWTH (B3) Nguyên lý mở rộng mẫu phổ biến Dựa trên tính chất mở rộng mẫu : – Giả sử α là tập phổ biến trong CSDL, B là α's conditional pattern base, và β một tập các hạngmục trong B. – Khi đóα ∪ βlà tập phổ biến trong CSDL khi vàchỉ khi βlà phổ biến trong B.  “abcdef ” là mẫu phổ biến khi và chỉ khi – “abcde ” là mẫu phổ biến, và– “f ” là phổ biến trong tập các giao dịch chứa “abcde”23THUẬT TOÁN FP-GROWTH (B3) Xác định tập phổ biến– Giả sử cây FP T có một đường dẫn đơn (single path) P• Tp mu ph bin cui cùng ca T sinh ra bng cách lit kê tt c các t hp ca sub-paths thuc P– Nếu cây FP có nhiều nhánh thì :• Thực hiện việc phân chia cây thành các cây có một đường dẫn đơn• Thut toán đ qui : gi FP_Growth(FP-tree, null){}f:3c:3a:3m-conditional FP-treeTất cả mẫu phổ biến liên quan đến mm, fm, cm, am,fcm, fam, cam,fcam24THUẬT TOÁN FP-GROWTH (B3)// Đầu tiên, gọi FP_growth(FP-tree, null)procedure FP_growth(Tree, α) If cây FP chứa 1 path P then– For mỗi tổ hợp β của nốt trên P• Tạo mẫu β ∪ α với supp = suppmin(các nốt trong β); Else for mỗi αitrên header của cây– Tạo mẫu β= αi∪ α với supp =supp αi;– Thiết lập β’s conditional pattern base and β’s conditional FP-tree treeβ– If treeβ≠ ∅, gọi FP_growth(treeβ, β) 725TT FP-GROWN & TT APRIORI01020304050607080901000 0.5 1 1.5 2 2.5 3Support threshold(%)Run time(sec.)D1 FP-grow th runtimeD1 Apr iori runtimeData set T25I20D10K26VD : LUẬT KẾT HỢP27VD : LUẬT KẾT HỢP28NỘI DUNG1. Giới thiệu2. Bài toán khai thác tập phổbiến3.Đ đo tính lý thú 829ĐỘ ĐO TÍNH LÝ THÚ1. Thế nào là luật hay, lý thú ? Thuật toán khai thác luật kết hợp có xu hướng sinh ra quá nhiều luật. Trong đó có nhiều luật không hay hoặc bị thừa Cần độ đo tính lý thú để loại bớt/ hạn chế luật2. Độ đo khách quan :o Độ phổ biến (supp) và độ tin cậy (conf)o Còn khoảng 20 độ đo khác3. Độ đo chủ quan :o LKH là lý thú nếu là điều mới lạ, gây ngạc nhiên hoặc / vào Có khả năng ứng dụng30ĐỘ ĐO TÍNH LÝ THÚ Ví dụ 1:– Trong 5000 sinh viên• 3000 chơi bóng rổ• 3750 ăn ngũ cốc• 2000 chơi bóng rổ và ăn ngũ cốc– Luật KH : Chơi bóng rổ ⇒ Ăn ngũ cốc [40%, 66.7%] là sai lầm vì % SV ăn ngũ cốc là 75% > 66.7%.– Lut KH : Chơi bóng r⇒⇒⇒⇒ Không ăn ngũ cc [20%, 33.3%] có ý nghĩa thc tin hơn mc dù có đsupp và conf thp hơnbasketball not basketball sum(row)cereal 2000 1750 3750not cereal 1000 250 1250sum(col.) 3000 2000 500031100109080575Tea20515TeaCoffeeCoffeeVí dụ 2 :Luật kết hợp : Tea →→→→ CoffeeConf= P(Coffee|Tea) = 15/20 = 0.75nhưng P(Coffee) = 0.9⇒Mặc dù độ tin cậy cao nhưng luật làm cho lạc hướng ⇒ P(Coffee|Tea) = 75/80= 0.9375ĐỘ ĐO TÍNH LÝ THÚ32ĐỘ ĐO TÍNH LÝ THÚ Cần độ đo sự phụ thuộc hay mối tương quan giữa các sự kiện Một số độ đo khác:)](1)[()](1)[()()(),()()(),()()(),()()|(YPYPXPXPYPXPYXPtcoefficienYPXPYXPPSYPXPYXPInterestYPXYPLift−−−=−−===φ 933ĐỘ ĐO TÍNH LÝ THÚ Độ đo mối tương quan Interest– X và Y tương quan nghịch, nếu Interest <1; Ngược lại X và Y tương quan thuận.– Ví dụ 1 :89.05000/3750*5000/30005000/2000),(interest ==CB33.15000/1250*5000/30005000/1000),(interest ==¬CB• Tự tính độ đo interest cho các luật thuộc Ví dụ 234TÓM TẮT 1. Bài toán khai thác tập phổ biến và luật kết hợp: quan trọng và rất được quan tâm.2. Thuật toán tiêu biểu tìm tập phổ biến: Apriori và FP-Growth3. Độ đo tính lý thú : vấn đề cần nghiên cứu sâu hơn.4. Rất nhiều vấn đề còn đang mở : phân tích mối kết hợp trong các loại DL khác : DL không gian, hình ảnh, đa phương tiện, thời gian thực, …35BÀI TẬP PHẦN 21. Cho CSDL bên  Xây dựng cây FP với minsupp = 30 % Xây dựng cây FP với minsupp = 50 % Tính độ phổ biến, độtin cậy, độ đo Interest của các luật sau : A -> B B -> C D -> ATID Items1 {A,B}2 {B,C,D}3 {A,C,D,E}4 {A,D,E}5 {A,B,C}6 {A,B,C,D}7 {B,C}8 {A,B,C}9 {A,B,D}10 {B,C,E}362. Cho CSDL sau và minsupp=50%, minconf=80%a) Tìm tất cả các tập phổ biến, tập phổ biến tối đại, tập bao phổ biến sử dụng thuật toán FP-Growth b) So sánh kết quả và tính hiệu quả với thuật toán Apriori (Bài tập phần 1)Items_boughtK, A, D, B, C, ID, A, C, E, BC, A, B, E, DB, A, D, IDate15/1/0315/1/0319/1/0325/1/03TID100200300400BÀI TẬP PHẦN 2 10373. Cho CSDL sau và minsupp=30%, minconf=50%BÀI TẬP PHẦN 238a)Tìm tất cả các tập ứng viên và tập phổbiến, tập phổ biến tối đại, tập bao phổbiến sử dụng lần lượt thuật toán Apriori và thuật toán Fp-Growthb)Liệt kê tất cả LKH thỏa mãn ngưỡng đã cho BÀI TẬP PHẦN 239TÀI LIỆU THAM KHẢO 1. J. Han, J. Pei, and Y. Yin. Mining frequent patterns without candidate generation. SIGMOD'00, 1-12, Dallas, TX, May 20002. J.Han, M.Kamber, Chương 5 – Data mining : Concepts and Techniques – 3. P.-N. Tan, M. Steinbach, V. Kumar, Chương 6 - Introduction to Data Mining40BÀI TẬP TẠI LỚP Thời gian: 25’Cho CSDL giao dịch bên1. Sử dụng thuật toán FP-Grown để tìm các tập phổ biến với minsupp = 22 %2. So sánh với kết quả của bài tập thuộc Phần 1M1, M2, M3900M1, M2, M3, M5800M1, M3700M2, M3600M1, M3500M1, M2, M4400M2, M3300M2, M4200M1, M2, M5100ItemsTid [...]... pattern-base Item 22 THUẬT TOÁN FP-GROWTH (B3)  Nguyên lý mở rộng mẫu phổ biến  Dựa trên tính chất mở rộng mẫu : – Giả sử α là tập phổ biến trong CSDL, B là α's conditional pattern base, và β một tập các hạng mục trong B. – Khi đó α ∪ β là tập phổ biến trong CSDL khi và chỉ khi β là phổ biến trong B.  “abcdef ” là mẫu phổ biến khi và chỉ khi – “abcde ” là mẫu phổ biến, và – “f ” là phổ biến trong tập các...8 29 ĐỘ ĐO TÍNH LÝ THÚ 1. Thế nào là luật hay, lý thú ?  Thuật toán khai thác luật kết hợp có xu hướng sinh ra quá nhiều luật.  Trong đó có nhiều luật khơng hay hoặc bị thừa  Cần độ đo tính lý thú để loại bớt/ hạn chế luật 2. Độ đo khách quan : o Độ phổ biến (supp) và độ tin cậy (conf) o Còn khoảng 20 độ đo khác 3. Độ đo chủ quan : o LKH là lý thú nếu là điều... TOÁN FP-GROWTH (B3)  Xác định tập phổ biến – Giả sử cây FP T có một đường dẫn đơn (single path) P • Tp mu ph bin cui cùng ca T sinh ra bng cách lit kê tt c các t hp ca sub-paths thuc P – Nếu cây FP có nhiều nhánh thì : • Thực hiện việc phân chia cây thành các cây có một đường dẫn đơn • Thut tốn đ qui : gi FP_Growth(FP-tree, null) {} f:3 c:3 a:3 m-conditional FP-tree Tất cả mẫu phổ. .. Thực hiện việc phân chia cây thành các cây có một đường dẫn đơn • Thut tốn đ qui : gi FP_Growth(FP-tree, null) {} f:3 c:3 a:3 m-conditional FP-tree Tất cả mẫu phổ biến liên quan đến m m, fm, cm, am, fcm, fam, cam, fcam    24 THUẬT TOÁN FP-GROWTH (B3) // Đầu tiên, gọi FP_growth(FP-tree, null) procedure FP_growth(Tree, α )  If cây FP chứa 1 path P then – For mỗi tổ hợp β của nốt trên P • Tạo . quan trọng của tập DLTất cả các tập con của tập phổ biến đều l tập phổ biến Tập phổ biến tối đại, tập bao phổ biếnBài toán khai thác LKH là bài toán tìm tt. HỢP3NỘI DUNG1.Gii thiu2. Bài toán khai thác tập ph biến3 . Độ đo tính lý thú4GIỚI THIỆU Bài toán khai thác tập phổ biến là bài toán rất quan trọng lĩnh

Ngày đăng: 31/08/2012, 16:47

Hình ảnh liên quan

– Bắt đầu từ mẫu phổ biến cuối bảng của cây FP - Slide bài giảng Bài toán khai thác tập phổ biến

t.

đầu từ mẫu phổ biến cuối bảng của cây FP Xem tại trang 5 của tài liệu.
a fc:3 b fca:1, f:1, c:1 - Slide bài giảng Bài toán khai thác tập phổ biến

a.

fc:3 b fca:1, f:1, c:1 Xem tại trang 5 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan