1. Trang chủ
  2. » Giáo Dục - Đào Tạo

DATA MINING AND APPLICATION: BÀI TOÁN KHAI THÁC doc

25 457 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 449,82 KB

Nội dung

1 1 KHAI THÁC 'Ӳ/,ӊ8 Ӭ1*'Ө1* (DATA MINING) *91*8<ӈ1+2¬1*7Ò$1+ 2 B B À À I I 3 3 - - P P H H ҪN N 2 2 KHAI THÁC TҰP PHӘ BIӂN & LUҰT KӂT HӦP 2 3 NӜI DUNG 1. *LͳLWKL͟X 2. %jLWRiQNKDLWKiFWұSSKә ELӃQ 3. ĈӝÿRWtQKOêWK~FӫD/.+ 4 *,Ӟ,7+,ӊ8  Bài toán khai thác WұS SKә ELӃQ là bài toán UҩW quan WUӑQJ OƭQK YӵF KTDL : YҥFK ra tính FKҩW ҭQ quan WUӑQJ FӫD WұS DL 7ҩW Fҧ các WұS con FӫD WұS SKә ELӃQ ÿӅX là WұS SKә ELӃQ 7ұS SKә ELӃQ WӕL ÿҥL WұS bao SKә ELӃQ Bài toán khai thác LKH là bài toán WuPW̽WF̻ FiFOXұWGҥQJ X   Y (X, Y  I và X Y ={}) WKӓDPmQÿӝSKәELӃQYjÿӝWLQFұ\WӕLWKLӇX supp (X   Y ) t t minsupp conf (X   Y ) t t minconf 3 5 *,Ӟ,7+,ӊ8 Bài toán khai thác WͅS SKͭ EL͗Q là bài toán tìm W̽W F̻ các WͅS các K̹QJ PͽF S (hay WͅS SKͭ EL͗Q S) có ÿͱ SKͭ EL͗Q WKͧD mãn ÿͱ SKͭ EL͗Q WͩL WKL͛X minsupp supp(S) t t minsupp Cách JLҧL TX\ӃW : GӵD trên tính FKҩW FӫD WұS SKә ELӃQ Tìm NLӃP theo FKLӅX UӝQJ : 7KXұW toán Apriori (1994) Phát WULʀQ PɨX : 7KXɪW toán FP-Growth (2000) Tìm NLӃP trên CSDL hàng GӑF : 7KXұW toán Charm (2002) 6 *,Ӟ,7+,ӊ8  &iFKҥQFKӃFӫD7KXұWWRiQ$SULRUL 3KҧL GX\ӋW CSDL QKLӅX OҫQ Khi khai thác các PүX dài FҫQ GX\ӋW CSDL QKLӅX OҫQ và WҥR OѭӧQJ OӟQ WұS ӭQJ viên Ví Gө : ĈӇ tìm WұS SKә ELӃQ i1 i2« i100 :  6ӕOҫQGX\ӋW&6'/  6ӕOѭӧQJӭQJYLrQ 100 -1 = 1.27*10 30 ! 9ҩQ ÿӅ : WҥR ӭQJ viên và NLӇP tra  &yWKӇWUiQKYLӋFWҥRӭQJYLrQKD\NK{QJ" 4 7 NӜI DUNG 1. *LӟLWKLӋX 2. %jLWRiQNKDLWKiFWͅS SKͭEL͗Q ¾ 7KXͅWWRiQ)3-Growth 3. ĈӝÿRWtQKOêWK~FӫD/.+ 8 7+8Ұ772È1)3-GROWTH 1. %Ҧ1&+Ҩ7 Khai thác WұS SKә ELӃQ không Vӱ GөQJ hàm WҥR ӭQJ viên. Nén CSDL thành F̽X trúc cây FP (Frequent Patern) 'X\ӋW ÿӋ qui cây FP ÿӇ WҥR WұS SKә ELӃQ 5 9 7+8Ұ772È1)3-GROWTH 2. QUI TRÌNH B0 : 7KL͗W OͅS cây FP B1 : 7KLӃW OұS Fѫ Vӣ PүX ÿLӅX NLӋQ (conditional pattern bases) cho PӛL KҥQJ PөF SKә ELӃQ PӛL nút trên cây FP). B2 : 7KL͗W OͅS cây FP ÿL͙X NL͟Q (conditional FP tree) W΃ PͯL F˿ Vͷ P̓X ÿL͙X NL͟Q B3 : Khai thác ÿӋ qui cây FP ÿLӅX NLӋQ và phát WULӇQ PүX SKә ELӃQ cho ÿӃQ khi cây FP ÿLӅX NLӋQ FKӍ FKӭD 1 ÿѭӡQJ GүQ duy QKҩW - WҥR ra WҩW Fҧ các Wә KӧS FӫD PүX SKә ELӃQ 10 7+,ӂ7/Ұ3&Æ<)3B0) Header Table Item frequency head f4 c4 a3 b3 m3 p3 minsupp = 60% TID Items bought (ordered) frequent items 100 {f, a, c, d, g, i, m, p} {f, c, a, m, p} 200 {a, b, c, f, l, m, o} {f, c, a, b, m} 300 {b, f, h, j, o, w} {f, b} 400 {b, c, k, s, p} {c, b, p} 500 {a, f, c, e, l, p, m, n} {f, c, a, m, p} 1. Tìm WɪS SK͕ ELɼQ 1- KɞQJ PͥF GX\ʄW CSDL 1 OɤQ 2. 6ɬS [ɼS WɪS SK͕ ELɼQ JLɠP GɤQ vào trong F-list 3. 6ɬS [ɼS CSDL theo F- list. 'X\ʄW CSDL OɤQ QͯD và WKLɼW OɪS cây FP F-list=f-c-a-b-m-p 6 11 7+,ӂ7/Ұ3&Æ<)3(B0) Header Table Item frequency head f4 c4 a3 b3 m3 p3 minsupp = 3 1. Tìm WɪS SK͕ ELɼQ 1- KɞQJ PͥF GX\ʄW CSDL 1 OɤQ 2. 6ɬS [ɼS WɪS SK͕ ELɼQ JLɠP GɤQ vào trong F- list 3. 'X\ʄW&6'/OɤQQͯDYj WKLɼWOɪSFk\)3 F-list=f-c-a-b-m-p {} f:1 c:1 a:1 m:1 p:1 TID Items bought (ordered) frequent items 100 {f, a, c, d, g, i, m, p} {f, c, a, m, p} 200 {a, b, c, f, l, m, o} {f, c, a, b, m} 300 {b, f, h, j, o, w} {f, b} 400 {b, c, k, s, p} {c, b, p} 500 {a, f, c, e, l, p, m, n} {f, c, a, m, p} 12 7+,ӂ7/Ұ3&Æ<)3(B0) Header Table Item frequency head f4 c4 a3 b3 m3 p3 minsupp = 3 TID Items bought (ordered) frequent items 100 {f, a, c, d, g, i, m, p}{f, c, a, m, p} 200 {a, b, c, f, l, m, o} {f, c, a, b, m} 300 {b, f, h, j, o, w}{f, b} 400 {b, c, k, s, p}{c, b, p} 500 {a, f, c, e, l, p, m, n}{f, c, a, m, p} 1. Tìm WɪS SK͕ ELɼQ 1- KɞQJ PͥF GX\ʄW CSDL 1 OɤQ 2. 6ɬS [ɼS WɪS SK͕ ELɼQ JLɠP GɤQ vào trong F- list 3. 'X\ʄW&6'/OɤQQͯDYj WKLɼWOɪSFk\)3 F-list=f-c-a-b-m-p {} f:2 c:2 a:2 b:1m:1 p:1 m:1 7 13 7+,ӂ7/Ұ3&Æ<)3(B0) Header Table Item frequency head f4 c4 a3 b3 m3 p3 minsupp = 3 TID Items bought (ordered) frequent items 100 {f, a, c, d, g, i, m, p}{f, c, a, m, p} 200 {a, b, c, f, l, m, o}{f, c, a, b, m} 300 {b, f, h, j, o, w} {f, b} 400 {b, c, k, s, p}{c, b, p} 500 {a, f, c, e, l, p, m, n}{f, c, a, m, p} 1. Tìm WɪS SK͕ ELɼQ 1- KɞQJ PͥF GX\ʄW CSDL 1 OɤQ 2. 6ɬS [ɼS WɪS SK͕ ELɼQ JLɠP GɤQ vào trong F- list 3. 'X\ʄW&6'/OɤQQͯD YjWKLɼWOɪSFk\)3 F-list=f-c-a-b-m-p {} f:3 c:2 a:2 b:1m:1 p:1 m:1 b:1 14 7+,ӂ7/Ұ3&Æ<)3(B0) Header Table Item frequency head f4 c4 a3 b3 m3 p3 minsupp = 3 1. Tìm WɪS SK͕ ELɼQ 1- KɞQJ PͥF GX\ʄW CSDL 1 OɤQ 2. 6ɬS [ɼS WɪS SK͕ ELɼQ JLɠP GɤQ vào trong F- list 3. 'X\ʄW&6'/OɤQQͯD YjWKLɼWOɪSFk\)3 F-list=f-c-a-b-m-p {} f:4 c:1 b:1 p:1 b:1c:3 a:3 b:1m:2 p:2 m:1 TID Items bought (ordered) frequent items 100 {f, a, c, d, g, i, m, p} {f, c, a, m, p} 200 {a, b, c, f, l, m, o} {f, c, a, b, m} 300 {b, f, h, j, o, w} {f, b} 400 {b, c, k, s, p} {c, b, p} 500 {a, f, c, e, l, p, m, n} {f, c, a, m, p} 8 15 %jLWұSFiQKkQ TID Items 1 {B,A,K} 2 {K, B,C,A} 3 {A,D,M, B} 4 {D,A,B,E} 5 {A,K,C} 6 {A,B,C} 7 {M,B,C,E} 8 {B,C,D} 9{B,E} 10 {A,E,M,K} 11 {A,C,E,M} 12 {A,D,E}  7KӡL gian : 10¶  Trình bày N͇W TX̫ ra JḼ\. Yêu FҫX: 1.Xây GӵQJ cây FP Wӯ CSDL bên YӟL minsupp = 25% 2.1͇X Minsupp = 40% thì cây FP Vͅ thay ÿ͝L QK˱ WK͇ nào ? 16 4XLÿʈQKWUuQKEj\EjLQ͙S %jLWұSQӝSFiQKkQ  1Jj\QӝS  Tên nhóm : ± +ӑYjWrQ ± 0mVӕ69  1ӝLGXQJ  /́X ý:QͱS bài làm theo W΃QJ nhóm 9 17 B1 7KLӃWOұSFѫVӣPүXÿLӅXNLӋQ  Xây GΉQJ F˿ Vͷ P̓X ÿL͙X NL͟Q (Conditional pattern base) ±%ҳW ÿҫX Wӯ PүX SKә ELӃQ FXӕL EҧQJ FӫD cây FP ±'X\͟W cây FP theo N͗W QͩL FͿD PͯL K̹QJ PͽF SKͭ EL͗Q. ±Gom WҩW Fҧ ÿѭӡQJ GүQ WLӅQ Wӕ ELӃQ ÿәL (transformed prefix) FӫD KҥQJ PөF ÿӇ WҥR Fѫ Vӣ PүX ÿLӅX NLӋQ 18 9Ë'ͬ 7KLӃWOұSFѫVӣPүXÿLӅX NLӋQ  ;k\GΉQJF˿VͷP̓XÿL͙XNL͟Q&RQGLWLRQDOSDWWHUQEDVH ± %ҳWÿҫXWӯPүXSKәELӃQFXӕLEҧQJFӫDFk\)3KҥQJPөFS ± 'X\͟WFk\)3WKHRN͗WQͩLFͿDPͯLK̹QJPͽFSKͭEL͗QS. ± *RPWҩWFҧÿѭӡQJGүQWLӅQWӕELӃQÿәLtransformed prefix) FӫDKҥQJ PөF p ÿӇWҥRFѫVӣPүXÿLӅXNLӋQFKRp &ѫVӣPүXÿLӅXNLӋQ item cond. pattern base p fcam:2, cb:1 {} f:4 c:1 b:1 p:1 b:1c:3 a:3 b:1m:2 p:2 m:1 Header Table Item frequency head f4 c4 a3 b3 m3 p3 10 19  ;k\GΉQJF˿VͷP̓XÿL͙XNL͟Q&RQGLWLRQDOSDWWHUQEDVH ± 7LӃSWөFYӡLPүXSKәELӃQFӫDFk\)3KҥQJPөFP ± 'X\͟WFk\)3WKHRN͗WQͩLFͿDPͯLK̹QJPͽFSKͭEL͗QP ± *RPWҩWFҧÿѭӡQJGүQWLӅQWӕELӃQÿәLtransformed prefix) FӫDKҥQJ PөF m ÿӇWҥRFѫVӣPүXÿLӅXNLӋQFKRm {} f:4 c:1 b:1 p:1 b:1c:3 a:3 b:1m:2 p:2 m:1 Header Table Item frequency head f4 c4 a3 b3 m3 p3 &ѫVӣPүXÿLӅXNLӋQ item cond. pattern base m fca:2, fcab:1 p fcam:2, cb:1 9Ë'ͬ 7KLӃWOұSFѫVӣPүXÿLӅX NLӋQ 20  ;k\GΉQJF˿VͷP̓XÿL͙XNL͟Q&RQGLWLRQDO pattern base) ± 7LӃSWөFYӟLFiFPүXSKәELӃQFzQOҥLFӫDFk\ FP &ѫVӣPүXÿLӅXNLӋQ item cond. pattern base cf:3 a fc:3 b fca:1, f:1, c:1 m fca:2, fcab:1 p fcam:2, cb:1 {} f:4 c:1 b:1 p:1 b:1c:3 a:3 b:1m:2 p:2 m:1 Header Table Item frequency head f4 c4 a3 b3 m3 p3 9Ë'ͬ 7KLӃWOұSFѫVӣPүXÿLӅX NLӋQ [...]... B, A, D, I các toán FP-Growth b) So sánh và tính toán Apriori (Bài 1) 46 23 3 Cho CSDL sau và minsupp=30%, minconf=50% 47 a)Tìm các và b) cho viên và toán Fp-Growth kê c) Tính câu b) LKH Interest toán Apriori mãn các tìm 48 24 1 J Han, J Pei, and Y Yin Mining frequent patterns without candidate generation SIGMOD'00, 1-12, Dallas, TX, May 2000 2 J.Han, M.Kamber, 5 Data mining : Concepts and Techniques... quan tâm toán tiêu tìm Apriori và FP-Growth 3 tính lý thú : sâu 4 còn tích trong các DL không gian, hình gian : 2 nghiên : phân DL khác : 43 và làm các bài 31 và 2 2 bài nhóm 3 bài qua Moodle 23h00 ngày 18/10/2009 3 bài 4 : Phân Xem dung các bài nhóm bài 4 1 Cách : 1 slide, xem các ví Tham trên Internet và tài 44 tham 22 TID Items 1 {M,K,A,B} 2 {B,C,D,M} 3 {A,C,D,E,K} 4 {A,D,M,E} 5 {A,K,B,C} 6 {A,B,C,D}... C ) tính Ví 0.89 interest cho các 41 2 gian: 30 Cho CSDL giao bên 1 toán FPGrown tìm các minsupp = 22 % =22% và minconf=100% 3 Tính Interest các tìm câu 2 Tid 100 200 300 400 500 600 700 800 900 Items M1, M2, M5 M2, M4 M2, M3 M1, M2, M4 M1, M3 M2, M3 M1, M3 M1, M2, M3, M5 M1, M2, M3 42 21 1 Bài toán khai thác : quan và và quan tâm toán tiêu tìm Apriori và FP-Growth 3 tính lý thú : sâu 4 còn tích trong... {Bia} (0.5%, 60%) [30,39] (1%, 75%) trên phân [30,34] 75%) [42000,48000] khái Mua (PC) 35 : Mua (PC) (1%, [30,32] Mua (laptop C) (0.5%, 80%) [30,34] Mua (PC) (1%, 75%) 36 18 nào là 1 hay, lý thú ? toán khai thác sinh ra quá Trong có không hay tính lý thú có xu khách quan : 2 o o Còn (supp) và tin 20 khác (conf) quan : 3 o o LKH là lý thú / và Có là gây nhiên 37 1: Trong 5000 sinh viên [40%, 66.7%] basketball... frequent patterns without candidate generation SIGMOD'00, 1-12, Dallas, TX, May 2000 2 J.Han, M.Kamber, 5 Data mining : Concepts and Techniques 3 P.-N Tan, M Steinbach, V Kumar, 6 - Introduction to Data Mining 49 Q&A 50 25 ... b a c f Frequent Patterns { (c:3) } | p p, cp { (f:3, c:3, a:3) } | m m, fm, cm, am, fcm, fam, cam, fcam {} b { (f:3, c:3) } | a a, fa, ca, fca { (f:3) } | c c, fc {} f 30 15 TT FP-GROWN & TT APRIORI Data set T25I20D10K 100 D1 FP-grow th runtime 90 D1 Apriori runtime 80 Run time(sec.) 70 60 50 40 30 20 10 0 0 0.5 1 1.5 2 Support threshold(%) 2.5 3 31 32 16 33 N I DUNG 1 2 3 34 17 trên DL : {SQL Server}... B3 T P - p-conditional FP-tree Header Table Item frequency head c 3 {} c:3 p là : p :3, cp :3 liên quan 26 13 B3 Xem xét các cây FP có và các cây FP nhánh cách riêng : phân chia cây nhánh thành cây có toán tree, null) qui : FP_Growth(FP27 B3 -tree, null) procedure FP_growth(Tree, ) If cây FP 1 then For supp = suppmin trong ); Else for i = FP If tree i) ; và cây i tree ) cho tree , ) 28 14 - m-conditional . 1 1 KHAI THÁC 'Ӳ/,ӊ8 Ӭ1*'Ө1* (DATA MINING) *91*8<ӈ1+2¬1*7Ò$1+ 2 B B À À I I 3 3 - - P P H H ҪN N 2 2 KHAI THÁC TҰP PHӘ BIӂN & LUҰT. %jLWRiQNKDLWKiFWұSSKә ELӃQ 3. ĈӝÿRWtQKOêWK~FӫD/.+ 4 *,Ӟ,7+,ӊ8  Bài toán khai thác WұS SKә ELӃQ là bài toán UҩW quan WUӑQJ OƭQK YӵF KTDL : YҥFK ra tính FKҩW ҭQ quan WUӑQJ FӫD WұS. con FӫD WұS SKә ELӃQ ÿӅX là WұS SKә ELӃQ 7ұS SKә ELӃQ WӕL ÿҥL WұS bao SKә ELӃQ Bài toán khai thác LKH là bài toán WuPW̽WF̻ FiFOXұWGҥQJ X   Y (X, Y  I và X Y ={}) WKӓDPmQÿӝSKәELӃQYjÿӝWLQFұWӕLWKLӇX supp

Ngày đăng: 25/07/2014, 15:21

TỪ KHÓA LIÊN QUAN

w