BÀI TẬP VÀ ĐỀ THI MÔN KHAI PHÁ DỮ LIỆU DATA MINING

104 5.6K 34
BÀI TẬP VÀ ĐỀ THI MÔN KHAI PHÁ DỮ LIỆU  DATA MINING

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BÀI TẬP VÀ ĐỀ THI MÔN KHAI PHÁ DỮ LIỆU DATA MINING, đại học nguyễn tất thành, tổng hợp các bài tập của các khóa trước, BÀI TẬP VÀ ĐỀ THI MÔN KHAI PHÁ DỮ LIỆU DATA MINING, đại học nguyễn tất thành, tổng hợp các bài tập của các khóa trước

BI TP V THI MễN KHAI PH D LIU BI TP V THI KHAI PH D LIU DATA MINING Contents - - 15 - 18 LUT KT HP - 23 TP PH BIN - 28 TP THễ V CY QUYT NH - 32 GễM CM K MEANS - 35 - 38 P SUT 67 HèNH NH KIU D LIU LIấN TC V RI RC - 76 PHN LP (CLASSFICATION) - 78 Dựng thut túan ID3 v Naùve Bayes tỡm lut phõn lp - 83 KT HP (ASSOCIATION RULES) - 89 Thut toỏn Apriori khai phỏ lut kt hp 89 HI QUI (REGRESSION) 96 Phng trỡnh hi qui tuyn tớnh mt chiu - 96 Hi qui nhiu chiu: (Multiple Regression) - 98 PHN CM (CLUSTERING) 99 BI TP V THI KHAI PH D LIU DATA MINING THI MễN DATAMINING Thi gian: 120 phỳt (c phộp s dng ti liu) Cho bi cnh khai thỏc d liu nh sau (4 im) o1 o2 o3 o4 o5 o6 i1 1 1 i2 0 1 i3 1 0 i4 0 1 i5 0 1 1.1 Tỡm cỏc ph bin ti i theo ngng minsupp=0.3 1.2 Tỡm cỏc lut kt hp t ph bin ti i vi ngng minconf=1.0 Cho bng quyt nh sau (4 im) O1 O2 O3 O4 O5 O6 O7 O8 Vúc dỏng Nh Ln Ln Nh Ln Ln Ln Nh Quc tch c Phỏp c í c í í c Gia cnh c thõn c thõn c thõn c thõn Cú gia ỡnh c thõn Cú gia ỡnh Cú gia ỡnh Nhúm A A A B B B B B 2.1 Tỡm cỏc lut phõn lp ca bng quyt nh trờn vi Tp thuc tớnh iu kin l {Vúc dỏng, Quc tch, Gia cnh} Thuc tớnh phõn lp l {Nhúm} 2.2 Tỡm cỏc reducts bng quyt nh trờn v lit kờ cỏc lut phõn lp cú s thuc tớnh v trỏi nh nht Trỡnh by mt ng dng c th ca CSDL dng chiu v nờu lờn mt s thao tỏc trờn CSDL dng m CSDL quan h khú thc hin (2 im) BI TP V THI KHAI PH D LIU DATA MINING THI MễN DATAMINING Thi gian: 120 phỳt (c phộp s dng ti liu) Cho bi cnh khai thỏc d liu nh sau (4 im) o1 o2 o3 o4 o5 o6 i1 1 1 i2 0 1 i3 1 0 i4 0 1 i5 0 1 4.1 Tỡm cỏc ph bin ti i theo ngng minsupp=0.3 4.2 Tỡm cỏc lut kt hp t ph bin ti i vi ngng minconf=1.0 Cho bng quyt nh sau (4 im) O1 O2 O3 O4 O5 O6 O7 O8 Vúc dỏng Nh Ln Ln Nh Ln Ln Ln Nh Quc tch c Phỏp c í c í í c Gia cnh c thõn c thõn c thõn c thõn Cú gia ỡnh c thõn Cú gia ỡnh Cú gia ỡnh Nhúm A A A B B B B B 5.1 Tỡm cỏc lut phõn lp ca bng quyt nh trờn vi Tp thuc tớnh iu kin l {Vúc dỏng, Quc tch, Gia cnh} Thuc tớnh phõn lp l {Nhúm} 5.2 Tỡm cỏc reducts bng quyt nh trờn v lit kờ cỏc lut phõn lp cú s thuc tớnh v trỏi nh nht Trỡnh by mt ng dng c th ca CSDL dng chiu v nờu lờn mt s thao tỏc trờn CSDL dng m CSDL quan h khú thc hin (2 im) BI GII Cõu 1: 1.1 Tỡm cỏc ph bin ti i theo ngng minsupp=0.3 BI TP V THI KHAI PH D LIU DATA MINING Tớnh F1: Supp({i1}) = 4/6 = 0.66 Supp({i2}) = 3/6 = 0.5 Supp({i3}) = 3/6 =0.5 Supp({i4}) = 4/6 = 0.66 Supp({i5}) = 3/6 =0.5 Vy: F1 = {{i1},{i2},{i3},{i4},{i5}} Tớnh C2 t F1: i1 i2 i3 i4 i5 i1 i2 i3 i4 i1,i2 i1,i3 i1,i4 i1,i5 i2,i3 i2,i4 i2,i5 i3,i4 i3,i5 i4,i5 i5 C2 = {{i1,i2},{i1,i3},{i1,i4},{i1,i5},{i2,i3},{i2,i4},{i2,i5},{i3,i4},{i3,i5},{i4,i5}} T C2 tớnh F2: Supp({i1,i2}) = 2/6 = 0.3 Supp({i1,i3}) = 2/6 = 0.3 Supp({i1,i4}) = 3/6 = 0.5 Supp({i1,i5}) = 2/6 = 0.3 Supp({i2,i3}) = 0/6 = < minsupp : loi Supp({i2,i4}) = 3/6 = 0.5 Supp({i2,i5}) = 2/6 = 0.3 Supp({i3,i4}) = 1/6 = 0.17 < minsupp: loi Supp({i3,i5}) = 1/6 = 0.17 < minsupp: loi Supp({i4,i5}) = 2/6 = 0.3 BI TP V THI KHAI PH D LIU DATA MINING Vy: F2 = { {i1,i2},{i1,i3},{i1,i4},{i1,i5},{i2,i4},{i2,i5},{i4,i5}} Tớnh C3 t F2: {i1,i2} {i1,i3} {i1,i4} {i1,i5} {i2,i4} {i2,i5} {i4,i5} {i1,i2} {i1,i3} {i1,i4} {i1,i5} {i2,i4} {i2,i5} {i1,i2,i3} {i1,i2,i4} {i1,i2,i5} {i1,i2,i4} {i1,i2,i5} {i1,i2,i4,i5} {i1,i3,i4} {i1,i3,i5} {i1,i2,i3,i4} {i1,i2,i3,i5} {i1,i3,i4,i5} {i1,i4,i5} {i1,i2,i4} {i1,i2,i4.i5} {i1,i4,i5} {i1,i2,i4,i5} {i1,i2,i5} {i1,i4,i5} {i2,i4,i5} {i2,i4,i5} {i2,i4,i5} {i4,i5} C3 = {{i1,i2,i3},{i1,i2,i4},{i1,i2,i5},{i1,i3,i4},{i1,i3,i5},{i1,i4,i5},{i2,i4,i5}} T C3 tớnh F3: Theo nguyờn lý Apriori, ta loi cỏc sau: Loi {i1,i2,i3} vỡ {i2,i3} khụng cú F2 Loi {i1,i3,i4} vỡ {i3,i4} khụng cú F2 Loi {i1,i3,i5} vỡ {i3,i5} khụng cú F2 Supp({i1,i2,i4}} = 2/6 = 0.3 Supp({i1,i2,i5}} = 2/6 = 0.3 Supp({i1,i4,i5}} = 2/6 = 0.3 Supp({i2,i4,i5}} = 2/6 = 0.3 Vy: F3 = {{i1,i2,i4},{i1,i2,i5},{i1,i4,i5},{i2,i4,i5}} Tớnh C4 t F3: {i1,i2,i4} {i1,i2,i5} {i1,i4,i5} {i2,i4,i5} {i1,i2,i4} BI TP V THI KHAI PH D LIU DATA MINING {i1,i2,i5} {i1,i4,i5} {i2,i4,i5} {i1,i2,i4,i5} {i1,i2,i4,i5} {i1,i2,i4,i5} {i1,i2,i4,i5} {i1,i2,i4,i5} {i1,i2,i4,i5} C4 = {{i1,i2,i4,i5}} Tớnh F4: Supp({i1,i2,i4,i5}) = 2/6 =0.3 Vy: F4 = {{i1,i2,i4,i5}} Tp ph bin ti i: {i1,i3}, {i1,i2,i4,i5} {i1,i2,i4,i5} {i1,i2,i4} {i1,i2,i5} {i1,i2} {i1} {i1,i3} {i2} {i2,i4} {i3} {i1,i4} {i2,i4,i5} {i1,i4,i5} {i2,i5} {i1,i5} {i4} {i4,i5} {i5} 1.2 Tỡm cỏc lut kt hp t ph bin ti i vi ngng minconf=1.0 nh ngha : cho I: cỏc item, O: cỏc giao tỏc Ta nh ngha ỏnh x : I O, ú S I thỡ: (S) = {o | i S, (i) = o}, ie cỏc giao tỏc cú cha S Cho lut kt hp S1=>S2 Conf(S1=>S2) = | (S1) (S2)|/| (S1)| BI TP V THI KHAI PH D LIU DATA MINING Conf(S1=>S2) = 1.0 v ch (S1) (S2) vỡ (S1) (S2)= (S1) - Xột ph bin ti i{i1,i3}, cỏc lut kt hp kh d l : i1=>i2 v i2=>i1 Ta cú: (i1) = {o1,o2,o4,o6}, (i2) = {o4,o5,o6}, nờn: (i1) (i2) v (i2) (i1) Do ú i1=>i2 v i2=>i1 khụng l lut kt hp - Xột ph bin ti i{i1,i2,i4,i5}: Lut : S1=>S2 {i1}=>{i2,i4,i5} {i2,i4,i5}=>{i1} {i1,i2} => {i4,i5} {i4,i5}=>{i1,i2} {i1,i4}=> {i2,i5} {i2,i5}=>{i1,i4} {i1,i5}=>{i2,i4} {i2,i4}=>{i1,i5} {i1,i2,i4}=>{i5} {i5}=>{i1,i2,i4} {i1,i2,i5}=>{i4} {i4}=>{i1,i2,i5} {i1,i4,i5}=>{i2} {i2}=>{i1,i4,i5} (S1) {o1,o2,o4,o6} {o4,o6} {o4,o6)} {o4,o6} {o1,o4,o6} {o4,o5,o6} {o4,o6} {o4,o5,o6} {o4,o6} {o3,o4,o6} {o4,o6} {o1,o4,o5,o6} {o4,o6} {o4,o5,o6} (S2) {o4,o6} {o1,o2,o4,o6} {o4,o6} {o4,o6} {o4,o5,o6} {o1,o4,o6} {o4,o5,o6} {o4,o6} {o3,o4,o6} {o4,o6} {o1,o4,o5,o6} {o4,o6} {o4,o5,o6} {o4,o6} (S1) (S2) x x x x x x x Ta cú cỏc lut kt hp: L1: {i2,i4,i5}=>{i1} L2: {i1,i2} => {i4,i5} L3: {i4,i5}=>{i1,i2} L4: {i1,i5}=>{i2,i4} L5: {i1,i2,i4}=>{i5} L6: {i1,i2,i5}=>{i4} L7: {i1,i4,i5}=>{i2} Cõu 2: 2.1 Tỡm cỏc lut phõn lp ca bng quyt nh : BI TP V THI KHAI PH D LIU DATA MINING O1 O2 O3 O4 O5 O6 O7 O8 Vúc dỏng Nh Ln Ln Nh Ln Ln Ln Nh Quc tch c Phỏp c í c í í c Gia cnh c thõn c thõn c thõn c thõn Cú gia ỡnh c thõn Cú gia ỡnh Cú gia ỡnh Nhúm A A A B B B B B t : P=A, N= B; p: s phn t thuc lp P, p = 3; n: s phn t thuc lp N, n = 5; Ta cú: I(p,n) = I(3,5) = -3/8*log23/8-5/8*log25/8 = 0.954 Tớnh li thụng tin cho cỏc thuc tớnh iu kin: Vúc dỏng Nh Ln pi ni I(pi,ni) 0.92 0.97 E(Vúc dỏng) = 3/8*I(1,2)+5/8*I(2,3) = 3/8*0.92+5/8*0.97 = 0.951 G(Vúc dỏng) = I(p,n) E(Vúc dỏng) = 0.954 0.951 = 0.003 Quc tch c Phỏp í pi ni I(pi,ni) 0 E(Quc tch) = 4/8*I(2,2)+1/8*I(1,0)+3/8*I(0,3) = 4/8*1 = 0.5 G(Quc tch) = I(p,n) E(Quc tch) = 0.954 0.5 = 0.454 BI TP V THI KHAI PH D LIU DATA MINING Gia cnh c thõn Cú gia ỡnh pi ni I(pi,ni) 0.97 E(Gia cnh) = 5/8*I(3,2)+3/8*I(0,3) = 5/8*0.97 = 0.606 G(Gia cnh) = I(p,n) E(Gia cnh) = 0.954-0.606 = 0.348 Thuc tớnh Quc tch cú li thụng tin ln nht, nờn c chn phõn lp: Quc tch c í Phỏp O1,O3,O5,O8 O2 O4,O6,O7 (Gch dui: thuc lp A, Khụng gch di: thuc lp B) Phõn lp nhúm Quc tch - c: Bng d liu cũn li: O1 O3 O5 O8 Vúc dỏng Nh Ln Ln Nh Gia cnh c thõn c thõn Cú gia ỡnh Cú gia ỡnh Nhúm A A B B Ta cú: I(p,n) = -2/4*log22/4-2/4*log22/4 =1 89 BI TP V THI KHAI PH D LIU DATA MINING Kt hp (association rules) Mt s vớ d v lut kt hp (associate rule) 98% khỏch hng m mua th thao thỡ u mua cỏc v ụtụ s kt hp gia th thao vi v ụtụ 60% khỏch hng m mua bia ti siờu th thỡ u mua bm tr em s kt hp gia bia vi bm tr em Cú ti 70% ngi truy nhp Web vo a ch Url thỡ cng vo a ch Url mt phiờn truy nhp web s kt hp gia Url vi Url Khai phỏ d liu s dng Web (D liu t file log ca cỏc site, chng hn c MS cung cp) Cỏc Url cú gn vi nhón lp l cỏc c trng thỡ cú lut kt hp liờn quan gia cỏc lp Url ny Thut toỏn Apriori khai phỏ lut kt hp Lut kt hp khai phỏ d liu (Association Rule in Data Mining) Trong lnh vc Data Mining, mc ớch ca lut kt hp (Association Rule - AR) l tỡm cỏc mi quan h gia cỏc i tng lng ln d liu Ni dung c bn ca lut kt hp c túm tt nh di õy Cho c s d liu gm cỏc giao dch T l cỏc giao dch t1, t2, , tn T = {t1, t2, , tn} T gi l c s d liu giao dch (Transaction Database) Mi giao dch ti bao gm cỏc i tng I (gi l itemset) I = {i1, i2, , im} Mt itemset gm k items gi l k-itemset Mc ớch ca lut kt hp l tỡm s kt hp (association) hay tng quan (correlation) gia cỏc items Nhng lut kt hp ny cú dng X =>Y Trong Basket Analysis, lut kt hp X =>Y cú th hiu rng nhng ngi mua cỏc mt hng X cng thng mua cỏc mt hng Y (X v Y gi l itemset) Vớ d, nu X = {Apple, Banana} v Y = {Cherry, Durian} v ta cú lut kt hp X =>Y thỡ chỳng ta cú th núi rng nhng ngi mua Apple v Banana thỡ cng thng mua Cherry v Durian 89 90 BI TP V THI KHAI PH D LIU DATA MINING Theo quan im thng kờ, X c xem l bin c lp (Independent variable) cũn Y c xem l bin ph thuc (Dependent variable) h tr (Support) v tin cõy (Confidence) l tham s dựng o lng lut kt hp h tr (Support) ca lut kt hp X =>Y l tn sut ca giao dch cha tt c cỏc items c hai X v Y Vớ d, support ca lut X =>Y l 5% cú ngha l 5% cỏc giao dch X v Y c mua cựng Cụng thc tớnh support ca lut X =>Y nh sau: Trong ú: N l tng s giao dch tin cy (Confidence) ca lut kt hp X =>Y l xỏc sut xy Y ó bit X Vớ d tin cy ca lut kt hp {Apple} =>Banana} l 80% cú ngha l 80% khỏch hng mua Apple cng mua Banana Cụng thc tớnh tin cy ca lut kt hp X =>l xỏc sut cú iu kin Y ó bit X nh sau : Trong ú: n(X) l s giao dch cha X thu c cỏc lut kt hp, ta thng ỏp dng tiờu chớ: minimum support (min_sup) v minimum confidence (min_conf) Cỏc lut tha cú support v confidence tha (ln hn hoc bng) c Minimum support v Minimum confidence gi l cỏc lut mnh (Strong Rle) Minimum support v Minimum confidence gi l cỏc giỏ tr ngng (threshold) v phi xỏc nh trc sinh cỏc lut kt hp Mt itemsets m tn sut xut hin ca nú >= min_sup goi l frequent itemsets Mt s loi lut kt hp Binary association rules (lut kt hp nh phõn): Apple => Banana 90 91 BI TP V THI KHAI PH D LIU DATA MINING Quantitative association rules (lut kt hp nh lng): weight in [70kg 90kg] => height in [170cm 190cm] Fuzzy association rules (Lut kt hp m): weight in HEAVY => height in TALL Thut toỏn ph bin nht tỡm cỏc lut kt hp l Apriori s dng Binary association rules 2.Thut toỏn sinh cỏc lut kt hp Apriori (by Agrawal and Srikant 1994) T tng chớnh ca thut toỏn Apriori l: - Tỡm tt c frequent itemsets: k-itemset (itemsets gm k items) c dựng tỡm (k+1)- itemset u tiờn tỡm 1-itemset (ký hiu L1) L1 c dựng tỡm L2 (2-itemsets) L2 c dựng tỡm L3 (3-itemset) v tip tc cho n khụng cú k-itemset c tỡm thy - T frequent itemsets sinh cỏc lut kt hp mnh (cỏc lut kt hp tha tham s min_sup v min_conf) Apriori Algorithm Duyt (Scan) ton b transaction database cú c support S ca 1-itemset, so sỏnh S vi min_sup, cú c 1-itemset (L1) S dng Lk-1 ni (join) Lk-1 sinh candidate k-itemset Loi b cỏc itemsets khụng phi l frequent itemsets thu c k-itemset Scan transaction database cú c support ca mi candidate k-itemset, so sỏnh S vi min_sup thu c frequent k itemset (Lk) Lp li t bc cho n Candidate set (C) trng (khụng tỡm thy frequent itemsets) Vi mi frequent itemset I, sinh tt c cỏc s khụng rng ca I Vi mi s khụng rng ca I, sinh cỏc lut s => (I-s) nu tin cy (Confidence) ca nú > =min_conf 91 92 BI TP V THI KHAI PH D LIU DATA MINING Chn hn vi I= {A1,A2,A5},cỏc ca I: {A1}, {A2}, {A5}, {A1,A2},{A1,A5},{A2,A5} s cú cỏc lut sau {A1} => {A2,A5},{A2} =>{A1,A5},{A5} =>{A1,A2} {A1,A2} =>{A5},{A1,A5} =>{A2},{A2,A5} => {A1} Vớ d: Gi s ta cú cú s d liu giao dch (Transaction Database -TDB) nh sau : Thut toỏn Apriori khai phỏ lut kt hp c mụ t qua cỏc bc sau 92 93 BI TP V THI KHAI PH D LIU DATA MINING Ta cú frequent itemsets I ={B,C,E}, vi min_conf =80% ta cú lut kt hp l {B,C} => {E} v {C,E} => {B} Gi s cú c s d liu giao dch bỏn hng gm giao dch nh sau: Thut toỏn Apriori tỡm cỏc lut kt hp giao dch bỏn hng trờn nh sau: 93 94 BI TP V THI KHAI PH D LIU DATA MINING 94 95 BI TP V THI KHAI PH D LIU DATA MINING Kt qu ta cú cỏc lut kt hp sau (vi min_sup= 40%, min_conf=70%) R1: Beer => Diaper (support =60%, confidence = 75%) R2: Diaper =>Beer (support =60%,confidence = 75%) R3: Milk =>Beer (support =40%, confidence = 100%) R4: Baby Powder => Diaper (support =40%,confidence = 100%) T kt qu cỏc lut c sinh bi giao dch bỏn hng trờn, ta thy rng cú lut cú th tin c (hp lý) nh Baby Powder => Diaper, cú lut cn phi phõn tớch thờm nh Milk =>Beer v cú lut cú v khú tin nh Diaper =>Beer.Vớ d ny sinh cỏc lut cú th khụng thc t vỡ d liu dựng phõn tớch (transaction database) hay cũn gi l tranining data rt nh Thut toỏn Apriori c dựng phỏt hin cỏc lut kt hp dng khng nh (Positive Rule X=>Y) nh phõn (Binary Association Rules) ch khụng th phỏt hin cỏc lut kt hp dng ph nh (Negative Association Rule) chn hn nh cỏc kt hp dng Khỏch hng mua mt hng A thng KHễNG mua mt hng B hoc Nu ng h quan im A thng KHễNG ng h quan im B Khai phỏ cỏc lut kt hp dng ph nh (Mining Negative Association Rules) cú phm vi ng dng rt rng v thỳ v nht l Marketing, Health Care v Social Network Analysis 95 96 BI TP V THI KHAI PH D LIU DATA MINING Hi qui (Regression) Phng trỡnh hi qui tuyn tớnh mt chiu Vớ d: Chỳng ta cú th quan sỏt s tin chi tiờu (yi) v thu nhp (xi) ca 22 h gia ỡnh mt thỏng cú mi quan h vi nh th no (1.000) S liu thu thp c trỡnh by bng 11.3 T bng bờn ta cú: n = 22 éng hi qui quan sỏt nh sau: y = 1923 + 0,3815x 96 BI TP V THI KHAI PH D LIU DATA MINING 97 Phng trỡnh ny hm ý rng nu thu nhp ca h gia ỡnh tng lờn 1.000 thỡ trung bỡnh chi tiờu tng thờm l 381,5 Cũn 1923 l phn chi tiờu cỏc ngun khỏc b) Khong tin cy v kim nh gi thuyt hi qui mt chiu Vớ d: Trong s liờn h gia chi tiờu v thu nhp mi h Chỳng ta cú nhng thụng tin nh sau: n = 22; b = 0,3815; Sb= 0,0253 Khong tin cy 99% cho ( c tớnh nh sau: Tra bng phõn phi t ta cú: Suy ra: 0,3815 - (2,845)(0,0253) < < 0,3815 + (2,845)(0,0253) 0,3095 < < 0,4535 Vỡ vy, vi khong tin cy 99%, c 1000 ng tng lờn thu nhp/h thỡ chi tiờu tng thờm nm khong 309,5 ng n 453,5 ng Vớ d: Gi s rng chỳng ta quan tõm n d oỏn doanh thu bỏn l trờn h mt nm m ú thu nhp trờn h/nm l 12 triu ng Ta cú: xn+1 = 12.000, a = 1.923 v b = 0,3815 Suy ra: Vỡ vy, thu nhp/nm l 12 triu ng thỡ doanh thu bỏn l thu c trờn h khong 6,5 triu ng Da trờn cỏc i lng: Th cỏc i lng trờn vo cụng thc (6.6) v (6.7) ta cú kt lun sau: ã D bỏo giỏ tr tht cho doanh thu bỏn l l 6,501 ( 321 Cú ngha l vi khong tin cy 95% ca doanh thu mt nm ti mc thu nhp l 12 triu nm khong 6,18 triu n 6,82 triu ã V d bỏo cho giỏ tr mong i ca doanh thu bỏn l l 6,501 ( 91 Nh vy, rừ rng rng cựng khong tin cy nhng s khụng chc chn vic d bỏo cho giỏ tr tht thỡ ln hn giỏ tr mong i vỡ d bỏo giỏ tr tht cú khong c lng rng hn 97 98 BI TP V THI KHAI PH D LIU DATA MINING Chỳ ý: Nu tt c cỏc yu t khỏc khụng i thỡ: - C mu n cng ln, cng hp khong tin cy c lng, d bỏo cng chớnh xỏc - cng ln, khong tin cy c lng cng ln, d bỏo cng kộm chớnh xỏc - Phng sai cng ln, thỡ khong tin cy c lng cng hp, d bỏo cng chớnh xỏc -cng ln, khong tin cy c lng cng rng, v d bỏo cng kộm chớnh xỏc Hi qui nhiu chiu: (Multiple Regression) a) Phng trỡnh hi qui nhiu chiu: Mc tiờu ca mụ hỡnh ny gii thớch bin ph thuc (y) b nh hng bi nhiu bin c lp (xi) Vớ d, kinh doanh ngnh ngõn hng, li tc thu c t vic chờnh lch gia lói sut tin gi v cho vay ph thuc ớt nht vo hai yu t: Phn trm tng lờn lng tin gi (x1) v s n v n gi (x2) é xột mi quan h ny ta s dng ti liu thu thp ca ngõn hng qua 25 nm nh sau: Bng 6.4: Li tc, % tng ca tin gi v s n v gi tin qua 25 nm Nm x1(%) x2 y (%) Nm x1(%) x2 10 11 12 13 3,92 3,61 3,32 3,07 3,06 3,11 3,21 3,26 3,42 3,42 3,45 3,58 3,66 7.298 6.855 6.636 6.506 6.450 6.402 6.368 6.340 6.349 6.352 6.361 6.369 6.546 0,75 0,71 0,66 0,61 0,70 0,72 0,77 0,74 0,90 0,82 0,75 0,77 0,78 14 15 16 17 18 19 20 21 22 23 24 25 3,78 3,82 3,97 4,07 4,25 4,41 4,49 4,70 4,58 4,69 4,71 4,78 6.672 9.890 7.115 7.327 7.546 7.931 8.097 8.468 8.717 8.991 9.179 9.318 y (%) 0,84 0,79 0,70 0,68 0,72 0,55 0,63 0,56 0,41 0,51 0,47 0,32 Phng trỡnh hi qui nhiu chiu cho vớ d ny cú dng: y = a + b1x1 + b2x2 Mt cỏch tng quỏt, phng trỡnh hi qui tuyn tớnh nhiu chiu cú dng: 98 BI TP V THI KHAI PH D LIU DATA MINING 99 y = a + b1x1 + b2x2 + + bkxk (6.8) Cỏc tham s a, b1, b2, ,bn cú th c c lng d dng nh cỏc phn mm cú sn trờn mỏy tớnh Phng trỡnh ny s c suy rng cho tng th cú bin ph thuc Y v cỏc bin c lp X1,X2, ,Xk Tr li vớ d trờn cỏc tham s cú kt qu gii bng phng phỏp ma trn hoc t phn mm Excel nh sau: a = 1,565 ; b1 = 0,237 ; b2 = - 0,000249 Vỡ vy: y = 1,565 + 0,237x1 - 0,000249x2 Gii thớch: ã Khi c nh s lng n v tin gi (x2), lỷng tin gi tng 1% dn n 0,237% tng lờn li tc Khi c nh % tng lờn lng tin gi (x1), c tng lờn 1000 n v tin gi dn n gim li tc 0,249% ã Ngoi hai nhõn t trờn, cỏc nhõn t khỏc lm tng li tc 1,565% (cỏc ngun thu t Nh nc chng hn) Phõn cm (Clustering) Phõn cm l gỡ? Quỏ trỡnh phõn chia d liu ban u thnh cỏc cm d liu tha món: Cỏc i tng cm tng t Cỏc i tng khỏc cm thỡ khụng tng t Gii quyt tỡm kim, phỏt hin cỏc cm, cỏc mu d liu hp ban u cỏc d liu khụng cú nhón 99 100 BI TP V THI KHAI PH D LIU DATA MINING 10 101 BI TP V THI KHAI PH D LIU DATA MINING 10 102 BI TP V THI KHAI PH D LIU DATA MINING 10 103 BI TP V THI KHAI PH D LIU DATA MINING 10 [...]... BÀI TẬP VÀ ĐỀ THI KHAI PHÁ DỮ LIỆU – DATA MINING Cây quyết định: Quốc tịch Đức Gia cảnh Độc thân Ý Pháp A B Có gia đình A B Các luật phân lớp: L1: Nếu có Quốc tịch Đức và Gia cảnh Độc thân thì thuộc về nhóm A L2: Nếu có Quốc tịch Đức và Gia cảnh Có gia đình thì thuộc về nhóm B L3: Nếu có Quốc tịch Pháp thì thuộc về nhóm A L4: Nếu có Quốc tịch Ý thì thuộc về nhóm B 11 12 BÀI TẬP VÀ ĐỀ THI KHAI PHÁ DỮ... tối thi u minsup=0,4 hãy: Câu1: Tìm các tập phổ biến tối đại theo ngưỡng minsupp=0,4 Câu2: Tìm tất cả các luật kết hợp có độ phổ biến tối thi u là 0,4 và độ tin cậy tối thi u là 0,8 Lý thuyết dựa trên thuật toán tập phổ biến và luật kết hợp Bài giải: -Hoá đơn O={o1, o2, o3, o4, o5} : 5 giao tác hoá đơn -Mặt hàng {i1, i2, i3, i4, i5} : 5 mặt hàng 23 24 BÀI TẬP VÀ ĐỀ THI KHAI PHÁ DỮ LIỆU – DATA MINING. .. 17 BÀI TẬP VÀ ĐỀ THI KHAI PHÁ DỮ LIỆU – DATA MINING 9 10 {7}, {1,3,5,7} {7}, {2,4,6} {7} {} yes no yes no có luật cong=1 không có luật 2 Vậy ta có các luật phân lớp như sau: 1.Nếu Màu sắc = Xanh và Hình dạng = Viên gạch  Lớp A 2.Nếu Màu sắc = Đỏ và Hình dạng = Hình nêm  Lớp B 3.Nếu Màu sắc = Đỏ và Hình dạng = Hình cầu  Lớp A 4.Nếu Màu sắc = Lục và Hình dạng = Trụ  Lớp A 5.Nếu Màu sắc = Lục và Hình... F4={} Tập phổ biến là F1, F2, F3 1.2 Tìm tất cả các tập phổ biến tối đại có minsupp=0.3 Tập phổ biến tối đại: {i1,i2,i3}, {i1,i2,i5},{i5,i6} {i1,i2,i3} {i1,i2} {i1,i2,i5} {i1,i3} {i2,i3} {i1,i5} {i2,i5} {i5,i6} 20 21 BÀI TẬP VÀ ĐỀ THI KHAI PHÁ DỮ LIỆU – DATA MINING {i1} {i2} {i3} {i4} {i5} {i6} 1.3 Tìm tất cả các lụât kết hợp có mincof-=1.0 từ các tập phổ biến tối đại ở câu 1.2 Tạo luật kết hợp từ các tập. .. thuộc về nhóm A ({O2}) L2: Nếu có Quốc tịch Ý thì thuộc về nhóm B ({O4,O6,O7}) Từ G=>D, ta có các luật phân lớp: L3: Nếu Có gia đình thì thuộc nhóm B ({O5,O7,O8}) 14 15 BÀI TẬP VÀ ĐỀ THI KHAI PHÁ DỮ LIỆU – DATA MINING ĐỀ 2 ĐỀ THI DATA MINING KHÓA 2 Câu 1: 1 2 3 4 5 6 7 Kích thước Vừa Nhỏ Nhỏ Lớn Lớn Lớn Lớn Màu sắc Xanh Đỏ Đỏ Đỏ Lục Đỏ Lục Hình dạng Viên gạch Hình nêm Hình cầu Hình nêm Hình trụ Hình... rỗng Vậy tập phổ biển : F=F1 U F2 U F3= ={ {i1}, {i3}, {i4}, {i5}, {i1,i3 } ,{i1,i4 } , {i3,i4 } ,{i3,i5 } , {i1,i3,i4} } Cấu trúc cây đại số: {i1,i3,i4} {i1,i3} {i1} {i3,i4} {i1,i4} {i3} {i4} {i3,i5} {i5} Kết luận Tập phổ biến tối đại : {i3,i5} , {i1,i3,i4} Câu2: 26 27 BÀI TẬP VÀ ĐỀ THI KHAI PHÁ DỮ LIỆU – DATA MINING Tìm tất cả các luật kết hợp có độ phổ biến tối thi u là 0,4 và độ tin cậy tối thi u... CF(F3)= rỗng Vậy tập phổ biển : F=F1 U F2 U F3= ={ {i1}, {i3}, {i4}, {i5}, {i1,i3 } ,{i1,i4 } , {i3,i4 } ,{i3,i5 } , {i1,i3,i4} } Cấu trúc cây đại số: {i1,i3,i4} {i1,i3} {i1,i4} {i3,i4} {i3,i5} 30 31 BÀI TẬP VÀ ĐỀ THI KHAI PHÁ DỮ LIỆU – DATA MINING Kết luận Tập phổ biến tối đại : {i3,i5} , {i1,i3,i4} Câu b: Tìm tất cả các luật kết hợp có độ phổ biến tối thi u là 0,4 và độ tin cậy tối thi u là 0,8 R :... dùngthuốc=có then khôngrám -> Rules4: If chiềucao=cao then khôngrám -> Rules5: If màutóc=đen và chiềucao=tầmthước và khôngdùngthuốc then bị rám 34 35 BÀI TẬP VÀ ĐỀ THI KHAI PHÁ DỮ LIỆU – DATA MINING -> Rules6: If màutóc=đen và chiềucao=thấp vàkhôngdùngthuốc then bị rám GÔM CỤM K MEANS 1 Gom cụm theo k-means Cho tập điểm x1={1,3} ={x11,x12} x2={1.5 , 3.2 }={x21,x22} x3 ={1.3 ,2.8}={x31,x32} x4={3, 1}={x41,x42}... hợp hợp lệ theo ngưỡng minsupp=0,3 và ngưỡng minconf=1 được tạo từ các tập phổ biến tối đại của câu 2c e Anh chị có suy nghĩ gì về một thuật toán tìm tập phổ biến tối đại a b c d GIẢI ĐỀ THI KHOA 2 CÂU 1: a).Tính các Reduct tương đối của bảng quyết định trên Ký hiệu: a: kích thước 15 16 BÀI TẬP VÀ ĐỀ THI KHAI PHÁ DỮ LIỆU – DATA MINING b: màu sắc c: hình dáng Ta được ma trận phân biệt như sau: 1 2 3... Vậy ta có 2 luật thoả: {i2,i5} {i1} {i1,i5}  {i2}  Với tập phổ biến tối đại : {i5,i6} Các luật khả dĩ: 22 23 BÀI TẬP VÀ ĐỀ THI KHAI PHÁ DỮ LIỆU – DATA MINING {i5} {i6} {i6} {i5} ({i6}) = {T4,T5} Vậy ta có 1 luật thoả: {i6} {i5} Tóm lại, có 5 luật: {i2,i3} {i1} {i1,i3}  {i2} {i2,i5} {i1} {i1,i5}  {i2} {i6} {i5} LUẬT KẾT HỢP Bài 2 Cho tập các hoá đơn O={o1, o2, o3, o4, o5}, mỗi hóa đơn chứa

Ngày đăng: 06/01/2016, 19:23

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan