Mục Lục Table of Contents Mục Lục 1 I. Tìm hiểu về luật kết hơp. 1 1. Luật kết hợp trong khai phá dữ liệu (Association Rule in Data Mining) 1 2.Thuật toán sinh các luật kết hợp Apriori (by Agrawal and Srikant 1994) 2 II.Khai phá dataset market-basket bằng thuật toán sinh các luật kết hợp Apriori. 3 1.Tiền xử lý dữ liệu. 3 1.1. Giới thiệu về tiền xử lý dữ liệu (Data Preprocessing) 3 1.2. Tiền sử lý dữ liệu vơi weka 4 1.3. Nạp dữ liệu (Loading the Data) 6 1.4. Lọc thuộc tính (Filtering Attributes) 6 1.5.Rời rạc hoá dữ liệu. (Discretization) 7 2.Khai phá dữ liệu với weka. 10 2.1.Sử dụng thuật toán sinh các luật kết hợp Apriori. 10 2.2 Khi sử dụng thuật FilteredAssociator. 12 2.3 Tiến hành thử nghiêm khi chuan hoá dữ liệu sang kiểu nhị phân 12 III.Kết luận. 14
Table of Contents Khai pha ́ dư ̃ liê ̣ u trên phâ ̀ n mê ̀ m weka , ư ́ ng du ̣ ng khai pha ́ dư ̃ liê ̣ u vơ ́ i dataset market-basket.arff thuật toán sinh các luật kết hợp Apriori. !" 1. Luật kết hợp trong khai phá dữ liệu (Association Rule in Data Mining) #$%&'()*+, -."/012301456# 789:;7)8.# 8.<;:=>!?+, -.").@A<)B Cho cơ sở dữ liệu gồm các giao dịch T là tập các giao dịch t1, t2, …, tn. T = {t1, t2, …, tn}. T gọi là cơ sở dữ liệu giao dịch (Transaction Database) Mỗi giao dịch ti bao gồm tập các đối tượng I (gọi là itemset) I = {i1, i2, …, im}. Một itemset gồm k items gọi là k-itemset Mục đích của luật kết hợp là tìm ra sự kết hợp (association) hay tương quan (correlation) giữa các items. Những luật kết hợp này có dạng #C 20B', -."DEFG@HH#I;J7K 5#,"DLJ7K5#,"G/D5GM5224 N*('-DEO0""2'CP5GEOQ2##B'&#P5@, -."DEFG6 R@H@#I;J0""25C6LJQ2##B 5&# 1 29)H8 'D).S25-)>,"/2"22#24TG). S25-"(>/&2"22#24 !"#$%&'()&*+, - >U#./V""#4+, -."DEFG5WX+YZX?72 #?,"D5GN*(, support của luật DEFG5[\@$5 5% các giao dịch X và Y được mua cùng nhau. Công thức để tính support của luật X =>Y như sau: Trong đó: =5]8Y >,B/Confidence) của luật kết hợp DEFG5S7XS?B#G )^-DN*( )>,B+, -."O0""2PEFCP580% có nghĩa là 80% khách hàng mua Apple cũng mua Banana. Công thức để tính độ tin cậy của luật kết hợp DEF5S7X@)_ :G )^-D #)@/D458YZD Để thu được các luật kết hợp, ta thường áp dụng 2 tiêu chí: minimum support (min_sup) và minimum confidence (min_conf) Các luật thỏa mãn có support và confidence thỏa mãn (lớn hơn hoặc bằng) cả Minimum support và Minimum confidence gọi là các luật mạnh (Strong Role) Minimum support và Minimum confidence gọi là các giá trị ngưỡng (threshold) và phải S7)Y#< 7, -." ."##"/#01023!4"5#&6"## Một số loại luật kết hợp Binary association rules (luật kết hợp nhị phân): 0""2EFC Quantitative association rules (luật kết hợp định lượng): 2 `2abc dec fEF2agbcdgecf Fuzzy association rules (Luật kết hợp mờ): `2hi0NGEF20 Thuật toán phổ biến nhất tìm các luật kết hợp là Apriori sử dụng Binary association rules. 2.Thuật toán sinh các luật kết hợp Apriori 78&!9!!+!:;;< j*+,70"##5 36X?k#29222 322/22l 24).m)H6/ ng4322 W6g322/ o: g 4 g ).m)H6 p /p3224 p ).m)H 6 q /q32245-"()- r@ 322).6XB 3sk#29222#7, -."t/7, -."u^p8 v"5vk4 Apriori Algorithm g&B:/V45>#2)H@).""#V+g322'7 V<v"')H@).g322/ g 4 pVw( 3g 8/x4 3g )H#2 322tu722 r "?5k#29222). 322 qV#2)H@).""#+U2 322'7V <v")H).k#292 d22/ 4 yK"ts<p)- Q22/Q4#8/ r6XBk#292 224 [N<Uk#29222'X?7," r#U+ zN<U," r#U+'#7,s => (I-s)-)>,B /Qk224+@FEvk Q{t<EO0g'0p'0[P'7,"+ O0gP'O0pP'O0[P'O0g'0pP'O0g'0[P'O0p'0[P |@7, O0gPEFO0p'0[P'O0pPEFO0g'0[P'O0[PEFO0g'0pP 3 O0g'0pPEFO0[P'O0g'0[PEFO0pP'O0p'0[PEFO0gP }" 2# 23 2~ thuật toán sinh các luật kết hợp Apriori g S B • gg€<:__Swo;:/&•#2"#24 #9#6 "7;:'r:Swo;:#< )57r65 #XW-'<5B5;:@).)W9,";:/M5;: 8#4@H7"()./*."4<7r6 "7;:/ 24(HQ7r:(H+_Swo;:l;r : Filtering Attributes:QM7>*"m."<r6 Filtering samples:M7‚/2'"2#4;:r6 Clean data:5 t ; : S@ u 7 ; : X J /ƒ2#4Transformation:QBH)];:"m."<7r6BH)] ;:s2#9B# Discretization (rJ#t@;:4=-t@;:(>5r6„ 7"(7;:#J#t/, -."{t46t"?%::#J #t@;: 1.2. Tiê ̀ n sư ̉ ly ́ dư ̃ liê ̣ u vơi weka & • ) r gqr gccc#! )! r # 3 #) r )! • r gcr 4 •#kBee'•#kBe…'V"2ee'V"2e…'=Nee'=Ne…'&#B'&2' C 2#B'€#2#B 3 Q r ) • • •#g'•#p'Vi€#" N B) B ! "! r • B B • ) • r •#kBee'•#kBe…'V"2ee'V"2e…'=Nee'=Ne…' &#B'&2'C 2#B'€#2#B 5 1.3. =>?2@!&A!! 1.4. Lọc thuộc tính (Filtering Attributes) &r • # 23 2 r r ' r r V r • 2k2! # 23 2#kk r k2 6 1.5.Rơ ̀ i ra ̣ c hoa ́ dư ̃ liê ̣ u. (Discretization) #&'>8 †, "7, -."/#24„ @H%:#7;:"t/2#‡4_5BBW "?%::#J#t@#7>*@ H;(/ H2# {t4 87"(7 †,5B 3 #! # • #2 = ! ! r 3 Q • =! r • [ 7 } 9 9 # 8 Cr • B 9 2.Khai pha ́ dư ̃ liê ̣ u vơ ́ i weka. 2.1.Sư ̉ du ̣ ng thuâ ̣ t toa ́ n sinh các luật kết hợp Apriori. N rr minimum support (min_sup) và minimum confidence (min_conf) #) v"Ecg' 2#Ece )r B ! ")! #" !!ce } 9 B !gc ! ")! # Q B ! "! )r r•#! cg )r " r ce 10 . Table of Contents Khai pha ́ dư ̃ liê ̣ u trên phâ ̀ n mê ̀ m weka , ư ́ ng du ̣ ng khai pha ́ dư ̃ liê ̣ u vơ ́ i dataset market-basket.arff. -."{t46t"?%::#J #t@;: 1.2. Tiê ̀ n sư ̉ ly ́ dư ̃ liê ̣ u vơi weka & • ) r gqr gccc#!