Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka khai phá bộ dữ liệu dataset market-basket.arff

14 703 2
Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka khai phá bộ dữ liệu dataset market-basket.arff

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mục Lục Table of Contents Mục Lục 1 I. Tìm hiểu về luật kết hơp. 1 1. Luật kết hợp trong khai phá dữ liệu (Association Rule in Data Mining) 1 2.Thuật toán sinh các luật kết hợp Apriori (by Agrawal and Srikant 1994) 2 II.Khai phá dataset market-basket bằng thuật toán sinh các luật kết hợp Apriori. 3 1.Tiền xử lý dữ liệu. 3 1.1. Giới thiệu về tiền xử lý dữ liệu (Data Preprocessing) 3 1.2. Tiền sử lý dữ liệu vơi weka 4 1.3. Nạp dữ liệu (Loading the Data) 6 1.4. Lọc thuộc tính (Filtering Attributes) 6 1.5.Rời rạc hoá dữ liệu. (Discretization) 7 2.Khai phá dữ liệu với weka. 10 2.1.Sử dụng thuật toán sinh các luật kết hợp Apriori. 10 2.2 Khi sử dụng thuật FilteredAssociator. 12 2.3 Tiến hành thử nghiêm khi chuan hoá dữ liệu sang kiểu nhị phân 12 III.Kết luận. 14

     Table of Contents     Khai pha ́ ̃ liê ̣ u trên phâ ̀ n mê ̀ m weka , ư ́ ng du ̣ ng khai pha ́ ̃ liê ̣ u vơ ́ i dataset market-basket.arff          thuật toán sinh các luật kết hợp Apriori.            !" 1. Luật kết hợp trong khai phá dữ liệu (Association Rule in Data Mining) #$%&'()*+, -."/012301456# 789:;7)8.# 8.<;:=>!?+, -.").@A<)B Cho cơ sở dữ liệu gồm các giao dịch T là tập các giao dịch t1, t2, …, tn. T = {t1, t2, …, tn}. T gọi là cơ sở dữ liệu giao dịch (Transaction Database) Mỗi giao dịch ti bao gồm tập các đối tượng I (gọi là itemset) I = {i1, i2, …, im}. Một itemset gồm k items gọi là k-itemset Mục đích của luật kết hợp là tìm ra sự kết hợp (association) hay tương quan (correlation) giữa các items. Những luật kết hợp này có dạng #C 20B', -."DEFG@HH#I;J7K 5#,"DLJ7K5#,"G/D5GM5224 N*('-DEO0""2'CP5GEOQ2##B'&#P5@, -."DEFG6 R@H@#I;J0""25C6LJQ2##B 5&# 1 29)H8 'D).S25-)>,"/2"22#24TG). S25-"(>/&2"22#24  !"#$%&'()&*+, - >U#./V""#4+, -."DEFG5WX+YZX?72 #?,"D5GN*(, support của luật DEFG5[\@$5 5% các giao dịch X và Y được mua cùng nhau. Công thức để tính support của luật X =>Y như sau: Trong đó: =5]8Y >,B/Confidence) của luật kết hợp DEFG5S7XS?B#G )^-DN*( )>,B+, -."O0""2PEFCP580% có nghĩa là 80% khách hàng mua Apple cũng mua Banana. Công thức để tính độ tin cậy của luật kết hợp DEF5S7X@)_ :G )^-D  #)@/D458YZD Để thu được các luật kết hợp, ta thường áp dụng 2 tiêu chí: minimum support (min_sup) và minimum confidence (min_conf) Các luật thỏa mãn có support và confidence thỏa mãn (lớn hơn hoặc bằng) cả Minimum support và Minimum confidence gọi là các luật mạnh (Strong Role) Minimum support và Minimum confidence gọi là các giá trị ngưỡng (threshold) và phải S7)Y#< 7, -." ."##"/#01023!4"5#&6"## Một số loại luật kết hợp Binary association rules (luật kết hợp nhị phân): 0""2EFC Quantitative association rules (luật kết hợp định lượng): 2 `2abc dec fEF2agbcdgecf Fuzzy association rules (Luật kết hợp mờ): `2hi0NGEF20 Thuật toán phổ biến nhất tìm các luật kết hợp là Apriori sử dụng Binary association rules. 2.Thuật toán sinh các luật kết hợp Apriori 78&!9!!+!:;;< j*+,70"##5 36X?k#29222 322/22l 24).m)H6/ ng4322 W6g322/ o: g 4 g ).m)H6 p /p3224 p ).m)H 6 q /q32245-"()-  r@ 322).6XB 3sk#29222#7, -."t/7, -."u^p8 v"5vk4 Apriori Algorithm g&B:/V45>#2)H@).""#V+g322'7 V<v"')H@).g322/ g 4 pVw( 3g 8/x4 3g )H#2 322tu722 r "?5k#29222). 322 qV#2)H@).""#+U2 322'7V <v")H).k#292 d22/ 4 yK"ts<p)- Q22/Q4#8/ r6XBk#292 224 [N<Uk#29222'X?7," r#U+ zN<U," r#U+'#7,s => (I-s)-)>,B /Qk224+@FEvk Q{t<EO0g'0p'0[P'7,"+ O0gP'O0pP'O0[P'O0g'0pP'O0g'0[P'O0p'0[P |@7, O0gPEFO0p'0[P'O0pPEFO0g'0[P'O0[PEFO0g'0pP 3 O0g'0pPEFO0[P'O0g'0[PEFO0pP'O0p'0[PEFO0gP }"  2# 23 2~  thuật toán sinh các luật kết hợp Apriori g  S  B   •    gg€<:__Swo;:/&•#2"#24 #9#6 "7;:'r:Swo;:#< )57r65 #XW-'<5B5;:@).)W9,";:/M5;: 8#4@H7"()./*."4<7r6 "7;:/ 24(HQ7r:(H+_Swo;:l;r : Filtering Attributes:QM7>*"m."<r6 Filtering samples:M7‚/2'"2#4;:r6 Clean data:5  t  ;  :    S@  u  7  ;  :  X  J /ƒ2#4Transformation:QBH)];:"m."<7r6BH)] ;:s2#9B# Discretization (rJ#t@;:4=-t@;:(>5r6„ 7"(7;:#J#t/, -."{t46t"?%::#J #t@;: 1.2. Tiê ̀ n ̉ ly ́ ̃ liê ̣ u vơi weka & •   )    r  gqr      gccc#!  )!  r  #   3 #)    r    )!       •   r  gcr     4 •#kBee'•#kBe…'V"2ee'V"2e…'=Nee'=Ne…'&#B'&2' C 2#B'€#2#B 3 Q  r    ) •      •    •#g'•#p'Vi€#" N  B)    B     !  "!  r   •     B      B   •   )       •      r    •#kBee'•#kBe…'V"2ee'V"2e…'=Nee'=Ne…' &#B'&2'C 2#B'€#2#B 5 1.3. =>?2@!&A!! 1.4. Lọc thuộc tính (Filtering Attributes) &r   •   # 23 2 r  r       ' r      r         V   r   •     2k2!    # 23 2#kk  r  k2      6 1.5.Rơ ̀ i ra ̣ c hoa ́ ̃ liê ̣ u. (Discretization) #&'>8 †, "7, -."/#24„ @H%:#7;:"t/2#‡4_5BBW "?%::#J#t@#7>*@ H;(/ H2# {t4 87"(7 †,5B 3     #!  #     •        #2     =      !   !    r     3 Q     •       =!  r  •  [ 7 }  9  9  #       8 Cr   •    B         9 2.Khai pha ́ ̃ liê ̣ u vơ ́ i weka. 2.1.Sư ̉ du ̣ ng thuâ ̣ t toa ́ n sinh các luật kết hợp Apriori. N        rr   minimum support (min_sup) và minimum confidence (min_conf) #)  v"Ecg'  2#Ece    )r    B         !  ")!   #"  !!ce }  9     B  !gc     !  ")!  # Q  B     !  "!  )r  r•#!        cg  )r  "  r      ce 10 . Table of Contents     Khai pha ́ dư ̃ liê ̣ u trên phâ ̀ n mê ̀ m weka , ư ́ ng du ̣ ng khai pha ́ dư ̃ liê ̣ u vơ ́ i dataset market-basket.arff. -."{t46t"?%::#J #t@;: 1.2. Tiê ̀ n sư ̉ ly ́ dư ̃ liê ̣ u vơi weka & •   )    r  gqr      gccc#!

Ngày đăng: 16/12/2013, 15:12

Hình ảnh liên quan

Trong qui trình khai phá dữ liệu, công việc xử lý dữ liệu trước khi đưa vào các mô hình là rất cần thiết, bước này làm cho dữ liệu có được ban đầu qua thu thập dữ liệu (gọi là dữ liệu gốc original data) có thể áp dụng được (thích hợp) với các mô hình khai - Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka khai phá bộ dữ liệu dataset market-basket.arff

rong.

qui trình khai phá dữ liệu, công việc xử lý dữ liệu trước khi đưa vào các mô hình là rất cần thiết, bước này làm cho dữ liệu có được ban đầu qua thu thập dữ liệu (gọi là dữ liệu gốc original data) có thể áp dụng được (thích hợp) với các mô hình khai Xem tại trang 4 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan