I. Bài toán Tìm các luật kết hợp trong cơ sở dữ liệu Weather.nominal II. Mô tả dữ liệu bài toán Dữ liệu mô tả về thời tiết gồm năm trường: - Outlook - Temperature - Play : thuộc tính phân loại - Humidity - Windy Và có 14 bản ghi dữ liệu. Dữ liệu : Đây là dữ liệu mô tả về khả năng có đến sân để chơi thể thao (tennis chẳn hạn) hay không của những người chơi thể thao phụ thuộc vào thời tiết và rút ra được các quy luật thay đổi của thời tiết. III. Giải thuật Apriori Được Agrawal đưa ra vào năm 1993, khai phá dữ liệu bằng phương pháp phát hiện các luật kết hợp là một trong các phương pháp khai thác đặc trưng đối với khai phá dữ liệu với nhiệm vụ phân tích dữ liệu trong CSDL nhằm phát hiện và đưa ra những mối liên hệ giữa các giá trị dữ liệu. Cụ thể là tìm tần số mẫu, mối kết hợp, sự tương quan hay các cấu trúc nhân quả giữa các tập đối tượng trong các CSDL giao dịch, CSDL quan hệ và những kho thông tin khác, kết quả thu được đó chính là các tập luật kết hợp. Một số khái niệm liên quan. Hạng mục (Item) : mặt hàng trong giỏ (CSDL giỏ hàng) hay một thuộc tính. Gọi I= {i1, i2,…,im} là tập hợp các hạng mục. Transaction (Giao dịch) T: T là tập các hạng mục và T I Transaction Database (cơ sở dữ liệu giao dịch) D: tập hợp các giao dịch D = {T1, T2,…, Tn}. Ví dụ: các giao dịch giỏ hàng siêu thị: T1: {bread, cheese, milk} T2: {apple, eggs, salt, yogurt} … Tn: {biscuit, eggs, milk} Một giao dịch T gọi là hỗ
!"#$%&'$( ) * ) ) +,(-./0 ) 1, ) , 234567! ( 8/,3 !"#!&49/9::;<0=, >'$:?-"3$"3@9'A, ,9B>$ 8' C DE9'"3&5FFGH7I' 3-'9J'9K"L " M "?/.NOPI"3 9'KQRN C Q S T U T / T M /VH M Q M C H' C 'A, M / M M /A S ' V M / C 9 M ' C M NOP C HNOPAQ C " T ' V M HQ M A S 9' C 94 .3 Mô ̣ t số kha ́ i niê ̣ m liên quan. 10?;W=(J3X;NOP S T =,-- . YZW[\ 5 H ] H^H _3 C C ;YR=(3 C C "3⊆W 7;R=(R[ \ 5 H ] H^H _ 2.?(RX3QR( 5 (\7HH_ ] (\HHH,_ ^ (\7HH_ ` C C C T V C / C aQ M M ' M / M S M C C aHU V T a ⊆ bc;a=3de&>RfaQ BKRHg3( O;a=[ { } D TXDT ⊆∈ h 1fK:;(=3-R'L7 '$i?j C ?a4;a=k4a3- !?'$l,Q `-3-A40a⇒mH94aHm⊆W3 C C ;="3a∩m[∅n9/,a;"Q M M / C =9'Z3#9#Hm ;"Q M S / C =39#A!;Q C A S = 1 KAZ>39-f;="39-,;= 8-f;=>a⇒m3do M R4p S aHm"LBKR48 C V C T 9' C T 9 C S 7Q M O;a⇒m=[;a ∪ m= 8 C V C M Q S ;=( )N( / C / T ' S S 7Q M / C C Q C l/ M Q C )/ M ( / C C Q C !l/ M Q C 8-,;q=>a⇒m3do>KR4p mKR4pa; S & C V C aU T V V C m= Nq;a⇒m=[ =; =; X YX ∪ 8 C / C ,;9 C C =Q S Q C Q M "Q M M l S ,U T M 7Q S & "Q M S l S , 8 C / C , M Q S ;q=( )N( / C '/ M S r" # s )/ M ( / C H/ T M / M r$%& %%& s Y M C Q7Q S ([]ot5uoHq[vuotFuo 8 C U V 7 T M (w3/ C Q M C 373x! 0a ⇒ m;aHm ⊆ W"3aym[ φ =Xz9- V C "39-,K: ;a ⇒ m=k q;a ⇒ m=kq `-3- 2.?(a[\H7H_3- `-)34 B7;,L=349-fL ,7I {;,pi"Q=3e9'll| 4!3B7 1.2.2 Gia ̉ i thuâ ̣ t Apriori khai pha ́ tập hạng mục phổ biến D T / C M M / C Q M C S 7Q M / M " T T S 9Q S M Q S M S / C M '' ( %" ){Q.xD>B7(ZB7x! >49#3B7 )x!B75)0?O943x!B7])0 ?H^ }f"~JH•A/94p-K B7;)5=)0? }0p"Q.'L)0?;)=€ B74.'L;)5=)0? }b:9-B7>p"QQNOP"30p"Q B7 ) * + ,-.( ) C M / C S 7Q M U T / C ;9& C 7Q C T M / C M U M ' M ]= ) C M / C Q M C ' T M / C S 7Q M U T )b C M / C S 7Q M H' V 9 C V C 9' C ' S C )b C / C Q M C H' V 9 C / C ,9' C ' S C )p )[.'L>Lx )j4!,eQ )b >x!33•*;] =H(KW /#0!( 0,H'L-K9#Hx!9'x, $,. NzQ-L 29z9'.'L>"3R9- fXxH9-,Xx 12%3( ‚|#eNOP OK'pi"QL K# p.9-fpi"Q ) 45-6789:$' AH "lic'L9' "3 3xeH7'L3,349'7 9eA;Z3K=4:? 9';.="L ;= ?:N "?:>#lic7% "'( • Filtering Attributes:NZ-.ƒ"L • Filtering samples: PZ„;H= • Clean data:P30'l47X7x'$ ;*= • Transformation:N,:9Bƒ"L ',:9B€A, • Discretization (r$04=(j704Q? '-"3 •?$0;' <0=70!{"$04 E9:9'7I !{:$04p3,:: E"#0: 8eQq(q9e"3E" bZ9''( ) a|-. ‚Qx,-.4:3j OK„RQ-.9l|3uOK„ 4R ƒ"L„3u`-7!KQ0K> . 2,-.9z$04 ) a|-. ‚Qx,-.4: OK„RQ-.9l|3uOK„ 4R ƒ"L„3u`-7!KQ0K> . 2,-.9z$04 ) a|-.,