Tìm hiểu khai phá luật kết hợp mining association rules

54 205 0
Tìm hiểu khai phá luật kết hợp mining association rules

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tìm hi u phai phá lu t k t h p Mining Association Rules I GI I THI U Hi n d li u, thông tin tri th c tiêu m c a m t l nh v c m i nghiên c u ng d ng v phát hi n tri th c (Knoledge Discovery) - KD khai phá d li u (Data Mining) - KDD Phát hi n tri th c: phát hi n tri th c c s d li u m t quy trình nh n bi t m u ho c mô hình d h p th c, m i, kh ích có th hi u đ Khai phá d li u v i tính n ng: c li u: khai phá d li u m t b hi n tri th c g m có thu t toán khai thác d c quy trình phát li u chuyên dùng d m t s quy đ nh v hi u qu tính toán ch p nh n đ i c đ tìm m u ho c mô hình d li u t n t i c s d li u nh ng v n b che khu t b i hàng núi d li u Trong báo cáo này, xin trình bày m t s khái ni m Data mining (ch ng II), Lu t k t h p (ch khám phá t p ph bi n (ch cài đ t th (ch nghi m (ch ng III), hai trình tìm lu t k t h p ng IV) khám phá lu t (ch ng VI), nh n xét, đánh giá, h ng VII) -1- ng V); ng phát tri n Tìm hi u phai phá lu t k t h p Mining Association Rules II T NG QUAN V DATA MINING Khái ni m Data mining: Ti n trình thu th p d li u s công ngh l u tr d n đ n s l n lên c a CSDL đ s i u xu t hi n t t c l nh v c t d li u ho t đ ng c a ng tr ng, b n ghi vi c s i (nh li u giao d ch th d ng th tín d ng, thông tin v cu c g i n li u thu th p đ tho i, th ng kê c a ph ) t i d (nh d ct bên hình nh thiên th , CSDL v phân t , ho c b n ghi y t ) Cùng v i s l n lên c a d li u s l n lên c a m i quan tâm v v n đ v kh n ng l u d li u này, kh n ng trích rút t chúng thông tin có giá tr Môn khoa h c liên ngành liên quan đ n nhi m v g i Data mining Vi c đ nh ngh a m t khoa h c liên ngành gây tranh cãi; nhà nghiên c u th ng không nh t trí v ph m vi xác gi i h n v l nh v c nghiên c u c a h V i suy ngh nh th nh ng ng v y ch p nh n r ng có i khác không đ ng tình v chi ti t, s thông qua môt đ nh ngh a riêng c a v data mining nh sau: Data mining (khai phá d li u quan sát (th tóm t t d ng li u) s ng l n) đ tìm m i liên h rõ ràng đ li u theo cách m i mà v a d hi u, v a h u ích cho i s h u d li u Các m i liên h tóm t t thu đ th phân tích c a t p d c thông qua khai phá d li u ng g i mô hình (models) ho c khuôn m u (patterns) Ví d nh ph ng trình n tính, lu t, nhóm, đ th , c u trúc cây, khuôn m u l p l i theo th i gian nh ngh a đ i l p v i “d th nh c đ n “d li u quan sát – observational data”, li u th c nghi m – experimental data” Khai phá d ng làm vi c d li u mà th c s đ c thu th p tr c cho m c đích khác v i phân tích c a dataming (ch ng h n, chúng đ th p nh m c p nh t t t c giao d ch m t ngân hàng) -2- li u c thu i u Tìm hi u phai phá lu t k t h p Mining Association Rules có ngh a r ng m c tiêu c a khai phá d chi n l c thu th p d li u li u không đ c xác đ nh i u m t nh ng đ phân bi t Data mining v i th ng kê h c (statistics); đ i v i th ng kê, d th ng đ c hi u qu đ tr l i c thu th p b i s d ng chi n l câu h i xác đ nh tr li u c V i lý này, khai phá d li u th ng đ c coi phân tích d li u th c p (“secondary”) nh ngh a c ng đ c p đ n t p d th ng l n N u ch làm vi c t p d li u khai phá d li u li u nh , hoàn toàn m i ch th o lu n phân tích d li u khám phá c n (classical exploratory data analysis) nh công vi c c a nhà th ng kê Khi đ i m t v i d li u l n, toán m i s n y sinh M t s toán liên quan đ n v n đ l u tr truy c p d li u, m t s khác liên quan đ n v n đ c b n nh làm th đ xác đ nh đ i di n c a d li u, làm th phân tích d li u th i gian ch p nh n đ quy t đ nh xem m t m i liên h ch đ n thu n s không ph n ánh m t th c t c Thông th g m m t m u t m t t p đ y đ c, làm th đ xu t hi n ng u nhiên ng, d li u có s n ch bao li u; m c đích khái quát hóa d (generalize) t m u cho toàn b t p d li u Ch ng h n mong mu n d đoán hành vi c a khách hàng t ng lai, ho c d đoán tính ch t c a c u trúc proteins mà ch a bao gi tr c Nh ng khái quát hóa nh nhìn th y v y có th không th có đ cách ti p c n th ng kê chu n d li u th c b ng ng không ph i m u “ng u nhiên” mà “m u ti n l i” (“convenience samples”) ho c “m u c h i” (“opportunity samples”) t pd ôi mu n tóm t t ho c nén m t li u l n theo m t cách cho k t qu d h u, b t c m t ý ni m c a khái quát hóa c V n đ nh h n, n u hoàn thành d v y s n y sinh, ch ng li u u tra dân s đ y đ c a m t qu c gia, ho c m t CSDL g m hàng tri u giao d ch bán l Các m i liên h c u trúc tìm th y t p d li u ph i m i, u t t nhiên S có r t giá tr tìm m i liên h thiêt l p tr c (tr m c đính c a công vi c xác nh n gi thuy t, xác -3- Tìm hi u phai phá lu t k t h p Mining Association Rules đ nh xem m t khuôn m u – pattern - t n t i m t t p d không), ho c m i liên h c n thi t (ví d nh thai n ) Rõ ràng, tính m i ph i đ th c có tr t t c b nh nhân mang c đo m t cách t c (tri th c tiên nghi m) c a ng li u m i is ng đ i đ i v i tri d ng Không may ch có m t vài gi i thu t khai phá d li u đ c p đ n tri th c tiên nghi m Nó v n toán t n l i nghiên c u Trong tính m i m t tính ch t quan tr ng c a m i liên h tìm ki m, v n không đ đ đánh giá m t m i liên h có giá tr C th , m i liên h ph i có th hi u đ c Ví d m i liên h đ n gi n d hi u h n m i liên h ph c t p, v y đ c a thich h n Data mining l nh v c liên ngành: th ng kê h c (statistics), công ngh c s d li u (database technology), h c máy (machine learning), nh n d ng khuôn m u (pattern recognition), trí tu nhân t o (artificial intelligence), tr c quan hóa (visualization), t t c đ u có vai trò nh t đ nh R t khó đ xác đ nh m t biên rõ ràng gi a ngành biên gi a m i chúng v i data mining Quá trình khai phá tri th c khai phá d Khai phá d li u th ng đ “khám phá tri th c c databases”, KDD) Thành ng li u c xác l p ng c nh r ng h n c a s d li u” (“knowledge discovery in xu t phát t l nh v c trí tu nhân t o (artificial intelligence, AI) Quá trình KDD liên quan đ n nhi u công đo n: l a ch n d li u, ti n x lý d li u, chuy n d ng (transforming) chúng n u c n thi t, th c hi n khai phá d li u đ trích khuôn m u m i liên h , di n d ch đánh giá khuôn m u m i liên h tìm M t l n n a biên xác c a ph n khai phá d li u c a trình không d dàng xác đ nh; ch ng h n, v i r t nhi u ng d li u m t ph n th c s c a khai phá d li u -4- i chuy n d ng Tìm hi u phai phá lu t k t h p Mining Association Rules Quá trình khai phá tri th c d li u g m b a Làm s ch d c: li u (Data Cleaning): Lo i b d li u nhi u d li u không nh t quán b Tích h p d th đ li u (Data Intergation): D li u c a nhi u ngu n có c t h p l i c L a ch n d li u (Data Selection): L a ch n nh ng d li u phù h p v i nhi m v phân tích trích rút t c s d li u li u (Data Transformation): D li u đ d Chuy n đ i d đ i hay đ c chuy n c h p nh t v d ng thích h p cho vi c khai phá e Khai phá d li u (Data Mining): ph ây m t ti n trình c t y u ng pháp thông minh đ c áp d ng nh m trích rút m u d li u f ánh giá m u (Pattern Evaluation): D a m t đ đo xác đ nh l i ích th c s , đ quan tr ng c a m u bi u di n tri th c g Bi u di n tri th c (Knowledge Presentation): k thu t bi u di n hi n th đ l y cho ng i dùng -5- cs giai đo n d ng đ đ a tri th c Tìm hi u phai phá lu t k t h p Mining Association Rules Hình 1: Bi u di n quy trình khai phá tri th c Quá trình x lý khai phá d li u b t đ u b ng cách xác đ nh xác v n đ c n gi i quy t Sau s xác đ nh d li u liên quan dùng đ xây d ng gi i pháp B c ti p theo thu th p d li u có liên quan x thành d ng cho gi i thu t khai phá d lý chúng li u có th hi u đ c V lý thuy t có v r t đ n gi n nh ng th c hi n th c s m t trình r t khó kh n, g p ph i r t nhi u v B ng m c c ti p theo ch n thu t gi i khai phá d li u thích h p th c hi n vi c khai phá d bi u di n t li u đ tìm đ c m u có ý ngh a d i d ng ng ng v i ý ngh a c m c a m u ph i m i (ít nh t đ i v i h th ng đó) m i có th đ c đo t ng ng v i đ thay đ i d sánh giá tr hi n t i v i giá tr tr c hay giá tr mong mu n), hay b ng tri th c (m i liên h gi a ph ph ng pháp c nh th nào).Th li u (b ng cách so ng pháp tìm m i ng đ m i c a m u đ giá b ng m t hàm logic hay m t hàm đo đ m i, đ b t ng Ngoài ra, m u ph i có kh n ng s đ cx c đánh c a m u d ng ti m tàng Các m u sau lý di n gi i ph i d n đ n nh ng hành đ ng có ích -6- Tìm hi u phai phá lu t k t h p đ Mining Association Rules c đánh giá b ng m t hàm l i ích.M u khai thác ph i có giá tr đ i v i d li u m i v i đ xác Nghiên c u l nh v c li u đ u vào T ot pd Ti n x lý,làm s ch, mã hoá Ch n tác v khai thác d li u Ch n gi i thu t datamining Tìm ki m tri th c ánh giá m u tìm đ c Bi u di n tri th c S d ng tri th c v a khám phá Hình 2: Bi u di n quy trình khai phá d li u Các k thu t ph ng pháp khai phá d li u S r t ti n l i phân lo i khai phá d li u thành ki u nhi m v , t ng ng v i m c tiêu khác Phân lo i d i không ph i nh t, vi c phân chia nh h n, thành nhi m v m n h n có th 3.1 Phân tích d li u khám phá (Exploratory Data Analysis – EDA) Nh tên đ t, m c đích mà ý t đ n gi n khám phá d li u ng rõ ràng v tìm ki m i n hình, k thu t EDA t ph ng pháp hi n th đ ng tác tr c quan, có r t nhi u h a hi u qu -7- đ i v i t p d li u Tìm hi u phai phá lu t k t h p Mining Association Rules chi u nh Khi s chi u (s bi n, p) t ng, s tr nên r t khó đ tr c quan đám mây m không gian p chi u V i p l n h n ho c 4, k thu t chi u nh phân tích thành ph n đ sinh hình chi u m t mát thông tin c a d không gian chi u h n h u ích M t l li u xu ng ng l n d li u có th khó tr c quan hi u qu , dù v y, ký hi u c a thang (scale) chi ti t v i gi i quy t đ th p h n có th đ c v n đ : m u d li u v i đ phân gi i c hi n th tóm t t v i m t chi phí h p lý có th b qua m t s chi ti t quan tr ng M t s ví d c a ng d ng EDA là: - Becker, Erick and Wilks, 1995, mô t m t t p công c tr c quan hi n th khuôn m u m ng n tho i đ ng dài (trên 12.000 links) 3.2 Xây d ng mô hình mô t (Descriptive modeling) M c tiêu c a m t mô hình mô t mô t t t c d li u (ho c trình sinh d li u) Các ví d c a mô t nh v y bao g m mô hình cho phân b xác su t chung, d li u, phân ho ch không gian d cl ng hàm m t đ c a li u p chi u thành nhóm, phân tích phân nhóm phân đo n, mô hình mô t m i liên h gi a bi n (mô hình ph thu c) Trong phân tích phân đo n ch ng h n, m c đích đ nhóm b n ghi t vi c phân đo n th tr ng c a CSDL th ng t , nh ng m i m c đích đ chia b n ghi thành nhóm cho khách hàng gi ng đ c đ t m t nhóm i u cho phép nhà qu ng cáo, nhân viên makerting qu ng bá m t cách hi u qu nh m thu đ đ c t i u l i nhu n v i chi phí th p S nhóm c ch n b i nhà nghiên c u, s “đúng” đ i l p v i phân tích phân nhóm, i u m c đích đ khám phá nhóm “t nhiên” t d li u, ví d nh d li u v khoa h c Xây d ng mô hình mô t đ c s d ng nhi u cách: -8- Tìm hi u phai phá lu t k t h p - Mining Association Rules Phân đo n đ c s d ng makerting đ chia khách hàng thành nhóm d a khuôn m u mua hàng d li u nhân kh u nh tu i, thu nh p, (Wedel and Kamakura, 1998) - Phân tích phân nhóm đ c s d ng r ng rãi nghiên c u tâm th n h c đ xây d ng phân c p c a bênh lý tâm th n Ch ng h n, Everitt, Gourlay and Kendel (1971) áp d ng phân tích phân nhóm đ i v i m u b nh nhân tâm th n n i trú; h tìm r ng t t c b n phân tích s n sinh m t nhóm bao g m ch y u b nh phân “psychotic depression” - Các k thu t phân nhóm đ cs d ng đ phân tích thay đ i khí h u dài h n vùng khí quy n phía bán c u b c c a trái đ t Thay đ i ch y u b i khuôn m u áp su t xu t hi n đ c nh n di n t d li u ghi l i hàng ngày n m 1948 (xem Cheng and Wallace 1993, …) 3.3 đoán: phân l p h i qui Xây d ng mô hình d (predictive modeling : classification and regression) M c đích đ xây d ng m t mô hình mà cho phép giá tr c a m t bi n đ c d đoán t Trong phân l p, bi n đ giá tr bi t c a bi n khác c d đoán có giá tr ki u phân lo i, trong h i qui, bi n c n d đoán đ nh l đoán” đ ta mu n d t c s d ng ng Thành ng “d s d ng chung Ch ng h n, chúng đoán giá tr c a th tr ng lai, ho c mu n d ng c ph n m t ngày đoán ng a s th ng m t cu c đua, chúng c ng có th mu n xác đ nh chu n đoán c a m t b nh nhân, ho c m c đ d v ph ng pháp đ c a m t m i hàn M t s l n c phát tri n th ng kê h c h c máy đ gi i quy t toán xây d ng mô hình d đoán, công vi c l nh v c d n đ n m t b c ti n lý thuy t đáng k nh ng hi u bi t v v n đ sâu c a suy di n S phân bi t -9- Tìm hi u phai phá lu t k t h p Mining Association Rules đoán vi c mô t vi c d gi a vi c d tiêu nh t (bi n c n d đoán) (ví d nh đoán có m t bi n m c giá tr th tr ng, lo i b nh, đ d v , ), toán mô t m t bi n nh v y làm trung tâm c a mô hình Các ví d c a mô hình d đoán nh sau: - H th ng SKICAT JPL/Caltech phát tri n s d ng bi u di n có c u trúc đ h c phân l p t t nh chuyên gia vi c phân l p ngân hà t m t vector 40 chi u đ có th phân tích phân lo i (Fayyad, Djorgovski, & Weir) - Các nhà nghiên c u c a AT&T phát tri n m t h th ng đ l n theo d u v t đ c m c a toàn b khác c a n h i quy đ n tho i 350 tri u s c M (Corter, Pregibon 1998) Các k thu t c s d ng đ xây d ng mô hình có kh n ng d đoán m t s n tho i kinh doanh hay gia đình 3.4 Khám phá khuôn m u lu t (Discovering patterns and rules) Ba ki u nhi m v li t kê liên quan đ n xây d ng mô hình Các ng d ng khai phá d li u khác dò tìm khuôn m u M t ví d đ a hành vi l a đ o b i dò tìm vùng c a không gian xác đ nh b i ki u giao d ch khác mà m d li u khác m t cách có ý ngh a th ng kê đ i v i ph n l i M t s d ng khác thiên v n h c, dò tìm ho c ngân hà b t th ng có th d n đ n khám phá hi n t ng ch a bi t đ n M t ví d n a nhi m v tìm t h p m t hàng th ng xuyên xu t hi n CSDL giao d ch Bài toán đ c đ tâm r t nhi u khai phá d s d ng công ngh li u đ c gi i quy t gi i thu t d a lu t k t h p (association rules) - 10 - Tìm hi u phai phá lu t k t h p Mining Association Rules 3) conf=support(Lk) / support(am-1); 4) if (conf >= minconf) then begin output the rule am-1⇒ (Lk - am-1) 5) with confidence=conf and support= support(Lk); 6) if (m-1>1) then 7) call genrules(Lk, am-1); // to generate rules with subnet of am-1 as antecedents 8) end 9) End Hình 10: Thu t toán Simple Algorithm Thu t toán nhanh h n Chúng ta th y r ng n u a⇒(l –a) không đúng, a ⇒(l - a ) cho b t c t t c lu t a ⊂ a c ng không Còn m t lu t (l – c)⇒c _ _ _ đúng, t t c nh ng lu t (l - c )⇒ c ph i đúng, v i c t p không r ng c a c Ví d , n u lu t AB ⇒ CD đúng, lu t ABC⇒D ABD⇒C c ng ph i Xem xét thu c tính th y r ng cho m t t p thu c tính l n đó, _ n u m t lu t d n t i c lu t s d n t i t p c c a c i u gi ng nh n u m t t p thu c tính l n t t c t p c a l n B i v y t m t t p thu c tính l n l, đ u tiên t o t t c lu t v i m t thu c tính k t qu Sau dùng m nh đ k t qu c a nh ng lu t dùng hàm apriori-gen đ nh ng m nh đ k t qu có th có v i hai ph n t m t lu t t o t l,… Và ý t - 40 - t o t t c mà có th xu t hi n ng c a m t thu t toán nhanh h n Tìm hi u phai phá lu t k t h p Mining Association Rules // Faster Algorithm forall large-itemsets Lk , k>=2 begin H1={consequents of rules derived from Lk with one item in the consequent}; call ap-genrules(Lk, H1); end Procedure ap-genrules(Lk : large k-itemset, Hm :set of m-item consequent) 1) if (k >m+1) then begin 2) Hm+1 = apriori-gen(Hm); 3) forall hm+1∈ Hm+1 begin 4) conf=support(Lk)/support(Lk - hm+1); 5) if (conf >= minconf) then output the rule Lk - hm+1⇒ hm+1 6) with confidence=conf and support= support(Lk); 7) else 8) delete hm+1from Hm+1; 9) end 10) call ap-genrules(Lk, Hm+1); 11) End Hình 11: Thu t toán Faster Algorithm - 41 - Tìm hi u phai phá lu t k t h p Mining Association Rules Ví d v so sánh thu t toán Xem xét t p l n ABCDE Cho r ng ACDE⇒B ABCE⇒D lu t ch có m t ph n t v ph i, đ cl yv t t p thu c tính mà có đ tin c y nh nh t (minimum confidence) Dùng thu t toán đ n gi n, lu t g i đ qui genrules(ABCDE, ACDE) s ki m tra xem lu t k t qu hai ph n t ACD⇒BE, ADE⇒BC, CDE⇒BA, ACE⇒BD Lu t đ u tiên không th đúng, b i E ⊂ BE, ABCE⇒E không Lu t th hai lu t th ba không th v i lý t N u g i hàm t o lu t ap-genrulues(ABCDE, ABCE) s ng t ta s tính đ c Hm={ {B},{D} } nên Hm+1={ {B,D} } Do ch c n ki m tra xem lu t ACE⇒BD không lu t có m nh đ ph i ch có ph n t có kh n ng BD ây lu t nh t s đ c ki m tra thu t toán nhanh h n Khai thác t p lu t hi u qu M t v n đ n y sinh v n ph i ti p t c nghiên c u nh m t ng hi u qu s d ng k t qu khai thác là: - Khi t n t i t p lu t d ng A⇒B có đ tin c y (ck) t n t i t p lu t d ng B⇒A có đ tin c y (ck+1) Nh c n thi t ng v y, lu t d ng B⇒A th ng không i s d ng ng m hi u - Cách th c v n d ng t p lu t ch a rõ 4.1 T a t p lu t d ng B ⇒ A Vi c t a t p lu t d ng B⇒A nh m m c đích b lu t giá tr ho c ng is d ng bi t tr c lu t đó, đ ng th i rút g n đ t p lu t K thu t t a s d ng đ tin c y c a t p lu t tìm th y - 42 - c Tìm hi u phai phá lu t k t h p Mining Association Rules N i dung k thu t: forall rulsets r ∈ Ri If ck < ck-1 then delete r from Ri C nc vào đây, có th t a t p lu t không mong mu n đ gi i h n ph m vi tìm ki m t p lu t nh m t ng tính ng d ng c a m t cách nhanh chóng nh ng ph m vi ng d ng khác 4.2 T i u hoá tính ng d ng t p lu t t i u hoá tính ng d ng t p lu t (Ri), trình t th mô t theo b c c b n nh hình v Nh n phân lo i t p lu t Hình 12: Các b B ng d ng lu t có Xác nh n tính ch t lu t V n d ng thi hành k t qu c c b n c a ng d ng lu t c “Nh n phân lo i t p lu t” s l y k t qu c a trình khai thác lu t k t h p t c s d li u giao d ch sau lo i b nh ng lu t giá tr , đ ng th i ti n hành phân lo i lu t theo ch đ (lu t m t m c, lu t hai m c, ) l u vào c s d li u B c “Xác đ nh tính ch t lu t”, sau phân lo i lu t ta ti n hành xác đ nh tính ch t lu t Vi c xác đ nh s làm rõ m c đích ng d ng lu t giao d ch B c “V n d ng thi hành k t qu ” cho ta bi t cách th c thi hành lu t giao d ch đ k t h p gi a m c s thu đ c k t qu t t B c này, nói lên ý ngh a k t h p m c giao d ch có tính quan tr ng nh th th c thi m t k ho ch ho t đ ng Nh v y, mô hình b không nh s c c b n c a ng d ng lu t góp ph n d ng lu t nh m gi m th i gian tìm ki m t ng kh n ng thi hành lu t Vi c xác đ nh tính ch t lu t có tính quy t đ nh hình - 43 - Tìm hi u phai phá lu t k t h p Mining Association Rules thành k t h p t p m c m i giao d ch Vì th , khai thác lu t k t h p đ c ng d ng r t thành công c s d li u giao d ch M t gi i pháp mô ph ng vi c tinh l c, xem xét đ c m lu t ph c v cho ng d ng đ c nghiên c u ph n nh hình sau B tđ u k=n k>0 Sai úng Xác đ nh tính ch t m i lu t toàn b t p lu t Xem xét tính ch t Không TM Ta b lu t ri Tho mãn(TM) Ghi nh n tính ch t ng d ng k=k-1 K t thúc Hình 13: L u đ gi i pháp mô ph ng xác nh n đ c m lu t Gi i thích Trong vòng l p đ u tiên (k=n), t p lu t đ c xác đ nh tính ch t t p lu t th n R (toàn b t p lu t) N i dung xác đ nh t p lu t g m: “ti n đ ”, “k t lu n”, “đ tin c y”, “đ h tr ” Ti p theo ki m tra tính ch t lu t N u lu t ki m tra tho mãn chu n đ ghi nh n đ c tính s d ng cho nó, ng c l i xoá lu t Ri kh i R, l u k t qu th c hi n vòng l p ti p theo Gi i pháp k t thúc ki m tra xong toàn b t p lu t R (k=0) - 44 - Tìm hi u phai phá lu t k t h p Ghi nh n tính ch t tính Mining Association Rules ng d ng m t b ng d ng Vì th , b c r t quan tr ng quy t đ nh t i u c s đ c xây d ng “Chu n” đánh giá nghiêm ng t Chu n d a nh ng nguyên t c riêng, nh t đ nh c a ph m vi ng d ng lu t Các hàm chu n s đ cài đ t th nghi m môi tr K t qu gi i pháp s t ng tính d ch T p lu t đ c ti n hành ng c s d li u giao d ch ng d ng c a lu t c s d li u giao c xác nh n đ c tính s có tính ch đ ng h n ng d ng - 45 - ng d ng linh ho t, Tìm hi u phai phá lu t k t h p VI CÀI T TH Mining Association Rules NGHI M C u hình máy th nghi m - C u hình máy P5 Celeron 2.4 Ghz, 512 M RAM - Cài SQL Server 2005 (x lý d li u) C# 2005 (giao di n) D li u siêu th bán hàng D LI U SIÊU TH T I TAIPEI,TAIWAN (4 THÁNG) S TRANSACTION S ITEM (Nhóm s n ph m) S CHI TI T GIAO D CH S GIAO D CH CÓ CHI TI T S CHI TI T GIAO D CH D NG BOOLEAN 699.799 CH N MINSUP=1% -> S M TS 119.578 2.012 1.635.482 19.844 T P PH LU T 100312 -> 100205 [3%,44%] 530103 -> 530101 [1%,43%] 500203 -> 500201 [1%,36%] 100323 -> 100205 [1%,36%] 100201 -> 100205 [2%,35%] 120105 -> 120103 [1%,35%] 560402 -> 560201 [1%,31%] 530114 -> 530110 [1%,30%] 100102 -> 100205 [1%,29%] 500210 -> 500201 [1%,27%] 530110 -> 500201 [1%,25%] - 46 - BI N 254 Tìm hi u phai phá lu t k t h p Mining Association Rules 100507 -> 100205 [1%,25%] 500202 -> 500201 [1%,25%] 110401 -> 100205 [2%,24%] 110411 -> 100205 [1%,24%] 100505 -> 100205 [1%,24%] 530105 -> 500201 [1%,23%] 100507 -> 100505 [1%,23%] 530101 -> 500201 [1%,23%] 110136 -> 110401 [1%,23%] 130206 -> 130204 [2%,22%] 130204 -> 130206 [2%,22%] 530110 -> 530114 [1%,22%] 110507 -> 100205 [1%,22%] 130205 -> 130206 [1%,21%] 560201 -> 560402 [1%,21%] 100205 -> 100312 [3%,20%] 530101 -> 530103 [1%,20%] 110411 -> 110401 [1%,20%] 530105 -> 530101 [1%,20%] 530110 -> 530101 [1%,20%] CH N MINSUP=0.5% -> S M TS T P PH BI N 728 LU T NHI U THU C TÍNH 100201_100312 -> 100205 [0.5%;59%] 100102_100312 -> 100205 [0.6%;57%] - 47 - Tìm hi u phai phá lu t k t h p Mining Association Rules 100312_110411 -> 100205 [0.5%;55%] 100312_110401 -> 100205 [0.6%;54%] 100102_100201 -> 100205 [0.5%;51%] 100201_110401 -> 100205 [0.5%;47%] KHÁM PHÁ LU T THEO S N PH M THEO D NG LU T PHÂN C P (có 23812 s n ph m 2012 nhóm s n ph m) C p 1: 120105 -> 120103 [1.1%,35%] (nhóm 120105 có 22 s n ph m; nhóm 120103 có 79 s n ph m) C p 2: 4710011401135 -> 4710011401128 [0.7%;75%] 4710011409056 -> 4710011401128 [0.5%;69%] 4710011405133 -> 4710011401128 [0.6%;65%] 4710011406123 -> 4710011401128 [0.6%;59%] C p 1: 110411 -> 100205 [1.6%;24%] (nhóm 110411 có 105 s n ph m; nhóm 100205 có 275 s n ph m) C p 2: 4710085172696 -> 4710085120628 [0.5%,50%] D li u c a hàng sách D LI U C A HÀNG SÁCH T I M S TRANSACTION S ITEM S CHI TI T GIAO D CH 286.017 S GIAO D CH CÓ CHI TI T 140.788 S CHI TI T GIAO D CH D NG BOOLEAN 278.755 CH N MINSUP=1% -> S 192.983 4.040 T P PH - 48 - BI N 66 Tìm hi u phai phá lu t k t h p M TS Mining Association Rules LU T 12819 -> 12820 [3%,94%] 11048 -> 11196 [3%,86%] 12506 -> 12830 [1%,86%] 12851 -> 12820 [2%,84%] 12826 -> 12820 [1%,80%] 13190 -> 12820 [5%,76%] 12830 -> 12506 [1%,75%] 11196 -> 11048 [3%,70%] 11088 -> 11053 [1%,66%] 13254 -> 12820 [1%,63%] 13099 -> 12820 [1%,63%] 11052 -> 11197 [1%,62%] 11053 -> 11088 [1%,61%] 11197 -> 11196 [1%,55%] 10956 -> 12139 [2%,53%] 12005 -> 12820 [1%,48%] 12139 -> 10956 [2%,47%] 11197 -> 11052 [1%,45%] 12139 -> 12820 [2%,40%] KHÁM PHÁ LU T THEO NHÓM S N PH M (có nhóm s n ph m) CH N MINSUP=1% -> S M TS T P PH BI N LU T OCCASION -> FREEBIE [18%,66%] - 49 - 27 Tìm hi u phai phá lu t k t h p Mining Association Rules GAME -> FREEBIE [6%,63%] APPAREL -> FREEBIE [2%,51%] OTHER -> FREEBIE [2%,47%] BOOK -> FREEBIE [13%,46%] CALENDAR -> FREEBIE [1%,41%] D li u T10I4D100K D LI U SINH NG U NHIÊN C A IBM (C nh ) S TRANSACTION S ITEM S CHI TI T GIAO D CH 871 CH N MINSUP=1% -> S M TS 100.000 1.010.228 T P PH LU T 704 -> 825 [1%,61%] 704 -> 39 [1%,61%] 227 -> 390 [1%,57%] 390 -> 227 [1%,39%] 825 -> 39 [1%,38%] 346 -> 217 [1%,38%] 390 -> 722 [1%,38%] 825 -> 704 [1%,35%] 682 -> 368 [1%,28%] 39 -> 825 [1%,27%] 789 -> 829 [1%,27%] 39 -> 704 [1%,25%] - 50 - BI N 385 Tìm hi u phai phá lu t k t h p Mining Association Rules 217 -> 346 [1%,24%] D li u T40I10D100K D LI U SINH NG U NHIÊN C A IBM (C l n) S TRANSACTION S ITEM S CHI TI T GIAO D CH 942 CH N MINSUP=1% -> S M TS 100.000 3.960.507 T P PH LU T 860 -> 368 [3%,70%] 173 -> 368 [2%,65%] 544 -> 966 [2%,65%] 314 -> 744 [2%,55%] 375 -> 177 [2%,54%] 744 -> 314 [2%,53%] 176 -> 368 [2%,52%] 355 -> 438 [2%,52%] 711 -> 829 [2%,50%] - 51 - BI N 2289 Tìm hi u phai phá lu t k t h p VII Mining Association Rules NH N XÉT, ÁNH GIÁ & H NG PHÁT TRI N Nh n xét h n ch - Khi th c hi n CSDL c l n, th i gian th c thi r t lâu - Không hi u rõ đ c ý ngh a d li u th c t , ki n th c v l nh v c ho t đ ng nên k t qu phân tích đ c không đáp ng th c t - Do c u hình máy tính cài đ t th nghi m c u hình y u đ th c thi thu t toán có đ ph c t p l n, th i gian th c hi n h n ch nên vi c đánh giá hi u qu c i ti n c a thu t toán ch a đ t đ c k t qu nh yêu c u đ - K thu t l p trình, thao tác v i d li u l n h n ch , thi u ki n th c chuyên sâu v t i u hoá truy v n, k thu t truy v n SQL-Server… ánh giá h ng phát tri n Khai phá d li u hi n đ s c r t nhi u ng i ý Nó th c đem l i nh ng l i ích đáng k vi c cung c p nh ng thông tin ti m n c n thông tin, l s d li u l n Ngày tình tr ng bùng ng thông tin tr nên phong phú, đa d ng kh ng l Th nh ng đ có đ c nh ng thông tin quí giá, đáng quan tâm, l i ph i t n r t nhi u công s c đ tìm ki m m t kh i l tin kh ng l vi c tr y Xét v l nh v c kh i l nên khó kh n h n Nh ng ph th ng, ph n l n đ u đ ch vi c s c đ nh tr d ng nh ng ph thông tin mà c n ng thông ng thông tin l n công ng pháp th ng kê truy n c m c đích c a công vi c, sau ng pháp thích h p đ có đ c nh ng i v i khai khoáng d li u ngh a nh tên g i c a nó, tìm “m ”, không bi t “có m hay không?” n u có “m vàng hay b c, hay chì ?” Khai khoáng d li u nh m t công c , giúp tìm “m ” nh ng “dãy núi kh ng l ”, núi l n, dài hy v ng tìm m cao nh ng c ng h t s c khó kh n ph c t p - 52 - Tìm hi u phai phá lu t k t h p Mining Association Rules T t nhiên tìm đ c nh ng thông tin cu i vi c ng d ng nh ng thông tin vào th c t l i đòi h i c m t trình v n d ng t lý thuy t vào th c ti n Nh ng lu t k t h p, nh ng m u thông tin ti n đ ch a t ng g p s cho nh ng d nh ng ho ch đ nh cho h đoán, đ ng phát tri n t t c ng lai, quan đ n v c ng c n t i nó, dù nh ng y u t mà c có đ m c qui mô l n hay nh Tuy nhiên th c t , vi c ti p c n, khai thác ngu n d l n không ph i vi c d dàng (và th không t p trung t i m t ch mà th ng ngu n d li u li u th c c ng ng phân tán t i nhi u n i, có pham vi có quy mô qu c t ); c ng nh vi c tìm hi u, nghiên c u l nh v c chuyên ngành c a ngu n d th li u c n khai thác c ng không th th c hi n đ c ng xuyên hi u qu H n n a, xét v m t hi u qu kinh t , n u ti n hành khai thác d li u t i ngu n d li u s t n d ng đ c s c ng đ n ho t đ ng c a đ n v , đ m m nh c a máy ch , không làm nh h b o an toàn b o m t, th i gian th c thi s nhanh h n Do đó, xin đ xu t h nghiên c u m t s h ng phát tri n ti p theo ti p t c ng ti p c n khai thác lu t k t h p, nghiên c u v khai phá m u tu n t … làm ti n đ cho vi c xây d ng m t h h tr quy t đ nh Ngoài c ng s nghiên c u thêm v công ngh D ch v Web (Web Service) đ giúp cho h h tr tích h p v i ngu n c s d quy t đ nh có kh n ng d dàng li u c ng nh ng d ng khác đ khai thác, phân tích d li u đ a thông tin, tri th c c n thi t ph c v h tr quy t đ nh - 53 - Tìm hi u phai phá lu t k t h p Mining Association Rules TÀI LI U THAM KH O Principles of Data Mining Data Mining Concepts and Techniques Fast Algorithm for Mining Association Rules Mining Association Rules between Sets of Items in Large Databases Mining Quantitative Association Rules in large relational tables A survey of Association Rlues Các gi ng v Data Mining < Ts Các tài li u t Internet… - 54 - Phúc, Gs H Tú B o> [...]... ph n c a gi i thu t data mining - 11 - Tìm hi u phai phá lu t k t h p Mining Association Rules Các gi i thu t khai phá d li u có b n thành ph n c b n: • C u trúc mô hình hay khuôn m u: xác đ nh c u trúc n n t ng ho c d ng hàm mà chúng ta tìm ki m t d li u • Hàm đánh giá: phán xét ch t l ng c a mô hình c th đ i v i d li u • Ph ng pháp t i u và tìm ki m: t i u hàm đánh giá và tìm ki m trên các c u trúc... th c mi n là r t quan trong trong khai phá d li u ã có nhi u bi n pháp nh m kh c ph c v n đ này nh s d ng c s d li u suy di n đ phát hi n tri th c, nh ng tri th c sau đó đ c s d ng đ h ng d n cho vi c tìm ki m khai phá d li u ho c s d ng s phân b và xác su t d li u tr tri th c có s n - 22 - c đó nh m t d ng mã hoá Tìm hi u phai phá lu t k t h p Mining Association Rules III LU T K T H P T khi nó đ nh... c a khai phá lu t k t h p cho phép ta tìm ki m lu t k t h p m t cách linh ho t trong nh ng c s d li u l n Bên c nh đó các nhà nghiên c u còn chú tr ng đ xu t các thu t toán nh m t ng t c quá trình tìm ki m lu t k t h p trong c s d li u - 28 - Tìm hi u phai phá lu t k t h p IV Mining Association Rules KHÁM PHÁ CÁC T P PH BI N (Large Itemsets) 1 Quá trình khám phá: 1.1 Gi i thi u Thu t toán khám phá. .. mô hình t i thi u hàm này có th tìm ra b ng ph Ng ng pháp đ i s c l i, m t hàm đánh giá nh là t l phân l p nh m trong phân l p có giám sát là khó tìm ra t i thi u b ng ph ng pháp gi i tích Ví d , do nó là không liên t c, các công c v phép tính đ o hàm không đ c áp d ng đây - 16 - Tìm hi u phai phá lu t k t h p Mining Association Rules T t nhiên, trong khi chúng ta tìm các hàm đánh giá đ sinh ra m... chú tr ng h n các thu c tính khác Vì v y trong quá trình tìm ki m lu t các thu c tính đ c đánh tr ng s theo m c đ xác đ nh nào đó Nh đ c nh ng lu t “hi m” (t c là có đ h tr th p nh ng mang nhi u ý ngh a ) - 27 - v y ta thu Tìm hi u phai phá lu t k t h p Mining Association Rules ¬ Khai thác lu t k t h p song song (parallel mining of association rules) Nhu c u song song hoá và x lí phân tán là c n thi... ng Tìm hi u phai phá lu t k t h p b Kích th trong c Mining Association Rules c l n: Không ch có s l s d ng b n ghi l n mà s tr li u c ng nhi u Vì v y mà kích th ng c c a bài toán c l n sinh ra v n đ là tr nên l n h n M t t p d li u có kích th t ng không gian tìm ki m mô hình suy di n H n n a, nó c ng làm t ng kh n ng m t thu t gi i khai phá d li u có th tìm th y các c tác đ ng c a m u gi Bi n pháp... (quantitative) hay d ng phân khai phá lu t k t h p v i các c s d các nhà nghiên c u đ xu t m t s ph li u này, ng pháp r i r c hoá nh m chuy n d ng lu t này v d ng nh phân đ có th áp d ng các thu t toán đã có ¬ Lu t k t h p ti p c n theo h ng t p thô (mining association rules base on rough set) tìm ki m lu t k t h p d a trên lí thuy t t p thô ¬ Lu t k t h p nhi u m c (multiple-level association rules) V i cách ti... liên quan đ n s c a các ph ng pháp đánh ch s , các c u trúc d phát tri n li u, các gi i thu t truy v n đ l y d li u hi u qu và tin c y Nhi u k thu t này - 17 - Tìm hi u phai phá lu t k t h p đã đ Mining Association Rules c phát tri n đ h tr các phép tính, thao tác đ m t ng đ i đ n gi n trên các t p d li u l n v i các m c đích làm báo cáo Dù v y, trong nh ng n m g n đây, s phát tri n đã b t đ u v i các... đ - 26 - c quan tâm là Tìm hi u phai phá lu t k t h p Mining Association Rules có hay không xu t hi n trong c s d li u giao tác ch không quan tâm v m c đ hay t n xu t xu t hi n Thu t toán tiêu bi u nh t c a khai phá d ng lu t này là thu t toán Apriori s ch đ c trong các ng ti p theo ¬ Lu t k t h p có thu c tính s và thu c tính h ng m c (quantitative and categorial association rules) Các c s d li u th... h p các) giá tr thu c tính - 20 - c bi t là v i d Tìm hi u phai phá lu t k t h p Mining Association Rules li u ki u s , s đúng đ n c a d li u có th là m t y u t trong vi c khai phá Ví d nh trong nhi t đ c th , ta th l ch 0,1 đ Nh ng vi c phân tích theo xu h c a c th l i có th yêu c u đ ng cho phép chênh ng nh y c m nhi t đ chính xác cao h n th ng khai thác có th liên h đ n xu h m t h ng này đ chu ... v i r t nhi u ng d li u m t ph n th c s c a khai phá d li u -4- i chuy n d ng Tìm hi u phai phá lu t k t h p Mining Association Rules Quá trình khai phá tri th c d li u g m b a Làm s ch d c: li... -5- cs giai đo n d ng đ đ a tri th c Tìm hi u phai phá lu t k t h p Mining Association Rules Hình 1: Bi u di n quy trình khai phá tri th c Quá trình x lý khai phá d li u b t đ u b ng cách xác đ... nhi u ý ngh a ) - 27 - v y ta thu Tìm hi u phai phá lu t k t h p Mining Association Rules ¬ Khai thác lu t k t h p song song (parallel mining of association rules) Nhu c u song song hoá x lí

Ngày đăng: 19/12/2015, 17:08

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan