Các tập mục thường xuyên trong khai phá dữ liệu và ứng dụng

69 33 0
Các tập mục thường xuyên trong khai phá dữ liệu và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ HOÀNG MINH QUANG CÁC TẬP MỤC THƯỜNG XUYÊN TRONG KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG LUẬN VĂN THẠC SỸ Hà Nội, 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ HỒNG MINH QUANG CÁC TẬP MỤC THƯỜNG XUYÊN TRONG KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN: PGS TS Vũ Đức Thi Hà Nội, 2010 M CL C MCLC DANH M C VI T T T VÀ KÝ HI U DANH M C B NG BI U, HÌNH GI I THI I KHAIPHÁT PM CTH I.1 I.2 I.3 I.4 I.5 I.6 I.7 M Mts T p m c th ng xuyên lu t k t h p Mơ t M ts Thu t tốn Apriori Thu t toán FP-Growth II CÁC BÀI TOÁN M R TH II.1 II.2 II.3 III CÀI M CL K TLU TÀI LI U THAM KH O M Khai phá t p m c c Khai phá t p m c l ts DANHM CVI TT TVÀKÝHI U Các ký hi u: I={I1,I2,…,In} T p n m c d DB={T1,T2, …, Tm} Cơ s db: Cơ s ip: M Tq: Giao tác th q n: S m: S A, B, C…: Tên m c d X, Y,…: T p c a t p m c d X = ABC thay cho X = {A,B,C} s d li u giao tác minsup: Ng minShare: Ng minutil: Ng |X|: S ph n t Vi t t t: CSDL: Cơ s d li u DB: Cơ s d li u giao tác DL: D li u DANH M B ng Bi u di n c B ng Bi u di n c B ng C s d B ng Các m c d B ng Các m B ng Các m Hình Hình FP-Growth Hình Cây COFI-tree c a m c D Hình Các bư c khai phá D-COFI-tree B ng C s d B ng Xét CSDL B ng v i minShare B ng 10 Bi u di n t t c B ng 11 CSDL minh h a có trư ng h p hai hàm t i h n b ng B ng 12 CSDL minh h a trư ng h p hai hàm t i h n b ng B ng 13 Giá tr c a hai hàm t i h n v i k=1 B ng 14 Các giá tr lmv hàm t B ng 15 Các giá tr lmv hàm t B ng 16 giá tr lmv hàm t B ng 17 C s B ng 18 B ng l B ng 19 C s Giao di n Sheet HUI, d Giao di n Sheet Profit, d Giao di n Giao di n chư ng trình Giao di n K t qu S v c d li u kh ng l l n, h tin truy n th ng, nhà nghiên c ph n m m m phát tri n nhanh chóng is ng, xã h tr ti n trình qu Khai phá d li u khám phá tri th c (Data mining and knowledge discovery) m t l nh v l nh v c ã thu hút gia nghiên c u Khai phá t p m c th c a khai phá lu t k t h p phân tích s hàng b ng cách tìm nh m t l n mua Nh ng thông tin nh th ch nl c thu x p kh doanh hi u qu Khai phá t p m c th Vì th qu ã có nhi u nghiên c u v nghiên c c coi tốn khó V nghiên c em l i m t nhìn t ng quát v h p imc uv I KHAI P I.1 M Khai phá t p m c th v khai phá d c a nhi u l nh v tu n t , phân tích tơ ng quan, phân l tốn khai phá t p m c th n m 1993 phân tích s c a tốn khai phá lu t k t h p Khai phá lu t k t h quan h gi lu t k t h a giá t Khai phá lu t k t h xuyên th m c th c y minconf cho tr trung h s a mãn ng ng xuyên tìm b tr K quan tâm c a nhi u nhà nghiên c c công b hi u qu nhi u qu Protein DNA, m c th cho tr t Agraw thu t toán c a thơ ng m i Mơ hình khai phá t p m c th th ct d ng Ràng bu c v th ng kê, khơng ph n ánh c tính d nh ng có nh li u v áp nhi u cách th i a d ng ki u d c quan tâm nghiên c Chơ ng m t s m c th ng xuyên I.2 Mts Định nghĩa 1.1: Cho t p m c (item) I={I1,I2,…,Im} M t giao tác (transaction) T m tác DB={T1,T2, …, Tm} M i giao tác X ⊆ I, g m k m c phân bi t t p m c X n u X ⊆ T Biểu diễn sở liệu giao tác: Cơ s di n d ng bi u di n ngang, bi u di n d Biểu diễn ngang: s có m t nh danh Tid m t danh sách m c Bảng Biểu diễn sở liệu giao tác ngang li u, m i m c Biểu diễn dọc: Cơ sd li u m t danh sách m c d li u d li u có m t danh sách t t c nh danh c a giao tác ch a m c d Bảng Biểu diễn sở liệu giao tác dọc Biểu diễn ma trận nhị phân: Cơ d li u giao tác t p m c (item) s c bi u di n b i ma tr n nh phân M = (mpq)mxn ó ∈ 1ℎ ∉ = 0ℎ Bảng Biểu diễn sở liệu giao tác ma trận I.3 T p m c thư ng xuyên lu t k t h p Định nghĩa 1.2: Cho t p m c X ⊆ I h tr (Support) c a t p m c X s d li u giao tác DB, ký hi u sup(X), t l ph n tr m c a giao tác ch a t p m c X t ng s giao tác DB, t c là: sup( X )  | {T ∈ DB | T ⊇ X } | |DB| Định nghĩa 1.3: Cho t p m c X⊆I v i ng ng h tr t i thi u (minimum support) minsup ∈ [0,1] ( t p m c th c xác nh tr c b i ng i s d ng) X ng xuyên (frequent itemset ho c large itemset) v i c g i h tr t i thi u minsup n u sup(X) ≥ minsup, ng c l i X g i t p m c không th ng xuyên Định nghĩa 1.4: M t lu t k t h p m t bi u th X c d ng X →Y, ó , Y g i k t lu n c a Y t p c a I, X∩Y=∅; X g i tiên lu t Lu t k t h p có hai thơng s Định nghĩa 1.5: quan tr ng độ hỗ trợ độ tin cậy h tr (support) lu t k t h p, ký hi u sup(X →Y), h tr c a t p m c X∪Y, sup(X →Y) = sup(X∪Y) Nh v y h tr c a lu t k t h p X →Y xác su t P(X∪Y) c a s xu t hi n ng th i c a X Y m t giao tác Ta có ≤ sup (X →Y ) ≤ Định nghĩa 1.6: tin c y conf(X→Y), t l ph n tr m gi a s X (confidence) lu t k t h p, ký hi u giao tác ch a X∪Y s giao tác ch a s d li u DB conf ( X → Y ) = tin c y c a lu t k t h p X →Y xác su t có P(X /Y)  Và ta có ≤ conf(X →Y ) ≤ I.3.1 Bài toán khai phá luật kết hợp Xác X⇒Y nh t t c X⇒Y th a mãn c g i lu t k t h p m nh h tr tin c y t i thi u lu t 51 Định nghĩa 2.19: (Transaction Weighted Utility - TWU) L i ích TWU c a t p m c X, ký hi u twu(X), t ng l i ích c a t t c giao tác ch a X s d li u, t c ( ) ()= ∈∧⊆ Nh n xét: Vì u(X,Tq) ≤ tu(Tq) nên u(X) ≤ twu(X) Có th coi twu(X) nh c n c a u(X) V i ng ng l i ích minutil, n u X t p m c l i ích cao X c ng t p m c l i ích TWU cao Ng c l i n u X t p m c l i ích TWU th p X c ng t p m c l i ích th p Trong [6] Y Liu ã ch ng minh: - Ràng buộc lợi ích TWU có tính chất phản đơn điệu, tức là: Mọi tập mục cha tập mục lợi ích TWU thấp tập mục lợi ích thấp Do v y, n u X t p m c m c l i ích TWU th p, twu(X) < minutil, t p X m i t p cha c a X u t p m c l i ích th p có th lo i b chúng q trình khai phá t p m c l i ích cao - Tập tập mục lợi ích cao chứa tập tập mục lợi ích TWU cao i u có ngh a là, n u ta tìm c t p t p m c l i ích TWU cao ta ch c n tìm t p m c l i ích cao t p ó Do t p m c l i ích TWU cao có tí nh ch t ph n n i u nê n có t h s d ng phơ ng pháp kha i phá c a t p m c th ng xuyê n tì m t p m c l i ích cao Tác gi s d ng ý t ng c a thu t toán FS M khai phá t p m c l i ích cao v i tính ch t ph n n i u c a t p m c l i ích TWU cao Thu t tốn FSM ã c trình bày ph n tr c, d i ây m t d ng c a thu t toán FSM thay s d ng hàm t i h n CF(X) t a t p ng viên thu t tốn s d ng tính ch t t p m c l i ích TWU th p t a t p ng viên 52 II.3.3 Thuật tốn khai phá tập mục lợi ích cao D a ý t ng c a thu t toán FSM, thay phơ ng pháp t a ng viên khơng th a mãn i u ki n ta có thu t toán khai pháp t p m c l i ích cao Hàm Apriori-join dùng sinh t p ng viên Ck d a t p m c Lk-1 Apriori-join For (each (k-1)-tập mục l1 ∈ Lk-1 (1) (2) For(each(k-1)-tập mục l2 ∈ Lk-1) if(l1[1] = l2[1] and (3) l1[k-2] = l2[k-2] and l1[k-1] < l2[k-1]) then Ck ← { l1[1 (4) //Kết II.3.4 Mơ tả thuật tốn k:=1, F1:=∅, C1:=I; for each T ∈ DB //duyệt sở liệu DB tính giá trị u((ip) twu(ip) mục ip C1; for each ip∈C1 if u(ip) min_util then HS1:=HS1∪{ip} else if twu(ip) minutil = 138,6 nên {I3} 1-t p m l i t p m c I1, I2, I4, I5 có l l i ích cao Xét ti p v Sinh t p t p m c Lk-1 v C2 = {I1-I2, I1-I3, I1-I4, I1-I5, I2-I3, I2-I4, I2-I5, I3-I4, I3-I5, I4-I5} u(I1-I2) = (11 + + 7)*3 + (18 + u(I1-I3) = (11 u(I1-I4) = (11 u(I1-I5) = (11 u(I2-I3) = (18 u(I2-I4) = (18 u(I2-I5) u(I3-I4) u(I3-I5) u(I4-I5) twu(I1-I2) = tu(T0) + tu(T1) + tu(T3) = 401 twu(I1-I3) = tu(T0) + tu(T1) + tu(T3) = 401 twu(I1-I4) = tu(T0) + tu(T1) = 338 twu(I1I5) = tu(T0) + tu(T1) + tu(T3) = 401 twu(I2-I3) = tu(T0) + tu(T1) + tu(T3) = 401 twu(I2-I4) = tu(T0) + tu(T1) = 338 twu(I2I5) = tu(T0) + tu(T1) = 338 twu(I3-I4) = tu(T0) + tu(T1) = 338 twu(I3-I5) = tu(T0) + tu(T1) = 338 twu(I4-I5) = tu(T0) + tu(T1) + u(T4) = 361 Trong t t c 2-t p m c thu c C2 khơng có t p m c có twu(X) < minutil nên ta không t a t p ng viên Các t p m c {I1-I2}, {I1-I3}, {I2-I3}, {I2-I5}, {I3-I4}, {I3-I5} có u(X) > minutil nên 2-t p m c t p m c l i ích cao k=3 C3 = {I1-I2-I3, I1-I2-I4, I1-I2-I5, I1-I3-I4, I1-I3-I5, I1-I4-I5, I2-I3-I4, I2I3-I5, I3-I4-I5} 59 u(I1-I2-I3) = (11 + + 7)*3 + (18 + + 8)*4 + (10 + 18 + 2)*5 = 357 u(I1-I2-I4) = (11 + 7)*3 + (18 + 7)*4 + (2 + 2)*1 = 158 u(I1-I2-I5) = (11 + 7)*3 + (18 + 7)*4 + (11 + 9)*2 = 194 u(I1-I3-I4) = (11 + 7)*3 + (10 + 18)*5 + (2 + 2)*1 = 198 u(I1-I3-I5) = (11 + 7)*3 + (10 + 18)*5 + (11 + 9)*2 = 234 u(I1-I4-I5) = (11 + 7)*3 + (2 + 2)*1 + (11 + 9)*2 = 98 u(I2-I3-I4) = (18 + 7)*4 + (10 + 18)*5 + (2 + 2)*1 = 244 u(I2-I3-I5) = (18 + 7)*4 + (10 + 18)*5 + (11 + 9)*2 = 280 u(I3-I4-I5) = (10 + 18)*5 + (2 + 2)*1 + (11 + 9)*2 = 184 twu(I1-I2-I3) = tu(T0) + tu(T1) + tu(T3) = 401 twu(I1-I2I4) = tu(T0) + tu(T1) = 338 twu(I1-I2-I5) = tu(T0) + tu(T1) = 338 twu(I1-I3-I4) = tu(T0) + tu(T1) = 338 twu(I1-I3-I5) = tu(T0) + tu(T1) = 338 twu(I1-I4-I5) = tu(T0) + tu(T1) = 338 twu(I2-I3-I4) = tu(T0) + tu(T1) = 338 twu(I2-I3-I5) = tu(T0) + tu(T1) = 338 twu(I3-I4-I5) = tu(T0) + tu(T1) = 338 Các t p m c C3 u có twu(X) > minutil = 138,6 nên không lo i b t p m c 60 Các t p m c C ch có t p m c {I1-I4-I5} có u(X) = 98 < minutil = 138,6 nên t p {I1-I4-I5} không ph i t p m c l i ích cao Ngồi t t c t p m c l i C3 u t p m c l i ích cao k=4 C4 = {I1-I2-I3-I4, I1-I2-I3-I5, I1-I2-I4-I5, I1-I3-I4-I5, I2-I3-I4-I5} u(I1I2-I3-I4) = (11 + 7)*3 + (18 + 7)*4 + (10 + 18)*5 + (2 + 2)*1 = 298 u(I1I2-I3-I5) = (11 + 7)*3 + (18 + 7)*4 + (10 + 18)*5 + (11 + 9)*2 = 334 u(I1-I3-I4-I5) = (11 + 7)*3 + (10 + 18)*5 + (2 + 2)*1 + (11 + 9)*2 = 238 u(I2-I3-I4-I5) = (18 + 7)*4 + (10 + 18)*5 + (2 + 2)*1 + (11 + 9)*2 = 288 twu(I1-I2-I3-I4) = tu(T0) + tu(T1) = 338 twu(I1-I2-I3-I5) = tu(T0) + tu(T1) = 338 twu(I1-I3-I4-I5) = tu(T0) + tu(T1) = 338 twu(I2-I3-I4-I5) = tu(T0) + tu(T1) = 338 T t c 4-t p m c C4 m c b t a T t c 4-t p m c C4 ích cao u có twu(X) > minutil nên khơng có t p u có u(X) > minutil nên u t p m c l i k=5 C5 = {I1-I2-I3-I4-I5} u(I1-I2-I3-I4-I5) = (11+7)*3 + (18 + 7)*4 + (10 + 18)*5 + (2 + 2)*1 + (11 + 9)*2 = 342 twu(I1-I2-I3-I4-I5) = tu(T0) + tu(T1) = 338 u(I1-I2-I3-I4-I5) > minutil nên t p {I1-I2-I3-I4-I5} t p m c l i ích cao 61 k=6 C6 = ∅ thu t toán d ng Kthpttc t p m c l i ích cao l i ta có k t qu t c High Utility Frequent ItemSets = {I3} ∪ {I1,I2} ∪ {I1,I3} ∪ {I2,I3} ∪ {I2,I5} ∪ {I3,I4} ∪ {I3,I5} ∪ {I1,I2,I3} ∪ {I1,I2,I4} ∪ {I1,I2,I5} ∪ {I1,I3,I4} ∪ {I1,I3,I5} ∪ {I2,I3,I4} ∪ {I2,I3,I5} ∪ {I3,I4,I5} ∪ {I1,I2,I3,I4} ∪ {I1,I2,I3,I5} ∪ {I1,I2,I4,I5} ∪ {I1,I3,I4,I5} ∪ {I2,I3,I4,I5} ∪ {I1,I2,I3,I4,I5} Nhìn vào giao di n K t qu hi n th TextBox hoàn toàn trùng kh p v i d li u ã cho Do th i gian có h n nên tác gi m c th ng xuyên c Trong lu n v n m ch a hi u qu b ng thu t toán áp d ng c u trúc COFI-tree chơ ng I Tác gi thu t toán khai phá t p m c th 62 K TLU N 2) Nh ng k t qu c a lu n v n: Trong lu n v n t p m c th lu t k t h p phù h Chơ ng I Nêu xuyên nh Apriori phân D li u ch Chơ ng II Các khái ni m m cao Nêu lên khái ni m m i s d li u ch nguyên dơ ng có giá tr a thêm m t b ng l cao l ho c V th ng kê m t hàng (nhóm m t hàng) bán mcc hàng bán phá t p m c l l i nhu n nh t ch ph n, khai phá t p m c c cs l Chơ ng III Cài tốn có th hàng thu S d ng khai phá t p m c l tìm nh 2) ng lu t Hư ng nghiên c u m i: Nghiên c u thu t toán khai phá t p m c c ph n cao t p m c l i ích ang cao h ng nghiên c u c nhi u nhà nghiên c u quan tâm tính ng d ng c a nhi u l nh v c nghiên c u ti p theo: - Nghiên c tpm - Nghiên c - Nghiên c li u ích s - Áp d ích cao vi c tì xpx 64 TÀI LI U THAM KH O Ti ng Vi t: [1] V xuyên c ph n cao s d 24(2), tr 168-178 [2] V t p m c th CNTT TT, Hu , 12/2008, tr 431-444 [3] V t p m c l i ích cao c u trúc d 24(3), tr 204-216 [4] Nguy n Huy cao s d li u”, Luận án tiến sỹ toán học, Mã s : 62.46.35.01, Hà N i, Vi t Nam Ti ng Anh: [5] El-Haj M and Zaiane Osmar R (2003), “ COFI-tree Mining: A New Approach to Pattern Growth with Reduced Candidacy Generation”, In Proc 2003 Int’l Conf on Data Mining and knowledge Discovery (ACM SIGKDD), Chicago, Illinois, USA [6] Liu Y., W Liao K., and Choudhary A (2005), “A fast high utility itemsets mining algorithm”, in Proc 1st Intl conf on Utility-Based Data Mining, Chicago Chicago Illinois, pp.90-99, USA [7] Erwin A., Gopalan R P., & Achuthan N R (2007), “A Bottom-Up Projection Based Algorithm for Mining High Utility Itemsets”, IEEE 7th International Conferences on Computer and Information Technology, Aizu Wakamatsu, Japan 65 [8] Li Y C., Yeh J S., and Chang C C (2005), “Efficient algorithms for mining share-frequent itemsets”, In Proceedings of the 11th World Congress of Intl, Fuzzy Systems Association [9] Agrawal R And Srikant R (1994), “Fast algorithms for mining association rules”, in proceeding of 20th International Conference on Very Large Databases, Santiago, Chile [10] Yao H., Hamilton H J (2006), “Mining Itemsets Utilities from Transaction Databases”, Data and knowledge Engeneering, Vol 59, issue [11] Yao H., Hamilton H J., and Butz C J (2004), “A foundational Approach to Mining Itemset Utilities from Databases”, Proceeding of the 4th SIAM International Conference on Data Mining, Florida, USA [12] Yao H., Hamilton H J., and Geng L (2006), “A Unified Framework for Utility Based measures for Ming Itemsets”, UBDM’06 Philadelphia, Pennsylvania, USA [13] Bodon Ferenc (2006), “A Survey on Frequent Itemset Mining”, Technical Report, Budapest University of Technology and Economic, Hungary [14] Han J., Pei J., and Yin Y (2000), “Ming frequent patterns without candidate generation”, In ACM SIGMOD Intl Conference on Management of Data, pp 1-12 [15] Kotsiantis S., Kanellopoulos D (2006), “Association Rules Mining: A Recent Overview”, GESTS International Transactions on Computer Science and Engineering, Vol 32, No 1, pp 71-82 [16] Zhao Q (2003), “Association Rule Mining: A Survey”, Technical Report, CAIS, Nanyang Technological University, Singapore, No 2003116 [17] Li Y C., Yeh J S., and Chang C C, “A fast algorithm for mining share-frequent itemsets”, Lecture Notes in Computer Science, SpringerVerlag, Germany, Vol 3399, pp.417-428 Han J., and Kamber M (2000), Data Mining Concepts and Techniques, Morgan Kanufmann [18] ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ HOÀNG MINH QUANG CÁC TẬP MỤC THƯỜNG XUYÊN TRONG KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã... Output: Tập tập mục thường xuyên L1= {Các 1 -tập mục thường xuyên} 17 k=2; While(Lk-1!=∅) { Ck = apriori_gen(Lk-1, minsup); / /các ứng cử theo chương trình for(∀ giao dịch t∈D) { Ct=Subset(Ck,t);/ /ứng. .. D E F Bảng Các mục liệu độ hỗ trợ M c d li u C A B D Bảng Các mục liệu thường xuyên thứ tự 23 Duy t s d li u l n M i giao tác ch xuyên, s p chúng theo th t gi m d n c Bảng Các mục liệu giao tác

Ngày đăng: 11/11/2020, 21:31

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan