Dự thảo Tóm tắt Luận án Tiến sĩ Toán học: Phát triển một số thuật toán hiệu quả khai thác tập mục trên cơ sở dữ liệu số lượng có sự phân cấp các mục

123 61 0
Dự thảo Tóm tắt Luận án Tiến sĩ Toán học: Phát triển một số thuật toán hiệu quả khai thác tập mục trên cơ sở dữ liệu số lượng có sự phân cấp các mục

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Luận án trình bày về các nội dung: tổng quan về khai thác tập mục, khai thác tập mục phổ biến trên cơ sở dữ liệu số lượng, khai thác tập mục phổ biến trên cơ sở dữ liệu số lượng có sự phân cấp các mục, kết luận và hướng phát triển đề tài. Để biết rõ hơn về nội dung chi tiết, mời các bạn cùng tham khảo.

Đ I H C QU C GIA HÀ N I TR NG Đ I H C KHOA H C T NHIểN _ NGUY N DUY HÀM PHỄT TRI N M T S THU T TOỄN HI U QU KHAI THÁC T P M C TRểN C Cị S D SỞ D LI U S PHỂN C P CÁC M C TH O LU N ỄN TI N Sƾ TOỄN H C HƠ N i ậ 2016 L NG Đ I H C QU C GIA HÀ N I TR NG Đ I H C KHOA H C T NHIểN _ NGUY N DUY HÀM PHỄT TRI N M T S THU T TOỄN HI U QU KHAI THỄC T P M C TRểN C Cị S SỞ D LI U S L NG PHỂN C P CÁC M C Chuyên ngành: C S TOỄN CHO TIN H C Mư s : 62.46.01.10 D TH O LU N ỄN TI N Sƾ TOỄN H C NG IH NG D N KHOA H C: TS.NGUY N TH H NG MINH PGS.TS VẪ ĐỊNH B Y HƠ N i ậ 2016 L I CAM ĐOAN Tôi xin cam đoan lu n án cơng trình nghiên cứu tác gi th c d is h ng d n t p th cán b h ng d n Lu n án có sử dụng thơng tin trích d n từ nhiều ngu n tham kh o khác nhau, thơng tin trích d n đ ợc ghi rõ ngu n g c Các s liệu th c nghiệm, k t qu nghiên cứu trình bày lu n án hoàn toàn trung th c, ch a đ ợc công b b i tác gi hay cơng trình khác Tác gi Nguy n Duy Hàm i L IC M Lu n án Ti n sƿ nƠy đ ợc th c t i tr ậ Đ i h c Qu c gia Hà N i v i s h N ng Đ i h c Khoa h c T nhiên ng d n khoa h c TS Nguy n Th H ng Minh, PGS.TS.Võ Đình B y TS Lê Quang Minh Nghiên cứu sinh xin bày tỏ lòng bi t n sơu sắc t i thầy giáo, cô giáo h ng d n đư đ nh h ng khoa h c, t n tơm giúp đỡ ch b o t m su t trình nghiên cứu m i có th hồn thiện b n lu n án Nghiên cứu sinh ghi nh công lao d y dỗ, dìu dắt vào đ ng khoa h c c cứu sinh PGS.TS Hồng Chí Thành ậ ng i đư h ng d n Nghiên giai đo n đầu làm nghiên cứu khoa h c Nghiên cứu sinh xin chân thành c m n nhƠ khoa h c, tác gi cơng trình nghiên cứu đư đ ợc trích d n lu n án đơy lƠ ngu n tài liệu quý báu đ Nghiên cứu sinh phát tri n hoàn thiện cơng b Nghiên cứu sinh xin chân thành c m n Ban Giám hiệu, lãnh đ o Khoa Toán ậ C ậ Tin h c, thầy cô, gi ng viên B môn Tin h c ậ Tr ng Đ i h c Khoa h c T nhiên ậ Đ i h c Qu c gia Hà N i đư t o nh ng điều kiện thu n lợi đ Nghiên cứu sinh hoƠn thƠnh ch ng trình h c t p th c hồn tất lu n án Nghiên cứu sinh xin chân thành c m n Ban Giám hiệu Tr ninh nhân dân, t p th giáo viên B môn Toán ậ Tin h c Tr ng Đ i h c An ng Đ i h c An ninh nhơn dơn n i Nghiên cứu sinh công tác b n bè thân thi t đư t o điều kiện, đ ng viên, khuy n khích hỗ trợ t i đa đ Nghiên cứu sinh hoàn thành b n lu n án Cu i cùng, xin c m n B Mẹ, đặc biệt Mẹ ậ ng i đư ln hy sinh tất c s nghiệp h c t p con, ti c mẹ đư không đợi đ ợc đ n ngày hoàn thành lu n án Xin c m n gゥ。@ģ↓ョィ, ch gái vƠ em đư đ ng hành, đ ng viên, chia sẻ giúp trì nhiệt huy t ngh l c đ đ n hoàn thành b n lu n án này./ TP.Hồ Chí Minh, tháng 04 năm 2016 ii M C L C L I CAM ĐOAN I L IC M N II M CL C III DANH M C B NG VI DANH M C CÁC HÌNH VẼ, Đ TH VIII DANH M C CÁC KÍ HI U VÀ CH MỞ Đ U CH VI T T T XI NG T NG QUAN V KHAI THÁC T P M C 1.1 Bài toán khai thác t p m c 1.1.1 M t s đ nh nghƿa 1.1.2 Bài toán khai thác FI 14 1.2 Các ph ng pháp khai thác FI 15 1.2.1 Sh áp khai ng ph thác FI CSDL ngang 1.2.2 Ph 15 ng pháp khai thác FI CSDL d c d a ITậtree 17 1.3 M t s ph ng pháp khai thác FWI vƠ FWUI QDB 20 1.3.1 Gi i thiệu 20 1.3.2 Khai thác FWI 21 1.3.3 Khai thác FWUI 24 1.3.4 Khai thác TRFIk 26 1.4 Khai thác FI tr ên CSDL có s phân c p m c 27 1.5 Ti p c n bitậvector tr ong khai thác FI .30 1.6 K t lu n ch CH ng .32 NG KHAI THÁCT P M C PH LI U S L BI N TRểN C SỞ D NG 34 iii 2.1 Thu t toán khai thác t p F WI 34 2.1.1 Gi i thiệu 34 2.1.2 Thu t tốn tính giao hai IWS 38 2.1.3 Thu t toán khai thác FWI 40 2.1.4 K t qu th c nghiệm 46 2.2 Thu t toán khai thác F WUI 51 2.2.1 Cấu trúc Multi bit segment 51 2.2.2 Thu án t to xác đ nh giao MBiS 53 2.2.3 Thu t toán khai thác FWUI d a MBiSậtree 54 2.2.4 K t qu th c nghiệm 56 2.3 Thu t toán khai thác TRF WUI k 61 2.3.1 M t s khái niệm 61 2.3.2 Cấu trúc DTab 62 2.3.3 Cấu trúc TRậtree 62 2.3.4 Thu t toán khai thác TRFWUIk sử dụng cấu trúc d liệu DTab 63 2.3.5 Thu t toán khai thác nhanh TRFWUIk d a cấu trúc DHeap 66 2.3.6 K t qu th c nghiệm 70 2.4 K t lu n ch CH ng .72 NG KHAI THÁC T P M C PH LI U S L BI N TRÊN C SỞ D NG CÓ S PHÂN C P CÁC M C 74 3.1 Gi i thi u toán 74 3.2 Thu t toán khai thác F WUI tr ên H QDB 78 3.2.1 Thu t toán xác đ nh weight cho mục cha 78 3.2.2 Thu t toán thêm mục cha vào CSDL 79 3.2.3 Thu t toán khai thác FWUI 80 3.3 M t s c i ti n nâng cao hi u qu khai thác F WUI tr ên HQ DB .84 3.3.1 Cấu trúc EDBV 84 3.3.2 Tính tidset nút cha từ tidset nút 89 3.3.3 Ki m tra m i quan hệ cha đ i v i mục t p mục 91 iv 3.3.4 Thu t toán khai thác nhanh FWUI HQDB 92 3.4 K t qu th c nghi m .93 3.4.1 CSDL th c nghiệm 93 3.4.2 K t qu th c nghiệm 94 3.5 K t lu n ch ng 100 K T LU N VÀ H Các k t qu đ t đ H NG PHÁT TRI N 101 c 101 ng phát tr i n 102 DANH M C CƠNG TRÌNH KHOA H C C A TÁC GI LIÊN QUAN Đ N LU N ÁN 103 TÀI LI U THAM KH O 104 v DANH M C B NG B ng 1.1 Các giao d ch BDB DB NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN B ng 1.2 Các giao d ch HDB DB NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN B ng 1.3 ID mục HBD DB.NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN B ng 1.4 Các giao d ch HDB DB ID NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN10 B ng 1.5 Giao d ch QDB DB NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN11 B ng 1.6 Tr ng s mục QDB DB NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN11 B ng 1.7 Các giao d ch WDB DB NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN12 B ng 1.8 Tr ng s mục WDB DB NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN13 B ng 1.9 BDB DB NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN14 B ng 1.10 BDB DB theo chiều d c NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN19 B ng 1.11 Giá tr tw CSDL DB ví dụ 1.4 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN23 B ng 1.12 twu giao d ch DB ví dụ 1.4 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN25 B ng 1.13 HDB DB Ví dụ 1.2 sau thêm mục cha NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN30 B ng 2.1 Bitậvector NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN35 B ng 2.2 DBV bitậvector ví dụ 2.1 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN35 B ng 2.3 IWS từ bitậvector ví dụ 2.1 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN35 B ng 2.4 Ch s bit IWS(X) NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN38 B ng 2.5 M ng MAP NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN40 B ng 2.6 IWS mục NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN44 B ng 2.7 Mô t CSDL th c nghiệm.NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN47 B ng 2.8 Bitậvector v i 96 phần tử NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN51 B ng 2.9 MBiS từ bitậvector B ng 2.10 Topậrankậk NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN 62 B ng 3.1 Giao d ch HD NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN75 B ng 3.2 Tr ng s NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN75 B ng 3.3 Tên mặt hàng mục NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN75 B ng 2.8 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN52 vi B ng 3.4 Giao d chcủa HD 82 B ng 3.5 Tr ng s 82 B ng 3.6 twu giao d ch .82 B ng 3.7 T p 1–itemset phổ bi n .83 B ng 3.8 M ng MAP v i65.535 phần tử 86 B ng 3.9 Bi u di n s nguyên K d B ng 3.10 Mô t CSDL .93 i d ng b n đo n, mỗ i đon m t word 86 B ng 3.11 Các mức phân cấp .94 B ng 3.12 So sánh b nh s l ợng mục .94 B ng 3.13 Th c nghiệm CSDL SALEậFACTậSYNC 95 B ng 3.14 So sánh th i gian ch y CSDL SALEậFACTậ1997 99 vii DANH M C CÁC HÌNH VẼ, Đ TH Hình 1.1 Cây phân cấp Tr NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN Hình 1.2 Cây phân cấp Tr bi u di n theo ID NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN10 Hình 1.3 Thu t toán Apriori khai thác t p mục phổ bi n NNNNNNNNNNNNNNNNNNNNNNNN16 Hình 1.4 Thu t tốn FPậGrowth d a cấu trúc FPậtree NNNNNNNNNNNNNNNNNNNNNNNNNNNNNN17 Hình 1.5 Thu t toán Eclat d a cấu trúc ITậtree NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN18 Hình 1.6 Cây IT tree v i minsup = 0,5 CSDL DB NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN19 Hình 2.1 Thu án t to xác đ Hình 2.2 Thu t tốn tính ws t p mục X.NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN T Hình 2.3 Thu t tốn xây d ng IWSậtree NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN43 Hình 2.4 Thu t toán khai thác FWI d a IWSậtreeNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNTS@@ Hình 2.5 IWSậtree v i nút A(minws = 0,4) NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN 44 Hình 2.6 IWSậtree v i nútA vàB(minws = 0,4) NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN45 @ Hình 2.7 IWSậtree v i minws = 0,4 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN46 Hình 2.8 So sánh th i gian ch y v i CSDL RETAIL NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN47 Hình 2.9 So sánh th i gian ch y v i CSDL BMSậPOS NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN47 Hình 2.10 So sánh th i gian ch y v i CSDL SALEậFACTậ1997 NNNNNNNNNNNNNNNNNNN48 Hình 2.11 So sánh th i gian ch y v i CSDL SALEậFACTậ1997+1998 .NNNNNNNNN48 Hình 2.12 So sánh th i gian ch y v i CSDL SALEậFACTậSYNC NNNNNNNNNNNNNNNNNN48 Hình 2.13 So sánh th i gian ch y v i CSDL CONNECT NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN48 Hình 2.14 So sánh th i gian ch y v i CSDL ACCIDENTS .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNN49 Hình 2.15 So sánh b nh sử dụng v i CSDL RETAIL NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN49 Hình 2.16 So sánh b nh sử dụng v i CSDL BMSậPOS .NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN49 Hình 2.17 So sánh b nh sử dụng v i CSDL SALEậFACTậ1997 NNNNNNNNNNNNNNNNN49 nh giao hai IWS NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN39 viii FAST_MINE_FWUIs S l ợng mục vƠ dung l ợng b nh tăng lên đáng k sau thêm mục cha phân cấp vào CSDL Ví dụ v i CSDL SALEậFACTậ1997, s l ợng mục ban đầu 86.837, sau thêm mục cha lƠ 275.539, nh v y việc thêm mục cha phân cấp làm s l ợng mục tăng 317% T ng t nh v y, dung l ợng d liệu 4,65 MB, sau thêm mục cha 13,52 MB, nh v y dung l ợng d liệu tăng 290% 3.4.2.2 So sánh hàm MAX SUM Trong mục này, lu n án th ng kê s l ợng % GậFWUI (Generalized FWUI: FWUI chứa m t mục cha phân cấp) CSDL SALEậFACTậSYNC v i 02 ng ỡng minwus nhỏ 0,001% 0,003% Đ ng th i, so sánh s l ợng % GậFWUI khai thác đ ợc sử dụng hàm MAX SUM xác đ nh tr ng s mục cha s l ợng mục cha giao d ch B ng 3.13 Th c nghiệm CSDL SALEậFACTậSYNC minwus = 0,001% minwus = 0,003% GậFWUI GậFWUI S Max cấp % Sum S l ợng % Max S l ợng % Sum S l ợng % S l ợng 818 87,53% 1.719 1559 4.528 73,99% 102 65,57% 5.993 92,84% 21.783 95,48% 34.476 90,50% 4.128 97,52% 6.821 98,49% 103.292 99,16% 185.371 97,88% 1.906 99,43% 30.612 98,97% 151.435 99,43% 274.248 98,58% 26.580 99,62% 45.827 95 62,3% S liệu th c nghiệm từ b ng 3.13 v i CSDL SALEậFACTậSYNC cho thấy cơy có đ cao cƠng l n s l ợng FWUI khai thác đ ợc cƠng l n, điều nƠy lƠ hợp lý cƠng có nhiều mục cha đ ợc thêm vƠo CSDL h n T ng t nh th , s l ợng GậFWUI đ ợc khai thác nhiều h n So sánh % vƠ s l ợng GậFWUI khai thác đ ợc sử dụng công thức SUM vƠ MAX có s khác biệt đáng k , s l ợng sử dụng hƠm SUM l n h n nhiều so v i hƠm MAX m t ng ỡng phổ bi n wus Ví dụ v i wus = 0,003% vƠ cơy phơn cấp có sáu cấp, s l ợng Gậ FWUI sử dụng hƠm MAX lƠ 26.580, sử dụng hƠm SUM lƠ 45.827 Do sử dụng hƠm SUM s t o mục cha có s l ợng vƠ tr ng s l n, k t hợp mục cha nƠy v i nhiều mục khác (có s l ợng vƠ tr ng s nhỏ) s t o nhiều GậFWUI Từ s liệu có th thấy sử dụng hàm SUM s khó ki m sốt s l ợng FWUI khai thác đ ợc so v i sử dụng hƠm MAX, đ ng th i nhiều FWUI s không th c t mục có tr ng s s l ợng thấp nh ng đ ợc k t hợp v i mục cha có tr ng s s l ợng l n nên thỏa mãn ng ỡng minwus, FWUI nƠy th đợi” đ i v i ng ng FWUI không “mong i sử dụng Do v y sử dụng hàm MAX d ki m soát th c t h n 3.4.2.3 So sánh thời gian K t qu th c nghiệm ba CSDL cho B ng 3.10v i thu t toán MINE_FWUIs sử dụng cấu trúc DBV, MBiS, EDBV EIWS đ ợc ch hình 3.10ậ3.12: 96 time (s) 350,000 300,000 250,000 200,000 150,000 100,000 50,000 ,000 DBV 308,02 MBiS 234,82 EDBV 174,82 156,32 EIWS ,300 ,200 ,100 ,060 minwus (%) ,030 ,010 Hình 3.10 So sánh th i gian CSDL SALEậFACTậ1997 3000 time(s) 2500 2000 DBV 2634,16 MBiS 2228,732 SDBV 1500 1028,981 EIWS 1000 899,458 500 0,3 0,2 0,1 0,06 minwus(%) 0,03 0,01 Hình 3.11 So sánh th i gian CSDLSALEậFACTậ1997+1998 3000 time(s) 2500 2000 DBV 2757,776 MBiS 2109,512 1500 EDBV 1000 EIWS 1292,55 910,23 500 0,3 0,2 0,1 0,06 0,03 0,01 minwus(%) Hình 3.12 So sánh th i gian CSDL SALEậFACTậSYNC Hình 3.10ậ3.12 so sánh th i gian ch y b n cấu trúc DBV, MBiS, EDBV EIWS v i thu t toán MIN_FWUIs K t qu ch thu t toán 97 MINE_FWUIs hiệu qu sử dụng cấu trúc EIWS Ví dụ, CSDL SALEậFACTậ1997, v i ng ỡng minwus = 0,01%, th i gian ch y v i DBV, MBiS, EDBV EIWS lần l ợt 308,022s, 234,823s, 174,823s 156,321s Nh v y EIWS nhanh h n EDBV, MBiS vàDBV lần l ợt 1,12; 1,34 1,76 lần K t qu th c nghiệm v i thu t tốn FAST_MINE_FWUIs MINE_FWUIs đ ợc trình bày qua Hình 3.13ậ3.15: 200 MINE_FWUIs- EIWS time(s) 150 156,321 FAST_MINE_FWUIs-EIWS 100 50 45,563 0,3 0,2 0,1 0,06 minwus(%) 0,03 0,01 Hình 3.13 So sánh th i gian CSDL SALEậFACTậ1997 1000 FAST_MINE_FWUIs-EIWS 899,458 time(s) 800 MINE_FWUIs-EIWS 600 400 393,452 200 0,3 0,2 0,1 0,06 minwus(%) 0,03 0,01 Hình 3.14 So sánh th i gian CSDL SALEậFACTậ1997+1998 time(s) 1500 1000 FAST_MINE_FWUIs -EIWS 1021,441 MINE_FWUIs - EIWS 500 495,872 0,3 0,2 0,1 0,06 minwus(%) 0,03 0,01 Hình 3.15 So sánh th i gian CSDL SALEậFACTậSYNC 98 Hình 3.13ậ3.15 ch s hiệu qu thu t toán FAST_MINE_FWUIs so v i MINE_FWUIs sử dụng cấu trúc EIWS Điều th u m việc không chèn thêm mục cha vƠo CSDL vƠ xác đ nh nhanh m i quan hệ cha t p mục t o thành từ hai t p mục m t l p t ng đ ng HITậtree Cụ th ta có k t qu đ i v i CSDL SALEậ FACTậ1997 nh B ng 3.14 sau đơy: B ng 3.14 So sánh th i gian ch y CSDL SALEậFACTậ1997 MINE_FWUIs Thuật toán MBiS EDBV EIWS EDBV EIWS 0,3% 18,413 16,687 11,687 6,213 4,687 2,333 0,2% 45,597 33,537 21,537 12,382 11,537 6,431 0,1% 57,263 42,031 26,031 19,324 17,031 10,123 0,06% 71,821 60,923 30,923 28,412 24,923 14,244 0,03% 121,462 90,767 52,767 45,463 30,767 18,549 0,01% 308,022 234,823 174,133 156,321 90,651 45,563 minwus DBV FAST_MINE_FWUIs Từ b ng 3.14, v i minwus = 0,01% thu t tốn FAST_MINE_FWUIs v i cấu trúc EDBV có th i gian ch y 90,651s nhanh h n thu t toán MINE_FWUIs (174,133s) 1,93 lần Điều cho thấy tính hiệu qu việc khơng thêm mục cha vào CSDL việc xác đ nh nhanh m i quan hệ cha mục t p mục t o thành từ hai t p mục m t l p t ng đ ng HITậtree Bên c nh đó, cấu trúc EIWS cho thấy hiệu qu t t so v i ph ng pháp khác Ví dụ v i minwus = 0,01%, thu t toán FAST_MINE_FWUIs v i cấu trúc EDBV có th i gian ch y 90,651s, v i cấu trúc EIWS có th i gian 99 ch y lƠ 45,563s Nh v y sử dụng cấu trúc EIWS nhanh h n 49,8% so v i cấu trúc EDBV 3.5 K t lu n ch Ch ng ng nƠy lu n án đề xuất hai cấu trúc EDBV EIWS v i phần tử LI, đơy lƠ m r ng DBV vƠ IWS Đ ng th i đề xuất sử dụng m ng MAP đ nh nghƿa tr c v trí bit s nguyên hai byte sử dụng phép d ch AND bit đ “cắt” word (hai byte) từ LI đ ánh x vào m ng MAP đ tính tidset t p mục giúp tính nhanh wus chúng Các k t qu th c nghiệm từ Hình 3.10ậ3.12 đư cho thấy hiệu qu EIWS vƠ EDBV đ i v i cấu trúc tr c ba CSDL th c nghiệm lấy từ b n Foodmart2000 SQL2000 Bên c nh đó, ch ng nƠy đề xuất hai đ nh lý nhằm t i u b nh ti t kiệm th i gian khai thác FWUI HQDB Thứ nhất, Đ nh lý 3.2 đ a cách xác đ nh tidset mục cha thông qua tidset mục nút phân cấp Bằng đ nh lý này, việc khai thác HQDB không t n th i gian thêm mục cha vào giao d ch HQDB nh ph ng pháp tr c đơy đ ng th i không t n b nh đ l u tr mục cha CSDL, điều th t s có hiệu qu , CSDL có nhiều phân cấp đ sâu phân cấp l n Thứ hai, Đ nh lý 3.3 chứng minh việc xác đ nh t p mục m i t o thành từ hai t p mục l p t ng đ ng HIT ậ tree cách ki m tra m i quan hệ m t cặp mục cu i t p mục m i Trong ph ng pháp tr c đơy ki m tra 2× (m ậ 1) cặp v i m s l ợng mục t p mục cần ki m tra K t qu th c nghiệm từ Hình 3.13 ậ 3.15 cho thấy hiệu qu áp dụng hai đ nh lý đề xuất ch ng nƠy 100 K T LU N VÀ H NG P HÁT TRI N Các kết đạt Lu n án đư tìm hi u nghiên cứu đư có khai thác t p mục phổ bi n CSDL, đặc biệt khai thác FWI FWUI QDB khai thác FI CSDL có s phân cấp mục Trên c s đó, lu n án đư đề xuất m t s cấu trúc m i nh MBiS [35], IWS [34, 36], đ nâng cao hiệu qu khai thác t p mục phổ bi n QDB, CSDL có s phân cấp mục, đ ng th i đề xuất cấu trúc DTab DHeap khai thác nhanh TRFWUIk Từ áp dụng vào gi i quy t hiệu qu toán khai thác FWUI HQDB Các k t qu nghiên cứu trình bày lu n án đư đ ợc cơng b t p chí h i th o uy tín Các cấu trúc d liệu đ ợc đề xuất lu n án nh IWS MBiS cấu trúc m i, c i ti n hiệu qu rõ rệt so v i cấu trúc đư có nh BitTable hay DBV b nh sử dụng nh th i gian xử lý Bên c nh đó, đ i v i cấu trúc IWS, lu n án đề xuất sử dụng m t m ng MAP đ nh nghƿa tr c v trí bit phần tử cấu trúc đ tính nhanh wus (đ i v i khai thác FWUI) ws (đ i v i khai thác FWI) QDB Hiệu qu cấu trúc nƠy đ ợc minh h a cụ th qua k t qu th c nghiệm Lu n án đề xuất hai cấu trúc EDBV EIWS m r ng cấu trúc DBV IWS t ng ứng, cách sử dụng phần tử LI Lu n án đ a gi i pháp sử dụng phép d ch bit vƠ AND bit đ v n sử dụng đ ợc m ng MAP nh đ i v i cấu trúc IWS giúp tính nhanh wus (đ i v i khai thác FWUI) ws (đ i v i khai thác FWI) Các cấu trúc cho thấy hiệu qu việc gi m th i gian ch y so v i cấu trúc khác Lu n án đề xuất cấu trúc DTab DHeap thu t toán t ng ứng cho toán khai thác TRFWUIk Các cấu trúc thu t toán đề xuất đư cho 101 thấy hiệu qu chúng th i gian xử lý so v i thu t tốn tr c Điều nƠy đ ợc ki m chứng qua k t qu th c nghiệm Lu n án đề xuất m t s đ nh lý nhằm xác đ nh tidset mục cha thông qua tidset mục phân cấp vƠ xác đ nh nhanh m i quan hệ cha mục m t t p mục đ gi m b nh l u tr CSDL tăng t c tính tốn cho tốn khai thác FWUI HQDB Bên c nh đó, lu n án áp dụng cấu trúc đư đề xuất vào gi i quy t toán khai thác FWUI HQDB m t cách hiệu qu Hướng phát triển Lu n án đư nghiên cứu ph ng pháp khai thác t p mục phổ bi n CSDL s l ợng CSDL s l ợng có s phân cấp mục Lu n án đề xuất m t s thu t toán v i cấu trúc d liệu m i hiệu qu h n ph ng pháp khai thác t p phổ bi n đư có Tuy nhiên, toán CSDL s l ợng có s phân cấp cần đ ợc m r ng nghiên cứu ti p nh : Gi i quy t toán khai thác t p mục phổ bi n đóng đ i v i HQDB Nghiên cứu h ng ti p c n hiệu qu h n khai thác t p mục phổ bi n HQDB dày M r ng tốn khai thác FWUI HQBD l n, cần sử dụng hệ th ng tính tốn hiệu cao đ gi i quy t toán v i mơ hình song song hóa thu t tốn m t cách hợp lý 102 DANH M C CÔNG TRÌNH KHOA H C C A TÁC GI LIÊN QUAN Đ N LU N ÁN [1] Nguyen Duy Ham, Vo Dinh Bay, Nguyen Thi Hong Minh, Tzung Pei Hong, “MBiS: an efficient method for mining frequent weighted utility itemsets from QDB”, Journal of Computer Science and Cybernetics, 31(1), pp 17 – 30, 2015 [2] Nguyen Duy Ham, Bay Vo, Nguyen Thi Hong Minh, Tzung Pei Hong, “An improved algorithm for mining frequent weighted itemsets”, in Proc of the International conf on IEEE System, Man, Cybernetics, Hong Kong, pp 2579 – 2584, 2015 [3] Nguy n Duy HƠm, Võ Đình B y, Nguy n Th H ng Minh, “Thu t toán hiệu qu khai thác t p phổ bi n từ c s d liệu s l ợng có s phân cấp mục”, Hội nghị khoa học quốc gia lần thứ 8:“Nghiên cứu ứng dụng CNTT”, Viện CNTT ậ Đ i h c Qu c gia Hà N i, pp 679–686, 2015 [4] Nguy n Duy HƠm, Võ Đình B y, Nguy n Th H ng Minh, “Thu t toán hiệu qu khai thác Top ậ rank ậ k t p phổ bi n tr ng s h u ích”, Hội thảo quốc gia lần thứ 18: “Một số vấn đề chọn lọc CNTT TT”, 2015 [5] Nguyen Duy Ham, Bay Vo, Nguyen Thi Hong Minh, Witold Pedrycz, “An Efficient Algorithm for Mining Frequent Weighted Itemsets using Interval Word Segments”, Applied Intelligence, 2016 (Accepted 31/3/2016 ) 103 TÀI LI U THAM KH O [1] Agrawal, R., & Srikant, R (1994) Fast algorithms for minings association rules Proc of the 20th International Conf on Very Large Data Bases , pp 487-499 [2] Agrawal, R., Imielinski, T., & Swami, A (1993) Mining association rules between sets of items in large databases Proc of the 1993 ACM SIGMOD International conference on Management of data, 22 (2), 207216 [3] Agrawal, R., Mannila, H., Srikant, R., Toivonen, H., & Verkamo, I A (1996) Fast discovery of association rules Proc.of Conf on Advances in Knowldege Discovery and Data Mining, pp 307-328 [4] Ali, Z S., & Rathore, Y (2014.) A effective and efficient algorithm for cross level frequent pattern mining Proc of Conf on Advances in Engineering and Technology Research, pp 1-6 [5] Baralis, E., Cagliero, L., Cerquitelli, T., & Garza, P (2012) Generalized association rule mining with constraints Information Science (Elsevier Science Inc), 194, pp 68-84 [6] Baralis, E., Cagliero, L., Cerquitelli, T., D’Elia, V., & Garza, P (201 4) Expressive generalized itemsets Information Sciences, 278, pp 327-343 [7] Cai, C H., Fu, A C., Cheng, C H., & Kwong, W W (1998) Mining association rules with weighted items Proc of Conf on IEEE Intelligence Database Engineering and Applications Symposium, pp 6877 [8] Deng, H Z., & Fang, G (2007) Mining top-rank-k-frequent patterns Proc of Conf on Machine Learning and Cybernetics, pp 1763ậ1768 [9] Deng, H.-Z (2012) A new algorithm for fast mining frequent itemsets using N-list Science china information science, 55(9), pp 2008-2030 [10] Deng, H.-Z., & Long, S (2014) Fast mining frequent itemsets using Nodesets Expert Systems with Applications, 41(10), pp 4505-4512 104 [11] Deng, Z.-H (2014) Fast mining top-rank-k - frequent patterns by using Nodelist Expert Systems with Applications, pp 1763-1768 [12] Deng, Z.-H., & Lv, S.-L (2015) PrePost+: An efficient N-Lists-based Algorithm for Mining Frequent Itemsets via Children-Parent Equivalence Pruning Expert Systems with Applications, 42(13), pp 5424-5432 [13] Dong, J., & Han, M (2007) BitTable-FI An efficient mining frequent itemsets algorithm Knowledge-Based Systems, 20(4), pp 329-335 [14] Erwin, A., Gopalan, R P., & Achuthan, R N (2007) CTU-Mine: An efficient hight utility itemset mining algorithm using the pattern growth approach Computer and Informaition Technology, CIT, pp 71-76 [15] Fang, G., & Deng, Z.-H (2008) VTK: Vertical mining of top-rank-k frequent pattern Proc of the Conf on Fifth International Fuzzy Systems and Knowdelge Discovery 2008, pp 620 - 624 [16] Grahne, G., & Zhu, J (2005) Fast algorithms for frequent itemset mining using FP-trees Proc of Conf on IEEE Transactions on Knowledge anh Data Mining and Data Engineering, 17(10), pp 1347-1362 [17] Hàm, N D., B y, V Đ., & Minh, N T (2014) M t ph ng pháp khai thác nhanh FWUI CSDL s l ợng Hội thảo quốc gia lần thứ 17: "Một số vấn đề chọn lọc CNTT TT", pp 280-285 [18] Hàm, N D., B y, V Đ., & Minh, N T (2015) Thu t toán hiệu qu khai thác Top ậ Rank ậ K t p phổ bi n tr ng s h u ích " Hội thảo quốc gia lần thứ 18: Một số vấn đề chọn lọc CNTT TT" [19] Hàm, N D., B y, V Đ., & Minh, N T (2015) Thu t toán hiệu qu khai thác t p phổ bi n từ c s d liệu s l ợng có s phân cấp mục Hội thảo quốc gia lần thứ 8: "Nghiên cứu ứng dụng CNTT", pp 679ậ 686 [20] Han , J., Pei , J., & Yin, Y (2000) Mining frequent patterns without candidate generation Proc of conf on ACM SIGMOD Management of Data, pp 112 105 [21] Han, J., & Fu, F (1995) Discovery of multiple-level association rules from large databases Proc of 21th conf on Very Largr Databases, (pp 420431) Zurich, pp 420-431 [22] Khan, M S., Muyeba, M., & Coenen, F (2008) A weighted utility framework for mining association rules Proc of conf on IEEE European Modeling Symposium, pp 87-92 [23] Lan, C G., Hong, P T., & Lee, Y H (2014) An efficient approach for finding weighted sequential patterns from sequence databases Applied Intelligence, 41(2), pp 439-452 [24] Lan, C G., Hong, P T., Lee, Y H., Wang, L S., & Tsai, W C (2013) Enhancing the efficiency in mining weighted frequent itemsets Proc of IEEE Internationnal conf on System, Man, Cybernetics (SMC), pp 11041108 [25] Lan, G C., Hong, P T., & Tseng, V S (2011) Discovery of hight utility itemsets from on-shelf time periods of products Expert Systems with Applications, 38(6), pp 5851-5857 [26] Le, B., Cao, T A., Nguyen, H., & Vo, B (2009) A novel algorithm for mining hight utility itemsets Proc of the Conf on 1st Asian Inteleigent Information and Databases systems, pp 13-16 [27] Le, B., Nguyen, H., & Vo, B (2010) Efficient Algorithms for Mining Frequent Weighted Itemsets from Weighted Items Databases Proc of the International Conf on Computing and Communication Technologies 2010 (RIVF 2010), pp 1-6 [28] Le, B., Vo, B., Le, Q., & Le, T (2015) Enhancing the mining top-rank-k frequent patterns Proc of IEEE internationnal conf on System, Man, Cybernetics (SMC), pp 2008-2012 [29] Le, T., & Vo, B (2015) An N-list-based algorithm for mining frequent closed patterns Expert Systems with Applications, 42(19), pp 6648-6657 [30] Lee, Y C., Hong, P T., & Chen C, H (2010) Mining Generalized Association Rules with Quantitative Data under Multiple Support 106 Constraints, Computational Collective Intelligence Technologies and Applications Lecture Notes in Computer Science, 6422, pp 224-231 [31] Lin, W C., Lan, C G., & Hong, P T (2015) Mining hight utility itemsets for transaction deletion in a dynamic databases Intelligence Databases Analys, pp 43-55 [32] Liu, B., Hsu, W., & Ma, Y (1999) Mining association rules with multiple mining supports Proc of International Conf on Knowdelge Discovery and Data Mining, pp 337-341 [33] Louie, E., & Lin, T (2000) Finding Association Rules Using Fast Bit Computation: Machine-Oriented Modeling Foundations of intelligent system International Symposium, ISMIS , pp 497-505 [34] Nguyen, H., Vo, B., Nguyen, M., & Hong, P T (2015) An improved algorithm for mining frequent weighted itemsets Proc of the International conf on IEEE System, Man, Cybernetics Hong Kong, pp 2579 - 2584 [35] Nguyen, H., Vo, B., Nguyen, M., & Hong, P T (2015) MBiS:an efficient method for mining frequent weighted utility itemsets from QDB Journal of Computer Science and Cybernetics, 31(1), pp 17-30 [36] Nguyen, H., Vo, B., Nguyen, T H., & Witold, P (2016) An Efficient Algorithm for Mining Frequent Weighted Itemsets using Interval Word Segments Applied Intelligence [37] Ramkumar, G D., Ranka, S., & Tsur, S (1998) Weighted Association Rules: Model and Algorithm Proc of conference on Knowledge Discovery and Data Mining - KDD, pp 1-13 [38] Song, W., Yang, B., & Xu, Z (2008) Index-BitTableFI: An improve algorithm for mining frequent itemsets Knowledge - Based System, 21(6), pp 507-513 [39] Tao, F., Murtagh, F., & Farid, M (2003) Weighted Association Rules mining using weighted support and signifocance framework Proc of conference on ACM SIGKDD, pp 661-666 107 [40] Tseng, M C., & Lin, W Y (2007) Efficient mining of generalized association rules with non-uniform minimum support Data Knowledge Engineering, 66(1), pp 41-64 & [41] Vo, B., & Le, B (2009) Fast Algorithm for Mining Generalized Association Rules International Journal of Database and Application, 2(3), pp 112 [42] Vo, B., Coenen, F., & Le, B (2013) A new method for mining Frequent Weighted Itemsets base on WIT-trees Expert systems with Applications, 40(4), pp 1256-1264 [43] Vo, B., Hong, P T., & Le, B (2012) DBV-Miner: A Dynamic Bit - Vector approach for fast mining frequent close itemsets Expert Systems with Applications, 39(8), pp 7196-7206 [44] Vo, B., Le, B., & Jason, J J (2012) A Tree-based Approach for Mining Frequent Weighted Utility Itemsets Computational Collective Intelligence Tecnologies and Applications, 7653, pp 114-123 [45] Vo, B., Le, T., Coenen, F., & Hong, P T (2014) Mining frequent itemsets using the N-list and subsume concepts International Journal of Machine Learning and Cybernetics, 7(2), pp 253-265 [46] Vo, B., Nguyen, Y., & Nguyen, D (2013) Mining frequent weighted close itemsets Proc of Conf on Advanced Computational Methods for Knowledge Engineering, pp 379-390 [47] Wang, W., Yang, J., & Yu, P (2000) Efficient mining of weighted association rules (WAR) Proc of the conference on ACM SIGKDD Knowledge Discovery and Data Mining, pp 270-274 [48] Yang, J K., Hong, P T., Lan, C G., & Chen, M Y (2014) A two phase approach for mining weighted partial periodic pattern Engineering Applications of Artificial Intelligence, 30(4), pp 225-234 [49] Yun, U., & Eunchul, Y (2014) An efficient approach for mining weighted approximate closed frequent patterns considering noise constraints International Journal of Uncertainty Fuzziness and Knowledge -Based Systems 22(6), pp 879-912 108 [50] Yun, U., & Leggett, J J (2005) WFIM: Weighted Frequent Itemset Mining with a weight range and a minimum weight In: Proceedings of SIAM International Conference on Data Mining, pp 636-640 [51] Yun, U., & Leggett, J J (2006) WSpan: Weighted Sequential pattern mining in large sequence databases Pro of IEEE International Conference on Intelligent Systems, pp 512-517 [52] Yun, U., & Pyun, G (2015) Efficient mining of robust closed weighted sequential patterns without information loss International Journal on Artificial Intelligence Tools, 24(1), pp 1-28 [53] Yun, U., Lee, G., & Ryu, H K (2014) Mining maximal frequent patterns by considering weight conditions over data streams Knowl.-Based Syst 55, pp 49-65 [54] Zaki, M J (2000) Scalable algorithms for association mining IEEE transactions on Knowledge and Data Engineering, 12(3), pp 372-390 [55] Zaki, M J., & Gouda, K (2003) Fast vertical mining using Diffset Proc of the ninth ACM SIGKDD International conf on Knowledge Discovery and Data Mining, pp 327-335 109 ... cho khai thác tập mục phổ biến CSDL số lượng có phân cấp mục Đề xuất thuật toán hiệu để khai thác k nhóm tập mục phổ biến trọng số hữu ích có thứ hạng cao CSDL số lượng Đề xuất cấu trúc liệu, thuật. .. ợng có s phân cấp mục s k t hợp gi a CSDL s l ợng CSDL có s phân cấp mục Do đó, đề xuất thu t toán khai thác hiệu qu FI CSDL s l ợng có s phân cấp mục có th áp dụng đ khai thác hiệu qu FItrên... thu t toán khai thác hiệu qu CSDL s l ợng có s phân cấp mục có th đ ợc áp dụng vào khai thác hiệu qu CSDL s l ợng CSDL có s phân cấp, khắc phục nh ng h n ch t i thu t toán khai thác t p mục phổ

Ngày đăng: 19/01/2020, 15:11

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan