1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV

72 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 72
Dung lượng 801,15 KB

Nội dung

(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV(Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBVv

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGOẠI NGỮ TIN HỌC - LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN TRẦN PHÚ DƯ KHAI THÁC DÀN TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG CẤU TRÚC DSBV Ngành: CÔNG NGHỆ THÔNG TIN Mã số chuyên ngành: 60480201 NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS LÊ HOÀI BẮC Tp HCM, tháng năm 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGOẠI NGỮ TIN HỌC - LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN TRẦN PHÚ DƯ KHAI THÁC DÀN TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG CẤU TRÚC DSBV Ngành: CÔNG NGHỆ THÔNG TIN Mã số chuyên ngành: 60480201 NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS LÊ HOÀI BẮC Tp HCM, tháng năm 2019 LỜI CAM ĐOAN Tôi cam đoan: báo cáo luận văn “Khai Thác Dàn Tập Phổ Biến Đóng Sử Dụng Cấu Trúc DSBV” cơng trình nghiên cứu riêng tơi hướng dẫn khoa học PGS.TS.Lê Hoài Bắc Các kết nghiên cứu có tính độc lập riêng, không chép tài liệu chưa công bố nội dung đâu Các số liệu luận văn sử dụng trung thực, nguồn trích dẫn có thích rõ ràng, có tính kế thừa, phát triển từ tài liệu, tạp chí, cơng trình nghiên cứu khác Tơi xin hồn tồn chịu trách nhiệm lời cam đoan tơi TP HCM, ngày 25 tháng 10 năm 2018 Tác giả Trần Phú Dư Nhận xét Thầy hướng dẫn: Nhận xét Thầy phản biện: LỜI CẢM ƠN Lời đầu tiên, Tơi xin chân thành bày tỏ lịng biết ơn nhiệt tình, kiến thức bổ ích mà thầy giảng dạy khóa cao học lớp chúng tơi, tận tình dẫn, truyền đạt Tôi học tập trường đại học Ngoại Ngữ Tin Học thành phố Hồ Chí Minh Tơi trân trọng ghi nhớ lòng biết ơn sâu sắc gửi lời cảm ơn chân thành đến thầy PGS.TS Lê Hoài Bắc tận tình dẫn, hướng dẫn rõ ràng vấn đề liên quan trình thực luận văn từ lúc bắt đầu đến hồn thành Trong q trình học tập làm luận văn, ngồi giúp đỡ thầy cơ, Tơi nhận quan tâm, động viên từ ba mẹ, gia đình, bạn bè Tơi xin chân thành cảm ơn tất người thân yêu động viên giúp đỡ Lĩnh vực khai thác liệu rộng lớn, phạm vi đề tài thực khó tránh khỏi sai sót, mong nhận cảm thơng ý kiến đóng góp quý báu thầy cô, anh chị bạn bè Trần Phú Dư MỤC LỤC LỜI NÓI ĐẦU 1 Mở đầu: Bố cục đề tài Chương 1: TỔNG QUAN Khai thác liệu: Ứng dụng khai thác liệu Khai thác dàn tập phổ biến đóng Ý nghĩa khoa học thực tiễn đề tài Phương pháp nghiên cứu đối tượng nghiên cứu Khó khăn Thách thức Mục tiêu phạm vi luận văn Đóng góp luận văn 10 Chương 2: CƠ SỞ LÝ THUYẾT 11 Khái quát toán 11 Hướng tiếp cận khai thác tập phổ biến đóng 12 Hướng tiếp cận khai thác tập sinh (Minimal Generator) 16 Hướng tiếp cận khai thác Dàn tập phổ biến đóng 16 Đề xuất cấu trúc liệu 17 5.1 Superset bit-vector 17 5.2 Dynamic superset bit-vector 18 5.2.1 Tìm FCS từ cấu trúc DSBV 19 5.2.2 Tìm minimal FCS từ cấu trúc DSBV 20 5.2.3 Giao DSBVs 21 5.2.4 Cập nhật DSBV 22 Chương 3: ĐỀ XUẤT THUẬT TOÁN KHAI THÁC DÀN CÁC TẬP PHỔ BIẾN ĐÓNG VÀ CẢI TIẾN 24 Phát biểu toán khai thác Dàn tập phổ biến đóng 24 Thuật Toán BVCL 25 2.1 Lưu đồ tổng quát thuật toán 30 2.2 Các bước thuật tốn 31 Đặc tả phân tích thuật tốn 36 Cải tiến thuật toán gốc 43 4.1 Cơ sở lý thuyết 43 4.1.1 Kết nối Galois: 43 4.1.2 Định nghĩa tốn tử đóng: 43 4.1.3 Các tính chất IT-pair 43 4.1.4 Minimal Generator (mG) 44 4.1.5 Một số nhận xét mG 44 4.2 Thuật toán 44 Kết thực nghiệm so sánh 46 5.1 Bộ liệu Chess 47 5.2 Bộ liệu Mushroom 49 5.3 Bộ liệu Pumsb 50 5.4 Bộ liệu Retail 52 5.5 Bộ liệu T10I4D100K 54 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 57 Kết luận 57 Hướng phát triển 57 TÀI LIỆU THAM KHẢO 59 Danh mục bảng Bảng 2.1: Cơ sở liệu giao dịch book store 13 Bảng 2.2: Cơ sở liệu giao dịch bảng 2.1 mã hóa 13 Bảng 2.3: Cơ sở liệu giao dịch theo chiều dọc dùng bit vector 14 Bảng 2.4: Tìm cids FCS itemset có DSBV: {1, {12, 129}} 20 Bảng 2.5: Khai thác minimal FCS từ cấu trúc DSBV 21 Bảng 3.1: Bộ liệu chess 47 Bảng 3.2: Kết thực nghiệm thu với liệu Chess 47 Bảng 3.3: Bộ liệu Mushroom 49 Bảng 3.4: Kết thực nghiệm thu với liệu Mushroom 49 Bảng 3.5: Bộ liệu Pumsb 51 Bảng 3.6: Kết thực nghiệm thu với liệu Pumsb 51 Bảng 3.7: Bộ liệu Retail 52 Bảng 3.8: Kết thực nghiệm thu với liệu Retail 53 Bảng 3.9: Bộ liệu T10I4D100K 54 Bảng 3.10: Kết thực nghiệm thu với liệu T10I4D100K 54 Danh mục hình vẽ, đồ thị Hình 2.1: Dynamic superset bit vector 18 Hình 2.2: Giao DSBVs 22 Hình 2.3: Hội DSBVs 23 Hình 3.1: Lưu đồ thuật toán 31 Hình 3.2: Cây khai thác FCIs 33 Hình 3.3: Khai thác Dàn FCIs 36 Hình 3.4: biểu đồ so sánh thời gian thực thi liệu Chess 48 Hình 3.5: biểu đồ so sánh nhớ chiếm dụng liệu Chess 48 Hình 3.6: Biểu đồ so sánh thời gian thực thi liệu Mushroom 50 Hình 3.7: Biểu đồ so sánh nhớ chiếm dụng liệu Mushroom 50 Hình 3.8: Biểu đồ so sánh thời gian thực thi liệu Pumsb 51 Hình 3.9: Biểu đồ so sánh nhớ chiếm dụng liệu Pumsb 52 Hình 3.10: Biểu đồ so sánh thời gian thực thi liệu Retail 53 Hình 3.11: Biểu đồ so sánh nhớ chiếm dụng liệu Retail 54 Hình 3.11: Biểu đồ so sánh thời gian thực thi liệu T10I4D100K 55 Hình 3.12: Biểu đồ so sánh nhớ chiếm dụng liệu T10I4D100K 55 Các thuật toán chạy thử nghiệm trường hợp liệu tổng hợp liệu thực tế Dữ liệu tổng hợp liệu thực tế lấy từ nguồn http://www.philippefournier-viger.com/spmf/index.php?link=datasets.php CSDL Số giao dịch Số item chess 3196 75 mushroom 8124 119 pumsb 49046 2113 Retail 88162 16470 T10I4D100K 49046 2113 Các thuật tốn luận văn chạy máy có cấu hình: core i3 2.4GHz, 4GB Ram Windows 10 Sử dụng Access 2007 chứa CSDL giao dịch 5.1 Bộ liệu Chess Bộ liệu có từ nước cờ trò chơi Bộ liệu gồm 3196 giao dịch với 75 hạng mục phân biệt Bảng 3.1: Bộ liệu chess Database chess (3196 transactions) (75 items) Minsup (%) 86 87 88 89 90 FCIs 1467 1194 935 696 503 Bảng 3.2: Kết thực nghiệm thu với liệu Chess Time(s) Minsup (%) BVCL CharmL 86 4.5 122 87 3.2 81 78 3.4 52 BVCL cải tiến BVCL+MG 88 48 89 1.3 26 90 0.8 13 2.3 31 1.5 17 0.9 9.4 89 4.7 6.2 90 4.5 database: chess Memory(MB) Minsup (%) BVCL CharmL 86 12.3 47 87 10 88 BVCL cải tiến BVCL+MG 9.4 15.4 9.1 13 6.7 10 5.7 8.5 5.3 140 time(s) 120 100 80 BVCL 60 CharmL 40 BVCL cải tiến 20 BVCL+MG 86 87 88 89 90 supp(%) DB: chess Hình 3.4: biểu đồ so sánh thời gian thực thi liệu Chess memory 18 16 (MB) 14 12 10 BVCL CharmL BVCL cải tiến BVCL+MG 86 87 88 89 90 supp(%) DB: chess Hình 3.5: biểu đồ so sánh nhớ chiếm dụng liệu Chess Biểu đồ hình 3.4 cho thấy vượt trội thời gian thục thi thuật toán BVCL BVCL cải tiến Thuật toán BVCL cải tiến có chậm đơi chút so với thuật tốn BVCL gốc Tuy nhiên, BVCL có khai thác tập sinh sử dụng MG-Charm chậm nhiều so với BVCL cải tiến Biểu đồ hình 3.5 cho thấy tối ưu nhớ thuật toán BVCL BVCL cải tiến Thuật toán BVCL cải tiến chiếm dụng nhớ đôi chút so với thuật tốn BVCL 48 gốc Tuy nhiên, BVCL có khai thác tập sinh sử dụng MG-Charm thuật tốn BVCL cải tiến ưu việt nhiều Thời gian chạy trung bình BVCL nhanh so với CharmL: 24.6 lần Bộ nhớ tiêu tốn trung bình BVCL so với CharmL: 26.6% Thời gian chạy trung bình BVCL cải tiến nhanh so với BVCL+MG: 14.3 lần Bộ nhớ tiêu tốn trung bình BVCL so với CharmL: 32.8% 5.2 Bộ liệu Mushroom Bộ liệu chứa thuộc tính loài nấm khác Gồm 8124 trường hợp (giao dịch) 119 loài nấm (hạng mục) khác Bảng 3.3: Bộ liệu Mushroom Database mushroom (8124 transactions) (119 items) Minsup (%) 20 25 30 35 40 FCIs 1203 688 427 260 140 Bảng 3.4: Kết thực nghiệm thu với liệu Mushroom Time(s) Minsup (%) BVCL CharmL BVCL cải tiến BVCL+MG 20 6.4 300 8.4 219 25 2.9 95 3.5 72 30 1.5 36 28 35 0.7 13 0.9 10.7 40 0.4 0.5 3.5 Minsup (%) 20 9.8 32 21 37 25 6.8 16.5 11 19 30 5.5 10.8 8.4 12.7 35 4.7 7.6 6.1 8.6 40 database: mushroom Memory(MB) BVCL CharmL BVCL cải tiến BVCL+MG 49 5.6 4.6 6.4 350 300 time(s) 250 BVCL 200 CharmL 150 BVCL cải tiến 100 BVCL+MG 50 20 DB: mushroom 25 30 35 40 supp(%) Hình 3.6: Biểu đồ so sánh thời gian thực thi liệu Mushroom memory (MB) 40 35 30 25 BVCL 20 CharmL 15 BVCL cải tiến 10 BVCL+MG DB: mushroom 20 25 30 35 40 supp(%) Hình 3.7: Biểu đồ so sánh nhớ chiếm dụng liệu Mushroom Tương tự với liệu Chess, hình 3.6 hình 3.7 cho thấy vượt trội tốc độ thực thi nhớ chiếm dụng thuật toán BVCL BVCL cải tiến Thời gian chạy trung bình BVCL nhanh so với CharmL: 37.6 lần Bộ nhớ tiêu tốn trung bình BVCL so với CharmL: 57.5% Thời gian chạy trung bình BVCL cải tiến nhanh so với BVCL+MG: 21.8 lần Bộ nhớ tiêu tốn trung bình BVCL so với CharmL: 38.9% 5.3 Bộ liệu Pumsb Bộ liệu chứa thông tin điều tra dân số Bộ liệu gồm 49046 giao dịch với 2113 hạng mục phân biệt 50 Bảng 3.5: Bộ liệu Pumsb Database pumsb (49046 transactions) (2113 items) Minsup (%) 91 92 93 94 95 FCIs 960 612 368 216 110 Bảng 3.6: Kết thực nghiệm thu với liệu Pumsb minsup Time(s) BVCL CharmL BVCL cải tiến BVCL+MG 91 10.3 402 11.4 395 92 5.8 164 6.5 164 93 3.1 59.7 3.5 61 94 1.7 21 1.9 22 95 0.8 5.6 0.9 6.3 91 92 17 24 18 26 93 14 19 15 21 94 13 14 13.8 18.4 95 11 12.7 11.7 13.9 database: pumsb minsup Memory(MB) time(s) DB: pumsb BVCL CharmL BVCL cải tiến BVCL+MG 20 31 22 38 450 400 350 300 250 200 150 100 50 BVCL CharmL BVCL cải tiến BVCL+MG 91 92 93 94 95 supp(%) Hình 3.8: Biểu đồ so sánh thời gian thực thi liệu Pumsb 51 40 memory 35 (MB) 30 25 BVCL 20 CharmL 15 BVCL cải tiến 10 BVCL+MG 91 92 93 94 95 supp(%) DB: pumsb Hình 3.9: Biểu đồ so sánh nhớ chiếm dụng liệu Pumsb Tương tự với liệu trên, hình 3.8 hình 3.9 cho thấy vượt trội tốc độ thực thi nhớ chiếm dụng thuật toán BVCL BVCL cải tiến Thời gian chạy trung bình BVCL nhanh so với CharmL: 30.1 lần Bộ nhớ tiêu tốn trung bình BVCL so với CharmL: 25.5% Thời gian chạy trung bình BVCL cải tiến nhanh so với BVCL+MG: 26.8 lần Bộ nhớ tiêu tốn trung bình BVCL so với CharmL: 31.4% 5.4 Bộ liệu Retail Bộ liệu chứa thông tin giao dịch công ty bán lẻ trực tuyến Bộ liệu gồm 88162 giao dịch với 16470 hạng mục phân biệt Bảng 3.7: Bộ liệu Retail Database Retail (88162 transactions) (16470 items) minsup(%) 52 FCIs 16 15 13 13 12 Bảng 3.8: Kết thực nghiệm thu với liệu Retail BVCL CharmL BVCL cải tiến BVCL+MG Time(s) 0.2 0.31 0.17 0.47 0.15 0.28 0.14 0.39 0.15 0.25 0.12 0.39 0.16 0.23 0.12 0.34 0.14 0.2 0.11 0.36 10 11 10.2 12 8.5 9.2 10.3 8.2 8.5 8.3 10 database: Retail Memory(MB) BVCL CharmL BVCL cải tiến BVCL+MG 13 14 13.5 15 9.5 9.2 11 60 time(s) 50 40 BVCL+MG 30 BVCL cải tiến 20 CharmL BVCL 10 supp(%) DB: Retail Hình 3.10: Biểu đồ so sánh thời gian thực thi liệu Retail 53 60 memory 50 (MB) 40 BVCL+MG 30 BVCL cải tiến CharmL 20 BVCL 10 DB: Retail supp(%) Hình 3.11: Biểu đồ so sánh nhớ chiếm dụng liệu Retail Thời gian chạy trung bình BVCL nhanh so với CharmL: 1.6 lần Bộ nhớ tiêu tốn trung bình BVCL so với CharmL: 6.7% Thời gian chạy trung bình BVCL cải tiến nhanh so với BVCL+MG: lần Bộ nhớ tiêu tốn trung bình BVCL so với CharmL: 13.9% 5.5 Bộ liệu T10I4D100K Bộ liệu gồm 100000 giao dịch với 870 hạng mục phân biệt Bảng 3.9: Bộ liệu T10I4D100K Database T10I4D100K (100000 transactions) (870 items) minsup(%) FCIs 385 155 60 26 10 Bảng 3.10: Kết thực nghiệm thu với liệu T10I4D100K Time(s) BVCL CharmL BVCL cải tiến BVCL+MG database: T10I4D100K 54 852 755 853 890 102 99 102 228 13 13.6 13.5 30.5 2.4 2.5 2.4 5.4 0.4 0.4 0.4 0.7 Memory(MB) BVCL CharmL BVCL cải tiến BVCL+MG 225 300 229 235 32 35 33 37 16 17 16.5 18 13 13.5 13 15 12 12 12 13 4000 time(s) 3500 3000 2500 BVCL+MG 2000 BVCL cải tiến 1500 CharmL 1000 BVCL 500 DB:T10I4D100K supp(%) Hình 3.11: Biểu đồ so sánh thời gian thực thi liệu T10I4D100K 1200 memory (MB) 1000 800 BVCL+MG 600 BVCL cải tiến CharmL 400 BVCL 200 DB:T10I4D100K supp(%) Hình 3.12: Biểu đồ so sánh nhớ chiếm dụng liệu T10I4D100K Thời gian chạy trung bình CharmL nhanh so với BVCL: 1.1 lần 55 Bộ nhớ tiêu tốn trung bình BVCL so với CharmL: 21.1% Thời gian chạy trung bình BVCL cải tiến nhanh so với BVCL+MG: 1.2 lần Bộ nhớ tiêu tốn trung bình BVCL so với CharmL: 4.6% Trong liệu cho chạy thực nghiệm, chess, mushroom, pumsb, retail BVCL chạy nhanh chiếm dụng nhớ CharmL vừa nêu BVCL cải tiến chạy nhanh chiếm dụng nhớ BVCL+MG Với liệu T10I4D100K, thuật toán CharmL chạy nhanh so với BVCL khoảng 10% nhớ tiêu tốn nhiều BVCL 21.1% Nhìn chung, liệu phân lớp BVCL BVCL cải tiến chạy nhanh vượt trội chiếm dụng nhớ Trên liệu giao dịch BVCL BVCL cải tiến có nhanh chiếm dụng nhớ hơn, chưa vượt trội cần có nhiều nghiên cứu cải tiến thêm 56 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Luận văn nghiên cứu tổng quan toán khai thác Dàn tập phổ biến đóng khai thác đồng thời tập sinh chúng bao gồm khái niệm bản, sở lý thuyết tốn cơng trình nghiên cứu có tác giả ngồi nước Phân tích ưu khuyết điểm kỹ thuật Từ đó, đề xuất kỹ thuật hiệu để khai khác Dàn tập phổ biến đóng tập sinh với liệu có kích thước lớn Luận văn trình bày ý tưởng nội dung phương pháp khai thác Dàn tập phổ biến đóng tập sinh Thuật tốn BVCL BVCL cải tiến đọc CSDL lần cho toàn trình khai thác CSDL giao dịch ban đầu chuyển sang CSDL chiều dọc Sau đó, chuyển đổi liệu ban đầu sang cấu trúc DBV DSBV Cuối cùng, thực khai thác Dàn tập phổ biến đóng tập sinh liệu chuyển đổi Các kết thực nghiệm liệu phát sinh tổng hợp cho thấy phương pháp đề xuất hiệu CSDL giao dịch thưa (có tần xuất suất bit thấp bit vector) Đồng thời, phương pháp đề xuất đạt tính mở rộng cao Tuy nhiên, luận văn hạn chế chưa thực nghiệm liệu thực có kích thước lớn (trên vài triệu giao dịch) Hạn chế cấu trúc liệu bit vector động CSDL giao dịch đặc (có tần xuất suất bit cao bit vector) Hướng phát triển Khai thác Dàn Tập phổ biến đóng khai thác luật kết hợp ứng dụng nhiều lĩnh vực kinh doanh, tài chính, thị trường chứng khốn Vì cần phải có thuật tốn, hay cơng cụ mạnh mẽ để khai thác tập phổ biến đóng, tập sinh tập luật kết hợp, rút trích thơng tin có giá trị Nếu sử dụng thơng tin có giá trị này, doanh nghiệp chủ động đặt thêm hàng vào giỏ mua sắm khách hàng, lập chiến lược bán hàng như: khuyến mãi, quảng bá sản phẩm mới, tăng nguồn lợi tài khả cạnh tranh doanh nghiệp 57 Ứng dụng khai thác luật kết hợp đem lại lợi ích thực tế to lớn vậy, hứa hẹn ngày có nhiều cơng trình nghiên cứu sâu rộng Tiếp tục nghiên cứu cải tiến thuật toán BVCL, cải tiến cấu trúc DBV (bit vector động) sử dụng ma trận thưa để lưu trữ tidset, làm giảm đáng kể không gian lưu trữ cho bit Từ cải thiện tốc độ tìm kiếm tăng tốc độ tính tốn phép tốn tập hợp 58 TÀI LIỆU THAM KHẢO [1] Tahrima Hashem, Md.Rezaul Karim, Md.Samiullah, Chowdhury Farhan Ahmed.(2016) An efficient dynamic superset bit-vector approach for mining frequent closed itemsets and their lattice structure” Expert Systems With Applications 67 (2017) 252–271 [2] Vo.B & Le.B (2009) Fast algorithm for mining minimal generators of frequent closed itemsets and their applications In Computers & industrial engineering, 2009 CIE 2009 (pp 1407–1411) IEEE [3] Bay Vo, Tzung-Pei Hong, and Bac Le (30 October, 2011).Dynamic bit vectors: An efficient approach for mining frequent itemsets Scientific Research and Essays Vol.6(25), pp.5358-5368 [4] Vo.B & Le.B (2011) A frequent closed itemsets lattice-based approach for mining minimal non-redundant association rules CoRR 1108.5253 [5] Anh Tran, TinTruong, BacLe (2014) Simultaneous mining of frequent closed itemsets and their generators: Foundation and algorithm Engineering ApplicationsofArtificial Intelligence 36(2014)64–80 [6] Vo.B, Hong.T, & Le.B (2012) DBV-Miner: A dynamic bit-vector approach for fast mining frequent closed itemsets Expert Systems with Applications, 39, 7196–7206 [7] Vo.B, Hong.T, & Le.B (2013) A lattice-based approach for mining most general-ization association rules Knowledge Based Systems, 45, 20–30 [8] Zaki, M J., & Hsiao, C (2005) Efficient algorithms for mining closed itemsets and their lattice structure IEEE Transactions on Knowledge and Data Engineering, 17, 462–478 [9] Zaki, M J., & Hsiao, C (2002) CHARM: An efficient algorithm for closed itemset mining In Proceedings of the second SIAM international conference on data mining, arlington, VA, USA, april 11–13, 2002 (pp 457–473) 59 [10] Zaki, M J., Parthasarathy, S., Ogihara, M., Li, W., et al (1997) New algorithms for fast discovery of association rules In KDD: vol 97 (pp 283–286) [11] Han, J., Pei, J., Yin, Y., & Mao, R (2004) Mining frequent patterns without candi-date generation: A frequent-pattern tree approach Data Mining and Knowledge Discovery, 8, 53–87 [12] Wille, R., 1982 Restructuring lattices theory: an approach based on hierarchies of concepts In Ordered Sets, pp 445470 ỵ [13] Wang, J., Han, J., Pei, J., 2003 Closet: searching for the best strategies for mining frequent closed itemsets In: Proceedings of ACM SIGKDD’03 [14] Dong, G., Jiang, C., Pei, J., Li, J., Wong, L., 2005 Mining succinct systems of minimal generators of formal concepts In: Proceedings of DASFAA 2005, LNCS 3453, pp.175–187 [15] Szathmary, L., Valtchev, P., Napoli, A., 2009 Efficient vertical mining of frequent closed itemsets and generators In: Proceedings of IDA 2009, pp 393–404 [16] Closed itemsets using frequent closed tidsets In: Proceedings Of the 5th ICDM, Washington DC, USA, pp 633–636 [17] Hashem, T., Ahmed, C F., Samiullah, M., Akther, S., Jeong, B., & Jeon, S (2014) An efficient approach for mining cross-level closed itemsets and minimal associ-ation rules using closed itemset lattices.Expert Systems With Applications, 41, 2914–2938 [18] Zaki, M J., & Phoophakdee, B (2003) MIRAGE: A framework for mining, explor-ing and visualizing minimal association rules Technical report Computer Sci-ence Dept., Rensselaer Polytechnic Inst [19] Agrawal, R., & Srikant, R (1994) Fast algorithms for mining association rules in large databases In VLDB’94, proceedings of 20th international conference on very large data bases, September 12 – 15, 1994, santiago de chile, chile (pp.487–499) 60 [20] Han, J., Pei, J., Yin, Y., & Mao, R (2004) Mining frequent patterns without candi-date generation: A frequent-pattern tree approach Data Mining and Knowledge Discovery, 8, 53–87 [21] Lucchese, C., Orlando, S., & Perego, R (2006) Fast and memory efficient mining of frequent closed itemsets IEEE Transactions on Knowledge and Data Engineering, 18, 21–36 [22] Uno, T., Kiyomi, M., & Arimura, H (2004b) LCM ver 2: Efficient mining algorithms for frequent/closed/maximal itemsets FIMI ’04, proceedings of the IEEE ICDM workshop on frequent itemset mining implementations, Brighton, UK, November 1, 2004 [23] Zaki, M J (2000) Scalable algorithms for association mining IEEE Transactions on Knowledge and Data Engineering, 12, 372–390 [24] Dong, J., & Han, M (2007) BitTableFI: An efficient mining frequent itemsets algo-rithm Knowledge Based Systems, 20, 329–335 [25] Song, W., Yang, B., & Xu, Z (2008) Index-BitTableFI: An improved algorithm for mining frequent itemsets Knowledge Based Systems, 21, 507– 513 [26] Nori, F., Deypir, M., & Sadreddini, M H (2013) A sliding window based algorithm for frequent closed itemset mining over data streams Journal of Systems and Software, 86, 615–623 [27] Yen, S.-J., Lee, Y.-S., & Wang, C.-K (2014).An efficient algorithm for incrementally mining frequent closed itemsets Applied intelligence, 40, 649– 668 [28] Le.B & Vo.B (2015).An n-list-based algorithm for mining frequent closed patterns Expert Systems with Applications, 42, 6648–6657 [29] Deng, Z., Wang, Z., & Jiang, J (2012) A new algorithm for fast mining frequent item-sets using n-lists SCIENCE CHINA Information Sciences, 55, 2008–2030 61 ... văn tập trung nghiên cứu: • Khai thác tập phổ biến đóng: tìm hiểu tập phổ biến, tập phổ biến đóng, ứng dụng khai thác tập phổ biến đóng dàn, phát biểu toán phương pháp khai thác dàn tập phổ biến. .. Những tập mẫu phổ biến đóng giải pháp để loại bỏ mẫu dư thừa từ tập mẫu phổ biến Một tập phổ biến gọi phổ biến đóng khơng có tập cha (bao nó) có độ phổ biến Sự lặp lại quan hệ Tập Cha – Tập Con tập. .. gốc phương diện khai thác dàn tập phổ biến đóng Tuy nhiên, việc khai thác tập sinh quan trọng trình khai thác tập luật kết hợp Nếu thuật toán gốc khai thác riêng rẽ dàn tập phổ biến đóng tập

Ngày đăng: 04/12/2022, 09:46

HÌNH ẢNH LIÊN QUAN

Bảng 2.1: Cơ sở dữ liệu giao dịch book store. - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Bảng 2.1 Cơ sở dữ liệu giao dịch book store (Trang 24)
Bảng 2.2 là một biễu diễn dạng mã hĩa của Bảng 2.1 trong đĩ các Item được biễu diễn bằng các chữ cái, và được biễu diễn theo chiều ngang - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Bảng 2.2 là một biễu diễn dạng mã hĩa của Bảng 2.1 trong đĩ các Item được biễu diễn bằng các chữ cái, và được biễu diễn theo chiều ngang (Trang 24)
Bảng 2.3 cho thấy cách biểu diễn cơ sở dữ liệu theo chiều dọc của Bảng 2.1 theo bit vector - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Bảng 2.3 cho thấy cách biểu diễn cơ sở dữ liệu theo chiều dọc của Bảng 2.1 theo bit vector (Trang 25)
Hình 2.1: Dynamic superset bit vector - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Hình 2.1 Dynamic superset bit vector (Trang 29)
Bảng 2.4: Tìm cids của FCS của itemset cĩ DSBV: {1, {12, 129}} - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Bảng 2.4 Tìm cids của FCS của itemset cĩ DSBV: {1, {12, 129}} (Trang 31)
Bảng 2.5: Khai thác minimal FCS từ cấu trúc DSBV - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Bảng 2.5 Khai thác minimal FCS từ cấu trúc DSBV (Trang 32)
5.2.3 Giao 2 DSBVs - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
5.2.3 Giao 2 DSBVs (Trang 32)
Cho DSBV X= {8,{2,0,0,1,5,7}} và DSBV Y= {10,{2,3,1,0,0,5}}.hình bên dưới minh họa việc giao 2 DSBV - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
ho DSBV X= {8,{2,0,0,1,5,7}} và DSBV Y= {10,{2,3,1,0,0,5}}.hình bên dưới minh họa việc giao 2 DSBV (Trang 33)
Cho DSBV X= {8,{2,0,0,1,5,7}} và DSBV Y= {10,{2,3,1,0,0,5}}.Hình bên dưới minh họa việc hội 2 DSBV - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
ho DSBV X= {8,{2,0,0,1,5,7}} và DSBV Y= {10,{2,3,1,0,0,5}}.Hình bên dưới minh họa việc hội 2 DSBV (Trang 34)
Hình 3.1: Lưu đồ thuật tốn 2.2 Các bước chính của thuật tốn  - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Hình 3.1 Lưu đồ thuật tốn 2.2 Các bước chính của thuật tốn (Trang 42)
Hình 3.2: Cây khai thác FCIs - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Hình 3.2 Cây khai thác FCIs (Trang 44)
Hình 3.3: Khai thác Dàn FCIs 3.  Đặc tả và phân tích thuật tốn  - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Hình 3.3 Khai thác Dàn FCIs 3. Đặc tả và phân tích thuật tốn (Trang 47)
Bảng 3.1: Bộ dữ liệu chess - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Bảng 3.1 Bộ dữ liệu chess (Trang 58)
Hình 3.5: biểu đồ so sánh bộ nhớ chiếm dụng của bộ dữ liệu Chess - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Hình 3.5 biểu đồ so sánh bộ nhớ chiếm dụng của bộ dữ liệu Chess (Trang 59)
Hình 3.4: biểu đồ so sánh thời gian thực thi của bộ dữ liệu Chess - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Hình 3.4 biểu đồ so sánh thời gian thực thi của bộ dữ liệu Chess (Trang 59)
Bảng 3.3: Bộ dữ liệu Mushroom - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Bảng 3.3 Bộ dữ liệu Mushroom (Trang 60)
Bảng 3.4: Kết quả thực nghiệm thu được với bộ dữ liệu Mushroom - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Bảng 3.4 Kết quả thực nghiệm thu được với bộ dữ liệu Mushroom (Trang 60)
Hình 3.7: Biểu đồ so sánh bộ nhớ chiếm dụng của bộ dữ liệu Mushroom - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Hình 3.7 Biểu đồ so sánh bộ nhớ chiếm dụng của bộ dữ liệu Mushroom (Trang 61)
Hình 3.6: Biểu đồ so sánh thời gian thực thi của bộ dữ liệu Mushroom - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Hình 3.6 Biểu đồ so sánh thời gian thực thi của bộ dữ liệu Mushroom (Trang 61)
Bảng 3.6: Kết quả thực nghiệm thu được với bộ dữ liệu Pumsb - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Bảng 3.6 Kết quả thực nghiệm thu được với bộ dữ liệu Pumsb (Trang 62)
Bảng 3.5: Bộ dữ liệu Pumsb - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Bảng 3.5 Bộ dữ liệu Pumsb (Trang 62)
Hình 3.9: Biểu đồ so sánh bộ nhớ chiếm dụng của bộ dữ liệu Pumsb - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Hình 3.9 Biểu đồ so sánh bộ nhớ chiếm dụng của bộ dữ liệu Pumsb (Trang 63)
Tương tự vớ i2 bộ dữ liệu trên, hình 3.8 và hình 3.9 cho thấy sự vượt trội về cả tốc độ thực thi và bộ nhớ chiếm dụng của thuật tốn BVCL và BVCL cải tiến - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
ng tự vớ i2 bộ dữ liệu trên, hình 3.8 và hình 3.9 cho thấy sự vượt trội về cả tốc độ thực thi và bộ nhớ chiếm dụng của thuật tốn BVCL và BVCL cải tiến (Trang 63)
Bảng 3.8: Kết quả thực nghiệm thu được với bộ dữ liệu Retail - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Bảng 3.8 Kết quả thực nghiệm thu được với bộ dữ liệu Retail (Trang 64)
Hình 3.11: Biểu đồ so sánh bộ nhớ chiếm dụng của bộ dữ liệu Retail - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Hình 3.11 Biểu đồ so sánh bộ nhớ chiếm dụng của bộ dữ liệu Retail (Trang 65)
Bảng 3.9: Bộ dữ liệu T10I4D100K - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Bảng 3.9 Bộ dữ liệu T10I4D100K (Trang 65)
Hình 3.12: Biểu đồ so sánh bộ nhớ chiếm dụng của bộ dữ liệu T10I4D100K - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Hình 3.12 Biểu đồ so sánh bộ nhớ chiếm dụng của bộ dữ liệu T10I4D100K (Trang 66)
Hình 3.11: Biểu đồ so sánh thời gian thực thi của bộ dữ liệu T10I4D100K - (Luận văn thạc sĩ) KHAI THÁC TẬP PHỔ BIẾN ĐÓNG SỬ DỤNG PHƯƠNG PHÁP DSBV
Hình 3.11 Biểu đồ so sánh thời gian thực thi của bộ dữ liệu T10I4D100K (Trang 66)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN