1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát triển một số thuật toán hiệu quả khai thác tập mục trên cơ sở dữ liệu có sự phân cấp các mục

120 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 120
Dung lượng 3,26 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN DUY HÀM PHÁT TRIỂN MỘT SỐ THUẬT TOÁN HIỆU QUẢ KHAI THÁC TẬP MỤC TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG CÓ SỰ PHÂN CẤP CÁC MỤC LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN DUY HÀM PHÁT TRIỂN MỘT SỐ THUẬT TOÁN HIỆU QUẢ KHAI THÁC TẬP MỤC TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG CÓ SỰ PHÂN CẤP CÁC MỤC Chuyên ngành: CƠ SỞ TOÁN CHO TIN HỌC Mã số: 62460110 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN THỊ HỒNG MINH PGS.TS VÕ ĐÌNH BẢY XÁC NHẬN NCS ĐÃ CHỈNH SỬA THEO QUYẾT NGHỊ CỦA HỘI ĐỒNG ĐÁNH GIÁ LUẬN ÁN Ngƣời hƣớng dẫn khoa học Chủ tịch hội đồng đánh giá Luận án Tiến sĩ TS Nguyễn Thị Hồng Minh PGS.TS Huỳnh Quyết Thắng Hà Nội - 2016 LỜI CAM ĐOAN Tôi xin cam đoan luận án cơng trình nghiên cứu tác giả thực dƣới hƣớng dẫn tập thể cán hƣớng dẫn Luận án có sử dụng thơng tin trích dẫn từ nhiều nguồn tham khảo khác nhau, thông tin trích dẫn đƣợc ghi rõ nguồn gốc Các số liệu thực nghiệm, kết nghiên cứu trình bày luận án hoàn toàn trung thực, chƣa đƣợc cơng bố tác giả hay cơng trình khác Tác giả Nguyễn Duy Hàm i LỜI CẢM ƠN Luận án Tiến sĩ đƣợc thực trƣờng Đại học Khoa học Tự nhiên Đại học Quốc gia Hà Nội với hƣớng dẫn khoa học TS Nguyễn Thị Hồng Minh, PGS.TS.Võ Đình Bảy TS Lê Quang Minh Nghiên cứu sinh xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo, cô giáo hƣớng dẫn định hƣớng khoa học, tận tâm giúp đỡ bảo tỉ mỉ suốt q trình nghiên cứu hồn thiện luận án Nghiên cứu sinh ghi nhớ công lao dạy dỗ, dìu dắt vào đƣờng khoa học cố PGS.TS Hồng Chí Thành - ngƣời hƣớng dẫn Nghiên cứu sinh giai đoạn đầu làm nghiên cứu khoa học Nghiên cứu sinh xin chân thành cảm ơn nhà khoa học, tác giả cơng trình nghiên cứu đƣợc trích dẫn luận án nguồn tài liệu quý báu để Nghiên cứu sinh phát triển hồn thiện cơng bố Nghiên cứu sinh xin chân thành cảm ơn Ban Giám hiệu, lãnh đạo Khoa Toán Cơ - Tin học, thầy cô, giảng viên Bộ môn Tin học - Trƣờng Đại học Khoa học Tự nhiên - Đại học Quốc gia Hà Nội tạo điều kiện thuận lợi để Nghiên cứu sinh hồn thành chƣơng trình học tập thực hoàn tất luận án Nghiên cứu sinh xin chân thành cảm ơn Ban Giám hiệu Trƣờng Đại học An ninh nhân dân, tập thể giáo viên Bộ mơn Tốn - Tin học Trƣờng Đại học An ninh nhân dân nơi Nghiên cứu sinh công tác bạn bè thân thiết tạo điều kiện, động viên, khuyến khích hỗ trợ tối đa để Nghiên cứu sinh hoàn thành luận án Cuối cùng, xin cảm ơn Bố Mẹ, đặc biệt Mẹ - ngƣời hy sinh tất nghiệp học tập con, tiếc mẹ không đợi đƣợc đến ngày hồn thành luận án Xin cảm ơn gia đình, chị gái em đồng hành, động viên, chia sẻ giúp trì nhiệt huyết nghị lực để đến hoàn thành luận án này./ TP Hồ Chí Minh, tháng ii năm 2016 MỤC LỤC LỜI CAM ĐOAN I LỜI CẢM ƠN II MỤC LỤC III DANH MỤC BẢNG V DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ VII DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT X MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ KHAI THÁC TẬP MỤC 1.1 Bài toán khai thác tập mục 1.1.1 Một số khái niệm 1.1.2 Bài toán khai thác FI 15 1.2 Các phƣơng pháp khai thác FI 15 1.2.1 Phƣơng pháp khai thác FI CSDL ngang 15 1.2.2 Phƣơng pháp khai thác FI CSDL dọc dựa IT-tree 18 1.3 Một số phƣơng pháp khai thác FWI FWUI CSDL số lƣợng 21 1.3.1 Giới thiệu 21 1.3.2 Khai thác FWI 21 1.3.3 Khai thác FWUI 24 1.3.4 Khai thác TRFIk 26 1.4 Khai thác FI CSDL có phân cấp mục 28 1.5 Tiếp cận bit-vector khai thác FI 31 1.6 Kết luận chƣơng 32 CHƢƠNG KHAI THÁC TẬP MỤC PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG 35 2.1 Thuật toán khai thác tập FWI 36 2.1.1 Giới thiệu 36 2.1.2 Thuật tốn tính giao hai IWS 40 2.1.3 Thuật toán khai thác FWI 42 2.1.4 Kết thực nghiệm 48 2.2 Thuật toán khai thác FWUI 54 2.2.1 Cấu trúc Multi bit segment 54 2.2.2 Thuật toán xác định giao MBiS 55 2.2.3 Thuật toán khai thác FWUI dựa MBiS-tree 56 2.2.4 Kết thực nghiệm 59 iii 2.3 Thuật toán khai thác TRFWUIk 63 2.3.1 Một số khái niệm 63 2.3.2 Cấu trúc DTab 64 2.3.3 Cấu trúc TR-tree 65 2.3.4 Thuật toán khai thác TRFWUIk sử dụng cấu trúc liệu DTab 65 2.3.5 Thuật toán khai thác nhanh TRFWUIk dựa cấu trúc DHeap 68 2.3.6 Kết thực nghiệm 70 2.4 Kết luận chƣơng 73 CHƢƠNG KHAI THÁC TẬP MỤC PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG CÓ SỰ PHÂN CẤP CÁC MỤC 75 3.1 Giới thiệu toán 76 3.2 Thuật toán khai thác FWUI HQDB 79 3.2.1 Thuật toán xác định weight cho mục cha 79 3.2.2 Thuật toán thêm mục cha vào CSDL 80 3.2.3 Thuật toán khai thác FWUI 81 3.3 Một số cải tiến nâng cao hiệu khai thác FWUI HQDB 84 3.3.1 Cấu trúc EDBV 84 3.3.2 Tính tidset nút cha từ tidset nút 89 3.3.3 Kiểm tra mối quan hệ cha mục tập mục 91 3.3.4 Thuật toán khai thác nhanh FWUI HQDB 92 3.4 Kết thực nghiệm 93 3.4.1 CSDL thực nghiệm 93 3.4.2 Kết thực nghiệm 94 3.5 Kết luận chƣơng 100 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 101 DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 103 iv DANH MỤC BẢNG Bảng 1.1 Các giao dịch nhị phân DB Bảng 1.2 Các giao dịch CSDL nhị phân có phân cấp mục DB Bảng 1.3 ID mục DB 10 Bảng 1.4 Các giao dịch DB ID 10 Bảng 1.5 Giao dịch CSDL số lƣợng BD 12 Bảng 1.6 Trọng số mục DB 12 Bảng 1.7 Các giao dịch CSDL trọng số DB 13 Bảng 1.8 Trọng số mục DB 13 Bảng 1.9 CSDL DB 15 Bảng 1.10 DB theo chiều dọc 19 Bảng 1.11 Giá trị tw CSDL DB ví dụ 1.4 23 Bảng 1.12 twu giao dịch DB ví dụ 1.4 25 Bảng 1.13 DB Ví dụ 1.2 sau thêm mục cha 30 Bảng 2.1 Bit-vector 36 Bảng 2.2 DBV bit-vector ví dụ 2.1 36 Bảng 2.3 IWS từ bit-vector ví dụ 2.1 37 Bảng 2.4 Chỉ số bit IWS(X) 39 Bảng 2.5 Mảng MAP 42 Bảng 2.6 IWS mục 46 Bảng 2.7 Mô tả CSDL thực nghiệm 49 Bảng 2.8 Bit-vector với 96 phần tử 54 Bảng 2.9 MBiS từ bit-vector Bảng 2.8 55 Bảng 2.10 Bảng TRFWUIk 64 Bảng 3.1 Giao dịch HD 76 Bảng 3.2 Trọng số 76 Bảng 3.3 Tên mặt hàng mục 77 v Bảng 3.4 Giao dịch HD 82 Bảng 3.5 Trọng số 82 Bảng 3.6 twu giao dịch 83 Bảng 3.7 Tập 1-itemset phổ biến 83 Bảng 3.8 Mảng MAP với 65.535 phần tử 86 Bảng 3.9 Biểu diễn số nguyên K dƣới dạng bốn đoạn, đoạn word 86 Bảng 3.10 Mô tả CSDL 93 Bảng 3.11 Các mức phân cấp 93 Bảng 3.12 So sánh nhớ số lƣợng mục 94 Bảng 3.13 Thực nghiệm CSDL SALE-FACT-SYNC 95 Bảng 3.14 So sánh thời gian chạy CSDL SALE-FACT-1997 99 vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Cây phân cấp Tr 10 Hình 1.2 Cây phân cấp Tr biểu diễn theo ID 11 Hình 1.3 Thuật tốn Apriori khai thác tập mục phổ biến 16 Hình 1.4 Thuật toán FP-Growth dựa cấu trúc FP-tree 17 Hình 1.5 Thuật tốn Eclat dựa cấu trúc IT-tree 19 Hình 1.6 Cây IT tree với minsup = 0,5 CSDL DB 20 Hình 2.1 Thuật toán xác định giao hai IWS 41 Hình 2.2 Thuật tốn tính ws tập mục X 43 Hình 2.3 Thuật tốn xây dựng IWS-tree 45 Hình 2.4 Thuật toán khai thác FWI dựa IWS-tree 45 Hình 2.5 IWS-tree với nút A(minws = 0,4) 46 Hình 2.6 IWS-tree với nútA vàB(minws = 0,4) 47 Hình 2.7 IWS-tree với minws = 0,4 48 Hình 2.8 So sánh thời gian chạy với CSDL RETAIL 49 Hình 2.9 So sánh thời gian chạy với CSDL BMS-POS 49 Hình 2.10 So sánh thời gian chạy với CSDL SALE-FACT-1997 50 Hình 2.11 So sánh thời gian chạy với CSDL SALE-FACT-1997+1998 50 Hình 2.12 So sánh thời gian chạy với CSDL SALE-FACT-SYNC 50 Hình 2.13 So sánh thời gian chạy với CSDL CONNECT 50 Hình 2.14 So sánh thời gian chạy với CSDL ACCIDENTS 51 Hình 2.15 So sánh nhớ sử dụng với CSDL RETAIL 51 Hình 2.16 So sánh nhớ sử dụng với CSDL BMS-POS 51 Hình 2.17 So sánh nhớ sử dụng với CSDL SALE-FACT-1997 51 Hình 2.18 So sánh nhớ sử dụng với CSDL SALE-FACT-1997+1998 52 vii Hình 2.19 So sánh nhớ sử dụng với CSDL SALE-FACT-SYNC 52 Hình 2.20 So sánh nhớ sử dụng với CSDL CONNECT 52 Hình 2.21 So sánh nhớ sử dụng với CSDL ACCIDENT 52 Hình 2.22 Thuật tốn xác định giao hai MBiS 56 Hình 2.23 Thuật tốn tính wus dựa MBiS 57 Hình 2.24 Thuật toán khai thác FWUI dựa MBiS-tree 58 Hình 2.25 So sánh thời gian chạy CSDL RETAIL 59 Hình 2.26 So sánh thời gian chạy CSDL BMS-POS 59 Hình 2.27 So sánh thời gian chạy CSDL SALE-FACT-1997 60 Hình 2.28 So sánh thời gian chạy CSDL SALE-FACT-1997+1998 60 Hình 2.29 So sánh thời gian chạy CSDL SALE-FACT-SYNC 60 Hình 2.30 So sánh thời gian chạy CSDL CONNECT 60 Hình 2.31 So sánh thời gian chạy CSDL ACCIDENTS 61 Hình 2.32 So sánh nhớ sử dụng CSDL RETAIL 61 Hình 2.33 So sánh nhớ sử dụng CSDL BMS-POS 61 Hình 2.34 So sánh nhớ sử dụng CSDL SALE-FACT-1997 61 Hình 2.35 So sánh nhớ sử dụng CSDL SALE-FACT-1997+1998 62 Hình 2.36 So sánh nhớ sử dụng CSDL SALE-FACT-SYNC 62 Hình 2.37 So sánh nhớ sử dụng CSDL CONNECT 62 Hình 2.38 So sánh nhớ sử dụng CSDL ACCIDENT 62 Hình 2.39 DTab với k = 65 Hình 2.40 Thuật tốn tạo TR-tree sử dụng DTab 67 Hình 2.41 Thuật tốn lọc TRFWUIk 68 Hình 2.42 DHeap với k = với CSDL ví dụ 1.4 69 Hình 2.43 Thuật tốn tạo TR-tree sử dụng DHeap 70 viii ... DUY HÀM PHÁT TRIỂN MỘT SỐ THUẬT TOÁN HIỆU QUẢ KHAI THÁC TẬP MỤC TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG CÓ SỰ PHÂN CẤP CÁC MỤC Chuyên ngành: CƠ SỞ TOÁN CHO TIN HỌC Mã số: 62460110 LUẬN ÁN TIẾN SĨ TOÁN HỌC... CHƢƠNG KHAI THÁC TẬP MỤC PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG CÓ SỰ PHÂN CẤP CÁC MỤC 75 3.1 Giới thiệu toán 76 3.2 Thuật toán khai thác FWUI HQDB 79 3.2.1 Thuật toán. .. cứu khai thác tập mục CSDL số lƣợng có phân cấp mục chƣa đƣợc quan tâm Do vậy, 33 toán khai thác tập mục CSDL số lƣợng có phân cấp mục cần đƣợc đặt nghiên cứu Đề xuất thuật toán khai thác hiệu

Ngày đăng: 10/03/2021, 14:26

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Agrawal, R., & Srikant, R. (1994). Fast algorithms for minings association rules. Proc. of the 20th International Conf on Very Large Data Bases, pp. 487-499 Sách, tạp chí
Tiêu đề: Proc. of the 20th International Conf on Very Large Data Bases
Tác giả: Agrawal, R., & Srikant, R
Năm: 1994
[2] Agrawal, R., Imielinski, T., & Swami, A. (1993). Mining association rules between sets of items in large databases. Proc. of the 1993 ACM SIGMOD International conference on Management of data, 22(2), 207-216 Sách, tạp chí
Tiêu đề: Proc. of the 1993 ACM SIGMOD "International conference on Management of data, 22
Tác giả: Agrawal, R., Imielinski, T., & Swami, A
Năm: 1993
[3] Agrawal, R., Mannila, H., Srikant, R., Toivonen, H., & Verkamo, I. A. (1996). Fast discovery of association rules. Proc.of Conf on Advances in Knowldege Discovery and Data Mining, pp. 307-328 Sách, tạp chí
Tiêu đề: Proc.of Conf on Advances in Knowldege "Discovery and Data Mining
Tác giả: Agrawal, R., Mannila, H., Srikant, R., Toivonen, H., & Verkamo, I. A
Năm: 1996
[4] Ali, Z. S., & Rathore, Y. (2014.). A effective and efficient algorithm for cross level frequent pattern mining. Proc. of Conf on Advances in Engineering and Technology Research, pp. 1-6 Sách, tạp chí
Tiêu đề: Proc. of Conf on Advances in Engineering and "Technology Research
[5] Baralis, E., Cagliero, L., Cerquitelli, T., & Garza, P. (2012). Generalized association rule mining with constraints. Information Science (Elsevier Science Inc), 194, pp. 68-84 Sách, tạp chí
Tiêu đề: Information Science (Elsevier "Science Inc), 194
Tác giả: Baralis, E., Cagliero, L., Cerquitelli, T., & Garza, P
Năm: 2012
[6] Baralis, E., Cagliero, L., Cerquitelli, T., D’Elia, V., & Garza, P. (2014). Expressive generalized itemsets. Information Sciences, 278, pp. 327-343 Sách, tạp chí
Tiêu đề: Information Sciences, 278
Tác giả: Baralis, E., Cagliero, L., Cerquitelli, T., D’Elia, V., & Garza, P
Năm: 2014
[7] Cai, C. H., Fu, A. C., Cheng, C. H., & Kwong, W. W. (1998). Mining association rules with weighted items. Proc. of Conf on IEEE Intelligence Database Engineering and Applications Symposium, pp. 68-77 Sách, tạp chí
Tiêu đề: Proc. of Conf on IEEE Intelligence "Database Engineering and Applications Symposium
Tác giả: Cai, C. H., Fu, A. C., Cheng, C. H., & Kwong, W. W
Năm: 1998
[8] Deng, H. Z., & Fang, G. (2007). Mining top-rank-k-frequent patterns. Proc. of Conf on Machine Learning and Cybernetics, pp. 1763-1768 Sách, tạp chí
Tiêu đề: Proc. of "Conf on Machine Learning and Cybernetics
Tác giả: Deng, H. Z., & Fang, G
Năm: 2007
[9] Deng, H.-Z. (2012). A new algorithm for fast mining frequent itemsets using N-list. Science china information science, 55(9), pp. 2008-2030 Sách, tạp chí
Tiêu đề: Science china information science, 55(9)
Tác giả: Deng, H.-Z
Năm: 2012
[10] Deng, H.-Z., & Long, S. (2014). Fast mining frequent itemsets using Nodesets. Expert Systems with Applications, 41(10), pp. 4505-4512 Sách, tạp chí
Tiêu đề: Expert Systems with Applications, 41
Tác giả: Deng, H.-Z., & Long, S
Năm: 2014
[11] Deng, Z.-H. (2014). Fast mining top-rank-k - frequent patterns by using Node- list. Expert Systems with Applications, pp. 1763-1768 Sách, tạp chí
Tiêu đề: Expert Systems with Applications
Tác giả: Deng, Z.-H
Năm: 2014
[12] Deng, Z.-H., & Lv, S.-L. (2015). PrePost+: An efficient N-Lists-based Algorithm for Mining Frequent Itemsets via Children-Parent Equivalence Pruning. Expert Systems with Applications, 42(13), pp. 5424-5432 Sách, tạp chí
Tiêu đề: Expert Systems with Applications, 42
Tác giả: Deng, Z.-H., & Lv, S.-L
Năm: 2015
[14] Elena, B., Luca, C., Tania, C., & Paolo, G. (2012). Generalized association rule mining with constraints. Information Science (Elsevier Science Inc), 194, 68-84 Sách, tạp chí
Tiêu đề: Information Science (Elsevier Science Inc), 194
Tác giả: Elena, B., Luca, C., Tania, C., & Paolo, G
Năm: 2012
[15] Elena, B., Luca, C., Tania, C., Vincenzo, D., & Paolo, G. (2014). Expressive generalized itemsets. Information Sciences, 278, 327-343 Sách, tạp chí
Tiêu đề: Information Sciences, 278
Tác giả: Elena, B., Luca, C., Tania, C., Vincenzo, D., & Paolo, G
Năm: 2014
[16] Erwin, A., Gopalan, R. P., & Achuthan, R. N. (2007). CTU-Mine: An efficient hight utility itemset mining algorithm using the pattern growth approach.Computer and Informaition Technology, CIT, pp. 71-76 Sách, tạp chí
Tiêu đề: Computer and Informaition Technology, CIT
Tác giả: Erwin, A., Gopalan, R. P., & Achuthan, R. N
Năm: 2007
[17] Fang, G., & Deng, Z.-H. (2008). VTK: Vertical mining of top-rank-k frequent pattern. Proc. of the Conf on Fifth International Fuzzy Systems and Knowdelge Discovery 2008, pp. 620 - 624 Sách, tạp chí
Tiêu đề: Proc. of the Conf on Fifth International Fuzzy Systems and "Knowdelge Discovery 2008
Tác giả: Fang, G., & Deng, Z.-H
Năm: 2008
[18] Grahne, G., & Zhu, J. (2005). Fast algorithms for frequent itemset mining using FP-trees. Proc. of Conf on IEEE Transactions on Knowledge anh Data Mining and Data Engineering, 17(10), pp. 1347-1362 Sách, tạp chí
Tiêu đề: Proc. of Conf on IEEE Transactions on Knowledge anh Data "Mining and Data Engineering, 17(10)
Tác giả: Grahne, G., & Zhu, J
Năm: 2005
[20] Han, J., & Fu, F. (1995). Discovery of multiple-level association rules from large databases. Proc. of 21th conf on Very Largr Databases, (pp. 420-431).Zurich, pp. 420-431 Sách, tạp chí
Tiêu đề: Proc. of 21th conf on Very Largr Databases
Tác giả: Han, J., & Fu, F
Năm: 1995
[21] Khan, M. S., Muyeba, M., & Coenen, F. (2008). A weighted utility framework for mining association rules. Proc. of conf on IEEE European Modeling Symposium, pp. 87-92 Sách, tạp chí
Tiêu đề: Proc. of conf on IEEE European Modeling "Symposium
Tác giả: Khan, M. S., Muyeba, M., & Coenen, F
Năm: 2008
[22] Lan, C. G., Hong, P. T., & Lee, Y. H. (2014). An efficient approach for finding weighted sequential patterns from sequence databases. Applied Intelligence, 41(2), pp. 439-452 Sách, tạp chí
Tiêu đề: Applied "Intelligence, 41(2)
Tác giả: Lan, C. G., Hong, P. T., & Lee, Y. H
Năm: 2014

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w