Phát triển một số thuật toán hiệu quả khai thác tập mục trên cơ sở dữ liệu có sự phân cấp các mục

120 10 0
Phát triển một số thuật toán hiệu quả khai thác tập mục trên cơ sở dữ liệu có sự phân cấp các mục

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN DUY HÀM PHÁT TRIỂN MỘT SỐ THUẬT TOÁN HIỆU QUẢ KHAI THÁC TẬP MỤC TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG CÓ SỰ PHÂN CẤP CÁC MỤC LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN DUY HÀM PHÁT TRIỂN MỘT SỐ THUẬT TOÁN HIỆU QUẢ KHAI THÁC TẬP MỤC TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG CÓ SỰ PHÂN CẤP CÁC MỤC Chuyên ngành: CƠ SỞ TOÁN CHO TIN HỌC Mã số: 62460110 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN THỊ HỒNG MINH PGS.TS VÕ ĐÌNH BẢY XÁC NHẬN NCS ĐÃ CHỈNH SỬA THEO QUYẾT NGHỊ CỦA HỘI ĐỒNG ĐÁNH GIÁ LUẬN ÁN Ngƣời hƣớng dẫn khoa học Chủ tịch hội đồng đánh giá Luận án Tiến sĩ TS Nguyễn Thị Hồng Minh PGS.TS Huỳnh Quyết Thắng Hà Nội - 2016 LỜI CAM ĐOAN Tôi xin cam đoan luận án cơng trình nghiên cứu tác giả thực dƣới hƣớng dẫn tập thể cán hƣớng dẫn Luận án có sử dụng thơng tin trích dẫn từ nhiều nguồn tham khảo khác nhau, thông tin trích dẫn đƣợc ghi rõ nguồn gốc Các số liệu thực nghiệm, kết nghiên cứu trình bày luận án hoàn toàn trung thực, chƣa đƣợc cơng bố tác giả hay cơng trình khác Tác giả Nguyễn Duy Hàm i LỜI CẢM ƠN Luận án Tiến sĩ đƣợc thực trƣờng Đại học Khoa học Tự nhiên Đại học Quốc gia Hà Nội với hƣớng dẫn khoa học TS Nguyễn Thị Hồng Minh, PGS.TS.Võ Đình Bảy TS Lê Quang Minh Nghiên cứu sinh xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo, cô giáo hƣớng dẫn định hƣớng khoa học, tận tâm giúp đỡ bảo tỉ mỉ suốt q trình nghiên cứu hồn thiện luận án Nghiên cứu sinh ghi nhớ công lao dạy dỗ, dìu dắt vào đƣờng khoa học cố PGS.TS Hồng Chí Thành - ngƣời hƣớng dẫn Nghiên cứu sinh giai đoạn đầu làm nghiên cứu khoa học Nghiên cứu sinh xin chân thành cảm ơn nhà khoa học, tác giả cơng trình nghiên cứu đƣợc trích dẫn luận án nguồn tài liệu quý báu để Nghiên cứu sinh phát triển hồn thiện cơng bố Nghiên cứu sinh xin chân thành cảm ơn Ban Giám hiệu, lãnh đạo Khoa Toán Cơ - Tin học, thầy cô, giảng viên Bộ môn Tin học - Trƣờng Đại học Khoa học Tự nhiên - Đại học Quốc gia Hà Nội tạo điều kiện thuận lợi để Nghiên cứu sinh hồn thành chƣơng trình học tập thực hoàn tất luận án Nghiên cứu sinh xin chân thành cảm ơn Ban Giám hiệu Trƣờng Đại học An ninh nhân dân, tập thể giáo viên Bộ mơn Tốn - Tin học Trƣờng Đại học An ninh nhân dân nơi Nghiên cứu sinh công tác bạn bè thân thiết tạo điều kiện, động viên, khuyến khích hỗ trợ tối đa để Nghiên cứu sinh hoàn thành luận án Cuối cùng, xin cảm ơn Bố Mẹ, đặc biệt Mẹ - ngƣời hy sinh tất nghiệp học tập con, tiếc mẹ không đợi đƣợc đến ngày hồn thành luận án Xin cảm ơn gia đình, chị gái em đồng hành, động viên, chia sẻ giúp trì nhiệt huyết nghị lực để đến hoàn thành luận án này./ TP Hồ Chí Minh, tháng ii năm 2016 MỤC LỤC LỜI CAM ĐOAN I LỜI CẢM ƠN II MỤC LỤC III DANH MỤC BẢNG V DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ VII DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT X MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ KHAI THÁC TẬP MỤC 1.1 Bài toán khai thác tập mục 1.1.1 Một số khái niệm 1.1.2 Bài toán khai thác FI 15 1.2 Các phƣơng pháp khai thác FI 15 1.2.1 Phƣơng pháp khai thác FI CSDL ngang 15 1.2.2 Phƣơng pháp khai thác FI CSDL dọc dựa IT-tree 18 1.3 Một số phƣơng pháp khai thác FWI FWUI CSDL số lƣợng 21 1.3.1 Giới thiệu 21 1.3.2 Khai thác FWI 21 1.3.3 Khai thác FWUI 24 1.3.4 Khai thác TRFIk 26 1.4 Khai thác FI CSDL có phân cấp mục 28 1.5 Tiếp cận bit-vector khai thác FI 31 1.6 Kết luận chƣơng 32 CHƢƠNG KHAI THÁC TẬP MỤC PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG 35 2.1 Thuật toán khai thác tập FWI 36 2.1.1 Giới thiệu 36 2.1.2 Thuật tốn tính giao hai IWS 40 2.1.3 Thuật toán khai thác FWI 42 2.1.4 Kết thực nghiệm 48 2.2 Thuật toán khai thác FWUI 54 2.2.1 Cấu trúc Multi bit segment 54 2.2.2 Thuật toán xác định giao MBiS 55 2.2.3 Thuật toán khai thác FWUI dựa MBiS-tree 56 2.2.4 Kết thực nghiệm 59 iii 2.3 Thuật toán khai thác TRFWUIk 63 2.3.1 Một số khái niệm 63 2.3.2 Cấu trúc DTab 64 2.3.3 Cấu trúc TR-tree 65 2.3.4 Thuật toán khai thác TRFWUIk sử dụng cấu trúc liệu DTab 65 2.3.5 Thuật toán khai thác nhanh TRFWUIk dựa cấu trúc DHeap 68 2.3.6 Kết thực nghiệm 70 2.4 Kết luận chƣơng 73 CHƢƠNG KHAI THÁC TẬP MỤC PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG CÓ SỰ PHÂN CẤP CÁC MỤC 75 3.1 Giới thiệu toán 76 3.2 Thuật toán khai thác FWUI HQDB 79 3.2.1 Thuật toán xác định weight cho mục cha 79 3.2.2 Thuật toán thêm mục cha vào CSDL 80 3.2.3 Thuật toán khai thác FWUI 81 3.3 Một số cải tiến nâng cao hiệu khai thác FWUI HQDB 84 3.3.1 Cấu trúc EDBV 84 3.3.2 Tính tidset nút cha từ tidset nút 89 3.3.3 Kiểm tra mối quan hệ cha mục tập mục 91 3.3.4 Thuật toán khai thác nhanh FWUI HQDB 92 3.4 Kết thực nghiệm 93 3.4.1 CSDL thực nghiệm 93 3.4.2 Kết thực nghiệm 94 3.5 Kết luận chƣơng 100 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 101 DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 103 iv DANH MỤC BẢNG Bảng 1.1 Các giao dịch nhị phân DB Bảng 1.2 Các giao dịch CSDL nhị phân có phân cấp mục DB Bảng 1.3 ID mục DB 10 Bảng 1.4 Các giao dịch DB ID 10 Bảng 1.5 Giao dịch CSDL số lƣợng BD 12 Bảng 1.6 Trọng số mục DB 12 Bảng 1.7 Các giao dịch CSDL trọng số DB 13 Bảng 1.8 Trọng số mục DB 13 Bảng 1.9 CSDL DB 15 Bảng 1.10 DB theo chiều dọc 19 Bảng 1.11 Giá trị tw CSDL DB ví dụ 1.4 23 Bảng 1.12 twu giao dịch DB ví dụ 1.4 25 Bảng 1.13 DB Ví dụ 1.2 sau thêm mục cha 30 Bảng 2.1 Bit-vector 36 Bảng 2.2 DBV bit-vector ví dụ 2.1 36 Bảng 2.3 IWS từ bit-vector ví dụ 2.1 37 Bảng 2.4 Chỉ số bit IWS(X) 39 Bảng 2.5 Mảng MAP 42 Bảng 2.6 IWS mục 46 Bảng 2.7 Mô tả CSDL thực nghiệm 49 Bảng 2.8 Bit-vector với 96 phần tử 54 Bảng 2.9 MBiS từ bit-vector Bảng 2.8 55 Bảng 2.10 Bảng TRFWUIk 64 Bảng 3.1 Giao dịch HD 76 Bảng 3.2 Trọng số 76 Bảng 3.3 Tên mặt hàng mục 77 v Bảng 3.4 Giao dịch HD 82 Bảng 3.5 Trọng số 82 Bảng 3.6 twu giao dịch 83 Bảng 3.7 Tập 1-itemset phổ biến 83 Bảng 3.8 Mảng MAP với 65.535 phần tử 86 Bảng 3.9 Biểu diễn số nguyên K dƣới dạng bốn đoạn, đoạn word 86 Bảng 3.10 Mô tả CSDL 93 Bảng 3.11 Các mức phân cấp 93 Bảng 3.12 So sánh nhớ số lƣợng mục 94 Bảng 3.13 Thực nghiệm CSDL SALE-FACT-SYNC 95 Bảng 3.14 So sánh thời gian chạy CSDL SALE-FACT-1997 99 vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Cây phân cấp Tr 10 Hình 1.2 Cây phân cấp Tr biểu diễn theo ID 11 Hình 1.3 Thuật tốn Apriori khai thác tập mục phổ biến 16 Hình 1.4 Thuật toán FP-Growth dựa cấu trúc FP-tree 17 Hình 1.5 Thuật tốn Eclat dựa cấu trúc IT-tree 19 Hình 1.6 Cây IT tree với minsup = 0,5 CSDL DB 20 Hình 2.1 Thuật toán xác định giao hai IWS 41 Hình 2.2 Thuật tốn tính ws tập mục X 43 Hình 2.3 Thuật tốn xây dựng IWS-tree 45 Hình 2.4 Thuật toán khai thác FWI dựa IWS-tree 45 Hình 2.5 IWS-tree với nút A(minws = 0,4) 46 Hình 2.6 IWS-tree với nútA vàB(minws = 0,4) 47 Hình 2.7 IWS-tree với minws = 0,4 48 Hình 2.8 So sánh thời gian chạy với CSDL RETAIL 49 Hình 2.9 So sánh thời gian chạy với CSDL BMS-POS 49 Hình 2.10 So sánh thời gian chạy với CSDL SALE-FACT-1997 50 Hình 2.11 So sánh thời gian chạy với CSDL SALE-FACT-1997+1998 50 Hình 2.12 So sánh thời gian chạy với CSDL SALE-FACT-SYNC 50 Hình 2.13 So sánh thời gian chạy với CSDL CONNECT 50 Hình 2.14 So sánh thời gian chạy với CSDL ACCIDENTS 51 Hình 2.15 So sánh nhớ sử dụng với CSDL RETAIL 51 Hình 2.16 So sánh nhớ sử dụng với CSDL BMS-POS 51 Hình 2.17 So sánh nhớ sử dụng với CSDL SALE-FACT-1997 51 Hình 2.18 So sánh nhớ sử dụng với CSDL SALE-FACT-1997+1998 52 vii Hình 2.19 So sánh nhớ sử dụng với CSDL SALE-FACT-SYNC 52 Hình 2.20 So sánh nhớ sử dụng với CSDL CONNECT 52 Hình 2.21 So sánh nhớ sử dụng với CSDL ACCIDENT 52 Hình 2.22 Thuật tốn xác định giao hai MBiS 56 Hình 2.23 Thuật tốn tính wus dựa MBiS 57 Hình 2.24 Thuật toán khai thác FWUI dựa MBiS-tree 58 Hình 2.25 So sánh thời gian chạy CSDL RETAIL 59 Hình 2.26 So sánh thời gian chạy CSDL BMS-POS 59 Hình 2.27 So sánh thời gian chạy CSDL SALE-FACT-1997 60 Hình 2.28 So sánh thời gian chạy CSDL SALE-FACT-1997+1998 60 Hình 2.29 So sánh thời gian chạy CSDL SALE-FACT-SYNC 60 Hình 2.30 So sánh thời gian chạy CSDL CONNECT 60 Hình 2.31 So sánh thời gian chạy CSDL ACCIDENTS 61 Hình 2.32 So sánh nhớ sử dụng CSDL RETAIL 61 Hình 2.33 So sánh nhớ sử dụng CSDL BMS-POS 61 Hình 2.34 So sánh nhớ sử dụng CSDL SALE-FACT-1997 61 Hình 2.35 So sánh nhớ sử dụng CSDL SALE-FACT-1997+1998 62 Hình 2.36 So sánh nhớ sử dụng CSDL SALE-FACT-SYNC 62 Hình 2.37 So sánh nhớ sử dụng CSDL CONNECT 62 Hình 2.38 So sánh nhớ sử dụng CSDL ACCIDENT 62 Hình 2.39 DTab với k = 65 Hình 2.40 Thuật tốn tạo TR-tree sử dụng DTab 67 Hình 2.41 Thuật tốn lọc TRFWUIk 68 Hình 2.42 DHeap với k = với CSDL ví dụ 1.4 69 Hình 2.43 Thuật tốn tạo TR-tree sử dụng DHeap 70 viii ... DUY HÀM PHÁT TRIỂN MỘT SỐ THUẬT TOÁN HIỆU QUẢ KHAI THÁC TẬP MỤC TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG CÓ SỰ PHÂN CẤP CÁC MỤC Chuyên ngành: CƠ SỞ TOÁN CHO TIN HỌC Mã số: 62460110 LUẬN ÁN TIẾN SĨ TOÁN HỌC... CHƢƠNG KHAI THÁC TẬP MỤC PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG CÓ SỰ PHÂN CẤP CÁC MỤC 75 3.1 Giới thiệu toán 76 3.2 Thuật toán khai thác FWUI HQDB 79 3.2.1 Thuật toán. .. cứu khai thác tập mục CSDL số lƣợng có phân cấp mục chƣa đƣợc quan tâm Do vậy, 33 toán khai thác tập mục CSDL số lƣợng có phân cấp mục cần đƣợc đặt nghiên cứu Đề xuất thuật toán khai thác hiệu

Ngày đăng: 10/03/2021, 14:26

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan