Luận văn Thạc sĩ Khoa học: Phát triển một số thuật toán hiệu quả khai thác tập mục trên cơ sở dữ liệu số lượng có sự phân cấp các mục
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN DUY HÀM PHÁT TRIỂN MỘT SỐ THUẬT TOÁN HIỆU QUẢ KHAI THÁC TẬP MỤC TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG CÓ SỰ PHÂN CẤP CÁC MỤC LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN DUY HÀM PHÁT TRIỂN MỘT SỐ THUẬT TOÁN HIỆU QUẢ KHAI THÁC TẬP MỤC TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG CÓ SỰ PHÂN CẤP CÁC MỤC Chuyên ngành: CƠ SỞ TOÁN CHO TIN HỌC Mã số: 62460110 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN THỊ HỒNG MINH PGS.TS VÕ ĐÌNH BẢY XÁC NHẬN NCS ĐÃ CHỈNH SỬA THEO QUYẾT NGHỊ CỦA HỘI ĐỒNG ĐÁNH GIÁ LUẬN ÁN Ngƣời hƣớng dẫn khoa học Chủ tịch hội đồng đánh giá Luận án Tiến sĩ TS Nguyễn Thị Hồng Minh PGS.TS Huỳnh Quyết Thắng Hà Nội - 2016 LỜI CAM ĐOAN Tôi xin cam đoan luận án cơng trình nghiên cứu tác giả thực dƣới hƣớng dẫn tập thể cán hƣớng dẫn Luận án có sử dụng thơng tin trích dẫn từ nhiều nguồn tham khảo khác nhau, thông tin trích dẫn đƣợc ghi rõ nguồn gốc Các số liệu thực nghiệm, kết nghiên cứu trình bày luận án hoàn toàn trung thực, chƣa đƣợc cơng bố tác giả hay cơng trình khác Tác giả Nguyễn Duy Hàm i LỜI CẢM ƠN Luận án Tiến sĩ đƣợc thực trƣờng Đại học Khoa học Tự nhiên Đại học Quốc gia Hà Nội với hƣớng dẫn khoa học TS Nguyễn Thị Hồng Minh, PGS.TS.Võ Đình Bảy TS Lê Quang Minh Nghiên cứu sinh xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo, cô giáo hƣớng dẫn định hƣớng khoa học, tận tâm giúp đỡ bảo tỉ mỉ suốt q trình nghiên cứu hồn thiện luận án Nghiên cứu sinh ghi nhớ công lao dạy dỗ, dìu dắt vào đƣờng khoa học cố PGS.TS Hồng Chí Thành - ngƣời hƣớng dẫn Nghiên cứu sinh giai đoạn đầu làm nghiên cứu khoa học Nghiên cứu sinh xin chân thành cảm ơn nhà khoa học, tác giả cơng trình nghiên cứu đƣợc trích dẫn luận án nguồn tài liệu quý báu để Nghiên cứu sinh phát triển hồn thiện cơng bố Nghiên cứu sinh xin chân thành cảm ơn Ban Giám hiệu, lãnh đạo Khoa Toán Cơ - Tin học, thầy cô, giảng viên Bộ môn Tin học - Trƣờng Đại học Khoa học Tự nhiên - Đại học Quốc gia Hà Nội tạo điều kiện thuận lợi để Nghiên cứu sinh hồn thành chƣơng trình học tập thực hoàn tất luận án Nghiên cứu sinh xin chân thành cảm ơn Ban Giám hiệu Trƣờng Đại học An ninh nhân dân, tập thể giáo viên Bộ mơn Tốn - Tin học Trƣờng Đại học An ninh nhân dân nơi Nghiên cứu sinh công tác bạn bè thân thiết tạo điều kiện, động viên, khuyến khích hỗ trợ tối đa để Nghiên cứu sinh hoàn thành luận án Cuối cùng, xin cảm ơn Bố Mẹ, đặc biệt Mẹ - ngƣời hy sinh tất nghiệp học tập con, tiếc mẹ không đợi đƣợc đến ngày hồn thành luận án Xin cảm ơn gia đình, chị gái em đồng hành, động viên, chia sẻ giúp trì nhiệt huyết nghị lực để đến hoàn thành luận án này./ TP Hồ Chí Minh, tháng ii năm 2016 MỤC LỤC LỜI CAM ĐOAN I LỜI CẢM ƠN II MỤC LỤC III DANH MỤC BẢNG V DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ VII DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT X MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ KHAI THÁC TẬP MỤC 1.1 Bài toán khai thác tập mục 1.1.1 Một số khái niệm 1.1.2 Bài toán khai thác FI 15 1.2 Các phƣơng pháp khai thác FI 15 1.2.1 Phƣơng pháp khai thác FI CSDL ngang 15 1.2.2 Phƣơng pháp khai thác FI CSDL dọc dựa IT-tree 18 1.3 Một số phƣơng pháp khai thác FWI FWUI CSDL số lƣợng 21 1.3.1 Giới thiệu 21 1.3.2 Khai thác FWI 21 1.3.3 Khai thác FWUI 24 1.3.4 Khai thác TRFIk 26 1.4 Khai thác FI CSDL có phân cấp mục 28 1.5 Tiếp cận bit-vector khai thác FI 31 1.6 Kết luận chƣơng 32 CHƢƠNG KHAI THÁC TẬP MỤC PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG 35 2.1 Thuật toán khai thác tập FWI 36 2.1.1 Giới thiệu 36 2.1.2 Thuật tốn tính giao hai IWS 40 2.1.3 Thuật toán khai thác FWI 42 2.1.4 Kết thực nghiệm 48 2.2 Thuật toán khai thác FWUI 54 2.2.1 Cấu trúc Multi bit segment 54 2.2.2 Thuật toán xác định giao MBiS 55 2.2.3 Thuật toán khai thác FWUI dựa MBiS-tree 56 2.2.4 Kết thực nghiệm 59 iii 2.3 Thuật toán khai thác TRFWUIk 63 2.3.1 Một số khái niệm 63 2.3.2 Cấu trúc DTab 64 2.3.3 Cấu trúc TR-tree 65 2.3.4 Thuật toán khai thác TRFWUIk sử dụng cấu trúc liệu DTab 65 2.3.5 Thuật toán khai thác nhanh TRFWUIk dựa cấu trúc DHeap 68 2.3.6 Kết thực nghiệm 70 2.4 Kết luận chƣơng 73 CHƢƠNG KHAI THÁC TẬP MỤC PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG CÓ SỰ PHÂN CẤP CÁC MỤC 75 3.1 Giới thiệu toán 76 3.2 Thuật toán khai thác FWUI HQDB 79 3.2.1 Thuật toán xác định weight cho mục cha 79 3.2.2 Thuật toán thêm mục cha vào CSDL 80 3.2.3 Thuật toán khai thác FWUI 81 3.3 Một số cải tiến nâng cao hiệu khai thác FWUI HQDB 84 3.3.1 Cấu trúc EDBV 84 3.3.2 Tính tidset nút cha từ tidset nút 89 3.3.3 Kiểm tra mối quan hệ cha mục tập mục 91 3.3.4 Thuật toán khai thác nhanh FWUI HQDB 92 3.4 Kết thực nghiệm 93 3.4.1 CSDL thực nghiệm 93 3.4.2 Kết thực nghiệm 94 3.5 Kết luận chƣơng 100 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 101 DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 103 iv DANH MỤC BẢNG Bảng 1.1 Các giao dịch nhị phân DB Bảng 1.2 Các giao dịch CSDL nhị phân có phân cấp mục DB Bảng 1.3 ID mục DB 10 Bảng 1.4 Các giao dịch DB ID 10 Bảng 1.5 Giao dịch CSDL số lƣợng BD 12 Bảng 1.6 Trọng số mục DB 12 Bảng 1.7 Các giao dịch CSDL trọng số DB 13 Bảng 1.8 Trọng số mục DB 13 Bảng 1.9 CSDL DB 15 Bảng 1.10 DB theo chiều dọc 19 Bảng 1.11 Giá trị tw CSDL DB ví dụ 1.4 23 Bảng 1.12 twu giao dịch DB ví dụ 1.4 25 Bảng 1.13 DB Ví dụ 1.2 sau thêm mục cha 30 Bảng 2.1 Bit-vector 36 Bảng 2.2 DBV bit-vector ví dụ 2.1 36 Bảng 2.3 IWS từ bit-vector ví dụ 2.1 37 Bảng 2.4 Chỉ số bit IWS(X) 39 Bảng 2.5 Mảng MAP 42 Bảng 2.6 IWS mục 46 Bảng 2.7 Mô tả CSDL thực nghiệm 49 Bảng 2.8 Bit-vector với 96 phần tử 54 Bảng 2.9 MBiS từ bit-vector Bảng 2.8 55 Bảng 2.10 Bảng TRFWUIk 64 Bảng 3.1 Giao dịch HD 76 Bảng 3.2 Trọng số 76 Bảng 3.3 Tên mặt hàng mục 77 v Bảng 3.4 Giao dịch HD 82 Bảng 3.5 Trọng số 82 Bảng 3.6 twu giao dịch 83 Bảng 3.7 Tập 1-itemset phổ biến 83 Bảng 3.8 Mảng MAP với 65.535 phần tử 86 Bảng 3.9 Biểu diễn số nguyên K dƣới dạng bốn đoạn, đoạn word 86 Bảng 3.10 Mô tả CSDL 93 Bảng 3.11 Các mức phân cấp 93 Bảng 3.12 So sánh nhớ số lƣợng mục 94 Bảng 3.13 Thực nghiệm CSDL SALE-FACT-SYNC 95 Bảng 3.14 So sánh thời gian chạy CSDL SALE-FACT-1997 99 vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Cây phân cấp Tr 10 Hình 1.2 Cây phân cấp Tr biểu diễn theo ID 11 Hình 1.3 Thuật tốn Apriori khai thác tập mục phổ biến 16 Hình 1.4 Thuật toán FP-Growth dựa cấu trúc FP-tree 17 Hình 1.5 Thuật tốn Eclat dựa cấu trúc IT-tree 19 Hình 1.6 Cây IT tree với minsup = 0,5 CSDL DB 20 Hình 2.1 Thuật toán xác định giao hai IWS 41 Hình 2.2 Thuật tốn tính ws tập mục X 43 Hình 2.3 Thuật tốn xây dựng IWS-tree 45 Hình 2.4 Thuật toán khai thác FWI dựa IWS-tree 45 Hình 2.5 IWS-tree với nút A(minws = 0,4) 46 Hình 2.6 IWS-tree với nútA vàB(minws = 0,4) 47 Hình 2.7 IWS-tree với minws = 0,4 48 Hình 2.8 So sánh thời gian chạy với CSDL RETAIL 49 Hình 2.9 So sánh thời gian chạy với CSDL BMS-POS 49 Hình 2.10 So sánh thời gian chạy với CSDL SALE-FACT-1997 50 Hình 2.11 So sánh thời gian chạy với CSDL SALE-FACT-1997+1998 50 Hình 2.12 So sánh thời gian chạy với CSDL SALE-FACT-SYNC 50 Hình 2.13 So sánh thời gian chạy với CSDL CONNECT 50 Hình 2.14 So sánh thời gian chạy với CSDL ACCIDENTS 51 Hình 2.15 So sánh nhớ sử dụng với CSDL RETAIL 51 Hình 2.16 So sánh nhớ sử dụng với CSDL BMS-POS 51 Hình 2.17 So sánh nhớ sử dụng với CSDL SALE-FACT-1997 51 Hình 2.18 So sánh nhớ sử dụng với CSDL SALE-FACT-1997+1998 52 vii Hình 2.19 So sánh nhớ sử dụng với CSDL SALE-FACT-SYNC 52 Hình 2.20 So sánh nhớ sử dụng với CSDL CONNECT 52 Hình 2.21 So sánh nhớ sử dụng với CSDL ACCIDENT 52 Hình 2.22 Thuật tốn xác định giao hai MBiS 56 Hình 2.23 Thuật tốn tính wus dựa MBiS 57 Hình 2.24 Thuật toán khai thác FWUI dựa MBiS-tree 58 Hình 2.25 So sánh thời gian chạy CSDL RETAIL 59 Hình 2.26 So sánh thời gian chạy CSDL BMS-POS 59 Hình 2.27 So sánh thời gian chạy CSDL SALE-FACT-1997 60 Hình 2.28 So sánh thời gian chạy CSDL SALE-FACT-1997+1998 60 Hình 2.29 So sánh thời gian chạy CSDL SALE-FACT-SYNC 60 Hình 2.30 So sánh thời gian chạy CSDL CONNECT 60 Hình 2.31 So sánh thời gian chạy CSDL ACCIDENTS 61 Hình 2.32 So sánh nhớ sử dụng CSDL RETAIL 61 Hình 2.33 So sánh nhớ sử dụng CSDL BMS-POS 61 Hình 2.34 So sánh nhớ sử dụng CSDL SALE-FACT-1997 61 Hình 2.35 So sánh nhớ sử dụng CSDL SALE-FACT-1997+1998 62 Hình 2.36 So sánh nhớ sử dụng CSDL SALE-FACT-SYNC 62 Hình 2.37 So sánh nhớ sử dụng CSDL CONNECT 62 Hình 2.38 So sánh nhớ sử dụng CSDL ACCIDENT 62 Hình 2.39 DTab với k = 65 Hình 2.40 Thuật tốn tạo TR-tree sử dụng DTab 67 Hình 2.41 Thuật tốn lọc TRFWUIk 68 Hình 2.42 DHeap với k = với CSDL ví dụ 1.4 69 Hình 2.43 Thuật tốn tạo TR-tree sử dụng DHeap 70 viii Product_subcategory 56 Product_class 110 Product 1560 Theo Bảng 3.11 CSDL thực nghiệm có ba phân cấp (mức có ba nút) Độ cao phân cấp sáu (có sáu cấp) 3.4.2 Kết thực nghiệm 3.4.2.1 So sánh nhớ Bảng 3.12 So sánh nhớ số lƣợng mục CSDL SALE-FACT-1997 SALE-FACT1997+1998 SALE-FACT-SYNC So sánh MINE_FWUIs FAST_MINE_FWUIs Số lƣợng mục 275.539 86.837 Bộ nhớ 13,52 MB 4,65 MB Số lƣợng mục 783.639 251.395 Bộ nhớ 38,16 MB 13,46 MB Số lƣợng mục 840.079 269.720 Bộ nhớ 40,92 MB 14,44 MB Bảng 3.12 thể việc thêm không thêm mục thuộc mục cha phân cấp hai thuật toán MINE_FWUIs FAST_MINE_FWUIs Số lƣợng mục dung lƣợng nhớ tăng lên đáng kể sau thêm mục cha phân cấp vào CSDL Ví dụ với CSDL SALE-FACT-1997, số lƣợng mục ban đầu 86.837, sau thêm mục cha 275.539, nhƣ việc thêm mục cha phân cấp làm số lƣợng mục tăng 317% Tƣơng tự nhƣ vậy, dung lƣợng liệu 4,65 MB, sau thêm mục cha 13,52 MB, nhƣ dung lƣợng liệu tăng 290% 3.4.2.2 Thực nghiệm với hàm MAX SUM Khi sử dụng hàm MAX SUM để xác định trọng số số lƣợng mục nút cha có bốn trƣờng hợp xảy gồm: (max, max), (max, sum), (sum, sum), (sum, max) Trong cặp (max, max) nghĩa sử dụng hàm MAX xác định trọng số số lƣợng, tƣơng tự cho cặp lại 94 Trong mục này, luận án thống kê số lƣợng tỉ lệ G-FWUI (Generalized FWUI: FWUI chứa mục cha phân cấp) CSDL SALE-FACT-SYNC với 02 ngƣỡng minwus nhỏ 0,001% 0,003% Đồng thời, so sánh số lƣợng tỉ lệ G-FWUI khai thác đƣợc sử dụng cặp hàm (max, max) (sum, sum) xác định trọng số mục cha số lƣợng mục cha giao dịch Bảng 3.13 Thực nghiệm CSDL SALE-FACT-SYNC Số cấp minwus = 0,001% minwus = 0,003% G-FWUI G-FWUI (max, max) % (sum, sum) Số lƣợng % (max, max) Số lƣợng % Số lƣợng 1559 4.528 (sum, sum) % Số lƣợng 102 65,57% 73,99% 5.993 62,3% 818 87,53% 1.719 92,84% 21.783 95,48% 34.476 90,50% 4.128 97,52% 6.821 98,49% 103.292 99,16% 185.371 97,88% 1.906 99,43% 30.612 98,97% 151.435 99,43% 274.248 98,58% 26.580 99,62% 45.827 Số liệu thực nghiệm từ bảng 3.13 với CSDL SALE-FACT-SYNC cho thấy có độ cao lớn số lƣợng FWUI khai thác đƣợc lớn, điều hợp lý có nhiều mục cha đƣợc thêm vào CSDL Tƣơng tự nhƣ thế, số lƣợng G-FWUI đƣợc khai thác nhiều So sánh tỉ lệ số lƣợng G-FWUI khai thác đƣợc sử dụng cặp hàm (sum, sum) (max, max) có khác biệt đáng kể, số lƣợng sử dụng cặp hàm (sum, sum) lớn nhiều so với cặp hàm (max, max) ngƣỡng phổ biến wus Ví dụ với wus = 0,003% phân cấp có sáu cấp, số lƣợng G-FWUI sử dụng cặp hàm (max, max) 26.580, sử dụng cặp hàm (sum, sum) 45.827 Do sử dụng cặp hàm (sum, sum) tạo mục cha có số lƣợng trọng số lớn sử dụng 95 cặp hàm (max, max), nên mục nút cha tạo nhiều G-FWUI kết hợp với mục CSDL có trọng số số lƣợng nhỏ Đây lý mà sử dụng cặp hàm (sum, sum) tạo nhiều G-FWUI so với cặp hàm lại Tùy theo CSDL thực tế nhƣ mà việc xác định trọng số hay số lƣợng mục nút cha sử dụng cặp hàm bốn cặp cho phù hợp 3.4.2.3 So sánh thời gian Kết thực nghiệm ba CSDL cho Bảng 3.10 với thuật toán MINE_FWUIs sử dụng cấu trúc DBV, MBiS, EDBV EIWS đƣợc time (s) hình 3.10-3.12: 350 300 250 200 150 100 050 000 DBV 308,02 MBiS 234,82 EDBV 174,82 156,32 EIWS 000 000 000 000 minwus (%) 000 000 time(s) Hình 3.10 So sánh thời gian CSDL SALE-FACT-1997 3000 2500 2000 1500 1000 500 DBV MBiS SDBV EIWS 0.3 2634,16 2228,732 1028,981 899,458 0.2 0.1 0.06 minwus(%) 0.03 0.01 Hình 3.11 So sánh thời gian CSDLSALE-FACT-1997+1998 96 3000 time(s) 2500 2000 DBV 2757,776 MBiS 2109,512 EDBV 1500 1292,55 EIWS 1000 910,23 500 0.3 0.2 0.1 0.06 0.03 0.01 minwus(%) Hình 3.12 So sánh thời gian CSDL SALE-FACT-SYNC Hình 3.10-3.12 so sánh thời gian chạy bốn cấu trúc DBV, MBiS, EDBV EIWS với thuật toán MIN_FWUIs Kết thực nghiệm thuật toán MINE_FWUIs hiệu sử dụng cấu trúc EIWS Ví dụ, CSDL SALE-FACT-1997, với ngƣỡng minwus = 0,01%, thời gian chạy với DBV, MBiS, EDBV EIWS lần lƣợt 308,02s, 234,82s, 174,82s 156,32s Nhƣ EIWS nhanh EDBV, MBiS vàDBV lần lƣợt 1,12; 1,34 1,76 lần Cũng nhƣ kết thực nghiệm chƣơng 2, cấu trúc IWS MBiS có hiệu CSDL thƣờng CSDL thƣa Do khai thác tập mục phổ biến CSDL số lƣợng có phân cấp mục có kết tƣơng tự Ngồi ra, ta thấy thời gian khai thác FWUI CSDL số lƣợng có phân cấp lớn so với CSDL số lƣợng thông thƣờng (cùng so sánh CSDL SALE-FACT) việc thêm mục nút cha phân cấp vào CSDL phải xác định trọng số, số lƣợng cho mục Đồng thời q trình khai thác ln phải kiểm tra mối quan hệ cha mục tập mục tạo thành Mặt khác, sau thêm mục nút cha vào CSDL, CSDL tạo thành lớn CSDL gốc cần nhiều thời gian để khai thác CSDL so với CSDL gốc Kết thực nghiệm với thuật toán FAST_MINE_FWUIs MINE_FWUIs đƣợc trình bày qua Hình 3.13-3.15: 97 200 MINE_FWUIs- EIWS time(s) 150 156,321 FAST_MINE_FWUIs-EIWS 100 50 45,563 0.3 0.2 0.1 0.06 minwus(%) 0.03 0.01 Hình 3.13 So sánh thời gian CSDL SALE-FACT-1997 1000 MINE_FWUIs-EIWS time(s) 800 393,452 FAST_MINE_FWUIs-EIWS 600 400 899,458 200 0.3 0.2 0.1 0.06 minwus(%) 0.03 0.01 Hình 3.14 So sánh thời gian CSDL SALE-FACT-1997+1998 time(s) 1500 1000 MINE_FWUIs - EIWS 495,872 FAST_MINE_FWUIs -EIWS 1021,441 500 0.3 0.2 0.1 0.06 minwus(%) 0.03 0.01 Hình 3.15 So sánh thời gian CSDL SALE-FACT-SYNC Hình 3.13-3.15 hiệu thuật toán FAST_MINE_FWUIs so với MINE_FWUIs sử dụng cấu trúc EIWS Điều thể ƣu điểm việc không chèn thêm mục cha vào CSDL xác định nhanh mối quan hệ cha tập mục tạo thành từ hai tập mục lớp tƣơng đƣơng HIT-tree Cụ thể ta có kết CSDL SALE-FACT1997 nhƣ Bảng 3.14 sau đây: 98 Bảng 3.14 So sánh thời gian chạy CSDL SALE-FACT-1997 MINE_FWUIs Thuật toán FAST_MINE_FWUIs DBV MBiS EDBV EIWS EDBV EIWS 0,3% 18,41 16,68 11,68 6,21 4,68 2,33 0,2% 45,59 33,53 21,53 12,38 11,53 6,43 0,1% 57,26 42,03 26,03 19,32 17,03 10,12 0,06% 71,82 60,92 30,923 28,41 24,92 14,24 0,03% 121,46 90,76 52,76 45,46 30,76 18,54 0,01% 308,02 234,82 174,13 156,32 90,65 45,56 minwus Từ bảng 3.14, với minwus = 0,01% thuật tốn FAST_MINE_FWUIs với cấu trúc EDBV có thời gian chạy 90,65s nhanh thuật toán MINE_FWUIs (174,13s) 1,93 lần Điều cho thấy tính hiệu việc không thêm mục cha vào CSDL việc xác định nhanh mối quan hệ cha mục tập mục tạo thành từ hai tập mục lớp tƣơng đƣơng HIT-tree Bên cạnh đó, cấu trúc EIWS cho thấy hiệu tốt so với phƣơng pháp khác Ví dụ với minwus = 0,01%, thuật tốn FAST_MINE_FWUIs với cấu trúc EDBV có thời gian chạy 90,65s, với cấu trúc EIWS có thời gian chạy 45,56s Nhƣ sử dụng cấu trúc EIWS nhanh 49,8% so với cấu trúc EDBV Các kết thực nghiệm mặt thời gian cho thấy thuật toán FAST_MINE_FWUIs nhanh hẳn thuật toán MINE_FWUIs khai thác tập mục phổ biến CSDL số lƣợng có phân cấp mục Điều chứng tỏ cải tiến trình bày phần 3.3 chƣơng có hiệu rõ rệt 99 3.5 Kết luận chƣơng Chƣơng luận án đề xuất hai cấu trúc EDBV EIWS với phần tử LI, mở rộng DBV IWS Đồng thời đề xuất sử dụng mảng MAP định nghĩa trƣớc vị trí bit số nguyên hai byte sử dụng phép dịch AND bit để “cắt” word (hai byte) từ LI để ánh xạ vào mảng MAP để tính tidset tập mục giúp tính nhanh wus chúng Các kết thực nghiệm từ Hình 3.10-3.12 cho thấy hiệu EIWS EDBV cấu trúc trƣớc ba CSDL thực nghiệm lấy từ Foodmart2000 SQL2000 Bên cạnh đó, chƣơng đề xuất hai mệnh đề nhằm tối ƣu nhớ tiết kiệm thời gian khai thác FWUI HQDB Thứ nhất, Mệnh đề 3.2 đƣa cách xác định tidset mục cha thông qua tidset mục nút phân cấp Bằng mệnh đề này, việc khai thác HQDB không tốn thời gian thêm mục cha vào giao dịch HQDB nhƣ phƣơng pháp trƣớc đồng thời không tốn nhớ để lƣu trữ mục cha CSDL, điều thật có hiệu quả, CSDL có nhiều phân cấp độ sâu phân cấp lớn Thứ hai, Mệnh đề 3.3 chứng minh việc xác định tập mục tạo thành từ hai tập mục lớp tƣơng đƣơng HIT - tree cách kiểm tra mối quan hệ cặp mục cuối tập mục Trong phƣơng pháp trƣớc kiểm tra (m - 1) cặp với m số lƣợng mục tập mục cần kiểm tra Kết thực nghiệm từ Hình 3.13 - 3.15 cho thấy hiệu áp dụng hai mệnh đề đề xuất chƣơng 100 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Các kết đạt Luận án khảo sát nghiên cứu có khai thác tập mục phổ biến CSDL, đặc biệt khai thác FWI FWUI CSDL số lƣợng khai thác FI CSDL có phân cấp mục Trên sở đó, luận án đề xuất cấu trúc MBiS [I], cấu trúc IWS [II] cấu trúc DTab [IV] để khai thác hiệu tập mục phổ biến CSDL số lƣợng Tiếp đến, luận án đề xuất toán khai thác tập mục phổ biến CSDL số lƣợng có phân cấp mục Luận án đề xuất số cải tiến nhƣ tính tidset mục cha dựa tidset mục con, cấu trúc EDBV, EIWS mở rộng cấu trúc DBV IWS áp dụng khai thác hiệu tập mục CSDL số lƣợng có phân cấp mục Các kết nghiên cứu nêu đƣợc cơng bố tạp chí hội thảo nƣớc quốc tế uy tín Đối với khai thác tập mục CSDL số lƣợng, cấu trúc liệu đƣợc đề xuất luận án IWS MBiS cấu trúc theo hƣớng tiếp cận bit-vector, cải tiến hiệu rõ rệt so với cấu trúc có nhƣ BitTable hay DBV nhớ sử dụng nhƣ thời gian xử lý Bên cạnh đó, cấu trúc IWS, luận án đề xuất sử dụng mảng MAP định nghĩa trƣớc vị trí bit phần tử cấu trúc để tính nhanh wus (đối với khai thác FWUI) ws (đối với khai thác FWI) CSDL số lƣợng Đồng thời luận án đề xuất cấu trúc DTab DHeap khai thác Top-rank-k tập mục phổ biến CSDL số lƣợng Hiệu cấu trúc đƣợc minh họa cụ thể qua kết thực nghiệm chƣơng Đối với khai thác tập mục CSDL số lƣợng có phân cấp mục, hai cấu trúc EDBV EIWS mở rộng cấu trúc DBV IWS tƣơng ứng, cách sử dụng phần tử LI Luận án đƣa giải pháp sử dụng phép dịch bit AND bit để sử dụng đƣợc mảng MAP nhƣ cấu trúc IWS giúp tính nhanh wus (đối với khai thác FWUI) ws (đối 101 với khai thác FWI) Bên cạnh đó, luận án đề xuất số mệnh đề nhằm xác định tidset mục cha thông qua tidset mục phân cấp xác định nhanh mối quan hệ cha mục tập mục để giảm nhớ lƣu trữ CSDL tăng tốc tính tốn cho tốn khai thác FWUI HQDB Các kết thực nghiệm chƣơng cho thấy hiệu đề xuất toán Hướng phát triển Luận án nghiên cứu phƣơng pháp khai thác tập mục phổ biến CSDL số lƣợng CSDL số lƣợng có phân cấp mục Luận án đề xuất số thuật toán với cấu trúc liệu hiệu phƣơng pháp khai thác tập phổ biến có Tuy nhiên, tốn CSDL số lƣợng có phân cấp cần đƣợc mở rộng nghiên cứu tiếp nhƣ: Giải tốn khai thác tập mục phổ biến đóng, tập phổ biến tối đại HQDB Nghiên cứu hƣớng tiếp cận hiệu khai thác tập mục phổ biến HQDB dày Mở rộng tốn khai thác FWUI HQBD lớn, cần sử dụng hệ thống tính tốn hiệu cao để giải tốn với mơ hình song song hóa thuật tốn cách hợp lý Giải toán khai thác tập mục phổ biến với CSDL số lƣợng có nhiều tham số (trọng số, thời gian, giá trị, mức độ yêu thích, v.v…) mục 102 DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN [I] Nguyen Duy Ham, Vo Dinh Bay, Nguyen Thi Hong Minh, Tzung Pei Hong (2015), “MBiS: an efficient method for mining frequent weighted utility itemsets from QDB”, Journal of Computer Science and Cybernetics, 31(1), pp.17–30 [II] Nguyen Duy Ham, Bay Vo, Nguyen Thi Hong Minh, Tzung Pei Hong (2015), “An improved algorithm for mining frequent weighted itemsets”, in Proc of the International conf on IEEE System, Man, Cybernetics, Hong Kong, pp 2579–2584 [III] Nguyễn Duy Hàm, Võ Đình Bảy, Nguyễn Thị Hồng Minh (2015), “Thuật toán hiệu khai thác tập phổ biến từ sở liệu số lƣợng có phân cấp mục”, Hội nghị khoa học quốc gia lần thứ 8:“Nghiên cứu ứng dụng CNTT”, Viện CNTT – Đại học Quốc gia Hà Nội, tr 679-686 [IV] Nguyễn Duy Hàm, Võ Đình Bảy, Nguyễn Thị Hồng Minh (2015), “Thuật toán hiệu khai thác Top – rank – k tập phổ biến trọng số hữu ích”, Hội thảo quốc gia lần thứ 18: “Một số vấn đề chọn lọc CNTT TT”, tr 312–317 [V] Nguyen Duy Ham, Bay Vo, Nguyen Thi Hong Minh, Witold Pedrycz (2016), “An Efficient Algorithm for Mining Frequent Weighted Itemsets using Interval Word Segments”, Applied Intelligence, pp.1 -13 103 TÀI LIỆU THAM KHẢO [1] Agrawal, R., & Srikant, R (1994) Fast algorithms for minings association rules Proc of the 20th International Conf on Very Large Data Bases, pp 487-499 [2] Agrawal, R., Imielinski, T., & Swami, A (1993) Mining association rules between sets of items in large databases Proc of the 1993 ACM SIGMOD International conference on Management of data, 22(2), 207-216 [3] Agrawal, R., Mannila, H., Srikant, R., Toivonen, H., & Verkamo, I A (1996) Fast discovery of association rules Proc.of Conf on Advances in Knowldege Discovery and Data Mining, pp 307-328 [4] Ali, Z S., & Rathore, Y (2014.) A effective and efficient algorithm for cross level frequent pattern mining Proc of Conf on Advances in Engineering and Technology Research, pp 1-6 [5] Baralis, E., Cagliero, L., Cerquitelli, T., & Garza, P (2012) Generalized association rule mining with constraints Information Science (Elsevier Science Inc), 194, pp 68-84 [6] Baralis, E., Cagliero, L., Cerquitelli, T., D’Elia, V., & Garza, P (2014) Expressive generalized itemsets Information Sciences, 278, pp 327-343 [7] Cai, C H., Fu, A C., Cheng, C H., & Kwong, W W (1998) Mining association rules with weighted items Proc of Conf on IEEE Intelligence Database Engineering and Applications Symposium, pp 68-77 [8] Deng, H Z., & Fang, G (2007) Mining top-rank-k-frequent patterns Proc of Conf on Machine Learning and Cybernetics, pp 1763-1768 [9] Deng, H.-Z (2012) A new algorithm for fast mining frequent itemsets using N-list Science china information science, 55(9), pp 2008-2030 [10] Deng, H.-Z., & Long, S (2014) Fast mining frequent itemsets using Nodesets Expert Systems with Applications, 41(10), pp 4505-4512 [11] Deng, Z.-H (2014) Fast mining top-rank-k - frequent patterns by using Nodelist Expert Systems with Applications, pp 1763-1768 104 [12] Deng, Z.-H., & Lv, S.-L (2015) PrePost+: An efficient N-Lists-based Algorithm for Mining Frequent Itemsets via Children-Parent Equivalence Pruning Expert Systems with Applications, 42(13), pp 5424-5432 [13] Dong, J., & Han, M (2007) BitTable-FI An efficient mining frequent itemsets algorithm Knowledge-Based Systems, 20(4), pp 329-335 [14] Elena, B., Luca, C., Tania, C., & Paolo, G (2012) Generalized association rule mining with constraints Information Science (Elsevier Science Inc), 194, 68-84 [15] Elena, B., Luca, C., Tania, C., Vincenzo, D., & Paolo, G (2014) Expressive generalized itemsets Information Sciences, 278, 327-343 [16] Erwin, A., Gopalan, R P., & Achuthan, R N (2007) CTU-Mine: An efficient hight utility itemset mining algorithm using the pattern growth approach Computer and Informaition Technology, CIT, pp 71-76 [17] Fang, G., & Deng, Z.-H (2008) VTK: Vertical mining of top-rank-k frequent pattern Proc of the Conf on Fifth International Fuzzy Systems and Knowdelge Discovery 2008, pp 620 - 624 [18] Grahne, G., & Zhu, J (2005) Fast algorithms for frequent itemset mining using FP-trees Proc of Conf on IEEE Transactions on Knowledge anh Data Mining and Data Engineering, 17(10), pp 1347-1362 [19] Han , J., Pei , J., & Yin, Y (2000) Mining frequent patterns without candidate generation Proc of conf on ACM SIGMOD Management of Data, pp 1-12 [20] Han, J., & Fu, F (1995) Discovery of multiple-level association rules from large databases Proc of 21th conf on Very Largr Databases, (pp 420-431) Zurich, pp 420-431 [21] Khan, M S., Muyeba, M., & Coenen, F (2008) A weighted utility framework for mining association rules Proc of conf on IEEE European Modeling Symposium, pp 87-92 [22] Lan, C G., Hong, P T., & Lee, Y H (2014) An efficient approach for finding weighted sequential patterns from sequence databases Applied Intelligence, 41(2), pp 439-452 105 [23] Lan, C G., Hong, P T., Lee, Y H., Wang, L S., & Tsai, W C (2013) Enhancing the efficiency in mining weighted frequent itemsets Proc of IEEE Internationnal conf on System, Man, Cybernetics (SMC), pp 1104-1108 [24] Lan, G C., Hong, P T., & Tseng, V S (2011) Discovery of hight utility itemsets from on-shelf time periods of products Expert Systems with Applications, 38(6), pp 5851-5857 [25] Le, B., Cao, T A., Nguyen, H., & Vo, B (2009) A novel algorithm for mining hight utility itemsets Proc of the Conf on 1st Asian Inteleigent Information and Databases systems, pp 13-16 [26] Le, B., Vo, B., Le, Q., & Le, T (2015) Enhancing the mining top-rank-k frequent patterns Proc of IEEE internationnal conf on System, Man, Cybernetics (SMC), pp 2008-2012 [27] Le, T., & Vo, B (2015) An N-list-based algorithm for mining frequent closed patterns Expert Systems with Applications, 42(19), pp 6648-6657 [28] Lee, Y C., Hong, P T., & Chen C, H (2010) Mining Generalized Association Rules with Quantitative Data under Multiple Support Constraints, Computational Collective Intelligence Technologies and Applications Lecture Notes in Computer Science, 6422, pp 224-231 [29] Lin, W C., Lan, C G., & Hong, P T (2015) Mining hight utility itemsets for transaction deletion in a dynamic databases Intelligence Databases Analys, pp 43-55 [30] Liu, B., Hsu, W., & Ma, Y (1999) Mining association rules with multiple mining supports Proc of International Conf on Knowdelge Discovery and Data Mining, pp 337-341 [31] Louie, E., & Lin, T (2000) Finding Association Rules Using Fast Bit Computation: Machine-Oriented Modeling Foundations of intelligent system International Symposium, ISMIS , pp 497-505 [32] Ramkumar, G D., Ranka, S., & Tsur, S (1998) Weighted Association Rules: Model and Algorithm Proc of conference on Knowledge Discovery and Data Mining - KDD, pp 1-13 106 [33] Song, W., Yang, B., & Xu, Z (2008) Index-BitTableFI: An improve algorithm for mining frequent itemsets Knowledge - Based System, 21(6), pp 507-513 [34] Tao, F., Murtagh, F., & Farid, M (2003) Weighted Association Rules mining using weighted support and signifocance framework Proc of conference on ACM SIGKDD, pp 661-666 [35] Tseng, M C., & Lin, W Y (2007) Efficient mining of generalized association rules with non-uniform minimum support Data & Knowledge Engineering, 66(1), pp 41-64 [36] Vo, B., & Le, B (2009) Fast Algorithm for Mining Generalized Association Rules International Journal of Database and Application, 2(3), pp 1-12 [37] Vo, B., Coenen, F., & Le, B (2013) A new method for mining Frequent Weighted Itemsets base on WIT-trees Expert systems with Applications, 40(4), pp 1256-1264 [38] Vo, B., Hong, P T., & Le, B (2012) DBV-Miner: A Dynamic Bit - Vector approach for fast mining frequent close itemsets Expert Systems with Applications, 39(8), pp 7196-7206 [39] Vo, B., Le, B., & Jason, J J (2012) A Tree-based Approach for Mining Frequent Weighted Utility Itemsets Computational Collective Intelligence Tecnologies and Applications, 7653, pp 114-123 [40] Vo, B., Le, T., Coenen, F., & Hong, P T (2016) Mining frequent itemsets using the N-list and subsume concepts International Journal of Machine Learning and Cybernetics, 7(2), pp 253-265 [41] Vo, B., Nguyen, Y., & Nguyen, D (2013) Mining frequent weighted closed itemsets Proc of Conf on Advanced Computational Methods for Knowledge Engineering, pp 379-390 [42] Wang, W., Yang, J., & Yu, P (2000) Efficient mining of weighted association rules (WAR) Proc of the conference on ACM SIGKDD Knowledge Discovery and Data Mining, pp 270-274 107 [43] Yang, J K., Hong, P T., Lan, C G., & Chen, M Y (2014) A two phase approach for mining weighted partial periodic pattern Engineering Applications of Artificial Intelligence, 30(4), pp 225-234 [44] Yun, U., & Eunchul, Y (2014) An efficient approach for mining weighted approximate closed frequent patterns considering noise constraints International Journal of Uncertainty Fuzziness and Knowledge-Based Systems 22(6), pp 879-912 [45] Yun, U., & Leggett, J J (2005) WFIM: Weighted Frequent Itemset Mining with a weight range and a minimum weight In: Proceedings of SIAM International Conference on Data Mining, pp 636-640 [46] Yun, U., & Leggett, J J (2006) WSpan: Weighted Sequential pattern mining in large sequence databases Pro of IEEE International Conference on Intelligent Systems, pp 512-517 [47] Yun, U., & Pyun, G (2015) Efficient mining of robust closed weighted sequential patterns without information loss International Journal on Artificial Intelligence Tools, 24(1), pp 1-28 [48] Yun, U., Lee, G., & Ryu, H K (2014) Mining maximal frequent patterns by considering weight conditions over data streams Knowl.-Based Syst 55, pp 49-65 [49] Zaki, M J (2000) Scalable algorithms for association mining IEEE transactions on Knowledge and Data Engineering, 12(3), pp 372-390 [50] Zaki, M J., & Gouda, K (2003) Fast vertical mining using Diffset Proc of the ninth ACM SIGKDD International conf on Knowledge Discovery and Data Mining, pp 327-335 108 ... ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN DUY HÀM PHÁT TRIỂN MỘT SỐ THUẬT TOÁN HIỆU QUẢ KHAI THÁC TẬP MỤC TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG CÓ SỰ PHÂN CẤP CÁC MỤC Chuyên ngành: CƠ SỞ TOÁN CHO... cứu khai thác tập mục CSDL số lƣợng có phân cấp mục chƣa đƣợc quan tâm Do vậy, 33 toán khai thác tập mục CSDL số lƣợng có phân cấp mục cần đƣợc đặt nghiên cứu Đề xuất thuật toán khai thác hiệu. .. lượng có phân cấp mục Đề xuất thuật toán hiệu để khai thác k nhóm tập mục phổ biến trọng số hữu ích có thứ hạng cao CSDL số lượng Đề xuất cấu trúc liệu, thuật toán hiệu để khai thác FWUI CSDL số lượng