Phát triển một số thuật toán hiệu quả khai thác tập mục trên cơ sở dữ liệu có sự phân cấp các mục

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN DUY HÀM PHÁT TRIỂN MỘT SỐ THUẬT TOÁN HIỆU QUẢ KHAI THÁC TẬP MỤC TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG CÓ SỰ PHÂN CẤP CÁC MỤC LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN DUY HÀM PHÁT TRIỂN MỘT SỐ THUẬT TOÁN HIỆU QUẢ KHAI THÁC TẬP MỤC TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG CÓ SỰ PHÂN CẤP CÁC MỤC Chuyên ngành: CƠ SỞ TOÁN CHO TIN HỌC Mã số: LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN THỊ HỒNG MINH PGS.TS VÕ ĐÌNH BẢY XÁC NHẬN NCS ĐÃ CHỈNH SỬA THEO QUYẾT NGHỊ CỦA HỘI ĐỒNG ĐÁNH GIÁ LUẬN ÁN Ngƣời hƣớng dẫn khoa học Chủ tịch hội đồng đánh giá Luận án Tiến sĩ TS Nguyễn Thị Hồng Minh PGS.TS Huỳnh Quyết Thắng Hà Nội - 2016 LỜI CAM ĐOAN Tôi xin cam đoan luận án cơng trình nghiên cứu tác giả thực dƣới hƣớng dẫn tập thể cán hƣớng dẫn Luận án có sử dụng thơng tin trích dẫn từ nhiều nguồn tham khảo khác nhau, thông tin trích dẫn đƣợc ghi rõ nguồn gốc Các số liệu thực nghiệm, kết nghiên cứu trình bày luận án hồn tồn trung thực, chƣa đƣợc cơng bố tác giả hay cơng trình khác Tác giả Nguyễn Duy Hàm i LỜI CẢM ƠN Luận án Tiến sĩ đƣợc thực trƣờng Đại học Khoa học Tự nhiên - Đại học Quốc gia Hà Nội với hƣớng dẫn khoa học TS Nguyễn Thị Hồng Minh, PGS.TS.Võ Đình Bảy TS Lê Quang Minh Nghiên cứu sinh xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo, cô giáo hƣớng dẫn định hƣớng khoa học, tận tâm giúp đỡ bảo tỉ mỉ suốt q trình nghiên cứu hồn thiện luận án Nghiên cứu sinh ghi nhớ công lao dạy dỗ, dìu dắt vào đƣờng khoa học cố PGS.TS Hồng Chí Thành - ngƣời hƣớng dẫn Nghiên cứu sinh giai đoạn đầu làm nghiên cứu khoa học Nghiên cứu sinh xin chân thành cảm ơn nhà khoa học, tác giả cơng trình nghiên cứu đƣợc trích dẫn luận án nguồn tài liệu quý báu để Nghiên cứu sinh phát triển hồn thiện cơng bố Nghiên cứu sinh xin chân thành cảm ơn Ban Giám hiệu, lãnh đạo Khoa Toán - Cơ - Tin học, thầy cô, giảng viên Bộ môn Tin học - Trƣờng Đại học Khoa học Tự nhiên - Đại học Quốc gia Hà Nội tạo điều kiện thuận lợi để Nghiên cứu sinh hoàn thành chƣơng trình học tập thực hồn tất luận án Nghiên cứu sinh xin chân thành cảm ơn Ban Giám hiệu Trƣờng Đại học An ninh nhân dân, tập thể giáo viên Bộ mơn Tốn - Tin học Trƣờng Đại học An ninh nhân dân nơi Nghiên cứu sinh công tác bạn bè thân thiết ln tạo điều kiện, động viên, khuyến khích hỗ trợ tối đa để Nghiên cứu sinh hoàn thành luận án Cuối cùng, xin cảm ơn Bố Mẹ, đặc biệt Mẹ - ngƣời hy sinh tất nghiệp học tập con, tiếc mẹ không đợi đƣợc đến ngày hồn thành luận án Xin cảm ơn gia đình, chị gái em đồng hành, động viên, chia sẻ giúp trì nhiệt huyết nghị lực để đến hoàn thành luận án này./ TP Hồ Chí Minh, tháng ii MỤC LỤC LỜI CAM ĐOAN I LỜI CẢM ƠN II MỤC LỤC III DANH MỤC BẢNG V DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ VII DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT X MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ KHAI THÁC TẬP MỤC 1.1 Bài toán khai thác tập mục 1.1.1 Một số khái niệm 1.1.2 Bài toán khai thác FI 15 1.2 Các phƣơng pháp khai thác FI 15 1.2.1 Phƣơng pháp khai thác FI CSDL ngang 15 1.2.2 Phƣơng pháp khai thác FI CSDL dọc dựa IT-tree 18 1.3 Một số phƣơng pháp khai thác FWI FWUI CSDL số lƣợng 21 1.3.1 Giới thiệu 21 1.3.2 Khai thác FWI 21 1.3.3 Khai thác FWUI 24 1.3.4 Khai thác TRFIk 26 1.4 Khai thác FI CSDL có phân cấp mục 28 1.5 Tiếp cận bit-vector khai thác FI 31 1.6 Kết luận chƣơng 32 CHƢƠNG KHAI THÁC TẬP MỤC PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG 35 2.1 Thuật toán khai thác tập FWI 36 2.1.1 Giới thiệu 36 2.1.2 Thuật tốn tính giao hai IWS 40 2.1.3 Thuật toán khai thác FWI 42 2.1.4 Kết thực nghiệm 48 2.2 Thuật toán khai thác FWUI 54 2.2.1 Cấu trúc Multi bit segment 54 2.2.2 Thuật toán xác định giao MBiS 55 2.2.3 Thuật toán khai thác FWUI dựa MBiS-tree 56 2.2.4 Kết thực nghiệm 59 iii 2.3 Thuật toán khai thác TRFWUIk 63 2.3.1 Một số khái niệm 63 2.3.2 Cấu trúc DTab 64 2.3.3 Cấu trúc TR-tree 65 2.3.4 Thuật toán khai thác TRFWUIk sử dụng cấu trúc liệu DTab 65 2.3.5 Thuật toán khai thác nhanh TRFWUIk dựa cấu trúc DHeap 68 2.3.6 Kết thực nghiệm 70 2.4 Kết luận chƣơng 73 CHƢƠNG KHAI THÁC TẬP MỤC PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG CÓ SỰ PHÂN CẤP CÁC MỤC 75 3.1 Giới thiệu toán 76 3.2 Thuật toán khai thác FWUI HQDB 79 3.2.1 Thuật toán xác định weight cho mục cha 79 3.2.2 Thuật toán thêm mục cha vào CSDL 80 3.2.3 Thuật toán khai thác FWUI 81 3.3 Một số cải tiến nâng cao hiệu khai thác FWUI HQDB 84 3.3.1 Cấu trúc EDBV 84 3.3.2 Tính tidset nút cha từ tidset nút 89 3.3.3 Kiểm tra mối quan hệ cha mục tập mục 91 3.3.4 Thuật toán khai thác nhanh FWUI HQDB 92 3.4 Kết thực nghiệm 93 3.4.1 CSDL thực nghiệm 93 3.4.2 Kết thực nghiệm 94 3.5 Kết luận chƣơng 100 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 101 DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 103 iv DANH MỤC BẢNG Bảng 1.1 Các giao dịch nhị phân DB Bảng 1.2 Các giao dịch CSDL nhị phân có phân cấp mục DB Bảng 1.3 ID mục DB 10 Bảng 1.4 Các giao dịch DB ID 10 Bảng 1.5 Giao dịch CSDL số lƣợng BD 12 Bảng 1.6 Trọng số mục DB 12 Bảng 1.7 Các giao dịch CSDL trọng số DB 13 Bảng 1.8 Trọng số mục DB 13 Bảng 1.9 CSDL DB 15 Bảng 1.10 DB theo chiều dọc 19 Bảng 1.11 Giá trị tw CSDL DB ví dụ 1.4 23 Bảng 1.12 twu giao dịch DB ví dụ 1.4 25 Bảng 1.13 DB Ví dụ 1.2 sau thêm mục cha 30 Bảng 2.1 Bit-vector 36 Bảng 2.2 DBV bit-vector ví dụ 2.1 36 Bảng 2.3 IWS từ bit-vector ví dụ 2.1 37 Bảng 2.4 Chỉ số bit IWS(X) 39 Bảng 2.5 Mảng MAP 42 Bảng 2.6 IWS mục 46 Bảng 2.7 Mô tả CSDL thực nghiệm 49 Bảng 2.8 Bit-vector với 96 phần tử 54 Bảng 2.9 MBiS từ bit-vector Bảng 2.8 55 Bảng 2.10 Bảng TRFWUIk 64 Bảng 3.1 Giao dịch HD 76 Bảng 3.2 Trọng số 76 Bảng 3.3 Tên mặt hàng mục 77 v Bảng 3.4 Giao dịch HD 82 Bảng 3.5 Trọng số 82 Bảng 3.6 twu giao dịch 83 Bảng 3.7 Tập 1-itemset phổ biến 83 Bảng 3.8 Mảng MAP với 65.535 phần tử 86 Bảng 3.9 Biểu diễn số nguyên K dƣới dạng bốn đoạn, đoạn word 86 Bảng 3.10 Mô tả CSDL 93 Bảng 3.11 Các mức phân cấp 93 Bảng 3.12 So sánh nhớ số lƣợng mục 94 Bảng 3.13 Thực nghiệm CSDL SALE-FACT-SYNC .95 Bảng 3.14 So sánh thời gian chạy CSDL SALE-FACT-1997 99 vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Cây phân cấp Tr 10 Hình 1.2 Cây phân cấp Tr biểu diễn theo ID 11 Hình 1.3 Thuật tốn Apriori khai thác tập mục phổ biến 16 Hình 1.4 Thuật tốn FP-Growth dựa cấu trúc FP-tree 17 Hình 1.5 Thuật tốn Eclat dựa cấu trúc IT-tree 19 Hình 1.6 Cây IT tree với minsup = 0,5 CSDL DB 20 Hình 2.1 Thuật toán xác định giao hai IWS 41 Hình 2.2 Thuật tốn tính ws tập mục X 43 Hình 2.3 Thuật tốn xây dựng IWS-tree 45 Hình 2.4 Thuật toán khai thác FWI dựa IWS-tree 45 Hình 2.5 IWS-tree với nút A(minws = 0,4) 46 Hình 2.6 IWS-tree với nútA vàB(minws = 0,4) 47 Hình 2.7 IWS-tree với minws = 0,4 48 Hình 2.8 So sánh thời gian chạy với CSDL RETAIL 49 Hình 2.9 So sánh thời gian chạy với CSDL BMS-POS 49 Hình 2.10 So sánh thời gian chạy với CSDL SALE-FACT-1997 50 Hình 2.11 So sánh thời gian chạy với CSDL SALE-FACT-1997+1998 50 Hình 2.12 So sánh thời gian chạy với CSDL SALE-FACT-SYNC .50 Hình 2.13 So sánh thời gian chạy với CSDL CONNECT .50 Hình 2.14 So sánh thời gian chạy với CSDL ACCIDENTS 51 Hình 2.15 So sánh nhớ sử dụng với CSDL RETAIL 51 Hình 2.16 So sánh nhớ sử dụng với CSDL BMS-POS 51 Hình 2.17 So sánh nhớ sử dụng với CSDL SALE-FACT-1997 51 Hình 2.18 So sánh nhớ sử dụng với CSDL SALE-FACT-1997+1998 .52 vii Hình 2.19 So sánh nhớ sử dụng với CSDL SALE-FACT-SYNC .52 Hình 2.20 So sánh nhớ sử dụng với CSDL CONNECT 52 Hình 2.21 So sánh nhớ sử dụng với CSDL ACCIDENT 52 Hình 2.22 Thuật tốn xác định giao hai MBiS 56 Hình 2.23 Thuật tốn tính wus dựa MBiS 57 Hình 2.24 Thuật tốn khai thác FWUI dựa MBiS-tree 58 Hình 2.25 So sánh thời gian chạy CSDL RETAIL 59 Hình 2.26 So sánh thời gian chạy CSDL BMS-POS .59 Hình 2.27 So sánh thời gian chạy CSDL SALE-FACT-1997 60 Hình 2.28 So sánh thời gian chạy CSDL SALE-FACT-1997+1998 60 Hình 2.29 So sánh thời gian chạy CSDL SALE-FACT-SYNC .60 Hình 2.30 So sánh thời gian chạy CSDL CONNECT 60 Hình 2.31 So sánh thời gian chạy CSDL ACCIDENTS 61 Hình 2.32 So sánh nhớ sử dụng CSDL RETAIL 61 Hình 2.33 So sánh nhớ sử dụng CSDL BMS-POS 61 Hình 2.34 So sánh nhớ sử dụng CSDL SALE-FACT-1997 61 Hình 2.35 So sánh nhớ sử dụng CSDL SALE-FACT-1997+1998 62 Hình 2.36 So sánh nhớ sử dụng CSDL SALE-FACT-SYNC 62 Hình 2.37 So sánh nhớ sử dụng CSDL CONNECT 62 Hình 2.38 So sánh nhớ sử dụng CSDL ACCIDENT 62 Hình 2.39 DTab với k = 65 Hình 2.40 Thuật toán tạo TR-tree sử dụng DTab 67 Hình 2.41 Thuật tốn lọc TRFWUIk 68 Hình 2.42 DHeap với k = với CSDL ví dụ 1.4 69 Hình 2.43 Thuật tốn tạo TR-tree sử dụng DHeap 70 viii 97 200 150 tme(s) 100 tme(s) tme(s) 50 Hình 3.13-3.15 hiệu thuật toán FAST_MINE_FWUIs so với MINE_FWUIs sử dụng cấu trúc EIWS Điều thể ƣu điểm việc không chèn thêm mục cha vào CSDL xác định nhanh mối quan hệ cha tập mục tạo thành từ hai tập mục lớp tƣơng đƣơng HIT-tree Cụ thể ta có kết CSDL SALE-FACT1997 nhƣ Bảng 3.14 sau đây: 98 Bảng 3.14 So sánh thời gian chạy CSDL SALE-FACT-1997 Thuật toán minwus 0,3% 0,2% 0,1% 0,06% 0,03% 0,01% Từ bảng 3.14, với minwus = 0,01% thuật tốn FAST_MINE_FWUIs với cấu trúc EDBV có thời gian chạy 90,65s nhanh thuật toán MINE_FWUIs (174,13s) 1,93 lần Điều cho thấy tính hiệu việc không thêm mục cha vào CSDL việc xác định nhanh mối quan hệ cha mục tập mục tạo thành từ hai tập mục lớp tƣơng đƣơng HIT-tree Bên cạnh đó, cấu trúc EIWS cho thấy hiệu tốt so với phƣơng pháp khác Ví dụ với minwus = 0,01%, thuật tốn FAST_MINE_FWUIs với cấu trúc EDBV có thời gian chạy 90,65s, với cấu trúc EIWS có thời gian chạy 45,56s Nhƣ sử dụng cấu trúc EIWS nhanh 49,8% so với cấu trúc EDBV Các kết thực nghiệm mặt thời gian cho thấy thuật toán FAST_MINE_FWUIs nhanh hẳn thuật toán MINE_FWUIs khai thác tập mục phổ biến CSDL số lƣợng có phân cấp mục Điều chứng tỏ cải tiến trình bày phần 3.3 chƣơng có hiệu rõ rệt 99 3.5 Kết luận chƣơng Chƣơng luận án đề xuất hai cấu trúc EDBV EIWS với phần tử LI, mở rộng DBV IWS Đồng thời đề xuất sử dụng mảng MAP định nghĩa trƣớc vị trí bit số nguyên hai byte sử dụng phép dịch AND bit để “cắt” word (hai byte) từ LI để ánh xạ vào mảng MAP để tính tidset tập mục giúp tính nhanh wus chúng Các kết thực nghiệm từ Hình 3.10-3.12 cho thấy hiệu EIWS EDBV cấu trúc trƣớc ba CSDL thực nghiệm lấy từ Foodmart2000 SQL2000 Bên cạnh đó, chƣơng đề xuất hai mệnh đề nhằm tối ƣu nhớ tiết kiệm thời gian khai thác FWUI HQDB Thứ nhất, Mệnh đề 3.2 đƣa cách xác định tidset mục cha thông qua tidset mục nút phân cấp Bằng mệnh đề này, việc khai thác HQDB không tốn thời gian thêm mục cha vào giao dịch HQDB nhƣ phƣơng pháp trƣớc đồng thời không tốn nhớ để lƣu trữ mục cha CSDL, điều thật có hiệu quả, CSDL có nhiều phân cấp độ sâu phân cấp lớn Thứ hai, Mệnh đề 3.3 chứng minh việc xác định tập mục tạo thành từ hai tập mục lớp tƣơng đƣơng HIT - tree cách kiểm tra mối quan hệ cặp mục cuối tập mục Trong phƣơng pháp trƣớc kiểm tra (m - 1) cặp với m số lƣợng mục tập mục cần kiểm tra Kết thực nghiệm từ Hình 3.13 - 3.15 cho thấy hiệu áp dụng hai mệnh đề đề xuất chƣơng 100 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Các kết đạt Luận án khảo sát nghiên cứu có khai thác tập mục phổ biến CSDL, đặc biệt khai thác FWI FWUI CSDL số lƣợng khai thác FI CSDL có phân cấp mục Trên sở đó, luận án đề xuất cấu trúc MBiS [I], cấu trúc IWS [II] cấu trúc DTab [IV] để khai thác hiệu tập mục phổ biến CSDL số lƣợng Tiếp đến, luận án đề xuất toán khai thác tập mục phổ biến CSDL số lƣợng có phân cấp mục Luận án đề xuất số cải tiến nhƣ tính tidset mục cha dựa tidset mục con, cấu trúc EDBV, EIWS mở rộng cấu trúc DBV IWS áp dụng khai thác hiệu tập mục CSDL số lƣợng có phân cấp mục Các kết nghiên cứu nêu đƣợc cơng bố tạp chí hội thảo nƣớc quốc tế uy tín Đối với khai thác tập mục CSDL số lƣợng, cấu trúc liệu đƣợc đề xuất luận án IWS MBiS cấu trúc theo hƣớng tiếp cận bit-vector, cải tiến hiệu rõ rệt so với cấu trúc có nhƣ BitTable hay DBV nhớ sử dụng nhƣ thời gian xử lý Bên cạnh đó, cấu trúc IWS, luận án đề xuất sử dụng mảng MAP định nghĩa trƣớc vị trí bit phần tử cấu trúc để tính nhanh wus (đối với khai thác FWUI) ws (đối với khai thác FWI) CSDL số lƣợng Đồng thời luận án đề xuất cấu trúc DTab DHeap khai thác Top-rank-k tập mục phổ biến CSDL số lƣợng Hiệu cấu trúc đƣợc minh họa cụ thể qua kết thực nghiệm chƣơng Đối với khai thác tập mục CSDL số lƣợng có phân cấp mục, hai cấu trúc EDBV EIWS mở rộng cấu trúc DBV IWS tƣơng ứng, cách sử dụng phần tử LI Luận án đƣa giải pháp sử dụng phép dịch bit AND bit để sử dụng đƣợc mảng MAP nhƣ cấu trúc IWS giúp tính nhanh wus (đối với khai thác FWUI) ws (đối 101 với khai thác FWI) Bên cạnh đó, luận án đề xuất số mệnh đề nhằm xác định tidset mục cha thông qua tidset mục phân cấp xác định nhanh mối quan hệ cha mục tập mục để giảm nhớ lƣu trữ CSDL tăng tốc tính tốn cho tốn khai thác FWUI HQDB Các kết thực nghiệm chƣơng cho thấy hiệu đề xuất toán Hướng phát triển Luận án nghiên cứu phƣơng pháp khai thác tập mục phổ biến CSDL số lƣợng CSDL số lƣợng có phân cấp mục Luận án đề xuất số thuật toán với cấu trúc liệu hiệu phƣơng pháp khai thác tập phổ biến có Tuy nhiên, tốn CSDL số lƣợng có phân cấp cần đƣợc mở rộng nghiên cứu tiếp nhƣ: Giải tốn khai thác tập mục phổ biến đóng, tập phổ biến tối đại HQDB Nghiên cứu hƣớng tiếp cận hiệu khai thác tập mục phổ biến HQDB dày Mở rộng tốn khai thác FWUI HQBD lớn, cần sử dụng hệ thống tính tốn hiệu cao để giải tốn với mơ hình song song hóa thuật tốn cách hợp lý Giải toán khai thác tập mục phổ biến với CSDL số lƣợng có nhiều tham số (trọng số, thời gian, giá trị, mức độ yêu thích, v.v…) mục 102 DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN [I] Nguyen Duy Ham, Vo Dinh Bay, Nguyen Thi Hong Minh, Tzung Pei Hong (2015), “MBiS: an efficient method for mining frequent weighted utility itemsets from QDB”, Journal of Computer Science and Cybernetics, 31(1), pp.17–30 [II]Nguyen Duy Ham, Bay Vo, Nguyen Thi Hong Minh, Tzung Pei Hong (2015), “An improved algorithm for mining frequent weighted itemsets”, in Proc of the International conf on IEEE System, Man, Cybernetics, Hong Kong, pp 2579–2584 [III] Nguyễn Duy Hàm, Võ Đình Bảy, Nguyễn Thị Hồng Minh (2015), “Thuật toán hiệu khai thác tập phổ biến từ sở liệu số lƣợng có phân cấp mục”, Hội nghị khoa học quốc gia lần thứ 8:“Nghiên cứu ứng dụng CNTT”, Viện CNTT – Đại học Quốc gia Hà Nội, tr 679-686 [IV] Nguyễn Duy Hàm, Võ Đình Bảy, Nguyễn Thị Hồng Minh (2015), “Thuật toán hiệu khai thác Top – rank – k tập phổ biến trọng số hữu ích”, Hội thảo quốc gia lần thứ 18: “Một số vấn đề chọn lọc CNTT TT”, tr 312–317 [V] Nguyen Duy Ham, Bay Vo, Nguyen Thi Hong Minh, Witold Pedrycz (2016), “An Efficient Algorithm for Mining Frequent Weighted Itemsets using Interval Word Segments”, Applied Intelligence, pp.1 -13 103 TÀI LIỆU THAM KHẢO [1] Agrawal, R., & Srikant, R (1994) Fast algorithms for minings association rules Proc of the 20th International Conf on Very Large Data Bases, pp 487499 [2] Agrawal, R., Imielinski, T., & Swami, A (1993) Mining association rules between sets of items in large databases Proc of the 1993 ACM SIGMOD International conference on Management of data, 22(2), 207-216 [3] Agrawal, R., Mannila, H., Srikant, R., Toivonen, H., & Verkamo, I A (1996) Fast discovery of association rules Proc.of Conf on Advances in Knowldege Discovery and Data Mining, pp 307-328 [4] Ali, Z S., & Rathore, Y (2014.) A effective and efficient algorithm for cross level frequent pattern mining Proc of Conf on Advances in Engineering and Technology Research, pp 1-6 [5] Baralis, E., Cagliero, L., Cerquitelli, T., & Garza, P (2012) Generalized association rule mining with constraints Information Science (Elsevier Science Inc), 194, pp 68-84 [6] Baralis, E., Cagliero, L., Cerquitelli, T., D’Elia, V., & Garza, P (2014) Expressive generalized itemsets Information Sciences, 278, pp 327-343 [7] Cai, C H., Fu, A C., Cheng, C H., & Kwong, W W (1998) Mining association rules with weighted items Proc of Conf on IEEE Intelligence Database Engineering and Applications Symposium, pp 68-77 [8] Deng, H Z., & Fang, G (2007) Mining top-rank-k-frequent patterns Proc of Conf on Machine Learning and Cybernetics, pp 1763-1768 [9] Deng, H.-Z (2012) A new algorithm for fast mining frequent itemsets using N-list Science china information science, 55(9), pp 2008-2030 [10]Deng, H.-Z., & Long, S (2014) Fast mining frequent itemsets using Nodesets Expert Systems with Applications, 41(10), pp 4505-4512 [11]Deng, Z.-H (2014) Fast mining top-rank-k - frequent patterns by using Node-list Expert Systems with Applications, pp 1763-1768 104 [12]Deng, Z.-H., & Lv, S.-L (2015) PrePost+: An efficient N-Lists-based Algorithm for Mining Frequent Itemsets via Children-Parent Equivalence Pruning Expert Systems with Applications, 42(13), pp 5424-5432 [13]Dong, J., & Han, M (2007) BitTable-FI An efficient mining frequent itemsets algorithm Knowledge-Based Systems, 20(4), pp 329-335 [14] Elena, B., Luca, C., Tania, C., & Paolo, G (2012) Generalized association rule mining with constraints Information Science (Elsevier Science Inc), 194, 6884 [15]Elena, B., Luca, C., Tania, C., Vincenzo, D., & Paolo, G (2014) Expressive generalized itemsets Information Sciences, 278, 327-343 [16]Erwin, A., Gopalan, R P., & Achuthan, R N (2007) CTU-Mine: An efficient hight utility itemset mining algorithm using the pattern growth approach Computer and Informaition Technology, CIT, pp 71-76 [17]Fang, G., & Deng, Z.-H (2008) VTK: Vertical mining of top-rank-k frequent pattern Proc of the Conf on Fifth International Fuzzy Systems and Knowdelge Discovery 2008, pp 620 - 624 [18]Grahne, G., & Zhu, J (2005) Fast algorithms for frequent itemset mining using FP-trees Proc of Conf on IEEE Transactions on Knowledge anh Data Mining and Data Engineering, 17(10), pp 1347-1362 [19]Han , J., Pei , J., & Yin, Y (2000) Mining frequent patterns without candidate generation Proc of conf on ACM SIGMOD Management of Data, pp 1-12 [20]Han, J., & Fu, F (1995) Discovery of multiple-level association rules from large databases Proc of 21th conf on Very Largr Databases, (pp 420431) Zurich, pp 420-431 [21]Khan, M S., Muyeba, M., & Coenen, F (2008) A weighted utility framework for mining association rules Proc of conf on IEEE European Modeling Symposium, pp 87-92 [22]Lan, C G., Hong, P T., & Lee, Y H (2014) An efficient approach for finding weighted sequential patterns from sequence databases Applied Intelligence, 41(2), pp 439-452 105 [23]Lan, C G., Hong, P T., Lee, Y H., Wang, L S., & Tsai, W C (2013) Enhancing the efficiency in mining weighted frequent itemsets Proc of IEEE Internationnal conf on System, Man, Cybernetics (SMC), pp 1104-1108 [24]Lan, G C., Hong, P T., & Tseng, V S (2011) Discovery of hight utility itemsets from on-shelf time periods of products Expert Systems with Applications, 38(6), pp 5851-5857 [25]Le, B., Cao, T A., Nguyen, H., & Vo, B (2009) A novel algorithm for mining hight utility itemsets Proc of the Conf on 1st Asian Inteleigent Information and Databases systems, pp 13-16 [26] Le, B., Vo, B., Le, Q., & Le, T (2015) Enhancing the mining top-rank-k frequent patterns Proc of IEEE internationnal conf on System, Man, Cybernetics (SMC), pp 2008-2012 [27]Le, T., & Vo, B (2015) An N-list-based algorithm for mining frequent closed patterns Expert Systems with Applications, 42(19), pp 6648-6657 [28]Lee, Y C., Hong, P T., & Chen C, H (2010) Mining Generalized Association Rules with Quantitative Data under Multiple Support Constraints, Computational Collective Intelligence Technologies and Applications Lecture Notes in Computer Science, 6422, pp 224-231 [29]Lin, W C., Lan, C G., & Hong, P T (2015) Mining hight utility itemsets for transaction deletion in a dynamic databases Intelligence Databases Analys, pp 43-55 [30]Liu, B., Hsu, W., & Ma, Y (1999) Mining association rules with multiple mining supports Proc of International Conf on Knowdelge Discovery and Data Mining, pp 337-341 [31]Louie, E., & Lin, T (2000) Finding Association Rules Using Fast Bit Computation: Machine-Oriented Modeling Foundations of intelligent system International Symposium, ISMIS , pp 497-505 [32]Ramkumar, G D., Ranka, S., & Tsur, S (1998) Weighted Association Rules: Model and Algorithm Proc of conference on Knowledge Discovery and Data Mining - KDD, pp 1-13 106 [33]Song, W., Yang, B., & Xu, Z (2008) Index-BitTableFI: An improve algorithm for mining frequent itemsets Knowledge - Based System, 21(6), pp 507-513 [34]Tao, F., Murtagh, F., & Farid, M (2003) Weighted Association Rules mining using weighted support and signifocance framework Proc of conference on ACM SIGKDD, pp 661-666 [35]Tseng, M C., & Lin, W Y (2007) Efficient mining of generalized association rules with non-uniform minimum support Data & Knowledge Engineering, 66(1), pp 41-64 [36]Vo, B., & Le, B (2009) Fast Algorithm for Mining Generalized Association Rules International Journal of Database and Application, 2(3), pp 1-12 [37]Vo, B., Coenen, F., & Le, B (2013) A new method for mining Frequent Weighted Itemsets base on WIT-trees Expert systems with Applications, 40(4), pp 1256-1264 [38]Vo, B., Hong, P T., & Le, B (2012) DBV-Miner: A Dynamic Bit - Vector approach for fast mining frequent close itemsets Expert Systems with Applications, 39(8), pp 7196-7206 [39]Vo, B., Le, B., & Jason, J J (2012) A Tree-based Approach for Mining Frequent Weighted Utility Itemsets Computational Collective Intelligence Tecnologies and Applications, 7653, pp 114-123 [40] Vo, B., Le, T., Coenen, F., & Hong, P T (2016) Mining frequent itemsets using the N-list and subsume concepts International Journal of Machine Learning and Cybernetics, 7(2), pp 253-265 [41]Vo, B., Nguyen, Y., & Nguyen, D (2013) Mining frequent weighted closed itemsets Proc of Conf on Advanced Computational Methods for Knowledge Engineering, pp 379-390 [42]Wang, W., Yang, J., & Yu, P (2000) Efficient mining of weighted association rules (WAR) Proc of the conference on ACM SIGKDD Knowledge Discovery and Data Mining, pp 270-274 107 [43]Yang, J K., Hong, P T., Lan, C G., & Chen, M Y (2014) A two phase approach for mining weighted partial periodic pattern Engineering Applications of Artificial Intelligence, 30(4), pp 225-234 [44]Yun, U., & Eunchul, Y (2014) An efficient approach for mining weighted approximate closed frequent patterns considering noise constraints International Journal of Uncertainty Fuzziness and Knowledge-Based Systems 22(6), pp 879-912 [45]Yun, U., & Leggett, J J (2005) WFIM: Weighted Frequent Itemset Mining with a weight range and a minimum weight In: Proceedings of SIAM International Conference on Data Mining, pp 636-640 [46]Yun, U., & Leggett, J J (2006) WSpan: Weighted Sequential pattern mining in large sequence databases Pro of IEEE International Conference on Intelligent Systems, pp 512-517 [47]Yun, U., & Pyun, G (2015) Efficient mining of robust closed weighted sequential patterns without information loss International Journal on Artificial Intelligence Tools, 24(1), pp 1-28 [48]Yun, U., Lee, G., & Ryu, H K (2014) Mining maximal frequent patterns by considering weight conditions over data streams Knowl.-Based Syst 55, pp 49-65 [49]Zaki, M J (2000) Scalable algorithms for association mining IEEE transactions on Knowledge and Data Engineering, 12(3), pp 372-390 [50]Zaki, M J., & Gouda, K (2003) Fast vertical mining using Diffset Proc of the ninth ACM SIGKDD International conf on Knowledge Discovery and Data Mining, pp 327-335 108 ... NGUYỄN DUY HÀM PHÁT TRIỂN MỘT SỐ THUẬT TOÁN HIỆU QUẢ KHAI THÁC TẬP MỤC TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG CÓ SỰ PHÂN CẤP CÁC MỤC Chuyên ngành: CƠ SỞ TOÁN CHO TIN HỌC Mã số: LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƢỜI... CHƢƠNG KHAI THÁC TẬP MỤC PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU SỐ LƢỢNG CÓ SỰ PHÂN CẤP CÁC MỤC 75 3.1 Giới thiệu toán 76 3.2 Thuật toán khai thác FWUI HQDB 79 3.2.1 Thuật toán xác... CSDL số lƣợng thuật toán hiệu để giải toán với hai cấu trúc DTab DHeap Chương 3: ? ?Khai thác tập mục phổ biến sở liệu số lƣợng có phân cấp mục? ?? đề xuất thuật toán khai thác FWUI CSDL số lƣợng có phân

Định dạng
Số trang	142
Dung lượng	0,97 MB