Khai thác mẫu phổ biến trên cơ sở dữ liệu tăng trưởng sử dụng cấu trúc node set

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÊ MINH TÂM KHAI THÁC MẪU PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG SỬ DỤNG CẤU TRÚC NODE-SET LUẬN VĂN THẠC SĨ Chuyên ngành : CÔNG NGHỆ THÔNG TIN Mã số ngành : 60480201 TP HỒ CHÍ MINH, tháng năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÊ MINH TÂM KHAI THÁC MẪU PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG SỬ DỤNG CẤU TRÚC NODE-SET LUẬN VĂN THẠC SĨ Chuyên ngành : CÔNG NGHỆ THÔNG TIN Mã số ngành : 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS TS VÕ ĐÌNH BẢY TP HỒ CHÍ MINH, tháng năm 2017 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học: PGS.TS VÕ ĐÌNH BẢY Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 24 tháng năm 2017 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TT Họ tên Chức danh Hội đồng TS CAO TÙNG ANH Chủ tịch PGS.TS QUẢN THÀNH THƠ Phản biện TS VŨ THANH HIỀN Phản biện TS NGUYỄN THỊ THUÝ LOAN TS LÊ THỊ NGỌC THƠ Ủy viên Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TS CAO TÙNG ANH TRƯỜNG ĐH CƠNG NGHỆ TP HCM CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày … tháng… năm 20 … NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Lê Minh Tâm Giới tính: Nữ Ngày, tháng, năm sinh: 26/ 09/ 1988 Nơi sinh: TP HCM Chuyên ngành: Công nghệ Thông tin MSHV:1541860024 I- Tên đề tài: Khai thác mẫu phổ biến sở liệu tăng trưởng sử dụng cấu trúc Nodeset II- Nhiệm vụ nội dung: Tìm hiểu sở lý thuyết thuật tốn Apriori, FP-Growth, PPV, Prepost, FIN, Prelarge-Tree Cải tiến thuật toán Prelarge-Tree dựa vào cấu trúc Node-set thuật toán FIN III- Ngày giao nhiệm vụ: IV- Ngày hoàn thành nhiệm vụ: 31/ 03/ 2017 V- Cán hướng dẫn: PGS.TS VÕ ĐÌNH BẢY CÁN BỘ HƯỚNG DẪN PGS.TS VÕ ĐÌNH BẢY KHOA QUẢN LÝ CHUYÊN NGÀNH PGS.TS VÕ ĐÌNH BẢY i LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa cơng bố cơng trình khác Tôi xin cam đoan giúp đỡ cho việc thực luận văn cảm ơn thơng tin trích dẫn Luận văn rõ nguồn gốc Học viên thực luận văn Lê Minh Tâm ii LỜI CÁM ƠN Được phân công khoa Công nghệ Thông tin trường đại học Công nghệ TP.HCM, đồng ý thầy hướng dẫn PGS Võ Đình Bảy tơi thực đề tài “Khai thác mẫu phổ biến sở liệu tăng trưởng sử dụng cấu trúc Node-set” Để hồn thành khố luận này, tơi xin chân thành cảm ơn thầy tận tình hướng dẫn, giảng dạy suốt trình học tập, nghiên cứu rèn luyện trường đại học Công nghệ TP.HCM Xin chân thành cảm ơn Thầy hướng dẫn PGS Võ Đình Bảy tận tình, chu đáo hướng dẫn tơi thực khố luận Mặc dù có nhiều cố gắng để thực đề tài cách hoàn chỉnh Song buổi đầu làm quen với công tác nghiên cứu khoa học, tiếp cận với thực tế sàn xuất hạn chế kiến thực kinh nghiệm nên khơng thể tránh khỏi thiếu sót định mà thân chưa thấy Tôi mong góp ý q Thầy, Cơ để khố luận hồn chỉnh Tơi xin chân thành cảm ơn Lê Minh Tâm TĨM TẮT Ngành cơng nghiệp cơng nghệ thơng tin ngày phát triển, đòi hỏi lượng thông tin lưu trữ ngày cao Khả ứng dụng khai thác liệu nhằm phát quy luật thông tin lượng liệu khổng lồ, giúp đưa định đắn mang lại hội phát triển mạnh mẽ cho doanh nghiệp Mặc dù có nhiều thuật tốn khai thác liệu Approri (Agrawal & Srikant,1994), Eclat (Zaki, 2000), FP-Growth (Han đồng sự, 2000) chưa hiệu phù hợp với lượng lớn liệu Gần đây, Node-list (Deng & Wang, 2010) N-list (Deng, Wang, & Jiang, 2012) hai cấu trúc liệu sử dụng phổ biến, chứng minh hiệu việc khai thác tập phổ biến Vấn đề đặt cấu trúc là, hai thuật toán phải mã hóa cho nút PPC-Tree với mã pre-order post-order Đây nguyên nhân gây tốn nhớ vá bất tiện trình khai thác tập phổ biến Vì vậy, cấu trúc Node-set (Deng & Lv, 2014) hiệu cho việc khai thác tập phổ biến Node-set yêu cầu pre-order post- order cho nút, điều giúp cho Node-set tiết kiệm nửa nhớ so với Node-list N-list Luận văn nhằm tìm hiểu cấu trúc Node-set áp dụng khai thác tập phổ biến sở liệu tăng trưởng ABSTRACT The IT industry is growing, demanding an increasing amount of information The ability to utilize data mining to detect information rules in huge amounts of data helps to make the right decisions that provide a strong opportunity for business growth Although many data mining algorithms, such as Approri (Agrawal & Srikant, 1994), Eclat (Zaki, 2000), FP-Growth (Han et al., 2000), are not efficient and consistent with large amounts of data Current data Recently, Node-list (Deng & Wang, 2010) and N-list (Deng, Wang, & Jiang, 2012) are two commonly used data structures, which have proved to be very effective in stating Popular file pool The main problem with these constructs is that both algorithms must encode each node of the PPC-Tree with pre-order and post-order code This is the cause of memory loss inconvenient patch during the common file exploit Therefore, the Node-set (Deng & Lv, 2014) structure is more efficient for common file mining Node-sets only require pre-order or post-order for each node, which in turn allows Node-sets to save half the memory compared to Node-lists and N-lists The thesis aims to investigate the Node-set structure and apply in the popular file mining on the incremental database MỤC LỤC MỞ ĐẦU .1 1- Nhu cầu thực tiễn 2- Mục tiêu đề tài 3- Phạm vi nghiên cứu đề tài 4- Bố cục đề tài CHƯƠNG 1- TỔNG QUAN VỀ ĐỀ TÀI I- giới thiệu khai thác liệu 1- Dữ liệu gì? 2- Khai thác liệu gì? .4 3- Quy trình phát tri thức khai thác liệu 4- Các k thuật khai thác liệu CHƯƠNG 2- CƠ SỞ LÝ THUYẾT I- KHAI THÁC DỮ LIỆU 1- Khai thác luật kết hợp 2- Khai thác tập phổ biến II- Các thuật toán khai thác tập phổ biến 10 1- Khai thác tập phổ biến sử dụng thuật toán Apriori 10 2- Khai thác tập phổ biến sử dụng thuật toán FP-growth .14 3- Khai thác tập phổ biến sử dụng thuật toán PPV .18 4- Khai thác tập phổ biến sử dụng thuật toán PrePost 25 5- Tìm hiểu cấu trúc POC-Tree, Node-set thuật tóan FIN 33 CHƯƠNG - ỨNG DỤNG NODE-SET TRONG KHAI THÁC TẬP PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG 46 I- Giới thiệu 46 II- Khai thác tập phổ biến sở liệu tăng Trưởng 46 1- Thuật toán Prelarge-itemset .47 2- Thuật toán cập nhật Incremental_FIN 48 3- Ví dụ minh họa 52 CHƯƠNG 4- KẾT QỦA THỰC NGHIỆM .59 I- Môi trường thực nghiệm 59 II- Dữ liệu thực nghiệm 59 III- So sánh thời gian khai thác .59 1- Khai thác liệu Mushroom 60 2- Khai thác liệu T40l10D100K 61 3- Khai thác liệu Connect 62 CHƯƠNG 5- KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 63 I- Điểm mạnh .63 II- Điểm yếu 63 1- Hiệu đề tài .63 2- Hướng phát triển tương lai 63 Thuật t n 3.2: Hàm: Update_FIN Đầu v Một dự liệu cũ (d+c) gồm giao dịch, tương ứng với Header Table, Pre Header Table, tương ứng prelarge tree, ngưỡng hỗ trợ thấp hơnSl, ngưỡng hộ trợ cao Su, giao dịch t Đầu ra: prelarge tree với liệu cập nhật Bước 1: Duyệt giao dịch để lấy tập số lượng chúng Bước 2: Chia tập giao dịch thành phần sau: tập phổ biến (xuất Header Table), tập gần phổ biến (xuất Pre Table Header), tập không phổ biến (không có Header Table Pre Header Table) theo liệu ban đầu Bước 3: For tập I tập phổ biến liệu ban đầu, thực bước sau (trường hợp 1, 3) Bước 3-1: số lượng SU(I) I liệu cập nhật SU(I) = SD(I) + ST(I), SD(I) số lượng I Header Table (dữ liệu ban đầu) ST (I ) số lượng I giao dịch Bước 3-2: If SU(I)/(d+c+t) Su, cập nhật số lượng I Header Table SU (I ), đẩy I vào Insert Items, xử lý bước 8; ngược lại if > SU(I)/(d+c+t) Sl, xoá I khỏi Header Table, đẩy I vào đầu Pre Header Table với mức phổ biến SD(I) cập nhật giữ I Insert Items; Trái lại, tập I không phổ biến sau liệu cập nhật; xoá I khỏi Header Table kết nối nút cha I đến nút prelarge tree Bước 4: For tập I tập phổ biến liệu ban đầu, thực bước sau trường hợp 4, 6): Bước 4-1: Thiết lập số lượng SU(I) I toàn dự liệu cập nhật: SU(I) = SD(I) + ST(I) Bước 4-2: If SU(I)/(d+c+t) , tập I tập phổ biến sau liệu cập nhật, xoá I khỏi Header Table, đẩy I váo cuối Header Table với mức phổ biến SD(I), đẩy I vào Insert Items; Ngược lại if > SU(I)/(d+c+t) , tập I gần phổ biến sau liệu cập nhật, cập nhật mức phổ biến SD(I) Pre Header Table đẩy vào Insert Item; ngược lại xoá I khỏi Pre Header Table Bước 6: For dòng giao dịch với tập I tồn Insert Items, I khơng có nhánh tương ứng Prelarge tree, them I vào cuối nhánh thiết lập số lượng 1; ngược lại, tăng số lượng thêm vào nút I 3- Ví dụ minh họa Cho CSDL D với giao dịch bảng 3.1và dàn tập phổ biến xây dựng hình 3.2, với = 30% = 50% Bảng 3.1: Cơ sở dự liệu ban đầu TID Items TID a, b, c, f, g b, c, d a, b, c, f, g b, d, i a, d, e, f, h b, c, d e, h, i b, c, e, f, h e, d, h, f 10 a, b, c, f, g Tậ hổ i n Items Tậ ần hổ i n Items Độ hổ i n Items Độ hổ i n b a c e f h d g Hình 3.2: T p ph bi n gần ph bi n c a CSDL bảng 3.1 Thêm ba giao dịch trình bày bảng 3.2 Thuật tốn UPDATE_FIN thực sau Bảng 3.2: Ba giao dịch STT Mục 11 a, b, c, e, f 12 e, h, i 13 d, e, f, h Bước 1: Ba giao dịch duyệt lần để lấy tập số lượng chúng Kết thể bảng 3.1 Hình 3.3: POC- tree đ ợc xây dựng a: g: f: 4 h: e: c: d: b: 13 12 d: h: e: 11 10 16 15 14 d: f: {} h: e: a: 18 1710 h: e: Bước 2: Tất các tập a bảng 3.3 chia làm phần, {b}{c}{f } {d}, {a}{e}{h}{g}, {i} theo mức phổ biến, gần phổ biến không phổ biến liệu ban đầu Kết bảng 3.4, số lượng chúng giao dịch Bảng 3.3: Số lượng tất tập giao dịch C c i ch ới Item Count Item Count Item Count a d g b e h c f i Bảng 3.4: Vùng tập giao dịch Tậ hổ i n t n iệu ữ n đầu Tậ ần hổ i n t n ữ iệu n đầu Tậ h n t n hổ i n ữ iệu n đầu Item Count Item Count Item Count b a i c e f h d g Bước 3: Các tập giao dịch tập phổ biến liệu ban đầu xử lý Trong ví dụ này, tập b, c, f d thoả điểu kiện xữ lý Lấy tập b ví dụ minh hoạ cho bước Số lượng tập b Header table (Bảng tập phổ biến) 7, số lượng giao dịch Số lượng tập b + (=8) Tỉ lệ hỗ trợ b (10 + +3), lớp ngưỡng hỗ trọ thấp 0,5 Tập b tập phổ biến sau liệu cập nhật Giá trị phổ biến tập b Header table mà thay đổi thành 8, sau b thêm vào Insert Item Tập c f xử lý tương tự Tập d trợ thành tập gần phổ biến (pre-large) sau liệu cập nhật Tập d mà bị xoá khỏi Header Table đưa vào đầu Pre Header Table với giá trị phổ biến cập nhật đưa vào Insert Item Bước 4: Các tập gần phổ biến liệu ban đầu xử lý Chúng bao gồm tập a, e, h, g Lấy tập a làm ví dụ cho minh hoạ bước Số lượng a 4+1 (=5) Tỉ lệ hỗ trợ tập a (10 + +3), nằm 0, 0,5 Tập a tập gần phổ biến sau liệu cập nhật Giá trị phổ biến tập a Pre Header Table thay đỗi thành 5, tập a sau thêm vào Insert Item Tập h xử lý tương tự Số lượng tập e Pre Header Table 4, số lượng no giao dịch Số lượng e 4+3 (=7) Tỉ lệ hỗ trợ tập e (10 + +3), lớn 0.5 Tập e trở thành tập phổ biến sau liệu cập nhật Nó xố khỏi Pre Header Table đưa vào cuối Header Table đưa vào Insert Item Giá trị phổ biến e Header Table thay đỗi thành Cuối tập g trở thành tập không phổ biến (small prelarge) sau liệu cập nhật Tập g bị xoá khỏi Pre Header Table khỏi prelarge tree Sau bước 5, Insert Item ={a, b, c, d, e, h} Bước 5: Prelarge tree cập nhật theo giao dịch với tập tồn Insert Item Trong ví dụ này, Insert Item ={a, b, c, d, e, f, h} Nhánh tương ứng cho giao dịch với tập trình bày bảng 3.5 Bảng 3.5: Ba phân vùng tập giao dịch TID Items a, b, c, e, f e, h, i d,e,f ,h Header table Items Độ hổ i n b c f e Corresponding branches b, c, f, a, e e, h f, d, e, h Items d a h Pre-Header Độ hổ i n 6 Hình 3.4: K t cuối c a Prelarge tree e: a: f: h: e: c: d: b: h: e: 12 13 11 d: 10 16 15 14 d: f: {} h: e: a: 18 17 h: e: Nhánh tiền tố (b, c, f, a) prelarger tree Số lượng của, c, f a giảm xuống chúng chưa đếm cấu trúc prelarge tree trước Một nút (e:1) tạo dẫn đến (a:4) nút Cũng xử lý tương tự thực hai nhánh khác Kết cuối hình 3.4 CHƯƠNG 4- KẾT QỦA THỰC NGHIỆM I- MÔI TRƯỜNG THỰC NGHIỆM Tất thực nghiệm thực Dell PC với intel core i7, 8gb Ram, hệ điều hành Windows 8, tất chương trình lập trình Java II- DỮ LIỆU THỰC NGHIỆM Các CSDL Mushroom, Connect, T40I10D100K tải từ link http://fimi.ua.ac.be/data/ để thử nghiệm Bảng 4.1: Đặc điểm sở liệu thực nghiệm STT Tên ữ iệu Số i ch Số ục Mushroom 8.124 119 Connect 67.557 130 T40I10D100K 99.822 990 III- SO SÁNH THỜI GIAN KHAI THÁC 90 giao dịch lấy từ CSDL bảng 4.1 nhằm khởi dựng 10 giao dịch sử dụng khai thác tăng trưởng Mỗi lần thêm liệu tương ứng 91 , 92 , 93 , 94%, 95%,96%, 97%, 98%, 99%, 100% Chương trình hai hướng khai thác liệu tăng trưởng sau: - Thuật toán Prelarge-tree - Thuật toán Incremental_FIN 1- Khai thác liệu Mushroom Mushroom 60 54.707 Thời i n thực thi 50 40 30 20 10 Prelarge-tree Mushroom hồ i n 500000 Số n tậ INCR_FIN 480000 460000 440000 420000 400000 380000 7389 7476 7557 7638 7719 Prelarge-tree 7800 7881 INCR_FIN 7962 8043 8124 Hình 4.1: T ng thời gian khai thác số l ợng t p ph bi n thêm 10% liệu v i ng ỡng =0.1, =0.05 Nhận xét: Sau lần thêm liệu (64 giao dịch lần) với ngưỡng = 0.1 = 0.05 Thời gian cập nhật liệu INCR FIN nhanh Prelarge-tree Mặc dù số lượng tập phổ biến tìm thấy 2- Khai thác liệu T40l10D100K T40I10D100K 90 70 60 50 40 30 20 Thời i n thực th 80 10 Prelarge-tree T40I10D100K hổ i n 316.5 Số n tậ INCR_FIN 316 315.5 315 314.5 314 313.5 313 91000 92000 93000 94000 95000 96000 97000 98000 99000 10000 Prelarge-tree INCR_FIN Hình 4.2: T ng thời gian khai thác số l ợng t p ph bi n thêm 10 lần liệu có =0.05, =0.02 Nhận xét: Sau thêm 10 lần liệu (1000 giao dịch lần) Tổng thời gian khai thác INCR FIN tổng thời gian khai thác Prelarge-tree, số lượng tập phổ biến tìm 3- Khai thác liệu Connect Connect 300 200 150 100 50 Thời i n thực thi 250 Prelarge-tree INCR_FIN Connect 820000 hổ i n 800000 780000 760000 Số n tậ 740000 720000 700000 680000 660000 640000 67550 74312 81067 87822 94577 101332 108087 114842 121597 128352 Prelarge-tree INCR_FIN Hình 4.3: T ng thời gian khai thác số l ợng t p ph bi n thêm 10 lần liệu có =0.8, =0.7 Nhận xét: Sau thêm 10 lần liệu (6762 giao dịch lần) Tổng thời gian khai thác INCR FIN tổng thời gian khai thác Prelarge-tree, số lượng tập phổ biến tìm CHƯƠNG 5- KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN I- ĐIỂM MẠNH Thuật toán cập nhật nhanh tập phổ hàng loạt giao dịch CSDL lớn thêm vào Thuật tốn có thời gian thực thi so với thời gian thuật toán FIN Dựa vào khái niệm gần phổ biến giúp ta hạn chế qu t lại CSDL nhiều lần, làm giảm thời gian thực thi Ta thêm lần nhiều giao dịch cập nhật nhiều lần cho số lượng giao dịch thỏa ngưỡng an tồn f mà khơng cần qu t lại CSDL II- ĐIỂM ẾU Thuật toán phải duyệt lại toàn CSDL để khai thác liệu, tức số lượng giao dịch thêm vào lớn ngưỡng an toàn f 1- Hiệu uả củ đề t i Luận văn đề xuất thuật toán khai thác tập phổ biến có CSDL thêm vào với thời gian thực thi so với việc xây dựng lại thêm giao dịch Nó đặc biệt hiệu CSDL lớn, để cập nhật lại tập phổ biến giao dịch thêm vào, ta cần phải tốn nhiều thời gian để xây dựng Giảm thiểu thời gian thác liệu tăng trưởng CSDL có thay đổi (CSDL động) 2- Hướng phát triển t n tư n i Trong thời gian tới, nghiên cứu phương pháp cập nhật dàn hiệu cách nghiên cứu cách thức tổ chức liệu để qu t lại CSDL số giao dịch sửa vượt ngưỡng an toàn f Ngoài ra, nghiên cứu áp dụng k thuật đề xuất vào việc cập nhật tập phổ biến đóng CSDL cập nhật Tiến đến áp dụng loại CSDL khác CSDL số lượng, CSDL phân cấp TÀI LIỆU THAM KHẢO (1) Burdick, D., Calimlim, M., Flannick, J., Gehrke, J., & Yiu, T (2005) Mafia: a maximal frequent itemset algorithm IEEE TKDE Journal, 17(11), 1490– 1504 (2) Deng, Z H (2014) Fast mining Top-Rank-K frequent patterns by using Node-lists Expert Systems with Applications, 41(4–2), 1763–1768 (3) Deng, Z H., & Wang, Z H (2010) A new fast vertical method for mining frequent itemsets International Journal of Computational Intelligence Systems, 3(6), 733–744 (4) Deng, Z H., Wang, Z H., & Jiang, J J (2012) A new algorithm for fast mining frequent itemsets using N-lists Science China Information Sciences, 55(9), 2008–2030 (5) Deng, Z H., & Xu, X R (2012) Fast mining erasable itemsets using NC_sets Expert Systems with Applications, 39(4), 4453–4463 (6) Grahne, G., & Zhu, J (2005) Fast algorithms for frequent itemset mining using FPtrees IEEE TKDE Journal, 17(10), 1347–1362 (7) Han, J., Cheng, H., Xin, D., & Yan, X (2007) Frequent itemset mining: current status and future directions DMKD Journal, 15(1), 55–86 (8) Le, T., & Vo, B (2014) MEI: an efficient algorithm for mining erasable itemsets Engineering Applications of Artificial Intelligence, 27, 155–166 (9) Lee, A J T., Wang, C S., Weng, W Y., Chen, Y A., & Wu, H W (2008) An efficient algorithm for mining closed inter-transaction itemsets Data and Knowledge Engineering, 66(1), 68–91 (10) Li, X., & Deng, Z H (2010) Mining frequent itemsets from network flows for monitoring network Expert Systems with Applications, 37(12), 8850– 8860 (11) Liu, G., Lu, H., Lou, W., Xu, Y., & Yu, J X (2004) Efficient mining of frequent itemsets using ascending frequency ordered prefix-tree DMKD Journal, 9(3), 249–274 (12) Woon, Y K., Ng, W K., & Lim, E P (2004) A support-ordered trie for fast frequent itemset discovery IEEE TKDE Journal, 16(7), 875–879 (13) Zaki, M J (2000) Scalable algorithms for association mining IEEE TKDE Journal, 12(3), 372–390 (14) Deng, Z.H, Lv, S.L (2014) Fast mining frequent itemsets using Node- sets Expert Systems with Applications, 41(10), 4505–4512 ... I- KHAI THÁC DỮ LIỆU 1- Khai thác luật kết hợp 2- Khai thác tập phổ biến II- Các thuật toán khai thác tập phổ biến 10 1- Khai thác tập phổ biến sử dụng. .. cấu trúc POC-Tree, Node- set thuật tóan FIN 33 CHƯƠNG - ỨNG DỤNG NODE- SET TRONG KHAI THÁC TẬP PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG 46 I- Giới thiệu 46 II- Khai thác tập phổ. .. khai thác liệu tăng trưởng Nghiên cứu cấu trúc liệu thuật toán khai thác liệu tăng trưởng, tiêu biểu cấu trúc Node- set thuật toán FIN - Kết hợp cấu trúc liệu Node- set Node- set với thông tin giao

Định dạng
Số trang	79
Dung lượng	1,65 MB

Tài liệu tham khảo	Loại	Chi tiết
(1) Burdick, D., Calimlim, M., Flannick, J., Gehrke, J., & Yiu, T. (2005). Mafia: a maximal frequent itemset algorithm. IEEE TKDE Journal, 17(11), 1490–1504	Khác
(2) Deng, Z. H. (2014). Fast mining Top-Rank-K frequent patterns by using Node-lists. Expert Systems with Applications, 41(4–2), 1763–1768	Khác
(3) Deng, Z. H., & Wang, Z. H. (2010). A new fast vertical method for mining frequent itemsets. International Journal of Computational Intelligence Systems, 3(6), 733–744	Khác
(4) Deng, Z. H., Wang, Z. H., & Jiang, J. J. (2012). A new algorithm for fast mining frequent itemsets using N-lists. Science China Information Sciences, 55(9), 2008–2030	Khác
(5) Deng, Z. H., & Xu, X. R. (2012). Fast mining erasable itemsets using NC_sets. Expert Systems with Applications, 39(4), 4453–4463	Khác
(6) Grahne, G., & Zhu, J. (2005). Fast algorithms for frequent itemset mining using FPtrees. IEEE TKDE Journal, 17(10), 1347–1362	Khác
(7) Han, J., Cheng, H., Xin, D., & Yan, X. (2007). Frequent itemset mining: current status and future directions. DMKD Journal, 15(1), 55–86	Khác
(8) Le, T., & Vo, B. (2014). MEI: an efficient algorithm for mining erasable itemsets. Engineering Applications of Artificial Intelligence, 27, 155–166	Khác
(9) Lee, A. J. T., Wang, C. S., Weng, W. Y., Chen, Y. A., & Wu, H. W	Khác
(10) Li, X., & Deng, Z. H. (2010). Mining frequent itemsets from network flows for monitoring network. Expert Systems with Applications, 37(12), 8850–8860	Khác
(11) Liu, G., Lu, H., Lou, W., Xu, Y., & Yu, J. X. (2004). Efficient mining of frequent itemsets using ascending frequency ordered prefix-tree. DMKD Journal, 9(3), 249–274	Khác
(12) Woon, Y. K., Ng, W. K., & Lim, E. P. (2004). A support-ordered trie for fast frequent itemset discovery. IEEE TKDE Journal, 16(7), 875–879	Khác
(13) Zaki, M. J. (2000). Scalable algorithms for association mining. IEEE TKDE Journal, 12(3), 372–390	Khác
(14) Deng, Z.H, Lv, S.L (2014). Fast mining frequent itemsets using Node- sets. Expert Systems with Applications, 41(10), 4505–4512	Khác