Khai thác mẫu phổ biến trên cơ sở dữ liệu tăng trưởng sử dụng cấu trúc node set

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÊ MINH TÂM KHAI THÁC MẪU PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG SỬ DỤNG CẤU TRÚC NODE-SET LUẬN VĂN THẠC SĨ Chuyên ngành : CÔNG NGHỆ THÔNG TIN Mã số ngành : 60480201 TP HỒ CHÍ MINH, tháng năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - LÊ MINH TÂM KHAI THÁC MẪU PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG SỬ DỤNG CẤU TRÚC NODE-SET LUẬN VĂN THẠC SĨ Chuyên ngành : CÔNG NGHỆ THÔNG TIN Mã số ngành : 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS TS VÕ ĐÌNH BẢY TP HỒ CHÍ MINH, tháng năm 2017 CƠNG TRÌNH ĐƢỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hƣớng dẫn khoa học: PGS.TS VÕ ĐÌNH BẢY Luận văn Thạc sĩ đƣợc bảo vệ Trƣờng Đại học Công nghệ TP HCM ngày 24 tháng năm 2017 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TT Họ tên Chức danh Hội đồng TS CAO TÙNG ANH Chủ tịch PGS.TS QUẢN THÀNH THƠ Phản biện TS VŨ THANH HIỀN Phản biện TS NGUYỄN THỊ THUÝ LOAN TS LÊ THỊ NGỌC THƠ Ủy viên Ủy viên, Thƣ ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn đƣợc sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TS CAO TÙNG ANH TRƢỜNG ĐH CƠNG NGHỆ TP HCM CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày … tháng… năm 20 … NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Lê Minh Tâm Giới tính: Nữ Ngày, tháng, năm sinh: 26/ 09/ 1988 Nơi sinh: TP HCM Chuyên ngành: Công nghệ Thông tin MSHV:1541860024 I- Tên đề tài: Khai thác mẫu phổ biến sở liệu tăng trƣởng sử dụng cấu trúc Node-set II- Nhiệm vụ nội dung: Tìm hiểu sở lý thuyết thuật tốn Apriori, FP-Growth, PPV, Prepost, FIN, Prelarge-Tree Cải tiến thuật toán Prelarge-Tree dựa vào cấu trúc Node-set thuật toán FIN III- Ngày giao nhiệm vụ: IV- Ngày hoàn thành nhiệm vụ: 31/ 03/ 2017 V- Cán hướng dẫn: PGS.TS VÕ ĐÌNH BẢY CÁN BỘ HƯỚNG DẪN PGS.TS VÕ ĐÌNH BẢY KHOA QUẢN LÝ CHUYÊN NGÀNH PGS.TS VÕ ĐÌNH BẢY i LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chƣa đƣợc cơng bố cơng trình khác Tôi xin cam đoan giúp đỡ cho việc thực luận văn đƣợc cảm ơn thơng tin trích dẫn Luận văn đƣợc rõ nguồn gốc Học viên thực luận văn Lê Minh Tâm ii LỜI CÁM ƠN Đƣợc phân công khoa Công nghệ Thông tin trƣờng đại học Công nghệ TP.HCM, đồng ý thầy hƣớng dẫn PGS Võ Đình Bảy tơi thực đề tài “Khai thác mẫu phổ biến sở liệu tăng trƣởng sử dụng cấu trúc Node-set” Để hồn thành khố luận này, tơi xin chân thành cảm ơn thầy tận tình hƣớng dẫn, giảng dạy suốt trình học tập, nghiên cứu rèn luyện trƣờng đại học Công nghệ TP.HCM Xin chân thành cảm ơn Thầy hƣớng dẫn PGS Võ Đình Bảy tận tình, chu đáo hƣớng dẫn tơi thực khố luận Mặc dù có nhiều cố gắng để thực đề tài cách hoàn chỉnh Song buổi đầu làm quen với công tác nghiên cứu khoa học, tiếp cận với thực tế sàn xuất nhƣ hạn chế kiến thực kinh nghiệm nên khơng thể tránh khỏi thiếu sót định mà thân chƣa thấy đƣợc Tôi mong đƣợc góp ý q Thầy, Cơ để khố luận đƣợc hồn chỉnh Tơi xin chân thành cảm ơn Lê Minh Tâm iii TĨM TẮT Ngành cơng nghiệp cơng nghệ thơng tin ngày phát triển, đòi hỏi lƣợng thông tin lƣu trữ ngày cao Khả ứng dụng khai thác liệu nhằm phát quy luật thông tin lƣợng liệu khổng lồ, giúp đƣa định đắn mang lại hội phát triển mạnh mẽ cho doanh nghiệp Mặc dù có nhiều thuật tốn khai thác liệu nhƣ Approri (Agrawal & Srikant,1994), Eclat (Zaki, 2000), FP-Growth (Han đồng sự, 2000) nhƣng chƣa hiệu phù hợp với lƣợng lớn liệu Gần đây, Node-list (Deng & Wang, 2010) N-list (Deng, Wang, & Jiang, 2012) hai cấu trúc liệu đƣợc sử dụng phổ biến, đƣợc chứng minh hiệu việc khai thác tập phổ biến Vấn đề đặt cấu trúc là, hai thuật toán phải mã hóa cho nút PPC-Tree với mã pre-order post-order Đây nguyên nhân gây tốn nhớ vá bất tiện trình khai thác tập phổ biến Vì vậy, cấu trúc Node-set (Deng & Lv, 2014) hiệu cho việc khai thác tập phổ biến Node-set yêu cầu pre-order postorder cho nút, điều giúp cho Node-set tiết kiệm nửa nhớ so với Node-list N-list Luận văn nhằm tìm hiểu cấu trúc Node-set áp dụng khai thác tập phổ biến sở liệu tăng trƣởng iv ABSTRACT The IT industry is growing, demanding an increasing amount of information The ability to utilize data mining to detect information rules in huge amounts of data helps to make the right decisions that provide a strong opportunity for business growth Although many data mining algorithms, such as Approri (Agrawal & Srikant, 1994), Eclat (Zaki, 2000), FP-Growth (Han et al., 2000), are not efficient and consistent with large amounts of data Current data Recently, Node-list (Deng & Wang, 2010) and N-list (Deng, Wang, & Jiang, 2012) are two commonly used data structures, which have proved to be very effective in stating Popular file pool The main problem with these constructs is that both algorithms must encode each node of the PPC-Tree with pre-order and post-order code This is the cause of memory loss inconvenient patch during the common file exploit Therefore, the Node-set (Deng & Lv, 2014) structure is more efficient for common file mining Node-sets only require pre-order or post-order for each node, which in turn allows Node-sets to save half the memory compared to Node-lists and N-lists The thesis aims to investigate the Node-set structure and apply in the popular file mining on the incremental database v MỤC LỤC MỞ ĐẦU .1 1- Nhu cầu thực tiễn 2- Mục tiêu đề tài 3- Phạm vi nghiên cứu đề tài 4- Bố cục đề tài CHƢƠNG 1- TỔNG QUAN VỀ ĐỀ TÀI I- giới thiệu khai thác liệu 1- Dữ liệu gì? 2- Khai thác liệu gì? .4 3- Quy trình phát tri thức khai thác liệu 4- Các k thuật khai thác liệu CHƢƠNG 2- CƠ SỞ LÝ THUYẾT I- KHAI THÁC DỮ LIỆU 1- Khai thác luật kết hợp 2- Khai thác tập phổ biến II- Các thuật toán khai thác tập phổ biến 10 1- Khai thác tập phổ biến sử dụng thuật toán Apriori 10 2- Khai thác tập phổ biến sử dụng thuật toán FP-growth .14 3- Khai thác tập phổ biến sử dụng thuật toán PPV 18 4- Khai thác tập phổ biến sử dụng thuật toán PrePost 25 5- Tìm hiểu cấu trúc POC-Tree, Node-set thuật tóan FIN 33 CHƢƠNG - ỨNG DỤNG NODE-SET TRONG KHAI THÁC TẬP PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƢỞNG 46 I- Giới thiệu 46 II- Khai thác tập phổ biến sở liệu tăng Trƣởng 46 1- Thuật toán Prelarge-itemset .47 2- Thuật toán cập nhật Incremental_FIN 48 vi 3- Ví dụ minh họa 52 CHƢƠNG 4- KẾT QỦA THỰC NGHIỆM .59 Môi trƣờng thực nghiệm 59 III- Dữ liệu thực nghiệm 59 III- So sánh thời gian khai thác 59 1- Khai thác liệu Mushroom 60 2- Khai thác liệu T40l10D100K 61 3- Khai thác liệu Connect 62 CHƢƠNG 5- KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 63 Điểm mạnh .63 III- Điểm yếu 63 1- Hiệu đề tài .63 2- Hƣớng phát triển tƣơng lai 63 51 Thuật t n 3.2: Hàm: Update_FIN Đầu v Một dự liệu cũ (d+c) gồm giao dịch, tƣơng ứng với Header Table, Pre Header Table, tƣơng ứng prelarge tree, ngƣỡng hỗ trợ thấp hơnSl, ngƣỡng hộ trợ cao Su, giao dịch t Đầu ra: prelarge tree với liệu đƣợc cập nhật Bƣớc 1: Duyệt giao dịch để lấy tập số lƣợng chúng Bƣớc 2: Chia tập giao dịch thành phần nhƣ sau: tập phổ biến (xuất Header Table), tập gần phổ biến (xuất Pre Table Header), tập không phổ biến (khơng có Header Table Pre Header Table) theo liệu ban đầu Bƣớc 3: For tập I tập phổ biến liệu ban đầu, thực bƣớc sau (trƣờng hợp 1, 3) Bƣớc 3-1: số lƣợng SU(I) I liệu cập nhật SU(I) = SD(I) + ST(I),  SD(I) số lƣợng I Header Table (dữ liệu ban đầu) ST (I ) số lƣợng I giao dịch Bƣớc 3-2: If SU(I)/(d+c+t) Su, cập nhật số lƣợng I Header Table nhƣ SU (I ), đẩy I vào Insert Items, đƣợc xử lý bƣớc 8; ngƣợc lại if > SU(I)/(d+c+t) Sl, xoá I khỏi Header Table, đẩy I vào đầu Pre Header Table với mức phổ biến SD(I) đƣợc cập nhật giữ I Insert Items; Trái lại, tập I không phổ biến sau liệu đƣợc cập nhật; xoá I khỏi Header Table kết nối nút cha I đến nút prelarge tree Bƣớc 4: For tập I tập phổ biến liệu ban đầu, thực bƣớc sau trƣờng hợp 4, 6): Bƣớc 4-1: Thiết lập số lƣợng SU(I) I toàn dự liệu đƣợc cập nhật: SU(I) = SD(I) + ST(I) Bƣớc 4-2: If SU(I)/(d+c+t) , tập I tập phổ biến sau liệu đƣợc cập nhật, xoá I khỏi Header Table, đẩy I váo cuối Header Table với mức phổ biến SD(I), đẩy I vào Insert Items; Ngƣợc lại if > SU(I)/(d+c+t) , tập I gần phổ 52 biến sau liệu đƣợc cập nhật, cập nhật mức phổ biến SD(I) Pre Header Table đẩy vào Insert Item; ngƣợc lại xoá I khỏi Pre Header Table Bƣớc 6: For dòng giao dịch với tập I tồn Insert Items, I khơng có nhánh tƣơng ứng Prelarge tree, them I vào cuối nhánh thiết lập số lƣợng 1; ngƣợc lại, tăng số lƣợng thêm vào nút I 3- Ví dụ minh họa Cho CSDL D với giao dịch bảng 3.1và dàn tập phổ biến đƣợc xây dựng nhƣ hình 3.2, với = 30% = 50% Bảng 3.1: Cơ sở dự liệu ban đầu TID Items TID a, b, c, f, g b, c, d a, b, c, f, g b, d, i a, d, e, f, h b, c, d e, h, i b, c, e, f, h e, d, h, f 10 a, b, c, f, g Tậ hổ i n Items Tậ ần hổ i n Items Độ hổ i n Items Độ hổ i n b a c e f h d g Hình 3.2: T p ph bi n gần ph bi n c a CSDL bảng 3.1 53 Thêm ba giao dịch đƣợc trình bày bảng 3.2 Thuật toán UPDATE_FIN đƣợc thực nhƣ sau Bảng 3.2: Ba giao dịch STT Mục 11 a, b, c, e, f 12 e, h, i 13 d, e, f, h Bƣớc 1: Ba giao dịch đƣợc duyệt lần để lấy tập số lƣợng chúng Kết đƣợc thể bảng 3.1 Hình 3.3: POC- tree đ ợc xây dựng a: g: f: 4 h: e: c: d: b: 13 12 d: h: e: 11 10 16 15 14 d: f: {} h: e: a: 18 1710 h: e: 54 55 Bƣớc 2: Tất các tập a bảng 3.3 đƣợc chia làm phần, {b}{c}{f }{d}, {a}{e}{h}{g}, {i} theo mức phổ biến, gần phổ biến không phổ biến liệu ban đầu Kết đƣợc bảng 3.4, số lƣợng chúng giao dịch Bảng 3.3: Số lƣợng tất tập giao dịch C c i ch ới Item Count Item Count Item Count a d g b e h c f i Bảng 3.4: Vùng tập giao dịch Tậ hổ i n t n iệu ữ n đầu Tậ ần hổ i n t n ữ iệu n đầu Tậ h n t n hổ i n ữ iệu n đầu Item Count Item Count Item Count b a i c e f h d g Bƣớc 3: Các tập giao dịch tập phổ biến liệu ban đầu đƣợc xử lý Trong ví dụ này, tập b, c, f d thoả điểu kiện đƣợc xữ lý Lấy tập b ví dụ minh hoạ cho bƣớc Số lƣợng tập b Header table (Bảng tập phổ biến) 7, số lƣợng giao dịch Số lƣợng tập b + (=8) Tỉ lệ hỗ trợ b (10 + +3), lớp ngƣỡng hỗ trọ thấp 0,5 Tập b tập phổ biến sau liệu đƣợc cập nhật Giá trị phổ biến tập b Header table 56 mà thay đổi thành 8, sau b đƣợc thêm vào Insert Item Tập c f đƣợc xử lý tƣơng tự Tập d trợ thành tập gần phổ biến (pre-large) sau liệu đƣợc cập nhật Tập d mà bị xố khỏi Header Table đƣa vào đầu Pre Header Table với giá trị phổ biến đƣợc cập nhật đƣợc đƣa vào Insert Item Bƣớc 4: Các tập gần phổ biến liệu ban đầu đƣợc xử lý Chúng bao gồm tập a, e, h, g Lấy tập a làm ví dụ cho minh hoạ bƣớc Số lƣợng a 4+1 (=5) Tỉ lệ hỗ trợ tập a (10 + +3), nằm 0, 0,5 Tập a tập gần phổ biến sau liệu đƣợc cập nhật Giá trị phổ biến tập a Pre Header Table thay đỗi thành 5, tập a sau đƣợc thêm vào Insert Item Tập h đƣợc xử lý tƣơng tự Số lƣợng tập e Pre Header Table 4, số lƣợng no giao dịch Số lƣợng e 4+3 (=7) Tỉ lệ hỗ trợ tập e (10 + +3), lớn 0.5 Tập e trở thành tập phổ biến sau liệu đƣợc cập nhật Nó đƣợc xố khỏi Pre Header Table đƣợc đƣa vào cuối Header Table đƣợc đƣa vào Insert Item Giá trị phổ biến e Header Table thay đỗi thành Cuối tập g trở thành tập không phổ biến (small prelarge) sau liệu đƣợc cập nhật Tập g bị xố khỏi Pre Header Table khỏi prelarge tree Sau bƣớc 5, Insert Item ={a, b, c, d, e, h} Bƣớc 5: Prelarge tree đƣợc cập nhật theo giao dịch với tập tồn Insert Item Trong ví dụ này, Insert Item ={a, b, c, d, e, f, h} Nhánh tƣơng ứng cho giao dịch với tập đƣợc trình bày bảng 3.5 Bảng 3.5: Ba phân vùng tập giao dịch TID Items a, b, c, e, f e, h, i d,e,f ,h Header table Items Độ hổ i n b c f e Corresponding branches b, c, f, a, e e, h f, d, e, h Items d a h Pre-Header Độ hổ i n 6 Hình 3.4: K t cuối c a Prelarge tree e: a: f: h: e: c: d: b: h: e: 12 13 11 d: 10 16 15 14 d: f: {} h: e: a: 18 17 h: e: 57 58 Nhánh tiền tố (b, c, f, a) nhƣ prelarger tree Số lƣợng của, c, f a giảm xuống chúng chƣa đƣợc đếm cấu trúc prelarge tree trƣớc Một nút (e:1) đƣợc tạo dẫn đến (a:4) nhƣ nút Cũng xử lý tƣơng tự thực hai nhánh khác Kết cuối đƣợc hình 3.4 59 CHƯƠNG 4- KẾT QỦA THỰC NGHIỆM I- MÔI TRƯỜNG THỰC NGHIỆM Tất thực nghiệm đƣợc thực Dell PC với intel core i7, 8gb Ram, hệ điều hành Windows 8, tất chƣơng trình đƣợc lập trình Java II- DỮ LIỆU THỰC NGHIỆM Các CSDL Mushroom, Connect, T40I10D100K đƣợc tải từ link http://fimi.ua.ac.be/data/ để thử nghiệm Bảng 4.1: Đặc điểm sở liệu thực nghiệm STT Tên ữ iệu Số i ch Số ục Mushroom 8.124 119 Connect 67.557 130 T40I10D100K 99.822 990 III- SO SÁNH THỜI GIAN KHAI THÁC 90 10 giao dịch đƣợc lấy từ CSDL bảng 4.1 nhằm khởi dựng giao dịch đƣợc sử dụng khai thác tăng trƣởng Mỗi lần thêm liệu tƣơng ứng 91 , 92 , 93 , 94%, 95%,96%, 97%, 98%, 99%, 100% Chƣơng trình hai hƣớng khai thác liệu tăng trƣởng sau: - Thuật toán Prelarge-tree - Thuật toán Incremental_FIN 60 1- Khai thác liệu Mushroom Mushroom 60 54.707 Thời i n thực thi 50 40 30 20 10 Prelarge-tree INCR_FIN Mushroom hồ i n 480000 Số n tậ 500000 440000 460000 420000 400000 380000 7389 7476 7557 7638 7719 Prelarge-tree 7800 7881 INCR_FIN 7962 8043 8124 Hình 4.1: T ng thời gian khai thác số l ợng t p ph bi n thêm 10% liệu v i ng ỡng =0.1, =0.05 Nhận xét: Sau lần thêm liệu (64 giao dịch lần) với ngƣỡng = 0.1 = 0.05 Thời gian cập nhật liệu INCR FIN nhanh Prelarge-tree Mặc dù số lƣợng tập phổ biến đƣợc tìm thấy nhƣ 61 2- Khai thác liệu T40l10D100K T40I10D100K 90 Thời i n thực th 80 70 60 50 40 30 20 10 hổ i n 316.5 Prelarge-tree INCR_FIN T40I10D100K 316 315.5 Số n tậ 315 314.5 314 313.5 313 91000 92000 93000 94000 95000 96000 97000 98000 99000 10000 Prelarge-tree INCR_FIN Hình 4.2: T ng thời gian khai thác số l ợng t p ph bi n thêm 10 lần liệu có =0.05, =0.02 Nhận xét: Sau thêm 10 lần liệu (1000 giao dịch lần) Tổng thời gian khai thác INCR FIN tổng thời gian khai thác Prelarge-tree, số lƣợng tập phổ biến tìm đƣợc nhƣ 62 3- Khai thác liệu Connect Connect 300 Thời i n thực thi 250 200 150 100 50 Prelarge-tree INCR_FIN Connect 820000 hổ i n 800000 780000 760000 Số n tậ 740000 720000 700000 680000 660000 640000 67550 74312 81067 87822 94577 101332108087114842121597128352 Prelarge-tree INCR_FIN Hình 4.3: T ng thời gian khai thác số l ợng t p ph bi n thêm 10 lần liệu có =0.8, =0.7 Nhận xét: Sau thêm 10 lần liệu (6762 giao dịch lần) Tổng thời gian khai thác INCR FIN tổng thời gian khai thác Prelarge-tree, số lƣợng tập phổ biến tìm đƣợc nhƣ 63 CHƯƠNG 5- KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN I- ĐIỂM MẠNH Thuật toán cập nhật nhanh tập phổ hàng loạt giao dịch CSDL lớn đƣợc thêm vào Thuật tốn có thời gian thực thi so với thời gian thuật toán FIN Dựa vào khái niệm gần phổ biến giúp ta hạn chế qu t lại CSDL nhiều lần, làm giảm thời gian thực thi Ta thêm lần nhiều giao dịch cập nhật nhiều lần cho số lƣợng giao dịch thỏa ngƣỡng an tồn f mà khơng cần qu t lại CSDL II- ĐIỂM ẾU Thuật toán phải duyệt lại toàn CSDL để khai thác liệu, tức số lƣợng giao dịch thêm vào lớn ngƣỡng an toàn f 1- Hiệu uả củ đề t i Luận văn đề xuất thuật toán khai thác tập phổ biến có CSDL đƣợc thêm vào với thời gian thực thi so với việc xây dựng lại thêm giao dịch Nó đặc biệt hiệu CSDL lớn, để cập nhật lại tập phổ biến giao dịch đƣợc thêm vào, ta cần phải tốn nhiều thời gian để xây dựng Giảm thiểu thời gian thác liệu tăng trƣởng CSDL có thay đổi (CSDL động) 2- Hướng phát triển t n tư n i Trong thời gian tới, nghiên cứu phƣơng pháp cập nhật dàn hiệu cách nghiên cứu cách thức tổ chức liệu để qu t lại CSDL số giao dịch đƣợc sửa vƣợt ngƣỡng an toàn f Ngoài ra, nghiên cứu áp dụng k thuật đề xuất vào việc cập nhật tập phổ biến đóng CSDL đƣợc cập nhật Tiến đến áp dụng loại CSDL khác nhƣ CSDL số lƣợng, CSDL phân cấp 64 TÀI LIỆU THAM KHẢO (1) Burdick, D., Calimlim, M., Flannick, J., Gehrke, J., & Yiu, T (2005) Mafia: a maximal frequent itemset algorithm IEEE TKDE Journal, 17(11), 1490– 1504 (2) Deng, Z H (2014) Fast mining Top-Rank-K frequent patterns by using Node-lists Expert Systems with Applications, 41(4–2), 1763–1768 (3) Deng, Z H., & Wang, Z H (2010) A new fast vertical method for mining frequent itemsets International Journal of Computational Intelligence Systems, 3(6), 733–744 (4) Deng, Z H., Wang, Z H., & Jiang, J J (2012) A new algorithm for fast mining frequent itemsets using N-lists Science China Information Sciences, 55(9), 2008–2030 (5) Deng, Z H., & Xu, X R (2012) Fast mining erasable itemsets using NC_sets Expert Systems with Applications, 39(4), 4453–4463 (6) Grahne, G., & Zhu, J (2005) Fast algorithms for frequent itemset mining using FPtrees IEEE TKDE Journal, 17(10), 1347–1362 (7) Han, J., Cheng, H., Xin, D., & Yan, X (2007) Frequent itemset mining: current status and future directions DMKD Journal, 15(1), 55–86 (8) Le, T., & Vo, B (2014) MEI: an efficient algorithm for mining erasable itemsets Engineering Applications of Artificial Intelligence, 27, 155–166 (9) Lee, A J T., Wang, C S., Weng, W Y., Chen, Y A., & Wu, H W (2008) An efficient algorithm for mining closed inter-transaction itemsets Data and Knowledge Engineering, 66(1), 68–91 (10) Li, X., & Deng, Z H (2010) Mining frequent itemsets from network flows for monitoring network Expert Systems with Applications, 37(12), 8850– 8860 (11) Liu, G., Lu, H., Lou, W., Xu, Y., & Yu, J X (2004) Efficient mining of frequent itemsets using ascending frequency ordered prefix-tree DMKD Journal, 9(3), 249–274 65 (12) Woon, Y K., Ng, W K., & Lim, E P (2004) A support-ordered trie for fast frequent itemset discovery IEEE TKDE Journal, 16(7), 875–879 (13) Zaki, M J (2000) Scalable algorithms for association mining IEEE TKDE Journal, 12(3), 372–390 (14) Deng, Z.H, Lv, S.L (2014) Fast mining frequent itemsets using Node- sets Expert Systems with Applications, 41(10), 4505–4512 ... I- KHAI THÁC DỮ LIỆU 1- Khai thác luật kết hợp 2- Khai thác tập phổ biến II- Các thuật toán khai thác tập phổ biến 10 1- Khai thác tập phổ biến sử dụng. .. 2- Khai thác tập phổ biến sử dụng thuật toán FP-growth .14 3- Khai thác tập phổ biến sử dụng thuật toán PPV 18 4- Khai thác tập phổ biến sử dụng thuật toán PrePost 25 5- Tìm hiểu cấu. .. cấu trúc POC-Tree, Node- set thuật tóan FIN 33 CHƢƠNG - ỨNG DỤNG NODE- SET TRONG KHAI THÁC TẬP PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƢỞNG 46 I- Giới thiệu 46 II- Khai thác tập phổ

Định dạng
Số trang	79
Dung lượng	1,26 MB