KHAI THÁC tập PHỔ BIẾN tối đại sử DỤNG cấu TRÚC NODESET

70 202 2
KHAI THÁC tập PHỔ BIẾN tối đại sử DỤNG cấu TRÚC NODESET

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  PHẠM PHÚ THANH SANG KHAI THÁC TẬP PHỔ BIẾN TỐI ĐẠI SỬ DỤNG CẤU TRÚC NODESET LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 NGƯỜI HƯỚNG DẪN KHOA HỌC TS PHẠM THỊ THIẾT TP HỒ CHÍ MINH – NĂM 2015 LỜI CAM ĐOAN Tôi xin cam đoan luận văn Thạc sĩ “Khai thác tập phổ biến tối đại sử dụng cấu trúc Nodeset” ngành Khoa học máy tính cơng trình tơi Luận văn có sử dụng thơng tin trích dẫn từ nhiều nguồn khác nhau, thơng tin trích dẫn ghi rõ nguồn gốc Số liệu kết nghiên cứu luận văn hoàn toàn trung thực chưa công bố công trình khác TP HCM, tháng 10 năm 2015 Tác giả luận văn Phạm Phú Thanh Sang LỜI CẢM ƠN Đầu tiên, xin chân thành cảm ơn biết ơn sâu sắc tận tình dạy dỗ giúp đỡ tất Quý Thầy/Cô Trường Đại học Công nghệ Thông tin Tôi xin gửi lời cảm ơn chân thành sâu sắc đến Cô Phạm Thị Thiết Thầy Võ Đình Bảy, người tận tình hướng dẫn giúp đỡ suốt thời gian làm luận văn Ngồi ra, xin cảm ơn Ơng Bà, Cha Mẹ người thân gia đình hết lòng giúp đỡ, động viên tạo điều kiện cho hồn thành khóa học luận văn Tôi xin cảm ơn đến bạn bè, đồng nghiệp, người sát cánh động viên tạo điều kiện tốt để tơi học tập hoàn tất luận văn Phạm Phú Thanh Sang MỤC LỤC Lời cam đoan Lời cảm ơn Mục lục Danh mục ký hiệu chữ viết tắt Danh mục bảng Danh mục hình vẽ, biểu đồ MỞ ĐẦU Chương TỔNG QUAN 11 1.1 Giới thiệu .11 1.2 Một số nghiên cứu liên quan .11 1.3 Đóng góp luận văn 13 Mục tiêu nghiên cứu .14 Đối tượng, phạm vi nghiên cứu 14 Phương pháp nghiên cứu 14 Chương CƠ SỞ LÝ THUYẾT BÀI TOÁN KHAI THÁC TẬP PHỔ BIẾN TỐI ĐẠI 16 2.1 Bài toán khai thác tập phổ biến tối đại 16 2.2 Các thuật toán khai thác tập phổ biến tối đại .17 Thuật toán Mafia 17 Thuật toán GenMax 25 2.3 Tổng kết chương 36 Chương PHƯƠNG PHÁP KHAI THÁC TẬP PHỔ BIẾN TỐI ĐẠI SỬ DỤNG CẤU TRÚC N-LIST 37 3.1 Một số khái niệm 37 Cây PPC 37 Cấu trúc N-list .40 Khái niệm subsume .42 3.2 Thuật toán NLA-MFP 44 3.3 Thuật toán INLA-MFI 46 3.4 Ví dụ minh họa 50 -1- Thuật toán NLA-MFP 50 Thuật toán INLA-MFP 53 3.5 Tổng kết chương 54 Chương KẾT QUẢ THỰC NGHIỆM 55 4.1 Môi trường sở liệu thực nghiệm 55 4.2 Thời gian thực thi 55 4.3 Bộ nhớ sử dụng 59 4.4 Tổng kết chương 63 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 64 5.1 Kết luận 64 5.2 Hướng phát triển 64 TÀI LIỆU THAM KHẢO 65 -2- DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt CSDL Dataset Cơ sở liệu minsup Minimum support Độ hỗ trợ tối thiểu KDD Knowledge Discovery in Database Khai thác tri thức sở liệu Sup Support Độ hỗ trợ Con Confidence Độ tin cậy DM Data Mining Khai thác liệu FI Frequent Itemset Tập phổ biến MFI Maximal Frequent Itemset Tập phổ biến tối đại MFP Maximal Frequent Pattern Mẫu phổ biến tối đại LMFI Local Maximal Frequent Itemset Tập phổ biến tối đại cục -3- DANH MỤC CÁC BẢNG Bảng Cơ sở liệu ví dụ, DBEx 16 Bảng Các tập phổ biến DBEx với minSup = 60% 16 Bảng CSDL DBEx sau xóa item khơng phổ biến xếp giảm dần theo độ phổ biến 38 Bảng Bảng N-list tất 1-patterns 50 Bảng Một số đặc điểm CSDL thực nghiệm 55 -4- DANH MỤC HÌNH VẼ, ĐỒ THỊ Hình Ví dụ minh họa dàn tập hồn chỉnh thuật tốn Mafia (Burdick đồng sự, 2005) 18 Hình Duyệt theo chiều sâu (Simple DFS) 19 Hình Thủ tục tỉa PEP .20 Hình Thủ tục FHUT .21 Hình Thủ tục HUTMFI 22 Hình Thủ tục Project 24 Hình Thuật tốn Mafia 25 Hình Thủ tục FI-backtrack 27 Hình Ví dụ thuật toán FI-backback 27 Hình 10 Thủ tục MFI-backtrack 28 Hình 11 Ví dụ thuật tốn MFI-backback 29 Hình 12 Thủ tục LMFI-backtrack 33 Hình 13 Ví dụ thuật tốn LMFI-backtrack 33 Hình 14 Thủ tục FI-combine sử dụng tidset 34 Hình 15 Thủ tục FI-combine sử dụng diffset 35 Hình 16 Thuật tốn tạo PPC .38 Hình 17 Ví dụ tạo PPC sử dụng DBEx Bảng với minSup = 60% 39 Hình 18 Cây PPC hồn chỉnh tạo từ DBEx Bảng với minSup = 60% 39 Hình 19 Thủ tục Generate_NList 41 Hình 20 Thủ tục NL_intersection 42 Hình 21 Thủ tục Find_Subsume 43 Hình 22 Thuật toán NLA-MFP .45 Hình 23 Thuật tốn INLA-MFP 50 Hình 24 Tập 1-patterns N-list chúng 51 Hình 25 Thuật tốn NLA-MFP lần duyệt tập A 52 Hình 26 Thuật tốn NLA-MFP lần duyệt tập E 52 Hình 27 Thuật toán INLA-MFP lần duyệt tập A 53 Hình 28 Thuật tốn INLA-MFP lần duyệt tập E 53 -5- Hình 29 Thời gian thực (a) dGenMax, TDM-MFI, NLA-MFP INLAMFP (b) NLA-MFP INLA-MFP CSDL Chess 56 Hình 30 Thời gian thực (a) dGenMax, TDM-MFI, NLA-MFP INLAMFP (b) NLA-MFP INLA-MFP CSDL Pumsb 56 Hình 31 Thời gian thực (a) dGenMax, TDM-MFI, NLA-MFP INLAMFP (b) NLA-MFP INLA-MFP CSDL Connect 57 Hình 32 Thời gian thực (a) dGenMax, TDM-MFI, NLA-MFP INLAMFP (b) NLA-MFP INLA-MFP CSDL Pumsb* 57 Hình 33 Thời gian thực (a) dGenMax, TDM-MFI, NLA-MFP INLAMFP (b) NLA-MFP INLA-MFP CSDL Mushroom 58 Hình 34 Thời gian thực (a) dGenMax, TDM-MFI, NLA-MFP INLAMFP (b) NLA-MFP INLA-MFP CSDL Accident 58 Hình 35 Thời gian thực (a) dGenMax, TDM-MFI, NLA-MFP INLAMFP (b) NLA-MFP INLA-MFP CSDL T10I4D100K 59 Hình 36 Thời gian thực (a) dGenMax, TDM-MFI, NLA-MFP INLAMFP (b) NLA-MFP INLA-MFP CSDL T40I10D100K 59 Hình 37 Bộ nhớ sử dụng (a) dGenMax, TDM-MFI, NLA-MFP INLA-MFP (b) NLA-MFP INLA-MFP CSDL Chess 60 Hình 38 Bộ nhớ sử dụng (a) dGenMax, TDM-MFI, NLA-MFP INLA-MFP (b) NLA-MFP INLA-MFP CSDL Pumsb 60 Hình 39 Bộ nhớ sử dụng (a) dGenMax, TDM-MFI, NLA-MFP INLA-MFP (b) NLA-MFP INLA-MFP CSDL Connect 60 Hình 40 Bộ nhớ sử dụng (a) dGenMax, TDM-MFI, NLA-MFP INLA-MFP (b) NLA-MFP INLA-MFP CSDL Pumsb* 61 Hình 41 Bộ nhớ sử dụng của (a) dGenMax, TDM-MFI, NLA-MFP INLAMFP (b) NLA-MFP INLA-MFP CSDL Mushroom 61 Hình 42 Bộ nhớ sử dụng (a) dGenMax, TDM-MFI, NLA-MFP INLA-MFP (b) NLA-MFP INLA-MFP CSDL Accident 62 Hình 43 Bộ nhớ sử dụng (a) dGenMax, TDM-MFI, NLA-MFP INLA-MFP (b) NLA-MFP INLA-MFP CSDL T10I4D100K 62 -6- Hình 44 Bộ nhớ sử dụng (a) dGenMax, TDM-MFI, NLA-MFP INLA-MFP (b) NLA-MFP INLA-MFP CSDL T40I10D100K 62 -7- Thuật toán INLA-MFP Với 1-patterns N-list như Hình 24, thuật tốn INLA-MFP gọi thủ tục Find_LMFPs_2 để tìm tất tập phổ biến sở liệu Ban đầu, nút A kết hợp với nút E, C B Vì NL(A)  NL(C) nên C chèn vào sau A với NL(AC) = {2,5,2 6,6,1} (Hình 27) Vì AC khơng có tập cha danh sách tập phổ biến tối đại nên AC thêm vào danh sách tập phổ biến tối đại {} B:4 {1,4,4} E:4 {3,1,3 5,3,1} C:4 {2,5,3, {6,6,1} AC:3 {2,5,2 6,6,1} Hình 27 Thuật tốn INLA-MFP lần duyệt tập A Tiếp tục duyệt E kết hợp với nút C B E kết hợp với C CE với NL(CE) = {2,5,3} Kế đến E kết hợp với B, mà NL(E)  NL(B) sup(E) = sup(B) = nên thuật toán thay E thành EB với NL(EB) = {1,4,4}, cập nhật tất nút tạo E (thêm B vào CE thành CEB) xóa nút B khỏi khơng gian tìm kiếm Vì có tập CEB CEB lại khơng có tập cha tập phổ biến tối đại nên thêm CEB vào tập phổ biến tối đại (Hình 28) {} C:4 {2,5,3, {6,6,1} EB:4 {1,4,4} AC:3 {2,5,2 6,6,1} CEB:3 {2,5,3} Hình 28 Thuật tốn INLA-MFP lần duyệt tập E Cuối dùng duyệt C, C có tập cha tập phổ biến tối đại nên khơng xét Tht tốn dừng trả tập phổ biến tối đại LMFI = {AC, CEB} Nhận xét: Trong Hình 26 minh họa thuật tốn NLA-MFP Hình 28 minh họa thuật tốn INLA-MFP, thấy thuật tốn INLA-MFP xóa nút B nên -53- giảm khơng gian tìm kiếm thuật tốn Ngồi ra, thuật tốn INLA-MFP ln kiểm tra quan hệ hai N-list giao hai N-list thủ tục NL_intersection_2 tất cấp, thuật tốn NLA-MFP tìm subsume cấp Vì vậy, thuật tốn INLA-MFP thực nhanh tốn nhớ sử dụng thuật toán NLA-MFP 3.5 Tổng kết chương Trong chương trình bày số khái niệm PPC thuật toán tạo PPC; định nghĩa cấu trúc N-list định lý liên quan đến việc tính nhanh độ hỗ trợ, đồng thời trình bày thủ tục liên quan đến việc tạo N-list, thủ tục giao hai N-list với nhau; khái niệm subsume trình bày thủ tục tìm kiểm tra subsume từ hai N-list Từ đề xuất thuật toán sử dụng cấu trúc N-list khái niệm subsume khai thác tập phổ biến tối đại NLA-MFP Kế đến, luận văn trình bày hai kỹ thuật cắt tỉa nhằm giảm khơng gian tìm kiếm dựa cấu trúc N-list đề xuất thuật toán cải tiến INLA-MFP Cuồi cùng, luận văn trình bày ví dụ minh họa cho hai thuật tốn NLA-MFP INLA-MFP Từ Hình 26 Hình 28 minh họa cho hai thuật tốn NLA-MFP INLA-MFP tương ứng, nhận xét thuật toán INLA-MFP hiệu thuật toán NLA-MFP -54- Chương KẾT QUẢ THỰC NGHIỆM 4.1 Môi trường sở liệu thực nghiệm Tất thực nghiệm thực máy tính cá nhân với CPU Intel Core i3-370M 2.4GHz, 4GB RAM chạy Windows 8.1 (64bit) Tất chương trình cài đặt ngơn ngữ C# chương trình Visual Studio 2012 Microsoft.Net Framework (version 4.5) Các thực nghiệm tiến hành sở liệu sau: Chess, Pumbs, Connect, Pumbs*, Mushroom, Accident, T10I4D100K T40I10D100K Đặc điểm CSDL trình bày Bảng Bảng Một số đặc điểm CSDL thực nghiệm CSDL Số giao dịch Số item Chess 3,196 75 Pumbs 49,046 2,113 Connect 67,557 129 Pumbs* 49,046 2,088 8,124 119 Accidents 340,183 468 T10I4D100K 100,000 942 T40I10D100K 100,000 870 Mushroom Để thấy hiệu thuật toán đề xuất, so sánh thời gian thực nhớ sử dụng thuật toán đề xuất NLA-MFP INLA-MFP với thuật toán dGenMax thuật toán TDM-MFI 4.2 Thời gian thực thi Hầu hết thời gian thực thi thuật toán NLA-MFP INLA-MFP sử dụng để tạo PPC nên với giá trị minSup lớn, thuật tốn khơng nhanh so với thuật toán dGenMax TDM-MFI Tuy nhiên với ngưỡng minSup nhỏ, thuật toán INLA-MFP nhanh nhiều so với thuật toán dGenMax, TDM-MFI -55- NLA-MFP hầu hết trường hợp Điều giải thích sau: thuật tốn NLA-MFP INLA-MFP tốn nhiều thời gian xây dựng PPC nhằm nén liệu đầu vào Cấu trúc N-list tập nhỏ nhiều so với diffset tập Ngoài thuật toán INLA-MFP sử dụng hai kỹ thuật cắt tỉa nhằm giảm khơng gian tìm kiếm so với thuật tốn NLA-MFP Do đó, INLA-MFP nói chung hiệu so với thuật toán dGenMax, TDM-MFI NLA-MFP 300 14 dGenMax 250 200 TDM-MFI INLA-MFP 150 12 NLA-MFP 10 INLA-MFP Runtime (s) Runtime (s) NLA-MFP 100 50 0 60 50 40 30 60 50 40 minSup (%) 30 minSup (%) Hình 29 Thời gian thực (a) dGenMax, TDM-MFI, NLA-MFP INLAMFP (b) NLA-MFP INLA-MFP CSDL Chess Trong Hình 29 thấy thời gian khai thác thuật toán NLA-MFP INLA-MFP tăng mức hỗ trợ minSup = 60%  30%; thời gian khai thác thuật toán dGenMax TDM-MFI tăng nhanh mức hỗ trợ minSup = 40%, 30% 350 30 dGenMax 300 TDM-MFI 200 Runtime (s) Runtime (s) 25 NLA-MFP 250 INLA-MFP 150 100 20 15 10 NLA-MFP 50 0 90 80 70 60 INLA-MFP 90 minSup (%) 80 70 60 minSup (%) Hình 30 Thời gian thực (a) dGenMax, TDM-MFI, NLA-MFP INLAMFP (b) NLA-MFP INLA-MFP CSDL Pumsb Trong Hình 30 thời gian khai thác thuật toán NLA-MFP INLA-MFP gần ngang thuật tốn dGenMax TDM-MFI có xu hướng tăng -56- nhanh với mức minSup = 70%, 60% Tuy với mức minSup = 90%, 80% thời gian khai thác thuật toán NLA-MFP INLA-MFP cao thuật toán dGenMax TDM-MFI sau với mức minSup thấp hơn, thuật toán NLA-MFP INLA-MFP nhanh nhiều so với thuật toán dGenMax TDM-MFI 450 16 400 300 NLA-MFP 250 TDM-MFI 200 INLA-MFP 12 Runtime (s) Runtime (s) 14 dGenMax 350 150 100 50 10 NLA-MFP INLA-MFP 60 50 40 30 60 50 40 minSup (%) 30 minSup (%) Hình 31 Thời gian thực (a) dGenMax, TDM-MFI, NLA-MFP INLAMFP (b) NLA-MFP INLA-MFP CSDL Connect Trong Hình 31 ta thấy thời gian khai thác thuật toán NLA-MFP INLAMFP ln thấp nhiều so với thuật tốn dGenMax TDM-MFI 90 18 16 70 dGenMax 14 60 NLA-MFP 12 50 TDM-MFI 40 INLA-MFP Runtime (s) Runtime (s) 80 30 20 10 10 NLA-MFP INLA-MFP 0 60 50 40 30 60 minSup (%) 50 40 30 minSup (%) Hình 32 Thời gian thực (a) dGenMax, TDM-MFI, NLA-MFP INLAMFP (b) NLA-MFP INLA-MFP CSDL Pumsb* Trong Hình 32 ta thấy với mức minSup = 60%, 50%, 40% thời gian khai thác thuật tốn NLA-MFP INLA-MFP ln cao nhiều so với thuật toán dGenMax TDM-MFI với mức minSup = 30%, thời gian thuật toán NLAMFP INLA-MFP lại thấp nhiều so với thuật toán dGenMax TDM-MFI -57- 900 90 800 70 NLA-MFP 600 Runtime (s) Runtime (s) 80 dGenMax 700 TDM-MFI 500 INLA-MFP 400 300 200 100 NLA-MFP 60 INLA-MFP 50 40 30 20 10 0 1.5 0.5 1.5 minSup (%) 0.5 minSup (%) Hình 33 Thời gian thực (a) dGenMax, TDM-MFI, NLA-MFP INLAMFP (b) NLA-MFP INLA-MFP CSDL Mushroom Trong Hình 33, ta lại thấy thời gian khai thác thuật tốn NLA-MFP INLA-MFP ln thấp so với thuật toán dGenMax TDM-MFI với mức minSup = 2%, 1.5%, 1% 0.5% 600 140 120 dGenMax NLA-MFP TDM-MFI INLA-MFP 400 300 100 Runtime (s) Runtime (s) 500 200 80 60 40 100 20 0 40 30 20 10 NLA-MFP INLA-MFP 40 minSup (%) 30 20 10 minSup (%) Hình 34 Thời gian thực (a) dGenMax, TDM-MFI, NLA-MFP INLAMFP (b) NLA-MFP INLA-MFP CSDL Accident Trong Hình 34, với mức minSup = 40% thời gian khai thác thuật toán NLA-MFP INLA-MFP có cao so với thuật tốn dGenMax TDMMFI đến mức minSup = 20%, đặc biệt mức minSup = 10% thời gian thuật toán NLA-MFP INLA-MFP thấp nhiều so với thuật toán dGenMax TDM-MFI -58- 180 dGenMax 160 NLA-MFP 140 TDM-MFI Runtime (s) Runtime (s) 500 450 400 350 300 250 200 150 100 50 INLA-MFP 120 100 80 60 NLA-MFP 40 INLA-MFP 20 0.08 0.06 0.04 0.02 0.08 0.06 0.04 minSup (%) 0.02 minSup (%) Hình 35 Thời gian thực (a) dGenMax, TDM-MFI, NLA-MFP INLAMFP (b) NLA-MFP INLA-MFP CSDL T10I4D100K Trong Hình 35, với mức minSup = 0.08%, 0.06% thời gian khai thác thuật toán NLA-MFP INLA-MFP cao nhiều so với thuật toán dGenMax với mức minSup = 0.02%, 0.01% thời gian thuật toán NLA-MFP 5000 4500 4000 3500 3000 2500 2000 1500 1000 500 1800 1600 dGenMax 1400 NLA-MFP Runtime (s) Runtime (s) INLA-MFP lại thấp nhiều so với thuật toán dGenMax TDM-MFI INLA-MFP 1200 1000 800 600 400 NLA-MFP 200 INLA-MFP 1.4 0.6 0.2 1.4 minSup (%) 0.6 0.2 minSup (%) Hình 36 Thời gian thực (a) dGenMax, TDM-MFI, NLA-MFP INLAMFP (b) NLA-MFP INLA-MFP CSDL T40I10D100K Tương tự Hình 35, Hình 36 với mức minSup = 1.4%, 1%, 0.6% thời gian khai thác thuật toán NLA-MFP INLA-MFP cao nhiều so với thuật toán dGenMax TDM-MFI với mức minSup = 0.2 thời gian khai thác lại đảo ngược thuật toán 4.3 Bộ nhớ sử dụng Đối với sở liệu Chess, Pumbs, Connect, Pumbs* Mushroom, thuật toán INLA-MFP ln tốt so với thuật tốn dGenMax, TDM-MFI NLA-MFP nhớ sử dụng thể Hình 37-41 Điều giải thích -59- sau: thuật toán dGenMax sử dụng cấu trúc diffset chứa danh sách định danh giao dịch không chứa chúng; thuật toán TDM-MFI sử dụng cấu trúc bitvector để lưu thơng tin tidset; thuật tốn NLA-MFP INLA-MFP sử dụng cấu trúc N-list; mà số lượng giao dịch thường lớn nhiều so với số lượng nút PPC Vì vậy, thuật tốn NLA-MFP INLA-MFP thường nhớ 3000 Memory usage (MB) Memory usage (MB) sử dụng so với thuật toán dGenMax TDM-MFI dGenMax 2500 NLA-MFP 2000 TDM-MFI 1500 INLA-MFP 1000 500 180 160 140 NLA-MFP 120 INLA-MFP 100 80 60 40 20 0 60 50 40 30 60 50 40 minSup (%) 30 minSup (%) 18000 16000 dGenMax 14000 NLA-MFP 12000 Memory usage (MB) Memory usage (MB) Hình 37 Bộ nhớ sử dụng (a) dGenMax, TDM-MFI, NLA-MFP INLA-MFP (b) NLA-MFP INLA-MFP CSDL Chess TDM-MFI 10000 INLA-MFP 8000 6000 4000 120 100 80 NLA-MFP 60 INLA-MFP 40 20 2000 0 90 80 70 60 90 80 70 minSup (%) 60 minSup (%) Memory usage (MB) 200000 180000 160000 140000 120000 100000 80000 60000 40000 20000 Memory usage (MB) Hình 38 Bộ nhớ sử dụng (a) dGenMax, TDM-MFI, NLA-MFP INLA-MFP (b) NLA-MFP INLA-MFP CSDL Pumsb dGenMax NLA-MFP TDM-MFI INLA-MFP 60 50 40 30 200 180 160 140 120 100 80 60 40 20 NLA-MFP INLA-MFP 60 minSup (%) -60- 50 40 30 minSup (%) 3000 Memory usage (MB) Memory usage (MB) Hình 39 Bộ nhớ sử dụng (a) dGenMax, TDM-MFI, NLA-MFP INLA-MFP (b) NLA-MFP INLA-MFP CSDL Connect dGenMax 2500 NLA-MFP 2000 TDM-MFI 1500 INLA-MFP 1000 500 30 25 20 NLA-MFP 15 INLA-MFP 10 0 60 50 40 30 60 50 40 minSup (%) 30 minSup (%) Memory usage (MB) 25000 dGenMax 20000 NLA-MFP 15000 TDM-MFI 10000 INLA-MFP 5000 Memory usage (MB) Hình 40 Bộ nhớ sử dụng (a) dGenMax, TDM-MFI, NLA-MFP INLA-MFP (b) NLA-MFP INLA-MFP CSDL Pumsb* 1.5 0.5 200 180 160 140 120 100 80 60 40 20 NLA-MFP INLA-MFP 1.5 minSup (%) 0.5 minSup (%) Hình 41 Bộ nhớ sử dụng (a) dGenMax, TDM-MFI, NLA-MFP INLA-MFP (b) NLA-MFP INLA-MFP CSDL Mushroom Đối với sở liệu Accident, T10I4D100K T40I10D100K, thuật toán NLA-MFP INLA-MFP ln tốt so với thuật tốn dGenMax TDMMFI thể Hình 42-44 Tuy nhiên, nhớ sử dụng thuật toán INLAMFP với thuật tốn NLA-MFP liệu Nói chung, theo thực nghiệm này, thuật toán INLA-MFP thuật toán tốt cho toán khai thác tập phổ biến tối đại nhớ sử dụng -61- Memory usage (MB) Memory usage (MB) 12000 dGenMax NLA-MFP TDM-MFI INLA-MFP 10000 8000 6000 4000 2000 350 300 250 NLA-MFP 200 INLA-MFP 150 100 50 0 40 30 20 10 40 30 20 minSup (%) 10 minSup (%) 1000 900 800 700 600 500 400 300 200 100 dGenMax NLA-MFP TDM-MFI INLA-MFP Memory usage (MB) Memory usage (MB) Hình 42 Bộ nhớ sử dụng (a) dGenMax, TDM-MFI, NLA-MFP INLA-MFP (b) NLA-MFP INLA-MFP CSDL Accident 60 NLA-MFP 50 INLA-MFP 40 30 20 10 0.08 0.06 0.04 0.02 0.08 0.06 0.04 minSup (%) 0.02 minSup (%) 14000 Memory usage (MB) Memory usage (MB) Hình 43 Bộ nhớ sử dụng (a) dGenMax, TDM-MFI, NLA-MFP INLA-MFP (b) NLA-MFP INLA-MFP CSDL T10I4D100K dGenMax 12000 NLA-MFP 10000 TDM-MFI 8000 INLA-MFP 6000 4000 2000 4000 3500 3000 NLA-MFP 2500 INLA-MFP 2000 1500 1000 500 0 1.4 0.6 0.2 1.4 minSup (%) 0.6 0.2 minSup (%) Hình 44 Bộ nhớ sử dụng (a) dGenMax, TDM-MFI, NLA-MFP INLA-MFP (b) NLA-MFP INLA-MFP CSDL T40I10D100K -62- 4.4 Tổng kết chương Chương trình bày mơi trường thực nghiệm, sở liệu sử dụng thực nghiệm, biểu đồ so sánh thời gian thực thuật toán NLA-MFP INLAMFP với thuật toán dGenMax TDM-MFI tất sở liệu Ngoài vẽ biểu đồ so sánh nhớ sử dụng thuật toán NLA-MFP INLA-MFP so với thuật toán dGenMax TDMD-MFI tất sở liệu Trong môi trường thực nghiệm liệu chuẩn, thuật toán INLA-MFP cho thấy hiệu thuật toán dGenMax, TDM-MFI NLA-MFP thời gian khai thác nhớ sử dụng -63- Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Luận văn đề xuất thuật toán NLA-MFP thuật toán cải tiến INLA-MFP cho toán khai thác tập phổ biến tối đại sử dụng cấu trúc N-list Đầu tiên, sử dụng khái niệm subsume dựa cấu trúc N-list dùng để tìm nhanh tập phổ biến tối đề xuất thuật toán NLA-MFP Kế đến, luận văn sử dụng hai kỹ thuật cắt tỉa khơng gian tìm kiếm dựa cấu trúc N-list để đề xuất thuật toán cải tiến INLA-MFP Để cho thấy hiệu thuật tốn đề xuất, chúng tơi tiến hành thực nghiệm để khai thác tập phổ biến tối đại số sở liệu chuẩn Chúng ta nhận thấy số sở liệu pumsb, pumsb*, T10I4D100K, T40I10D100K với mức minSup ban đầu lớn thời gian khai thác thuật tốn NLA-MFP INLA-MFP lớn nhiều so với thuật toán dGenMax TDM-MFI với mức minSup nhỏ thuật toán NLAMFP INLA-MFP lại tốt nhiều thời gian so với thuật tốn dGenMax TDM-MFI Nhìn chung thời gian khai thác, thuật toán NLA-MFP INLA-MFP tăng từ từ giá trị minSup giảm, thuật toán dGenMax TDM-MFI tăng nhanh với giá trị minSup nhỏ Đối với nhớ sử dụng, thuật toán INLA-MFP hiệu so với thuật toán dGenMax, TDM-MFI NLA-MFP Tóm lại, từ kết thực nghiệm chương cho thấy thuật toán INLA-MFP chạy nhanh tốn nhớ thuật tốn dGenMax, TDM-MFI NLAMFP hầu hết trường hợp 5.2 Hướng phát triển Mặc dù, thuật toán đề xuất cải tiến nhiều thời gian khai thác nhớ lưu trữ Nhưng thuật toán tạo PPC, muốn tạo hoàn chỉnh, cần phải duyệt sở liệu hai lần: lần đầu duyệt dùng cho việc tạo cây, lần thứ hai dùng cho việc tạo giá trị pre post Như vậy, tương lai, chúng tìm cách giảm thời gian việc tạo Bên cạnh nghiên cứu áp dụng cấu trúc N-list số chiến thuật cắt tỉa cho toán khai thác top-rank-k FCPs top-rank-k FMPs -64- TÀI LIỆU THAM KHẢO [1] Agarwal R.C., Aggarwal C.C., Prasad V.V.V (2000) Depth first generation of long patterns KDD’00, 108-118 [2] Agarwal R.C., Aggarwal C.C., Prasad V.V.V (2001) A Tree Projection Algorithm for Generation of Frequent Item Sets J Parallel Distrib Comput 61(3), 350-371 [3] Agrawal R., Srikant R (1994) Fast algorithms for mining association rules In VLDB'94, 487–499 [4] Agrawal, R., Imielinski, T., Swami, A.N (1993) Mining association rules between sets of items in large databases In SIGMOD’93, 207–216 [5] Bayardo R.J (1998) Efficiently mining long patterns from databases SIGMOD, 85-93 [6] Burdick D., Calimlim M., Flannick J., Gehrke J., Yiu T (2005) MAFIA: A Maximal Frequent Itemset Algorithm IEEE IEEE Transactions on Knowledge and Data Engineering, 17(11), 1490-1504 [7] Deng Z., Wang Z., Jiang J.J (2012) A new algorithm for fast mining frequent itemsets using N-lists SCIENCE CHINA Information Sciences, 55(9), 2008– 2030 [8] Deng Z.H., Lv S.L (2014) Fast mining frequent itemsets using Nodesets Expert Systems with Applications, 41(10), 4505–4512 [9] Deng Z.H (2014) Fast mining top-rank-k frequent patterns by using Nodelists Expert Systems with Applications, 41(4), 1763–1768 [10] Deng Z.H., Lv S.L (2015) PrePost+: an efficient N-lists-based algorithm for mining frequent itemsets via children-parent equivalence pruning Expert Systems with Applications, 42(13), 5424–5432 [11] Dong J., Han M (2007) BitTableFI: An efficient mining frequent itemsets algorithm Knowledge-Based Systems, 20, 329–335 [12] Fan W., Zhang K., Cheng H., Gao J., Yan X., Han J., Yu P., Verscheure O (2008) Direct mining of discriminative and essential frequent patterns via model-based search tree In SIGKDD’08, 230–238 -65- [13] Gouda K., Zaki M.J (2005) GenMax: An efficient algorithm for mining maximal frequent itemsets Data Mining and Knowledge Discovery, 11(3), 223–242 [14] Grahne G., Zhu J (2005) Fast algorithms for frequent itemset mining using FP-trees IEEE Transactions on Knowledge and Data Engineering, 17, 1347– 1362 [15] Han J., Pei J., Yin Y (2000) Mining frequent patterns without candidate generation In SIGMOD’00, 1–12 [16] Huynh Q., Le T., Vo B., Le B (2015) An efficient and effective algorithm for mining top-rank-k frequent patterns Expert Systems with Applications, 42(1), 156–164 [17] Le H.S (2015) A novel kernel fuzzy clustering algorithm for GeoDemographic Analysis Information Sciences, 317, 202-223 [18] Le T., Vo B (2015) An N-list-based algorithm for mining frequent closed patterns Expert Systems with Applications, 42(19), 6648–6657 [19] Le T., Vo B., Coenen F (2013) An efficient algorithm for mining erasable itemsets using the difference of NC-Sets IEEE SMC'13, 2270-2274 [20] Liu B., Hsu W., Ma Y (1998) Integrating classification and association rule mining In SIGKDD’98, 80–86 [21] Liu X.B., Zhai K., Pedrycz W (2012) An improved association rules mining method Expert Systems with Applications, 39(1), 1362-1374 [22] Mai T.S., He X., Feng J., Plant C., Böhm C (2015) Anytime density-based clustering of complex data Knowledge and Information Systems, 45(2), 319355 [23] Nguyen T.T.L., Nguyen N.T (2015) Updating mined class association rules for record insertion Applied Intelligence, 42(4), 707-721 [24] Rymon R (1992) Search through Systematic Set Enumeration Proc Of Third Int’l Conf On Principles of Knowledge Representation and Reasoning, 539 550 [25] Pyun G., Yun U (2014) Mining top-k frequent patterns with combination reducing techniques Applied Intelligence, 41(1), 76-98 -66- [26] Vo B., Le T., Coenen F., Hong T.P (2014) Mining frequent itemsets using the N-list and subsume concepts International Journal of Machine Learning and Cybernetics (in press), DOI: 10.1007/s13042-014-0252-2 [27] Xiao H., Jing F., Bettina K., Son M.T., Plant C (2014) Relevant overlaping subspace clusters on categorical data In KDD’14, 213-222 [28] Zaki M.J., Hsiao C.J (2005) Efficient algorithms for mining closed itemsets and their lattice structure IEEE Transactions on Knowledge and Data Engineering, 17(4), 462–478 -67- ... tìm tập phổ biến sau: A, B, C, E, AC, BC, BE, CE, BCE Trong tập phổ biến trên, tập AC BCE không tập tập phổ biến nên tập AC BCE hai tập phổ biến tối đại 2.2 Các thuật toán khai thác tập phổ biến. .. để khai thác tập phổ biến tối đại Mục tiêu nghiên cứu Bài tốn tìm tập phổ biến tối đại làm toán nhiều nhiệm vụ khác khai thác liệu Đã có nhiều thuật tốn đề xuất để khai thác tập phổ biến tối đại. .. SỞ LÝ THUYẾT BÀI TOÁN KHAI THÁC TẬP PHỔ BIẾN TỐI ĐẠI 16 2.1 Bài toán khai thác tập phổ biến tối đại 16 2.2 Các thuật toán khai thác tập phổ biến tối đại .17 Thuật toán

Ngày đăng: 23/12/2018, 06:16

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan