Biểu diễn toán học và một thuật toán nhanh cho bài toán khai thác tập phổ biến và luật kết hợp

222 37 1
Biểu diễn toán học và một thuật toán nhanh cho bài toán khai thác tập phổ biến và luật kết hợp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Trần Ngọc Anh BIỂU DIỄN TOÁN HỌC VÀ MỘT THUẬT TOÁN NHANH CHO BÀI TOÁN KHAI THÁC TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THƠNG TIN Tp Hồ Chí Minh – Năm 2015 i ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Trần Ngọc Anh BIỂU DIỄN TOÁN HỌC VÀ MỘT THUẬT TOÁN NHANH CHO BÀI TOÁN KHAI THÁC TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP Chuyên ngành: Khoa học máy tính Mã số chuyên ngành: 62 48 01 01 Phản biện 1: TS Nguyễn Hữu Trọng Phản biện 2: TS Đặng Trường Sơn Phản biện 3: TS Hồ Bảo Quốc Phản biện độc lập 1: PGS.TS Huỳnh Thị Thanh Bình Phản biện độc lập 2: TS Trần Đăng Hưng NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS Lê Hồi Bắc TS Trương Chí Tín Tp Hồ Chí Minh – Năm 2015 ii Lời cam đoan Tôi xin cam đoan nội dung luận án kết nghiên cứu thân Tất tham khảo từ nghiên cứu có liên quan nêu rõ nguồn gốc từ danh mục c c t i liệu tham khảo luận án Những đóng góp luận n l c c nghiên cứu tác giả đ công bố c c b i b o hoa học nêu phần danh mục cơng trình nghiên cứu chưa cơng bố cơng tr nh n o h c C c công tr nh nghiên cứu nhiều tác giả đưa v o nội dung luận n nhận đồng ý trước c c đồng tác giả Tác giả luận án Trần Ngọc Anh iii Lời cảm ơn Lời đầu tiên, em xin bày tỏ lòng biết ơn sâu sắc đến PGS TS Lê Hoài Bắc, người đ tận t nh hướng dẫn, định hướng v động viên em suốt thời gian học tập, nghiên cứu thực luận án Em xin gởi lời tri ân sâu sắc đến TS Trương Chí Tín, nhờ động viên, bảo, hướng dẫn tận tình Thầy, em hồn thành luận án Em xin chân th nh gửi lời cảm ơn đến Thầy/Cô Khoa Công nghệ Thông tin trường Đại học Khoa học Tự nhiên Tp HCM đ tận tình dạy dỗ, bảo nhiều kiến thức q báu giúp em hồn thành khóa học Xin cảm ơn c c Thầy/Cô, đồng nghiệp Khoa Toán – Tin học, Đại học Đ lạt bạn bè đ hỗ trợ, động viên trình học tập thực luận án Cuối cùng, muốn bày tỏ lời tri ân biết ơn sâu sắc đến Cha, Vợ, Cha vợ, Mẹ vợ anh, chị, em đ hích lệ, động viên, tạo điều kiện thuận lợi cho suốt thời gian làm nghiên cứu sinh Tp Hồ Chí Minh tháng 12 năm 2015 Tác giả luận án Trần Ngọc Anh iv MỤC LỤC Trang phụ bìa i Lời cam đoan ii Lời cảm ơn iii Mục lục iv Danh mục bảng ix Danh mục hình x Danh mục ký hiệu, chữ viết tắt Giới thiệu xiii 1.1 Khám phá tri thức khai thác luật kết hợp 1.2 Bài toán khai thác luật kết hợp tiếp cận 1.3 Bài toán khai thác luật kết hợp với ràng buộc (trên tập thuộc tính) 1.4 C c hó hăn việc khai thác luật kết hợp v phương ph p tiếp cận 1.4.1 C c hó hăn việc khai thác luật kết hợp 1.4.2 Phương ph p tiếp cận 10 A Dựa vào tập phổ biến đóng v c c tập sinh chúng 10 B Phân hoạch rời tập lời giải, tìm biểu diễn lời giải lớp 10 1.5 C c đóng góp luận án 12 1.6 Bố cục luận án 13 v Khai thác tập đóng tập sinh – sở lý thuyết thuật toán GENCLOSE 15 2.1 Các khái niệm, kết 16 2.1.1 Các khái niệm 16 2.1.2 Các kết 20 2.2 Bài toán nghiên cứu liên quan 24 2.3 : sở thuật toán 27 2.3.1 Cây (tập thuộc tính – tập đối tượng – tập sinh) v c c bước 27 2.3.2 C c điều kiện cần v đủ để x c định tập sinh 29 2.3.3 Ba tốn tử mở rộng tiền bao đóng 34 2.3.4 Thuật toán 41 2.3.5 Tính đắn, tính đầy đủ kỹ thuật thực thi 48 A Tính đắn v đầy đủ 48 B Kỹ thuật diffset 49 C Tìm kiếm nhanh với bảng băm ép 51 2.4 Thử nghiệm thuật toán 52 2.4.1 Dữ liệu v c i đặt thử nghiệm 52 2.4.2 Kiểm chứng tính 2.4.3 Hiệu suất 54 55 2.5 Kết luận 62 Cấu trúc lớp tập phổ biến cấu trúc tập luật kết hợp 63 3.1 Các khái niệm kết 64 3.1.1 Dàn khái niệm, luật kết hợp, toán khai thác luật kết hợp 64 3.1.2 Phân hoạch (rời) lớp tập phổ biến tập luật kết hợp 66 vi 3.1.3 Tập bỏ 69 3.2 Cấu trúc biểu diễn tập phổ biến có bao đóng 71 3.2.1 Tính tối tiểu tập sinh tính lớn tập đóng lớp tương đương 73 3.2.2 Cấu trúc tập thuộc tính lớp tương đương 75 3.2.3 Cấu trúc biểu diễn tập thuộc tính lớp tương đương hạn chế 77 A Cấu trúc tập thuộc tính lớp tương đương hạn chế 77 B Biểu diễn tập thuộc tính lớp tương đương hạn chế 80 3.2.4 Biểu diễn tập thuộc tính lớp tương đương 86 3.3 Cấu trúc tập luật kết hợp 89 3.3.1 Dạng tường minh luật lớp luật tương đương 90 3.3.2 Phân lớp cấu trúc tập luật kết hợp theo quan hệ thứ tự 93 A Các tập luật sở theo quan hệ thứ tự 93 B Đ nh gi tập luật sở việc khai thác chúng 97 C Dẫn xuất đầy đủ không trùng lặp tập luật hệ 101 3.4 Kết luận 110 Khai thác luật kết hợp với ràng buộc 112 4.1 Các toán khai thác luật kết hợp với ràng buộc tiếp cận 112 4.1.1 Giới thiệu 112 4.1.2 Các toán khai thác luật kết hợp với ràng buộc 114 A Bài toán khai thác luật kết hợp với ràng buộc kép 114 B Bài toán khai thác luật kết hợp với ràng buộc giao khác rỗng 115 4.1.3 Vài nghiên cứu tiếp cận liên quan 115 vii A Tiếp cận hai th c trước tập phổ biến với ràng buộc 115 B Tiếp cận hậu xử lý 118 4.1.4 Tiếp cận luận án 120 4.2 Khai thác luật kết hợp với ràng buộc kép 121 4.2.1 Các khái niệm 122 4.2.2 Phân hoạch tập luật kết hợp với ràng buộc kép 124 A Phân hoạch thô 124 B C c điều kiện cần v đủ cho tính khơng rỗng ) 127 C Phân hoạch chặt tập luật kết hợp với ràng buộc kép 131 D X c định lớp 135 E So sánh với tiếp cận hai th c trước tập phổ biến với ràng buộc 139 4.2.3 Dẫn xuất không trùng lặp tất luật kết hợp với ràng buộc lớp luật tương đương 144 A Cấu trúc biểu diễn lớp tương đương c c tập thuộc tính hạn chế với ràng buộc biên 144 B Tính khái quát v ý nghĩa 150 C Cấu trúc biểu diễn lớp luật 155 4.2.4 Dẫn xuất đầy đủ không trùng lặp tất luật kết hợp với ràng buộc 4.2.5 Thử nghiệm thuật toán 159 159 A Dữ liệu v c i đặt thử nghiệm 159 B Kết thử nghiệm 162 4.3 Khai thác luật kết hợp với ràng buộc giao khác rỗng 167 4.3.1 Phân hoạch tập luật kết hợp với ràng buộc giao khác rỗng 168 4.3.2 Thuật toán hậu xử lý 170 viii 4.3.3 Cấu trúc biểu diễn tường minh lớp luật kết hợp với ràng buộc giao khác rỗng 171 A Cấu trúc biểu diễn tường minh vế trái luật thuộc B Cấu trúc biểu diễn tường minh vế phải luật thuộc ⌊ 172 ⌋ 174 C Cấu trúc biểu diễn tường minh tập luật kết hợp với ràng buộc giao khác rỗng 179 4.3.4 Thử nghiệm 181 4.4 Kết luận 183 Kết luận 186 A Kết đạt 186 B Hướng phát triển 188 Danh mục cơng trình tác giả 190 Tài liệu tham khảo 191 ix Danh mục bảng 2.1 Cơ sở liệu ví dụ 18 2.2 Đặc trưng c c sở liệu 53 2.3 C c ngưỡng độ hỗ trợ tối thiểu 53 2.4 Số lượng tập phổ biến đóng 54 2.5 Số lượng tập sinh 54 2.6 Hiệu suất với 61 3.1 Minh họa việc sinh không trùng lặp tất luật kết hợp lớp 92 3.2 Một đ nh gi độ dài số lượng tập luật sở 97 3.3 Đặc trưng c c sở liệu 97 3.4 Lực lượng tập luật sở 98 3.5 Thời gian khai thác tập luật sở 101 3.6 Tập luật sở có độ dài trung bình bé 102 3.7 Minh họa việc sinh không trùng lặp tất luật hệ 109 4.1 Cơ sở liệu ví dụ 126 4.2 Đặc trưng c c sở liệu 161 4.3 Các tỉ lệ thời gian chạy tỉ lệ phần trăm luật dư thừa 167 Kết luận 187  Lớp tập phổ biến tập luật kết hợp phân hoạch thành lớp tương đương rời (Định lý 3.1) dựa biểu đồ (dẫn xuất từ đồ thị ) Sau đó, biểu diễn tập phổ biến luật kết hợp lớp tương đương theo tập phổ biến đóng đại diện lớp tập sinh chúng (Hệ 3.2 Định lý 3.4) Sau xem xét biểu diễn lại loại tập luật sở trước tập luật tối tiểu theo quan hệ thứ tự phù hợp, biểu diễn tường minh chúng (Định lý 3.5) Đặc biệt, với quan hệ thứ tự , ta thu tập luật sở với số lượng thời gian khai thác thường bé loại tập luật sở xét Các quy tắc suy dẫn hiệu tập luật hệ dạng từ tập luật sở (Định lý 3.6)  Để giải toán khai thác tập luật kết hợp với ràng buộc, o Trước hết, luận án dựa điều kiện cần đủ cho ràng buộc để chuyển việc kiểm tra ràng buộc trực tiếp ứng viên (luật ứng viên hay tập phổ biến với ràng buộc) việc kiểm tra ràng buộc đơn giản hiệu áp đặt cặp tập phổ biến đóng lồng đại diện cho lớp tập sinh chúng (Mệnh đề 4.2 Nhận xét 4.6) Kiểm tra điều kiện cần đủ tập phổ biến đóng thuộc biểu đồ , ta thu đồ thị giải thỏa ràng buộc tương ứng Từ đồ thị này, tập luật kết hợp với ràng buộc kép ràng buộc giao khác rỗng phân hoạch thành lớp luật tương đương với ràng buộc khác rỗng rời (Định lý 4.1 Định lý 4.3) o Sau đó, cấu trúc biểu diễn luật lớp luật tương đương thỏa ràng buộc (cũng dựa tập phổ biến đóng tập sinh) (Hệ 4.1 Định lý 4.7) Về mặt thực hành, Kết luận 188  Với ưu điểm giảm việc tính tốn lưu trữ nhiều thông tin trùng lặp độ hỗ trợ độ tin cậy (thông qua phân hoạch tập lời giải), giảm thiểu hẳn việc sinh trùng lặp ứng viên lời giải (dựa biểu diễn tường minh tập lời giải thông qua tập đóng tập sinh chúng), thuật toán đề xuất tương ứng giảm thời gian khai thác tập lời giải  Hơn nữa, ta dễ dàng chuyển đổi chúng thành thuật toán song song khai thác hiệu tập lời giải môi trường phân tán thông qua phân hoạch ngày mịn tập lời giải  Ngồi ra, tính hiệu thuật tốn đề xuất bị ảnh hưởng tập ràng buộc (độ hỗ trợ, độ tin cậy chí ràng buộc tập thuộc tính) bị thường xuyên thay đổi người dùng Thật vậy, từ biểu đồ chọn bé so với giá trị định nhanh biểu đồ ( thực tế) với kích thước bé, ta xác , đồ thị hay đồ thị (để khai thác tập phổ biến, luật kết hợp hay tìm luật kết hợp với ràng buộc tương ứng) kỹ thuật loại nhánh, nút tạo biên trên, biên dựa việc xét ràng buộc hai dạng đơn điệu phản đơn điệu Để thực thi phương pháp tiếp cận này, ta thật cần tìm lớp tập phổ biến đóng tập sinh chúng ( ) Trước hết, điều kiện cần đủ tương đương để nhận biết tập sinh (đặc biệt, việc kiểm tra điều kiện (2.10) có độ phức tạp thời gian tuyến tính dựa vào độ hỗ trợ) (trong Định lý 2.1) Sau đó, ba tốn tử mở rộng tập tiền đóng đề xuất tính q trình hình thành dần tập đóng sử dụng chúng chứng minh (Định lý 2.2) Dựa hai kết lý thuyết tảng này, thuật toán đề xuất để khai thác hiệu quả, đồng thời tập phổ biến đóng tập sinh chúng B Hướng phát triển Kết luận 189 Trong thời gian tới, trước hết, bổ sung thêm đánh giá nhớ độ phức tạp thuật toán đề xuất (đặc biệt ) Sau đó, chúng tơi dùng phương pháp tiếp cận để: (1) nghiên cứu toán khai thác tập phổ biến luật kết hợp với nhiều ràng buộc mở rộng khác, (2) chuyển đổi thuật toán đề xuất luận án vào môi trường song song, phân tán để thực thi nhiệm vụ khai thác phức tạp chẳng hạn khai thác chuỗi hay khai thác liệu lớn, (3) giải toán liên quan lĩnh vực khai thác tri thức từ liệu 190 DANH MỤC CÁC CƠNG TRÌNH CỦA TÁC GIẢ Anh T., Hai D., Tin T and Bac L (2012), “Mining frequent itemsets with dualistic constraints”, PRICAI 2012: Trends in Artificial Intelligence, Lecture Notes in Artificial Intelligence, 7458 (Springer), pp 807–813 Anh T., Tin T and Bac L (2014), “An approach for mining association rules intersected with constraint itemsets”, Knowledge and Systems Engineering, Advances in Intelligent Systems and Computing, 245 (Springer), pp 351–363 Anh T., Tin T and Bac L (2014), “Simultaneous mining of frequent closed itemsets and their generators: Foundation and algorithm”, International Journal of Engineering Applications of Artificial Intelligence, 36 (Elsevier), pp 64–80 (IF: 1.962) Anh T., Tin T and Bac L (2014), “Structures of frequent itemsets and classifying structures of association rule set by order relations”, International Journal of Intelligent Information and Database Systems, 8(4) (InderScience), pp 295–323 191 TÀI LIỆU THAM KHẢO TIẾNG VIỆT: [1] Trần Ngọc Anh, Dương Văn Hải Trương Chí Tín (2011), “Khai thác hiệu tập phổ biến với ràng buộc”, Kỷ yếu Hội nghị Quốc gia Nghiên cứu ứng dụng Công nghệ thông tin, tr 167–179 [2] Trần Ngọc Anh Trương Chí Tín (2011), “Một tập luật sở mới”, Tạp chí khoa học Đại học Đà lạt, 1, tr 1–12 [3] Võ Đình Bảy (2014), “Luận án tiến sĩ Khoa học máy tính: Nâng cao hiệu thuật toán khai thác luật kết hợp dựa dàn”, Đại học Khoa học Tự nhiên, Đại học Quốc gia Tp Hồ Chí Minh [4] Trương Chí Tín Trần Ngọc Anh (2011), “Một thuật toán cho khai thác luật kết hợp”, Tạp chí khoa học Đại học Đà lạt, 1, tr 32–42 TIẾNG ANH: [5] Agrawal R., Imielinski T and Swami N (1993), “Mining association rules between sets of items in large databases”, Proceedings of the ACM SIGMOID, pp 207–216 [6] Agrawal R and Srikant R (1994), “Fast algorithms for mining association rules”, Proceeding of the 20th International Conference on Very Large Data Bases, pp 478–499 [7] Agrawal R., Mannila H., Srikant R., Toivonen H., and Verkamo A.I (1996), “Fast discovery of association rules”, Advances in Knowledge Discovery and Data Mining, pp 307–328 192 [8] Anh T., Hai D., Tin T and Bac L (2011), “Efficient algorithms for mining frequent itemsets with constraint”, Proceedings of the third International Conference on Knowledge and Systems Engineering (IEEE), pp 19–25 [9] Anh T., Tin T., Bac L and Hai D (2012), “Mining association rules restricted on constraint”, Proceedings of the 2012 IEEE-RIVF International Conference on Computing and Communication Technologies (IEEE), pp 51–56 [10] Anh T., Tin T and Bac L (2012), “Structures of association rule set”, ACCIDS 2012, Part II, Lecture Notes in Artificial Intelligence, 7197 (Springer), pp 361–370 [11] Anh T., Hai D., Tin T and Bac L (2012), “Mining frequent itemsets with dualistic constraints”, PRICAI 2012: Trends in Artificial Intelligence, Lecture Notes in Artificial Intelligence, 7458 (Springer), pp 807–813 [12] Anh T., Tin T and Bac L (2013), “An approach for mining concurrently closed itemsets and generators”, ICCSAMA 2013, Advanced Computational Methods for Knowledge Engineering, 479 (Springer), pp 355–366 [13] Anh T., Tin T and Bac L (2014), “An approach for mining association rules intersected with constraint itemsets”, Knowledge and Systems Engineering, Advances in Intelligent Systems and Computing, 245 (Springer), pp 351–363 [14] Anh T., Tin T and Bac L (2014), “Simultaneous mining of frequent closed itemsets and their generators: Foundation and algorithm”, International Journal of Engineering Applications of Artificial Intelligence, 36 (Elsevier), pp 64–80 (IF: 1.962) [15] Anh T., Tin T and Bac L (2014), “Structures of frequent itemsets and classifying structures of association rule set by order relations”, International Journal of Intelligent Information and Database Systems, 8(4) (InderScience), pp 295–323 193 [16] Anthony J.T.L, Wan-chuen L., Chun-sheng W (2006), “Mining association rules with multidimensional constraints”, Journal of Systems and Software, 79(1), pp 79–92 [17] Balcazar, J.L (2010), “Redundancy, deduction schemes, and minimum-size base for association rules”, Logical Methods in Computer Sciences, 6(2:3), pp 1–33 [18] Bao H.T (1995), “An approach to concept formation based on formal concept analysis”, IEICE Trans Infor and systems (E78-D), 5, pp 553–579 [19] Bastide Y., Taouil R., Pasquier N., Stumme G and Lakhal L (2000), “Mining frequent patterns with counting inference”, SIGKDD Explorations, 2(2), pp 66–75 [20] Bayardo R.J (1998), “Efficiently mining long patterns from databases”, Proceedings of the SIGMOD Conference, pp 85–93 [21] Bayardo R.J and Agrawal R (1999), “Mining the most interesting rules”, Proceedings of the KDD Conference, pp 145–154 [22] Bayardo R.J., Agrawal R and Gunopulos D (2000), “Constraint-based rule mining in large dense databases”, Data Mining and Knowledge Discovery, 4(2/3), pp 217–240 [23] Bay V and Bac, L (2009), “Fast algorithm for mining minimal generators of frequent closed itemsets and their applications”, Proceedings of 39th International Conference on Computers & Industrial Engineering, pp 1407– 1411 [24] Bay V and Bac L (2010), “Mining the most generalization association rules”, Advances in Intelligent Information and Database Systems, 283, pp 207 –216 [25] Bay V., Hong T.P and Bac L (2012), “Mining most generalization association rules based on frequent closed itemset”, International Journal of Innovative Computing Information and Control, 8(10), pp 1–17 194 [26] Birkhoff G (1948) Lattice theory, American Mathematical Society, New York [27] Birkhoff G (1967), Lattice Theory, 3rd edition, American Mathematical Society, Providence, RI [28] Bonchi F., Giannotti F., Mazzanti A and Pedreschi D (2003), “Exante: Anticipated data reductionin constrained pattern mining”, Proceedings of PKDD’03, 2838, pp 59–70 [29] Bonchi F., Giannotti F., Mazzanti A and Pedreschi, D (2003), “Examiner: Optimized level-wise frequent pattern mining with monotone constraints”, Proceeding of IEEE ICDM’03, pp 11–18 [30] Bonchi F and Goethals B (2004), “FP-Bonsai: The art of growing and pruning small FP-Trees”, Lecture Notes in Computer Science, 3056, pp 155– 160 [31] Bonchi F and Lucchese, C (2004), “On closed constrained frequent pattern mining”, Proceedings of IEEE ICDM 2004, pp 35–42 [32] Burdick D., Calimlim M and Gehrke, J (2001), “MAFIA: A maximal frequent itemset algorithm for transactional databases”, Proceedings of ICDE’01, pp 443–452 [33] Boulicaut J.F and Bykowski A (2000), “Frequent closures as a concise representation for binary Data Mining”, Proceedings of PAKDD 2000, 1805, pp 62–73 [34] Boulicaut J., Bykowski A and Rigotti C (2003), “Free-Sets: A condensed representation of boolean data for the approximation of frequency queries”, Data Mining and Knowledge Discovery, 7(1), pp 5–22 [35] Bucila C., Gehrke J.E., Kifer D and White W (2003), “Dualminer: A dualpruning algorithm for itemsets with constraints”, Data Mining and Knowledge Discovery, 7, pp 241–272 195 [36] Burdick, D., Calimlim, M., and Gehrke, J (2001), “MAFIA: A maximal frequent itemset algorithm for transactional databases”, Proceedings of ICDE’01, pp 443–452 [37] Cong G and Liu B (2002), “Speed-up iterative frequent itemset mining with constraint changes”, Proceedings of ICDM, pp 107–114 [38] Calders T and Goethals B (2007), “Non-derivable itemset mining”, Data Mining and Knowledge Discovery, 14(1), pp 171–206 [39] Cristofor L and Simovici D (2002), “Generating an informative cover for association rules”, Proceeding of the IEEE International Conference on Data Mining, pp 597–600 [40] Das A., Ng W.K and Woon Y.K (2001), “Rapid association rule mining”, Proceedings of 10th International conference on Information and knowledge management, pp 474–481 [41] Davey B.A and Priestley H.A (1994), Introduction to Lattices and Order, Fourth edition, Cambridge University Press [42] Dong G., Jiang C., Pei J., Li J and Wong L (2005), “Mining succinct systems of minimal generators of formal concepts”, DASFAA 2005, Lecture Notes in Computer Science, 3453, 175–187 [43] Duquenne V and Guigues J.L (1986), “Famille minimale d’implications informatives résultant d’un tableau de données binaires”, Math et Sci Hum., 24(95), pp 5–18 [44] Elena B., Luca C., Tania C and Paolo G (2012) “Generalized association rule mining with constraints”, Information Sciences, 194, pp 68–84 [45] Feller W (1950), An introduction to probability theory and its applications, John Wiley & sons Inc., 1, Chapman & Hall Ltd London [46] Ganter B., Wille R and Franzke, C (1997), Formal concept analysis: mathematical foundations, Springer-Verlag New York, Inc 196 [47] Godin R., Missaoul R and Alaour H (1995), “Incremental concept formation algorithms based on Galois lattices”, Magazine of computational Intelligence, pp 246–247 [48] Goethals B and Zaki M.J (2004), “Advances in frequent itemset mining implementations”, Report on FIMI 2003, ACM SIGKDD Explorations Newsletter, 6(1), pp 109–117 [49] Gouda K and Zaki M.J (2001), “Efficiently mining maximal frequent itemsets”, Proceedings of ICDM’01, pp 163–170 [50] Gouda K and Zaki M J (2005), “Genmax: An effcient algorithm for mining maximal frequent itemsets”, Data Mining and Knowledge Discovery, 11(3), pp 223–242 [51] Guang-yuana L., Dan-yanga C., Jianweia G (2011), “Association rules mining with multiple constraints”, Procedia Engineering, 15, pp 1678–1683 [52] Hai D., Tin T and Bac L (2013), “An efficient algorithm for mining frequent itemsets with single constraint”, ICCSAMA 2013, Advanced Computational Methods for Knowledge Engineering, 479 (Springer), pp 367–378 [53] Hai D., Tin T and Bay V (2014), “An efficient method for mining frequent itemsets with double constraints”, International Journal of Engineering Applications of Artificial Intelligent, 27 (Elsevier), pp 148–154 [54] Hai D and Tin T (2014), “Efficient mining of association rules based on minimum single constraints”, Journal of Vietnam Computer Science (DOI 10.1007/s40595-014-0032-7) [55] Han, J and Pei, J (2000), “Mining frequent patterns by pattern-growth: methodology and implications”, ACM SIGKDD Explorations Newsletter 2, 2, pp 14–20 [56] Han J., Pei J and Yin J (2000), “Mining frequent itemsets without candidate generation”, Proceedings of SIGMOID’00, pp 1-12 197 [57] Han J., Pei J., Yin J and Mao R (2004), “Mining frequent patterns without candidate generation: A frequent-pattern tree approach”, Data Mining and Knowledge Discovery, 8(1), pp 53–87 [58] Han J., Cheng H., Xin D and Yan X (2007), “Frequent pattern mining: current status and future directions”, Data Mining and Knowledge Discovery, 15, pp 55–86 [59] Han J and Kamber M (2000), Data Mining Concepts and Techniques, Morgan Kanufmann [60] Hashem T., Ahmed C.F., Samiullah M., Akther S., Jeong B.S and Jeon S (2014), “An efficient approach for mining cross-level closed itemsets and minimal association rules using closed itemset lattices”, Expert Systems with Applications, 41(6), pp 2914–2938 [61] Klemettinen M., Mannila H., Ronkainen P., Toivonen H and Verkamo A.I (1994), “Finding interesting rules from large sets of discovered association rules”, Proceeding of the 3rd CIKM Conference, pp 401–407 [62] Lakshmanan L.V.S and Nguyen R (1999), “Optimization of constrained frequent set queries with 2-variable constraints”, Proceedings of the 1999 ACM SIGMOD international conference on Management of data, pp 157– 168 [63] Lee A.J., Lin W.C and Wang C.S (2006), “Mining Association rule with multi-dimensional constraints”, Journal of Systems and Software, 79(1), pp 79–92 [64] Li G and Hamilton H.J (2004), “Basic association Rules”, Proceeding of the 4th SIAM International Conference on Data Mining, pp 166–177 [65] Luxenburger M (1991), “Implications partielles dans un contexte”, Math Inf et Sci Hum., 29(113), pp 35–55 198 [66] Mannila H., Toivonen H and Verkamo I.A (1994), “Efficient algorithms for discovering association rules”, Workshop on Knowledge Discovery in Databases 1994, pp 181–192 [67] Mannila H and Toivonen H (1997), “Levelwise search and borders of theories in knowledge discovery”, Data Mining and Knowledge Discovery, 1, pp 241–258 [68] Mashoria V and Singh A (2013), “A survey of mining association rules using constraints”, International Journal of Computers & Technology, 7, pp 620– 625 [69] Mohamed S.G., Amine F 2010, “Mining multi-level frequent itemsets under constraints”, International Journal of Database Theory and Application, 3, pp 15–34 [70] Nguyen R.T., Lakshmanan V.S., Han J and Pang A (1998), “Exploratory mining and pruning optimizations of constrained association rules”, Proceedings of the 1998 ACM-SIG-MOD Int’l Conf on the Management of Data, pp 13–24 [71] Oded M and Lior, R (2010), Data mining and knowledge discovery Handbook, Springer, New York, Dordrecht Heidelberg, London [72] Park J.S., Chen M.S and Yu P.S (1995), “An effective hash based algorithm for mining association rules”, Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data, pp 175–186 [73] Pasquier N., Bastide Y., Taouil R and Lakhal L (1999), “Efficient mining of association rules using closed item set lattices”, Information systems, 24(1), pp 25–46 [74] Pasquier N., Taouil R., Bastide Y., Stumme G and Lakhal L (2005), “Generating a condensed representation for association rules”, Journal of Intelligent Information Systems, 24(1), pp 29–60 199 [75] Pei J., Han J and Mao R (2000), “CLOSET: An efficient algorithm for mining frequent closed itemsets”, Proceedings of the DMKDWorkshop on Research Issues in Data Mining and Knowledge Discovery, pp 21–30 [76] Pei J., Han J and Lakshmanan L.V.S (2001), “Mining frequent itemsets with convertible constraints”, Proceedings of IEEE ICDE’01, pp 433–442 [77] Pei J and Han J (2002), “Constrained frequent pattern mining: A patterngrowth view”, Proceedings of ACM SIGKDD Explorations, 4, pp 31–39 [78] Pei J., Han J., and Lakshmanan V.S (2004), “Pushing convertible constraints in frequent itemset mining”, Data Mining and Knowledge Discovery, 8, pp 227–252 [79] Pfaltz J.L and Taylor C.M (2002), “Closed set mining of biological data”, Workshop on Data Mining in Bioinformatics 2002 [80] Russel P and Sangeetha K (2007), “FGC: An efficient constraint based frequent set miner”, Proceedings of Computer Systems and Applications Conference, pp 424–431 [81] Shin-Mu, V.T (1999), “An efficient method for mining association rules with item constraints”, Computer Science Division, University of California, Berkeley [82] Srikant R., Vu Q and Agrawal R (1997), “Mining association rules with item constraints”, Proceedings of KDD’97, pp 67–73 [83] Szathmary L., Valtchev P and Napoli A (2009), “Efficient vertical mining of frequent closed itemsets and generators”, Proceedings of IDA 2009, pp 393– 404 [84] Shichao Z., Feng C., Xindong W and Chengqi Z (2006), “Identifying bridging rules between conceptual clusters”, Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data mining, pp 20–23 200 [85] Tin T and Anh T (2010), “Structure of set of association rules based on concept lattice”, ACIIDS 2010, Advances in Intelligent Information and Database Systems, 283 (Springer), pp 217–227 [86] Tin T., Anh T and Thong T (2010), “Structure of association rule set based on min-min basic rules”, Proceedings of the 2010 IEEE-RIVF International Conference on Computing and Communication Technologies (IEEE), pp 83– 88 [87] Uday Kiran, R., Krishna Reddy P (2010), “Towards efficient mining of periodic-frequent patterns in transactional databases”, Database and Expert Systems Applications, 6262, pp 194–208 [88] Varsha M., Anju S (2013), “Efficient approach for extracting frequent pattern and association rules with periodic constraints”, International Journal of Computer Science Engineering and Information Technology Research, 3, pp 65–78 [89] Wang J., Han J and Pei J (2003), “Closet+: Searching for the best strategies for mining frequent closed itemsets”, Proceedings of ACM SIGKDD’03, pp 236–245 [90] Wille R (1982), “Restructuring lattices theory: an approach based on hierarchies of concepts”, Ordered Sets, pp 445–470 [91] Wille R (1992), “Concept lattices and conceptual knowledge systems”, Computers and Math with App., 23(6-9), pp 493–515 [92] Woon Y.K., Ng W.K and Lim E.P (2004), “A support-ordered trie for fast frequent itemset discovery”, IEEE Transactions on Knowledge and Data Engineering, 16(7), pp 875–879 [93] Zaki M.J., Parthasarathy S., Ogihara M and Li W (1997), “New algorithms for fast discovery of association rules”, Proceedings of 3rd Int Conf on Knowledge Discovery and Data Mining (KDD), pp 283–296 201 [94] Zaki M.J and Gouda, K (2003), “Fast vertical mining using diffsets”, Proceedings of ACM SIGKDD’03, pp 326–335 [95] Zaki M.J (2004), “Mining non-redundant association rules”, Data Mining and Knowledge Discovery, 9(3), pp 223–248 [96] Zaki M.J and Hsiao, C.J (2005), “Efficient algorithms for mining closed itemsets and their lattice structure”, IEEE Trans Knowledge and Data Engineering, 17(4), pp 462–478 [97] Zaki (2010) http://www.cs.rpi.edu/~zaki/www-new/pmwiki.php/Software/ Software#patutils [98] FIMDR (2009), Frequent http://fimi.cs.helsinki.fi/data/ Itemset Mining Dataset Repository, ...i ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Trần Ngọc Anh BIỂU DIỄN TOÁN HỌC VÀ MỘT THUẬT TOÁN NHANH CHO BÀI TOÁN KHAI THÁC TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP Chuyên ngành: Khoa học máy... khai thác luật kết hợp 1.2 Bài toán khai thác luật kết hợp tiếp cận 1.3 Bài toán khai thác luật kết hợp với ràng buộc (trên tập thuộc tính) 1.4 C c hó hăn việc khai thác luật kết hợp. .. vụ cho việc giải toán khai thác tập phổ biến luật kết hợp có khơng có ràng buộc (Kết cơng bố [14]) (3) Chỉ cấu trúc biểu diễn lớp tập phổ biến tập luật kết hợp dựa đồ thị tập phổ biến đóng tập

Ngày đăng: 01/08/2021, 10:05

Mục lục

  • A_Bia_____LA-TrNgAnh-10-12-2015

  • B_MLuc___LA-TrNgAnh-10-12-2015

  • C_Ch1____LA-TrNgAnh-10-12-2015

  • D_Ch2____LA-TrNgAnh-10-12-2015

  • E_Ch3____LA-TrNgAnh-10-12-2015

  • F_Ch4____LA-TrNgAnh-10-12-2015

  • G_KLuan__LA-TrNgAnh-10-12-2015

  • H_TKhao__LA-TrNgAnh-10-12-2015

Tài liệu cùng người dùng

Tài liệu liên quan