1. Trang chủ
  2. » Luận Văn - Báo Cáo

biểu diễn toán học và một thuật toán nhanh cho bài toán khai thác tập phổ biến và luật kết hợ

431 355 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • A_Bia_____LA-TrNgAnh-10-12-2015

  • B_MLuc___LA-TrNgAnh-10-12-2015

  • C_Ch1____LA-TrNgAnh-10-12-2015

  • D_Ch2____LA-TrNgAnh-10-12-2015

  • E_Ch3____LA-TrNgAnh-10-12-2015

  • F_Ch4____LA-TrNgAnh-10-12-2015

  • G_KLuan__LA-TrNgAnh-10-12-2015

  • H_TKhao__LA-TrNgAnh-10-12-2015

Nội dung

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Trần Ngọc Anh BIỂU DIỄN TOÁN HỌC VÀ MỘT THUẬT TOÁN NHANH CHO BÀI TOÁN KHAI THÁC TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Tp Hồ Chí Minh – Năm 2015 i ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Trần Ngọc Anh BIỂU DIỄN TOÁN HỌC VÀ MỘT THUẬT TOÁN NHANH CHO BÀI TOÁN KHAI THÁC TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP Chuyên ngành: Khoa học máy tính Mã số chuyên ngành: 62 48 01 01 Phản biện 1: TS Nguyễn Hữu Trọng Phản biện 2: TS Đặng Trường Sơn Phản biện 3: TS Hồ Bảo Quốc Phản biện độc lập 1: PGS.TS Huỳnh Thị Thanh Bình Phản biện độc lập 2: TS Trần Đăng Hưng NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS Lê Hoài Bắc TS Trương Chí Tín Tp Hồ Chí Minh – Năm 2015 ii Lời cam đoan Tôi xin cam đoan nội dung luận án kết nghiên cứu thân Tất tham khảo từ nghiên cứu có liên quan nêu rõ nguồn gốc từ danh mục c c t i liệu tham khảo luận án Những đóng góp luận n l c c nghiên cứu tác giả đ công bố c c b i b o hoa học nêu phần danh mục công trình nghiên cứu chưa công bố công tr nh n o h c C c công tr nh nghiên cứu nhiều tác giả đưa v o nội dung luận n nhận đồng ý trước c c đồng tác giả Tác giả luận án Trần Ngọc Anh iii Lời cảm ơn Lời đầu tiên, em xin bày tỏ lòng biết ơn sâu sắc đến PGS TS Lê Hoài Bắc, người đ tận t nh hướng dẫn, định hướng v động viên em suốt thời gian học tập, nghiên cứu thực luận án Em xin gởi lời tri ân sâu sắc đến TS Trương Chí Tín, nhờ động viên, bảo, hướng dẫn tận tình Thầy, em hoàn thành luận án Em xin chân th nh gửi lời cảm ơn đến Thầy/Cô Khoa Công nghệ Thông tin trường Đại học Khoa học Tự nhiên Tp HCM đ tận tình dạy dỗ, bảo nhiều kiến thức quí báu giúp em hoàn thành khóa học Xin cảm ơn c c Thầy/Cô, đồng nghiệp Khoa Toán – Tin học, Đại học Đ lạt bạn bè đ hỗ trợ, động viên trình học tập thực luận án Cuối cùng, muốn bày tỏ lời tri ân biết ơn sâu sắc đến Cha, Vợ, Cha vợ, Mẹ vợ anh, chị, em đ hích lệ, động viên, tạo điều kiện thuận lợi cho suốt thời gian làm nghiên cứu sinh Tp Hồ Chí Minh tháng 12 năm 2015 Tác giả luận án Trần Ngọc Anh iv MỤC LỤC Trang phụ bìa i Lời cam đoan ii Lời cảm ơn iii Mục lục iv Danh mục bảng ix Danh mục hình x Danh mục ký hiệu, chữ viết tắt xiii Giới thiệu 1.1 Khám phá tri thức khai thác luật kết hợp 1.2 Bài toán khai thác luật kết hợp tiếp cận 1.3 Bài toán khai thác luật kết hợp với ràng buộc (trên tập thuộc tính) 1.4 C c hó hăn việc khai thác luật kết hợp v phương ph p tiếp cận 1.4.1 C c hó hăn việc khai thác luật kết hợp 1.4.2 Phương ph p tiếp cận 10 A Dựa vào tập phổ biến đóng v c c tập sinh chúng 10 B Phân hoạch rời tập lời giải, tìm biểu diễn lời giải lớp 10 1.5 C c đóng góp luận án 12 1.6 Bố cục luận án 13 v Khai thác tập đóng tập sinh – sở lý thuyết thuật toán GENCLOSE 15 2.1 Các khái niệm, kết 16 2.1.1 Các khái niệm 16 2.1.2 Các kết 20 2.2 Bài toán nghiên cứu liên quan 24 2.3 : sở thuật toán 27 2.3.1 Cây (tập thuộc tính – tập đối tượng – tập sinh) v c c bước 27 2.3.2 C c điều kiện cần v đủ để x c định tập sinh 29 2.3.3 Ba toán tử mở rộng tiền bao đóng 34 2.3.4 Thuật toán 41 2.3.5 Tính đắn, tính đầy đủ kỹ thuật thực thi 48 A Tính đắn v đầy đủ 48 B Kỹ thuật diffset 49 C Tìm kiếm nhanh với bảng băm ép 51 2.4 Thử nghiệm thuật toán 52 2.4.1 Dữ liệu v c i đặt thử nghiệm 52 2.4.2 Kiểm chứng tính 54 2.4.3 Hiệu suất 55 2.5 Kết luận 62 Cấu trúc lớp tập phổ biến cấu trúc tập luật kết hợp 63 3.1 Các khái niệm kết 64 3.1.1 Dàn khái niệm, luật kết hợp, toán khai thác luật kết hợp 64 3.1.2 Phân hoạch (rời) lớp tập phổ biến tập luật kết hợp 66 vi 3.1.3 Tập bỏ 69 3.2 Cấu trúc biểu diễn tập phổ biến có bao đóng 71 3.2.1 Tính tối tiểu tập sinh tính lớn tập đóng lớp tương đương 73 3.2.2 Cấu trúc tập thuộc tính lớp tương đương 75 3.2.3 Cấu trúc biểu diễn tập thuộc tính lớp tương đương hạn chế 77 A Cấu trúc tập thuộc tính lớp tương đương hạn chế 77 B Biểu diễn tập thuộc tính lớp tương đương hạn chế 80 3.2.4 Biểu diễn tập thuộc tính lớp tương đương 86 3.3 Cấu trúc tập luật kết hợp 89 3.3.1 Dạng tường minh luật lớp luật tương đương 90 3.3.2 Phân lớp cấu trúc tập luật kết hợp theo quan hệ thứ tự 93 A Các tập luật sở theo quan hệ thứ tự 93 B Đ nh gi tập luật sở việc khai thác chúng 97 C Dẫn xuất đầy đủ không trùng lặp tập luật hệ 101 3.4 Kết luận 110 Khai thác luật kết hợp với ràng buộc 112 4.1 Các toán khai thác luật kết hợp với ràng buộc tiếp cận 112 4.1.1 Giới thiệu 112 4.1.2 Các toán khai thác luật kết hợp với ràng buộc 114 A Bài toán khai thác luật kết hợp với ràng buộc kép 114 B Bài toán khai thác luật kết hợp với ràng buộc giao khác rỗng 115 4.1.3 Vài nghiên cứu tiếp cận liên quan 115 vii A Tiếp cận hai th c trước tập phổ biến với ràng buộc 115 B Tiếp cận hậu xử lý 118 4.1.4 Tiếp cận luận án 120 4.2 Khai thác luật kết hợp với ràng buộc kép 121 4.2.1 Các khái niệm 122 4.2.2 Phân hoạch tập luật kết hợp với ràng buộc kép 124 A Phân hoạch thô 124 B C c điều kiện buộc mở rộng khác, (2) chuyển đổi thuật toán đề xuất luận án vào môi trường song song, phân tán để thực thi nhiệm vụ khai thác phức tạp chẳng hạn khai thác chuỗi hay khai thác liệu lớn, (3) giải toán liên quan lĩnh vực khai thác tri thức từ liệu 190 DANH MỤC CÁC CÔNG TRÌNH CỦA TÁC GIẢ Anh T., Hai D., Tin T and Bac L (2012), “Mining frequent itemsets with dualistic constraints”, PRICAI 2012: Trends in Artificial Intelligence, Lecture Notes in Artificial Intelligence, 7458 (Springer), pp 807–813 Anh T., Tin T and Bac L (2014), “An approach for mining association rules intersected with constraint itemsets”, Knowledge and Systems Engineering, Advances in Intelligent Systems and Computing, 245 (Springer), pp 351–363 Anh T., Tin T and Bac L (2014), “Simultaneous mining of frequent closed itemsets and their generators: Foundation and algorithm”, International Journal of Engineering Applications of Artificial Intelligence, 36 (Elsevier), pp 64–80 (IF: 1.962) Anh T., Tin T and Bac L (2014), “Structures of frequent itemsets and classifying structures of association rule set by order relations”, International Journal of Intelligent Information and Database Systems, 8(4) (InderScience), pp 295–323 191 TÀI LIỆU THAM KHẢO TIẾNG VIỆT: [1] Trần Ngọc Anh, Dương Văn Hải Trương Chí Tín (2011), “Khai thác hiệu tập phổ biến với ràng buộc”, Kỷ yếu Hội nghị Quốc gia Nghiên cứu ứng dụng Công nghệ thông tin, tr 167–179 [2] Trần Ngọc Anh Trương Chí Tín (2011), “Một tập luật sở mới”, Tạp chí khoa học Đại học Đà lạt, 1, tr 1–12 [3] Võ Đình Bảy (2014), “Luận án tiến sĩ Khoa học máy tính: Nâng cao hiệu thuật toán khai thác luật kết hợp dựa dàn”, Đại học Khoa học Tự nhiên, Đại học Quốc gia Tp Hồ Chí Minh [4] Trương Chí Tín Trần Ngọc Anh (2011), “Một thuật toán cho khai thác luật kết hợp”, Tạp chí khoa học Đại học Đà lạt, 1, tr 32–42 TIẾNG ANH: [5] Agrawal R., Imielinski T and Swami N (1993), “Mining association rules between sets of items in large databases”, Proceedings of the ACM SIGMOID, pp 207–216 [6] Agrawal R and Srikant R (1994), “ Fast algorithms for mining association rules”, Proceeding of the 20th International Conference on Very Large Data Bases, pp 478–499 [7] Agrawal R., Mannila H., Srikant R., Toivonen H., and Verkamo A.I (1996), “Fast discovery of association rules”, Advances in Knowledge Discovery and Data Mining, pp 307–328 192 [8] Anh T., Hai D., Tin T and Bac L (2011), “Efficient algorithms for mining frequent itemsets with constraint”, Proceedings of the third International Conference on Knowledge and Systems Engineering (IEEE), pp 19–25 [9] Anh T., Tin T., Bac L and Hai D (2012), “Mining association rules restricted on constraint”, Proceedings of the 2012 IEEE-RIVF International Conference on Computing and Communication Technologies (IEEE), pp 51–56 [10] Anh T., Tin T and Bac L (2012), “Structures of association rule set”, ACCIDS 2012, Part II, Lecture Notes in Artificial Intelligence, 7197 (Springer), pp 361–370 [11] Anh T., Hai D., Tin T and Bac L (2012), “Mining frequent itemsets with dualistic constraints”, PRICAI 2012: Trends in Artificial Intelligence, Lecture Notes in Artificial Intelligence, 7458 (Springer), pp 807–813 [12] Anh T., Tin T and Bac L (2013), “An approach for mining concurrently closed itemsets and generators”, ICCSAMA 2013, Advanced Computational Methods for Knowledge Engineering, 479 (Springer), pp 355–366 [13] Anh T., Tin T and Bac L (2014), “An approach for mining association rules intersected with constraint itemsets”, Knowledge and Systems Engineering, Advances in Intelligent Systems and Computing, 245 (Springer), pp 351–363 [14] Anh T., Tin T and Bac L (2014), “Simultaneous mining of frequent closed itemsets and their generators: Foundation and algorithm”, International Journal of Engineering Applications of Artificial Intelligence, 36 (Elsevier), pp 64–80 (IF: 1.962) [15] Anh T., Tin T and Bac L (2014), “Structures of frequent itemsets and classifying structures of association rule set by order relations”, International Journal of Intelligent Information and Database Systems, 8(4) (InderScience), pp 295–323 193 [16] Anthony J.T.L, Wan-chuen L., Chun-sheng W (2006), “Mining association rules with multidimensional constraints”, Journal of Systems and Software, 79(1), pp 79–92 [17] Balcazar, J.L (2010), “Redundancy, deduction schemes, and minimum-size base for association rules”, Logical Methods in Computer Sciences, 6(2:3), pp 1–33 [18] Bao H.T (1995), “An approach to concept formation based on formal concept analysis”, IEICE Trans Infor and systems (E78-D), 5, pp 553–579 [19] Bastide Y., Taouil R., Pasquier N., Stumme G and Lakhal L (2000), “Mining frequent patterns with counting inference”, SIGKDD Explorations, 2(2), pp 66–75 [20] Bayardo R.J (1998), “Efficiently mining long patterns from databases”, Proceedings of the SIGMOD Conference, pp 85–93 [21] Bayardo R.J and Agrawal R (1999), “Mining the most interesting rules”, Proceedings of the KDD Conference, pp 145–154 [22] Bayardo R.J., Agrawal R and Gunopulos D (2000), “Constraint-based rule mining in large dense databases”, Data Mining and Knowledge Discovery, 4(2/3), pp 217–240 [23] Bay V and Bac, L (2009), “Fast algorithm for mining minimal generators of frequent closed itemsets and their applications”, Proceedings of 39th International Conference on Computers & Industrial Engineering, pp 1407– 1411 [24] Bay V and Bac L (2010), “Mining the most generalization association rules”, Advances in Intelligent Information and Database Systems, 283, pp 207 –216 [25] Bay V., Hong T.P and Bac L (2012), “Mining most generalization association rules based on frequent closed itemset”, International Journal of Innovative Computing Information and Control, 8(10), pp 1–17 194 [26] Birkhoff G (1948) Lattice theory, American Mathematical Society, New York [27] Birkhoff G (1967), Lattice Theory, 3rd edition, American Mathematical Society, Providence, RI [28] Bonchi F., Giannotti F., Mazzanti A and Pedreschi D (2003), “Exante: Anticipated data reductionin constrained pattern mining”, Proceedings of PKDD’03, 2838, pp 59–70 [29] Bonchi F., Giannotti F., Mazzanti A and Pedreschi, D (2003), “Examiner: Optimized level-wise frequent pattern mining with monotone constraints”, Proceeding of IEEE ICDM’03, pp 11–18 [30] Bonchi F and Goethals B (2004), “FP-Bonsai: The art of growing and pruning small FP-Trees”, Lecture Notes in Computer Science, 3056, pp 155– 160 [31] Bonchi F and Lucchese, C (2004), “On closed constrained frequent pattern mining”, Proceedings of IEEE ICDM 2004, pp 35–42 [32] Burdick D., Calimlim M and Gehrke, J (2001), “MAFIA: A maximal frequent itemset algorithm for transactional databases”, Proceedings of ICDE’01, pp 443–452 [33] Boulicaut J.F and Bykowski A (2000), “Frequent closures as a concise representation for binary Data Mining”, Proceedings of PAKDD 2000, 1805, pp 62–73 [34] Boulicaut J., Bykowski A and Rigotti C (2003), “Free-Sets: A condensed representation of boolean data for the approximation of frequency queries”, Data Mining and Knowledge Discovery, 7(1), pp 5–22 [35] Bucila C., Gehrke J.E., Kifer D and White W (2003), “Dualminer: A dualpruning algorithm for itemsets with constraints”, Data Mining and Knowledge Discovery, 7, pp 241–272 195 [36] Burdick, D., Calimlim, M., and Gehrke, J (2001), “MAFIA: A maximal frequent itemset algorithm for transactional databases”, Proceedings of ICDE’01, pp 443–452 [37] Cong G and Liu B (2002), “Speed-up iterative frequent itemset mining with constraint changes”, Proceedings of ICDM, pp 107–114 [38] Calders T and Goethals B (2007), “Non-derivable itemset mining”, Data Mining and Knowledge Discovery, 14(1), pp 171–206 [39] Cristofor L and Simovici D (2002), “Generating an informative cover for association rules”, Proceeding of the IEEE International Conference on Data Mining, pp 597–600 [40] Das A., Ng W.K and Woon Y.K (2001), “Rapid association rule mining”, Proceedings of 10th International conference on Information and knowledge management, pp 474–481 [41] Davey B.A and Priestley H.A (1994), Introduction to Lattices and Order, Fourth edition, Cambridge University Press [42] Dong G., Jiang C., Pei J., Li J and Wong L (2005), “Mining succinct systems of minimal generators of formal concepts”, DASFAA 2005, Lecture Notes in Computer Science, 3453, 175–187 [43] Duquenne V and Guigues J.L (1986), “Famille minimale d’implications informatives résultant d’un tableau de données binaires”, Math et Sci Hum , 24(95), pp 5–18 [44] Elena B., Luca C., Tania C and Paolo G (2012) “Generalized association rule mining with constraints”, Information Sciences, 194, pp 68–84 [45] Feller W (1950), An introduction to probability theory and its applications, John Wiley & sons Inc., 1, Chapman & Hall Ltd London [46] Ganter B., Wille R and Franzke, C (1997), Formal concept analysis: mathematical foundations, Springer-Verlag New York, Inc 196 [47] Godin R., Missaoul R and Alaour H (1995), “Incremental concept formation algorithms based on Galois lattices”, Magazine of computational Intelligence, pp 246–247 [48] Goethals B and Zaki M.J (2004), “Advances in frequent itemset mining implementations”, Report on FIMI 2003, ACM SIGKDD Explorations Newsletter, 6(1), pp 109–117 [49] Gouda K and Zaki M.J (2001), “Efficiently mining maximal frequent itemsets”, Proceedings of ICDM’01, pp 163–170 [50] Gouda K and Zaki M J (2005), “Genmax: An effcient algorithm for mining maximal frequent itemsets”, Data Mining and Knowledge Discovery, 11(3), pp 223–242 [51] Guang-yuana L., Dan-yanga C., Jianweia G (2011), “Association rules mining with multiple constraints”, Procedia Engineering, 15, pp 1678–1683 [52] Hai D., Tin T and Bac L (2013), “An efficient algorithm for mining frequent itemsets with single constraint”, ICCSAMA 2013, Advanced Computational Methods for Knowledge Engineering, 479 (Springer), pp 367–378 [53] Hai D., Tin T and Bay V (2014), “An efficient method for mining frequent itemsets with double constraints”, International Journal of Engineering Applications of Artificial Intelligent, 27 (Elsevier), pp 148–154 [54] Hai D and Tin T (2014), “Efficient mining of association rules based on minimum single constraints”, Journal of Vietnam Computer Science (DOI 10.1007/s40595-014-0032-7) [55] Han, J and Pei, J (2000), “Mining frequent patterns by pattern-growth: methodology and implications”, ACM SIGKDD Explorations Newsletter 2, 2, pp 14–20 [56] Han J., Pei J and Yin J (2000), “Mining frequent itemsets without candidate generation”, Proceedings of SIGMOID’00, pp 1-12 197 [57] Han J., Pei J., Yin J and Mao R (2004), “Mining frequent patterns without candidate generation: A frequent-pattern tree approach”, Data Mining and Knowledge Discovery, 8(1), pp 53–87 [58] Han J., Cheng H., Xin D and Yan X (2007), “Frequent pattern mining: current status and future directions”, Data Mining and Knowledge Discovery, 15, pp 55–86 [59] Han J and Kamber M (2000), Data Mining Concepts and Techniques, Morgan Kanufmann [60] Hashem T., Ahmed C.F., Samiullah M., Akther S., Jeong B.S and Jeon S (2014), “An efficient approach for mining cross-level closed itemsets and minimal association rules using closed itemset lattices”, Expert Systems with Applications, 41(6), pp 2914–2938 [61] Klemettinen M., Mannila H., Ronkainen P., Toivonen H and Verkamo A.I (1994), “Finding interesting rules from large sets of discovered association rules”, Proceeding of the 3rd CIKM Conference, pp 401–407 [62] Lakshmanan L.V.S and Nguyen R (1999), “Optimization of constrained frequent set queries with 2-variable constraints”, Proceedings of the 1999 ACM SIGMOD international conference on Management of data, pp 157– 168 [63] Lee A.J., Lin W.C and Wang C.S (2006), “Mining Association rule with multi-dimensional constraints”, Journal of Systems and Software, 79(1), pp 79–92 [64] Li G and Hamilton H.J (2004), “Basic association Rules”, Proceeding of the 4th SIAM International Conference on Data Mining, pp 166–177 [65] Luxenburger M (1991), “Implications partielles dans un contexte”, Math Inf et Sci Hum , 29(113), pp 35–55 198 [66] Mannila H., Toivonen H and Verkamo I.A (1994), “Efficient algorithms for discovering association rules”, Workshop on Knowledge Discovery in Databases 1994, pp 181–192 [67] Mannila H and Toivonen H (1997), “Levelwise search and borders of theories in knowledge discovery”, Data Mining and Knowledge Discovery, 1, pp 241–258 [68] Mashoria V and Singh A (2013), “A survey of mining association rules using constraints”, International Journal of Computers & Technology, 7, pp 620– 625 [69] Mohamed S.G., Amine F 2010, “Mining multi-level frequent itemsets under constraints”, International Journal of Database Theory and Application, 3, pp 15–34 [70] Nguyen R.T., Lakshmanan V.S., Han J and Pang A (1998), “Exploratory mining and pruning optimizations of constrained association rules”, Proceedings of the 1998 ACM-SIG-MOD Int’l Conf on the Management of Data, pp 13–24 [71] Oded M and Lior, R (2010), Data mining and knowledge discovery Handbook, Springer, New York, Dordrecht Heidelberg, London [72] Park J.S., Chen M.S and Yu P.S (1995), “An effective hash based algorithm for mining association rules”, Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data, pp 175–186 [73] Pasquier N., Bastide Y., Taouil R and Lakhal L (1999), “Efficient mining of association rules using closed item set lattices”, Information systems, 24(1), pp 25–46 [74] Pasquier N., Taouil R., Bastide Y., Stumme G and Lakhal L (2005), “Generating a condensed representation for association rules”, Journal of Intelligent Information Systems, 24(1), pp 29–60 199 [75] Pei J., Han J and Mao R (2000), “CLOSET: An efficient algorithm for mining frequent closed itemsets”, Proceedings of the DMKDWorkshop on Research Issues in Data Mining and Knowledge Discovery, pp 21–30 [76] Pei J., Han J and Lakshmanan L.V.S (2001), “Mining frequent itemsets with convertible constraints”, Proceedings of IEEE ICDE’01, pp 433–442 [77] Pei J and Han J (2002), “Constrained frequent pattern mining: A patterngrowth view”, Proceedings of ACM SIGKDD Explorations, 4, pp 31–39 [78] Pei J., Han J., and Lakshmanan V.S (2004), “Pushing convertible constraints in frequent itemset mining”, Data Mining and Knowledge Discovery, 8, pp 227–252 [79] Pfaltz J.L and Taylor C.M (2002), “Closed set mining of biological data”, Workshop on Data Mining in Bioinformatics 2002 [80] Russel P and Sangeetha K (2007), “FGC: An efficient constraint based frequent set miner”, Proceedings of Computer Systems and Applications Conference, pp 424–431 [81] Shin-Mu, V.T (1999), “An efficient method for mining association rules with item constraints”, Computer Science Division, University of California, Berkeley [82] Srikant R., Vu Q and Agrawal R (1997), “Mining association rules with item constraints”, Proceedings of KDD’97, pp 67–73 [83] Szathmary L., Valtchev P and Napoli A (2009), “Efficient vertical mining of frequent closed itemsets and generators”, Proceedings of IDA 2009, pp 393– 404 [84] Shichao Z., Feng C., Xindong W and Chengqi Z (2006), “Identifying bridging rules between conceptual clusters”, Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data mining, pp 20–23 200 [85] Tin T and Anh T (2010), “Structure of set of association rules based on concept lattice”, ACIIDS 2010, Advances in Intelligent Information and Database Systems, 283 (Springer), pp 217–227 [86] Tin T., Anh T and Thong T (2010), “Structure of association rule set based on min-min basic rules”, Proceedings of the 2010 IEEE-RIVF International Conference on Computing and Communication Technologies (IEEE), pp 83– 88 [87] Uday Kiran, R., Krishna Reddy P (2010), “Towards efficient mining of periodic-frequent patterns in transactional databases”, Database and Expert Systems Applications, 6262, pp 194–208 [88] Varsha M., Anju S (2013), “Efficient approach for extracting frequent pattern and association rules with periodic constraints”, International Journal of Computer Science Engineering and Information Technology Research, 3, pp 65–78 [89] Wang J., Han J and Pei J (2003), “Closet+: Searching for the best strategies for mining frequent closed itemsets”, Proceedings of ACM SIGKDD’03, pp 236–245 [90] Wille R (1982), “Restructuring lattices theory: an approach based on hierarchies of concepts”, Ordered Sets, pp 445–470 [91] Wille R (1992), “Concept lattices and conceptual knowledge systems”, Computers and Math with App , 23(6-9), pp 493–515 [92] Woon Y.K., Ng W.K and Lim E.P (2004), “A support-ordered trie for fast frequent itemset discovery”, IEEE Transactions on Knowledge and Data Engineering, 16(7), pp 875–879 [93] Zaki M.J., Parthasarathy S., Ogihara M and Li W (1997), “New algorithms for fast discovery of association rules”, Proceedings of 3rd Int Conf on Knowledge Discovery and Data Mining (KDD), pp 283–296 201 [94] Zaki M.J and Gouda, K (2003), “Fast vertical mining using diffsets”, Proceedings of ACM SIGKDD’03, pp 326–335 [95] Zaki M.J (2004), “Mining non-redundant association rules”, Data Mining and Knowledge Discovery, 9(3), pp 223–248 [96] Zaki M.J and Hsiao, C.J (2005), “Efficient algorithms for mining closed itemsets and their lattice structure”, IEEE Trans Knowledge and Data Engineering, 17(4), pp 462–478 [97] Zaki (2010) http://www.cs.rpi.edu/~zaki/www-new/pmwiki.php/Software/ Software#patutils [98] FIMDR (2009), Frequent Itemset Mining Dataset Repository, http://fimi.cs.helsinki.fi/data/ Document Outline A_Bia _LA-TrNgAnh-10-12-2015 B_MLuc _LA-TrNgAnh-10-12-2015 C_Ch1 LA-TrNgAnh-10-12-2015 D_Ch2 LA-TrNgAnh-10-12-2015 E_Ch3 LA-TrNgAnh-10-12-2015 F_Ch4 LA-TrNgAnh-10-12-2015 G_KLuan LA-TrNgAnh-10-12-2015 H_TKhao LA-TrNgAnh-10-12-2015 [...]... của bài toán khai thác tập phổ biến và luật kết hợp bằng ngôn ngữ toán học (2) Trên cơ sở đó, luận án sẽ khắc phục một số nhược điểm còn tồn tại trong các kết quả trước đây cũng như đề xuất một số khái niệm, phương pháp, kỹ thuật mới để giải quyết hiệu quả hơn nữa bài toán khai thác tập phổ biến và luật kết hợp (3) Sử dụng phương pháp tiếp cận trên, luận án giải quyết bài toán khai thác tập phổ biến và. .. rút trích các luật kết hợp Khai thác luật kết hợp là một trong các kỹ thuật khai thác dữ liệu quan trọng được biết đến nhiều vì tính dễ sử dụng của kết quả khai thác cũng như phạm vi ứng dụng rộng rãi của nó Được đề xuất và nghiên cứu đầu tiên bởi Agrawal 1 [5] , khai thác tập phổ biến và luật kết hợp quan tâm đến việc rút trích ra các mẫu /tập phổ biến, các luật kết hợp giữa các mẫu phổ biến trong các... nhau Một lớp luật kết hợp với ràng buộc giao khác rỗng đại 29 diện bởi cặp tập phổ biến đóng lồng nhau Lớp luật kết hợp với ràng buộc ép đại diện bởi cặp tập 30 phổ biến đóng lồng nhau Lớp luật kết hợp với ràng buộc kép khác rỗng đại diện 31 bởi cặp tập phổ biến đóng lồng nhau 32 Biểu diễn duy nhất của lớp luật kết hợp với ràng buộc xv kép khác rỗng Biểu diễn duy nhất của các luật thuộc lớp luật 33 Tập. .. xuất không trùng lặp các tập phổ biến thuộc 70 Biểu diễn duy nhất của lớp các tập phổ biến trong lớp 71 tương đương dưới của hạn chế trên có giao với khác rỗng Hàm dẫn xuất không trùng lặp các tập phổ biến thuộc 72 Hàm dẫn xuất không trùng lặp các tập phổ biến thuộc 73 Biểu diễn duy nhất cho tập vế trái luật kết hợp với ràng 74 buộc kép Biểu diễn duy nhất cho tập vế phải luật kết hợp với ràng 75 buộc kép... và các tập 56 sinh có độ d i bé hơn hoặc bằng của mỗi chúng 57 Lớp các tập phổ biến đóng Lớp các tập phổ biến đóng có độ hỗ trợ bé hơn hoặc 58 bằng 59 Lớp các tập phổ biến đóng thỏa ràng buộc Lớp các tập phổ biến đóng thỏa ràng buộc ứng với tập 60 phổ biến đóng S thuộc 61 Lớp các tập phổ biến đóng có giao với khác rỗng 62 Lớp các tập phổ biến với ngưỡng Biểu diễn duy nhất của lớp các tập phổ biến có... ràng 110 buộc ép đơn thuần Thuật toán hậu xử lý khai thác luật kết hợp với ràng 111 buộc kép dựa trên đồ thị các tập phổ biến đóng v c c tập sinh Thuật toán hậu xử lý khai thác một lớp luật kết hợp với 112 ràng buộc giao khác rỗng 113 Một quan hệ hai ngôi trên 114 Root Nút gốc của cây Các tỉ lệ thời gian chạy của và so 115 và với Chặn dưới và chặn trên của vế phải luật kết hợp với ràng 116 , buộc kép... tập { chứa các luật kết hợp có độ hỗ trợ và độ tin cậy 2 thỏa mãn Bài toán này thường được giải trong hai bước: (1) rút trích các tập phổ biến với ngưỡng , (2) tìm các luật kết hợp từ các tập phổ biến đó với ngưỡng Nếu biết được các tập phổ biến cùng độ hỗ trợ của chúng, thì ta có thể dẫn ra tất cả các luật kết hợp tương ứng [5] Do đó, hầu hết các nhà nghiên cứu tập trung vào việc tìm các thuật toán. .. thác tập phổ biến và luật kết hợp mở rộng với các loại ràng buộc khác nhau (4) Một phần quan trọng của luận án là giải bài toán tìm các tập phổ biến đóng và tập sinh – thông tin cốt lõi phục vụ cho việc khai thác tập phổ biến và luật kết hợp có hay không có ràng buộc Tác giả đã cố gắng chứng minh chặt chẽ hầu hết các kết quả lý thuyết trước khi chuyển chúng thành các thuật toán và kiểm chứng lại bằng... 96 3.12 Lực lượng các tập cơ sở trên M và R 99 3.13 Thời gian khai thác các tập luật cơ sở trên P và T 100 3.14 Dẫn xuất (trùng lặp) luật hệ quả 104 3.15 Thuật toán dẫn xuất nhanh chóng, đầy đủ tập luật hệ quả 107 3.16 Thuật toán dẫn xuất nhanh chóng, đầy đủ tập luật hệ quả 108 4.1 Cấu trúc và biểu diễn duy nhất của tập luật kết hợp với ràng buộc kép... các luật kết hợp có độ hỗ trợ v độ tin cậy thỏa mãn 34 35 Lớp tất cả các luật kết hợp với c c ngưỡng , , , Lớp tất cả các luật kết hợp với c c ngưỡng , , , 36 thỏa ràng buộc kép Lớp tất cả các luật kết hợp với c c ngưỡng , , thỏa 37 ràng buộc giao khác rỗng 38 Độ dài trung bình của các tập phổ biến đóng 39 Độ dài trung bình của tập sinh so với tập phổ biến đóng 40 (0–3) Bài toán 0, Bài toán 1, Bài toán ... i ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Trần Ngọc Anh BIỂU DIỄN TOÁN HỌC VÀ MỘT THUẬT TOÁN NHANH CHO BÀI TOÁN KHAI THÁC TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP Chuyên ngành: Khoa học máy... khai thác luật kết hợp 1.2 Bài toán khai thác luật kết hợp tiếp cận 1.3 Bài toán khai thác luật kết hợp với ràng buộc (trên tập thuộc tính) 1.4 C c hó hăn việc khai thác luật kết hợp... ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Trần Ngọc Anh BIỂU DIỄN TOÁN HỌC VÀ MỘT THUẬT TOÁN NHANH CHO BÀI TOÁN KHAI THÁC TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP LUẬN ÁN TIẾN

Ngày đăng: 14/04/2016, 11:28

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w