Khai phá dữ liệu dựa trên bảng quyết định nhờ lý thuyết tập thô Hoàng Thị Kim Oanh Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 01 04 Người hướng dẫn: GS.TS. Vũ Đức Thi Năm bảo vệ: 2014 Keywords. Hệ thống thông tin; Khai phá dữ liệu; Bảng quyết định; Cơ sở dữ liệu Content Lý thuyết tập thô do nhà logic học Balan Zdzislak Pawlak [17] đề xuất vào đầu những năm 80 được xem như là một cách tiếp cận mới để phát hiện tri thức và tạo thành một cơ sở vững chắc cho các ứng dụng khai phá dữ liệu. Nó rất hữu ích trong việc giải quyết các bài toán phân lớp dữ liệu, phát hiện luật, … chứa dữ liệu mơ hồ không chắc chắn. Các mối quan hệ trong mô hình này được biểu diễn qua quan hệ không phân biệt được, còn các dữ liệu được biểu diễn thông qua tập xấp xỉ trên và xấp xỉ dưới của nó. Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư thừa để tìm ra các thuộc tính cốt yếu và cần thiết trong cơ sở dữ liệu. Với bảng quyết định, rút gọn thuộc tính là tìm tập con nhỏ nhất của tập thuộc tính điều kiện bảo toàn thông tin phân lớp của bảng quyết định. Với những lý do trên, tập thô đã chứng tỏ là một trong những lý thuyết rất hiệu quả trong lĩnh vực khai phá dữ liệu. Vì vậy tôi đã chọn đề tài “Khai phá dữ liệu dựa trên bảng quyết định nhờ lý thuyết tập thô”. Đối tượng nghiên cứu của luận văn là các bảng quyết định với kích thước trung bình và kích thước lớn. Phạm vi nghiên cứu của luận văn tập trung vào bài toán rút gọn thuộc tính ở bước tiền xử lý số liệu trong quá trình khai phá dữ liệu. Phương pháp nghiên cứu của luận văn là nghiên cứu lý thuyết và nghiên cứu thực nghiệm. Về nghiên cứu lý thuyết: các mệnh đề được chứng minh chặt chẽ dựa vào các kiến thức cơ bản và các kết quả nghiên cứu đã công bố. Về nghiên cứu thực nghiệm: luận văn thực hiện cài đặt các thuật toán, chạy thử nghiệm thuật toán với các bộ số liệu lấy từ kho dữ liệu UCI References Tài liệu tiếng Việt [1] Hoàng Thị Lan Giao (2007), “Khía cạnh đại số và lôgic phát hiện luật theo tiếp cận tập thô”, Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin. [2] Nguyễn Đức Thuần (2010), “Phủ tập thô và độ đo đánh giá hiệu năng tập luật quyết định”, Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin. [3] Nguyễn Long Giang (2012), “Nghiên cứu một số phương pháp khai phá dữ liệu theo tiếp cận lý thuyết tập thô”, Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin. [4] Nguyễn Long Giang, Vũ Đức Thi (2011), “Một phương pháp rút gọn thuộc tính trong bảng quyết định dựa trên Entropy cải tiến”, Tạp chí Tin học và Điều khiển học, T.27, S.2, tr. 166-175. Tài liệu tiếng Anh [5] Andrzej Skowron and Rauszer C (1992), “The Discernibility Matrices and Functions in Information Systems”, Interlligent Decision Support, Handbook of Applications and Advances of the Rough Sets Theory, Kluwer, Dordrecht, pp. 331- 362. [6] Ge H., Li L.S and Yang C.J. (2009), “Improvement to Quick Attribution Reduction Algorithm”, Journal of Computers, Vol.30, No.2, pp. 308-312. [7] Hu X.H. and Cercone N. (1995), “Learning in relational databases: a rough set approach”, International Journal of computational intelligence, pp. 323-338. [8] Hu X.H., Lin T.Y. and Han J.C. (2004), “A new rough sets model based on database systems”, Fundamenta Informaticae, 59(1), pp. 135-152 . [9] Kryszkiewicz M. (1998), “Rough set approach to incomplete information systems”, Information Science, Vol. 112, pp. 39-49. [10] Li J.H. and Shi K.Q. (2006), “A algorithm for attribute reduction based on knowledge granularity”, Computer Applications, Vol. 26, No. 6, pp. 76-77. [11] Li X.H. and Shi K.Q. (2006), “A knowledge granulation-based algorithm for attribute reduction under incomplete information systems”, Computer Science, Vol. 33, pp. 169-171. [12] Liu Y., Xiong R. and Chu J. (2009), “Quick Attribute Reduction Algorithm with Hash”, Chinese Journal of Computers, Vol.32, No.8, pp. 1493-1499. [13] Liang J.Y., Shi Z.Z., Li D.Y. and Wierman M.J. (2006), “The information entropy, rough entropy and knowledge granulation in incomplete information system”, International Journal of General Systems 35 (6), pp. 641-654. [14] Lv Y.J. and Li J.H. (2007), “A Quick Algorithmfor Reduction of Attribute in Information Systems”, The First International Symposium on Data, Privacy, and E- Commerce (ISDPE 2007), pp. 98-100. [15] Miao D.Q. and Hu G.R. (1999), “A heuristic algorithm for knowledge reduction”, Computer Research and Development, Vol. 36, No. 6, pp. 681-684. [16] Nguyen S. Hoa, Nguyen H. Son (1996), "Some Efficient Alogrithms for Rough Set Methods", Proceedings of the sixth International Conference on Information Processing Management of Uncertainty in Knowledge Based Systems, pp. 1451 - 1456. [17] Pawlak Z. (1991), Rough sets: Theoretical Aspects of Reasoning About Data, Kluwer Aca-demic Publishers. [18] Pawlak Z. (1998), “Rough set theory and its applications in data analysis”, Cybernetics and systems 29, pp. 661-688. [19] Qian Y.H., Liang J.Y., Li D.Y., Zhang H.Y. and Dang C.Y. (2008), “Measures of Evaluating The Decision Performace of a Decision Table in Rough Set Theory”, Information Sciences, Vol.178, pp.181-202. [20] Wang C.R. and OU F.F. (2008), “An Attribute Reduction Algorithm in Rough Set Theory Based on Information Entropy”, 2008 International Symposium on Computational Intelligence and Design, IEEE ISCID, pp. 3-6. [21] Wang G.Y. (2001), “Algebra view and information view of rough sets theory”, In: Dasarathy BV,editor. Data mining and knowledge discovery: Theory, tools, and technology III, Proceedings of SPIE, pp. 200-207. [22] Wang G.Y. (2003), “Rough reduction in algebra view and information view”, International Journal of Intelligent System 18, pp. 679-688. [23] Wang G.Y., Yu H. and Yang D.C. (2002), “Decision table reduction based on conditional information entropy”, Journal of Computers, Vol. 25 No. 7, pp. 759-766. [24] Wang G.Y., Yu H., Yang D.C. and Wu Z.F. (2001), “Knowledge Reduction Based on Rough Set and Information Entropy”, Proc. Of the World Multi-conference on Systemics, Cybernetics and Informatics, Orlando, Florida, pp. 555-560. [25] Wierman M.J. (1999), “Measuring uncertainty in rough set theory”, International Journal of General Systems, pp. 283-197. [26] Xu J.C and Sun L. (2009), “Research of Knowledge Reduction Based on New Conditional Entropy”, Rough Sets and Knowledge Technology, Lecture Notes in Computer Science, Volume 5589/2009, pp. 144-151. [27] Xu Z.Y., Yang B.R. and Song W. (2006), “Complete attribute reduction algorithm based on Simplified discernibility matrix”, Computer Engineering and Applications, Vol. 42, No. 26, pp. 167-169. [28] Xu Z.Y., Liu Z.P., Yang B.R. and Song W. (2006), “A quick attribute reduction algorithm with complexity of 2 ,/Max O C U O C U C ”, Journal of Computers, Vol.29, No.3, pp. 391-399. [29] Ye D.Y. and Chen Z.J. (2002), “A new discernibility matrix and computation of a core”, Acta Electronica Sinica, Vol. 30, No. 7, pp. 1086-1088. [30] Zadeh L.A. (1997), “Towards a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic”, Fuzzy Sets and System, 90, pp. 111- 127. [31] Zhao M., Luo K. and Qin Z. (2008), “Algorithm for attribute reduction based on granular computing”, Computer Engineering and Applications, Vol. 44, No. 30, pp. 157-159. [32] The UCI machine learning repository, <http://archive.ics.uci.edu/ml/datasets.html> . chứng tỏ là một trong những lý thuyết rất hiệu quả trong lĩnh vực khai phá dữ liệu. Vì vậy tôi đã chọn đề tài Khai phá dữ liệu dựa trên bảng quyết định nhờ lý thuyết tập thô . Đối tượng nghiên. cơ sở dữ liệu. Với bảng quyết định, rút gọn thuộc tính là tìm tập con nhỏ nhất của tập thuộc tính điều kiện bảo toàn thông tin phân lớp của bảng quyết định. Với những lý do trên, tập thô đã. Khai phá dữ liệu dựa trên bảng quyết định nhờ lý thuyết tập thô Hoàng Thị Kim Oanh Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: