Kết quả thử nghiệm

Thử nghiệm thuật toán trình bày ở mục 2.4 và 2.3bằng ngôn ngữ lập trình C# và chạy thử nghiệm trên máy tính có cấu hình như sau: Intel Core2 Duo CPU T5800 @ 2GHz, RAM 2GB.

PHẦN KẾT LUẬN

Những vấn đề đã được giải quyết trong luận văn này:

Trong chương một, luận văntrình bày những nội dụng cơ bản về khai phá dữ liệu, phát biểu bài toán khai phá luật kết hợp và trình bày một số nội dung cơ bản về logic mờ.

Trong chương hai, luận văntrình bày về khai phá luật kết hợp mờ: Rời rạc hóa thuộc tính mờ. Trong chương này trình bày hai thuật toán khai phá luật kết hợp mờ: Thuật toán 1 dựa trên thuật toán Apriori, thuật toán thứ hai gọi là CUFP cho phép nén dữ liệu giao dịch dưa trên cây (dựa trên thuật toán FP Tree). Với thuật toán CUFP cho phép thực hiện tìm tập phổ biến nhanh hơn thuật toán thứ nhất. Nội dung trọng tâm của chương này cung cấp cho người đọc một cái nhìn chung nhất về lĩnh vực nghiêncứu của đề tài.

Trong chương 3, luận văntrình bày một số mô hình dự báo, ứng dụng của luật kết hợp vào bài toán dự báo. Thực hiện cài đặt hai thuật toán đã trình bày trong chương 2. Kết quả thực nghiệm trên CSDL FAM95 cho thấy thuật toán CUFP cho kết quả nhanh hơn thuật toán dựa trên Apriori.

Trong quá trình thực hiện luận văn cũng như trong thời gian trước đó, tôi đãcố gắng tập trung nghiên cứu bài toán này cũng như đã tham khảo khá nhiều tàiliệu liên quan. Tuy nhiên, vẫn còn tồn tại nhiều hạn chế trong việc nghiêncứu ứng dụng thuật toán, cần tiếp tục thử nghiệm với những CSDL có kích thước lớn hơn, đầy đủ hơn; Nghiên cứu lýthuyết và cải tiến các thuật toán để đảm bảo thời gian tính nhanh hơn.

Rất mong nhận được nhữnggóp ý cả về chuyên môn và cách trình bày của luận văn từ các thầy giáo, đồng nghiệp.

TÀI LIỆU THAM KHẢO

[1] Ha Quang Thụy, Phan Xuân Hiếu, Đoan Sơn, Nguyễn Trí Thanh,Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trình khai phá dữliệu Web, Nhà xuất bản giáo dục Việt Nam, 2009. [2] Nguyễn Thanh Thủy, Khai phá dữ liệu, Nhà xuất bản Kỹthuật và ứng dụng, 2001.

[3] Rakesh Agrawal, Tomasz Imielinski, and Arun Swami. Mining association rules between sets of items in large databases. In Proc. of theACM SIGMOD Conference on Management of Data, pages 207-216, Washington, D.C., May 1993.

[4] Rakesh Agrawal and Ramakrishnan Srikant. Fast Algorithms for Mining Association Rules. In Proc. of the 20th International Conference on Very Large Databases, Santiago, Chile, Sep 1994.

[5] Agrawal R., Srikant R,"Fast algorithms for mining association rules”, In Proc. 20th Int. Conf. Very Large Data Bases,VLDB, J. B. Bocca, M. Jarke, and C. Zaniolo, Eds. Morgan Kaufmann, pp. 487-499, 1994.

[6] Savesere A., Omiecinski E., Navathe S.,“An efficient algorithm for mining association rules in large databases”, In Proceedings of 20th International Conference on VLDB, pp.432-444, 1995.

[7] Alan Rea , Data Mining - An Introduction. The Parallel Computer Centre, Nor of The Queen's University of Belfast,

1995.

[8] Fayyad, Piatetsky-Shapiro, Smyth , From Data Mining to Knowledge Discovery: An Overiew. In Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, Advances in Knowledge Discovery and Data Mining, AAAI Press/ The MIT Press, Menlo Park, CA, 1996.

[9] Han J., Pei H., Yin Y,“Mining Frequent Patterns without Candidate Generation”, In: Proc. Conf. on the Management of Data (SIGMOD'00, Dallas, TX). ACM Press, New York, NY, USA, pp.1-12, 2000.

[10] Attila Gyenesei. A Fuzzy Approach for Mining Quantitative Association Rules. Turku

Centre for Computer Science, TUCS Technical Reports, No 336, March 2000.

[11] Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques, University of Illinois, Morgan Kaufmann, 2006.

[12] Gregory Piatetsky-Shapiro,Data MiningCourse (Power Point Version), 2006.

[13] R. J. Miller and Y. Yang. Association Rules over Interval Data. Department of Computer & Information Science, Ohio State University, USA.

[14] Ramakrishnan Srikant and Rakesh Agrawal. Mining Quantitative Association Rules in Large Relational Tables. IBM Almaden Research Center, San Jose, CA 95120.

[15] Doug Burdick, Manuel Calimlim, and Johannes Gehrke. MAFIA: A Maximal Frequent Itemset Algorithmfor Transactional Databases. Department of Computer Science, Cornell University.

[16] Ramakrishnan Srikant and Rakesh Agrawal. Mining Quantitative Association Rules in Large Relational Tables. IBM Almaden Research Center, San Jose, CA 95120 [17] Jian Pei, Jiawei Han, and Runying Mao. CLOSET: An Efficient Algorithm for Mining Frequent Closed Itemsets. Intelligent Database Systems Research Lab, School of Computing Science, Simon Fraser University, Burnaby, B.C., Canada.

[18] DL Olson, Yanhong Li,“Mining Fuzzy Weighted Association Rules”, Proceedings of the 40th Hawaii International Conference on System Sciences, 2007.

[19] Chun-Wei Lin, Tzung-Pei Hong, and Wen-Hsiang Lu, Fuzzy Data Mining Based on the Compressed Fuzzy FP-trees, Fuzzy-IEEE 2009, Korea, August 20-24. 2009. [20] Chun-Wei Lin, Tzung-Pei Hong, A new mining approach for uncertain databases using CUFP trees, Expert Systems with Applications 39 (2012) 4084–4093.

[21] Cơ sở dữ liệu thử nghiệm FAM95

http://k d m. f irst. f linders.edu.au/IDM/data.ht m l [22]

https://www.i bm.com/developerworks/vn/libra ry/ data/ 2 0 1 3Q1/b a -dat a - m inin g - techniques.

Một số thuật toán cơ bản

Biến ngôn ngữ và giá trị của nó