CHƢƠNG 4 ỨNG DỤNG THỬ NGHIỆM
4.4. MỘT SỐ HÌNH ẢNH CỦA CHƢƠNG TRÌNH
4.4.8. Xây dựng cây quyết định theo phụ thuộc hàm xấp xỉ
KẾT LUẬN
Trong thời đại ngày nay, việc khám phá tri thức trong Cơ sở dữ liệu (Knowledge Discovery in Databases) đang là một hướng quan trọng của nền CNTT thế giới. Nó có khả năng ứng dụng vào rất nhiều toán thực tế khác nhau. Bước quan trọng nhất của quá trình này là Khai phá dữ liệu, người sử dụng thu được những tri thức hữu ích từ những CSDL hoặc các nguồn dữ khác. Chính vì trước các nhu cầu của thực tế các nhà nghiên cứu đã và đang phải không ngừng cải tiến các phương pháp khai phá dữ liệu nhằm đáp ứng ngày một tốt hơn nữa nhằm ứng dụng các phương pháp khai phá dữ liệu có hiệu quả cho đời sống kinh tế, xã hội.
Phương pháp xây dựng cây quyết định là một trong những phương pháp tương đối tốt để khai phá dữ liệu. Phương pháp này cho phép người sử dụng xây dựng các hệ thống hỗ trợ quyết định dựa trên các thuật toán đã được chứng minh tính đúng đắn và giúp người sử dụng kết xuất các tri thức cần khai phá một cách tối ưu và Khai phá dữ liệu (Data Mining) được định nghĩa là quá trình trích lọc các thông tin có giá trị ẩn trong lượng lớn dữ liệu được lưu trữ trong các CSDL hoặc các kho dữ liệu,… Khai phá dữ liệu cũng còn được coi là một quá trình tìm kiếm, khám phá ở nhiều góc độ để tìm ra các mối tương quan, các mối liên hệ dưới nhiều góc độ khác nhau nhằm tìm ra các mẫu hay các mô hình tồn tại bên trong cơ sở dữ liệu và đang bị dữ liệu (có khối lượng lớn) che khuất.
Luận văn được thực hiện với mong muốn đóng góp một phần nhỏ của mình vào công tác nghiên cứu, xây dựng các hệ thống khai phá dữ liệu nhằm ứng dụng các kỹ thuật khai phá dữ liệu cho các bài toán thực tế đạt được kết quả cao hơn. Trong khuôn khổ luận văn, mới chỉ phân tích được một số thuật toán tiêu biểu, tuy nhiên để có thể thực hiện tốt hơn, đề tài còn có thể được mở rộng ở các hướng nghiên cứu liên quan đến xây dựng hệ thống quyết định dựa trên phụ thuộc hàm xấp xỉ hoặc ứng dụng một số kỹ thuật khác nhau như thuật toán
TANE, FUN, FDEP, DEP-MINER nhằm xác định và đánh giá phụ thuộc hàm xấp xỉ cho một cơ sở dữ liệu thực tế có độ lớn về dữ liệu hoặc xây dựng một số phương pháp lựa chọn phụ thuộc hàm xấp xỉ tối ưu khi xây dựng các hệ thống hỗ trợ quyết định.
TÀI LIỆU THAM KHẢO
[1]. Nguyễn Thanh Thủy, Khai phá dữ liệu – Kỹ thuật và ứng dụng, Hà nội, 2001
[2].Vũ Đức Thi, Cơ sở dữ liệu – Kiến thức và thực hành, Nhà xuất bản Thống kê, 1997
[3]. Phan Đình Diệu, Tri thức là gì? Đại học Quốc gia Hà Nội. [4]. Từ điển bách khoa wikipedia, Khai phá dữ liệu,
http://vi.wikipedia.org/wiki/khai_ph%C3%A1_d%E1%BB%AF_li%E1%B B%87u
[5]. Han J. and Kamber M., Data Mining: Concepts and Techniques, Morgan
Kaufman, Academic Press. 2001.
[6]. Burosch G., Demetrovics J., Katona G. O. H. (1987), The poset of closures as a model of changing databases, Oder 4, pp. 127-142.
[7]. J.R, QUINLAN, Machine Learning 1, 81-106, 1986, © 1986 Kluwer Academic Publishers, Boston - Manufactured in The Netherlands.
[8]. H. Huang, X. Wu, and R.Relue (2002), Asociation analysis with one scan of databases. In IEEE International Conference on Data Mining, pages 629- 836, Decenber.
[9]. Hofer J., Brezany P., Distributed Decision Tree Induction within the Grid Data Mining Framework GridMiner-Core, Institute for Software Science, AUT, 31st March 2004.
[10]. Ho Tu Bao, Knowledge Discovery and Data Mining Techniques and Practice, http://www.jaist.ac.jp/~bao/
[11]. Utgoff P.E, Article: Incremental induction of Decision Trees, Univerity of Massacuhsetts, 1989.
[12]. Joshi K.P., Paper: Analysis of Data Mining Algorithms, 1997
[14].Tutorial: Decision Tree: ID3, Monhash University, 2003,
http://www.cs.bham.ac.uk/resources/courses/ai-intro/docs/dt/
[15]. Ullas Nambiar, Subbarao Kambhampati, Mining Approximate Functional Dependencies and Concept Similarities to Answer Imprecise Queries, Seventh International Workshop on the Web and Database, June 17-18,2004, Paris, France.
[16]. J. Ross Quinlan. C4.5: Program for machine learning. Morgan Kaufmann, San Matco, CA, 1993
[17]. Ramakishnan R., Gehrke J. Database Management System, Second
Edition, McGrew Hill Co., NewYork, 2000.
[18]. Ykä. Huhtala, Juha Kähkkäinen , Pasi Porkka, Hannu Toivonen. An efficient algorithm for discovering functional and approximate dependencies, Inproc.14th Int, Conf. on Data Engineering (ICDE '98), p. 392-401, IEEE. Computer Society Press, 1998.
[19]. Flach, Petter and Savnik, Iztok. Database Dependency Discovery: a Machine Learning Approach, Al Comm. Vol. 12, no.3, pg 139-160
[20]. Lopes Stepane; Pettit, Jean-Marc and Lakhal, Lotfi. Efficient Discovery of Functional Dependencies and Armstrong Relations. Proceeding of ECDT 2000. Lecture Notes in Computer Science, vol 1777.
[21]. Novelli N., Ciccbetti R. Fun: and efficient algorithm for mining functional and embedded dependencies. In Lecture Notes in Computer Science
[22]. Kwok-Wa Lam, Victor C.S.Lee, Building Decision Trees Using
Functional Dependencies, Proceedings of the International Conference on Information Technology: Coding and Computing (ITCC’04), 2004
[23] B.Liu, W.Hsu, and Y.Ma.Integrating classification and association mining, In Proc. 1998 Int. Conf. Knowledge Discovery and Data mining (KDD'98), p. 80- 86, New York, 1998.
[24] A.Arning, R. Agrawal, P. Raghavan, A Linear Method for Deviation Detection in Large Databases, Proc. of the 2nd International Conference on Knowledge Discovery in Databases and Data Mining, Portland, Oregon, August, P. 164-169, 1996.
[25] Barnett, V. and Lewis, T. Outliers in Statistical Data. John Wiley, 3rd edition, 1994.
[26] E. M. Knorr, Outliers and Data Mining: Finding Exceptions in Data, Doctoral thesis, Dept. of Computer science, University of British Columbia, 2002.