ĐÁNH GIÁ CÁC THUẬT TOÁN VÀ KẾT LUẬN

3.3.1. Đánh giá

Qua các vấn đề đã xét ta thấy rằng mỗi thuật toán đều có những điểm mạnh và điểm yếu riêng. Thuật toán CLS được xây dựng dựa trên ý tưởng giải quyết các nhiệm vụ bằng cách thu nhận các khái niệm đơn giản, tuy nhiên CLS ra đời khi công nghệ thông tin mới chỉ là khởi đầu của sự phát triển đặc biệt là vấn đề lưu trữ dữ liệu và xử lý dữ liệu còn tương đối đơn giản. Chính vì thế, CLS chỉ đủ đáp ứng cho các trường hợp cơ sở dữ liệu nhỏ và giá trị là rời rạc. Khi gặp các cơ sở dữ liệu lớn và có các thuộc tính liên tục thì thuật toán này không mang lại kết quả mong muốn. Mặt khác, khi sử dụng thuật toán ở cùng một mẫu dữ liệu có thể sẽ cho nhiều kết quả khác nhau. Đặc biệt trong quá trình xây dựng cây việc lựa chọn thuộc tính chưa có tiêu chí cụ thể. Việc thiết kế và cài đặt cho thuật toán CLS tương đối đơn giản cho các nhà thiết kế.

Một số hạn chế của thuật toán CLS đã được Quinlan khắc phục bằng thuật toán ID3. Thuật toán ID3 được xem như là cải tiến của thuật toán CSL, ID3 cho chúng ta kết quả tốt hơn kết quả do CLS đưa ra do khi xây dựng cây, chúng ta sử dụng các tiêu chí chọn lựa thuộc tính phù hợp nhất trong các ứng viên của mỗi bước. Khi áp dụng thuật toán ID3 trên cùng một tập dữ liệu sẽ cho chúng ta kết quả là như nhau. Tuy thế, ID3 vẫn còn có một số nhược điểm khi áp dụng cho các thuộc tính có nhiều giá trị hoặc giá trị liên tục và đặc biệt khi gặp phải những dữ liệu bị thiếu hay bị nhiễu.

Tiếp đó, cũng chính Quinlan đưa ra thuật toán C4.5 nhằm khắc phục các nhược điểm của ID3, C4.5 thực hiện sự phân lớp các thuộc tính số và liên tục bằng các phép tách nhị phân. Quinlan cũng đã đưa thêm vào các hàm GainRatio và Gain để giải quyết trường hợp thuộc tính có nhiều giá trị, thuật toán C4.5 còn

có bước xác định lỗi và tính lỗi cho các nút và có phương pháp cắt tỉa cây. Tuy C4.5 đã cải tiến được nhiều vấn đề nhưng vẫn còn nhiều vần đề khó và phức tạp như vấn đề dữ liệu bị thiếu.

Vấn đề cơ sở dữ liệu đã được nghiên cứu từ rất sớm trong quá trình phát triển của công nghệ thông tin, các khái niệm, tính chất của cơ sở dữ liệu đặc biệt là phụ thuộc hàm trong cơ sở dữ liệu quan hệ đã được chứng minh một cách chặt chẽ. Khác với việc lựa chọn khá cảm tính trong các phương pháp lựa chọn thuộc tính để phát triển khác, tuy nhiên, với định nghĩa chặt như phụ thuộc hàm đã được nêu ở trên thì khi gặp một cơ sở dữ liệu lớn và phức tạp, việc xác định các phụ thuộc hàm rất khó khăn, chính vì thế khi Kwok-Wa Lam và Victor C. S. Lee đưa ra phương pháp xây dựng cây quyết đinh dựa trên phụ thuộc hàm xấp xỉ đã phần nào giải quyết các vấn đề trên.

3.3.2. Kết luận

Trong chương này, đã trình bày khái quát về sự phân lớp, giới thiệu một số thuật toán xây dựng cây quyết định cơ bản và một số vấn đề khi xây dựng một cây quyết định sử dụng phụ thuộc hàm trong cơ sở dữ liệu quan hệ, đặc biệt là phụ thuộc hàm xấp xỉ, một khái niệm khá mới và đang là xu thế nghiên cứu của khai phá dữ liệu. Trong đó việc tìm kiếm một phụ thuộc hàm xấp xỉ sử dụng thuật toán TANE trong một cơ sở dữ liệu lớn có sẵn là tương đối dễ dàng và chấp nhận được về thời gian và kết quả.

Tuy vậy, để có thể đạt được yêu cầu như một hệ thống khai phá dữ liệu như mong muốn vẫn còn cần rất nhiều thời gian và công sức nghiên cứu, phát triển.

CHƢƠNG 4. ỨNG DỤNG THỬ NGHIỆM 4.1. BÀI TOÁN THỬ NGHIỆM

4.1.1. Mô tả bài toán

Viện Khoa học và Công nghệ Việt Nam là một trong những cơ quan nghiên cứu - triển khai khoa học và công nghệ hàng đầu của đất nước. Các đơn vị trực thuộc Viện đóng trụ sở tại nhiều địa phương (Hà Nội, Hải Phòng, Đà Nẵng, Nha Trang, Đà Lạt, thành phố Hồ Chí Minh,...). Đáp ứng nhu cầu ngày càng cao của công tác quản lý, điều hành, đặc biệt là quản lý nguồn nhân lực, Viện đã xây dựng hệ cơ sở dữ liệu về cán bộ, công chức lưu trữ khoảng 3000 bộ hồ sơ cán bộ với đầy đủ các tiêu chí theo quy định của Bộ Nội vụ, Ban Tổ chức Trung ương Đảng và các tiêu chí liên quan đến quá trình nghiên cứu, triển khai, tham gia đào tạo của các cán bộ khoa học thuộc Viện. Tuy nhiên, hiện nay cơ sở dữ liệu này được tách thành các bộ phận độc lập đặt phân tán tại các đơn vị trực thuộc, chưa có cơ chế truy nhập, cập nhật trực tuyến vào cơ sở dữ liệu của toàn Viện đặt tại Ban Tổ chức - Cán bộ. Vì vậy, hệ cơ sở dữ liệu về cán bộ, viên chức của Viện Khoa học và Công nghệ Việt Nam chỉ là công cụ tác nghiệp của một số ít các cán bộ làm công tác tổ chức - cán bộ tại các đơn vị và tại Ban Tổ chức - Cán bộ, chưa đáp ứng được nhu cầu quản lý, điều hành thống nhất trong phạm vi toàn Viện Khoa học và Công nghệ Việt Nam.

Bài toán xây dựng cây quyết định về việc có chức danh khoa học của cán bộ công chức lựa chọn một số tiêu chí trong bài toán quản lý cán bộ công chức, bao gồm:

- Các thuộc tính mẫu là STT; Tuổi; Hệ số lương; Ngạch công chức; Học vị

- Thuộc tính kiểm tra là thuộc tính: Cán bộ thuộc Viện Khoa học và Công

nghệ có chức danh hay chưa, việc có chức danh này có ảnh hưởng gì bởi các mối quan hệ của các thuộc tính trên?

Dữ liệu đầu vào cho bài toán đã được lưu trữ trên hệ quản trị cơ sở dữ liệu SQL Server với 3000 bản ghi. Công việc cần chuẩn bị cho bài toán này là trích lọc dữ liệu sẵn có phục vụ cho phần mềm thử nghiệm.

4.1.2. Mục đích thực hiện bài toán

Mục tiêu khi thực hiện bài toán là xây dựng một phần mềm thử nghiệm cho phép thực hiện các công việc:

- Cập nhật cơ sở dữ liệu phục vụ xây dựng cây quyết định

- Trích lọc trong cơ sở dữ liệu các phụ thuộc hàm xấp xỉ xuất hiện trong cơ sở dữ liệu cán bộ khoa học

- Xây dựng cây quyết định dựa theo một số phương pháp như CLS, ID3,

C4.5 và xây dựng cây quyết định sử dụng phụ thuộc hàm xấp xỉ trong cơ sở dữ liệu quan hệ.

4.2. KẾT QUẢ ĐẠT ĐƢỢC

Chương trình được xây dựng có giao diện đơn giản, thân thiện với người sử dụng và được xây dựng bằng ngôn ngữ lập trình Visual Basic .Net

Thiết kế và xây dựng chương trình như sau:

1. Nhập dữ liệu cho phần mềm thử nghiệm

2. Trích lọc các dữ liệu cho phần mềm nhằm phục vụ các thao tác: tìm các phụ thuộc hàm xấp xỉ, tính lỗi theo phương pháp của thuật toán ID3 và tỉa cây.

3. Xây dựng cây quyết định theo một số phương pháp đã trình bày, bao gồm: Xây dựng cây quyết định theo thuật toán CLS, ID3, C4.5 và xây dựng cây quyết định sử dụng phụ thuộc hàm trong cơ sở dữ liệu quan hệ.

4.4. MỘT SỐ HÌNH ẢNH CỦA CHƢƠNG TRÌNH 4.4.1. Giao diện chính 4.4.1. Giao diện chính

4.4.3. Giao diện xây dựng cây quyết định

4.4.6. Cây quyết định theo thuật toán ID3

KẾT LUẬN

Trong thời đại ngày nay, việc khám phá tri thức trong Cơ sở dữ liệu (Knowledge Discovery in Databases) đang là một hướng quan trọng của nền CNTT thế giới. Nó có khả năng ứng dụng vào rất nhiều toán thực tế khác nhau. Bước quan trọng nhất của quá trình này là Khai phá dữ liệu, người sử dụng thu được những tri thức hữu ích từ những CSDL hoặc các nguồn dữ khác. Chính vì trước các nhu cầu của thực tế các nhà nghiên cứu đã và đang phải không ngừng cải tiến các phương pháp khai phá dữ liệu nhằm đáp ứng ngày một tốt hơn nữa nhằm ứng dụng các phương pháp khai phá dữ liệu có hiệu quả cho đời sống kinh tế, xã hội.

Phương pháp xây dựng cây quyết định là một trong những phương pháp tương đối tốt để khai phá dữ liệu. Phương pháp này cho phép người sử dụng xây dựng các hệ thống hỗ trợ quyết định dựa trên các thuật toán đã được chứng minh tính đúng đắn và giúp người sử dụng kết xuất các tri thức cần khai phá một cách tối ưu và Khai phá dữ liệu (Data Mining) được định nghĩa là quá trình trích lọc các thông tin có giá trị ẩn trong lượng lớn dữ liệu được lưu trữ trong các CSDL hoặc các kho dữ liệu,… Khai phá dữ liệu cũng còn được coi là một quá trình tìm kiếm, khám phá ở nhiều góc độ để tìm ra các mối tương quan, các mối liên hệ dưới nhiều góc độ khác nhau nhằm tìm ra các mẫu hay các mô hình tồn tại bên trong cơ sở dữ liệu và đang bị dữ liệu (có khối lượng lớn) che khuất.

Luận văn được thực hiện với mong muốn đóng góp một phần nhỏ của mình vào công tác nghiên cứu, xây dựng các hệ thống khai phá dữ liệu nhằm ứng dụng các kỹ thuật khai phá dữ liệu cho các bài toán thực tế đạt được kết quả cao hơn. Trong khuôn khổ luận văn, mới chỉ phân tích được một số thuật toán tiêu biểu, tuy nhiên để có thể thực hiện tốt hơn, đề tài còn có thể được mở rộng ở các hướng nghiên cứu liên quan đến xây dựng hệ thống quyết định dựa trên phụ thuộc hàm xấp xỉ hoặc ứng dụng một số kỹ thuật khác nhau như thuật toán

TANE, FUN, FDEP, DEP-MINER nhằm xác định và đánh giá phụ thuộc hàm xấp xỉ cho một cơ sở dữ liệu thực tế có độ lớn về dữ liệu hoặc xây dựng một số phương pháp lựa chọn phụ thuộc hàm xấp xỉ tối ưu khi xây dựng các hệ thống hỗ trợ quyết định.

TÀI LIỆU THAM KHẢO

[1]. Nguyễn Thanh Thủy, Khai phá dữ liệu – Kỹ thuật và ứng dụng, Hà nội, 2001

[2].Vũ Đức Thi, Cơ sở dữ liệu – Kiến thức và thực hành, Nhà xuất bản Thống kê, 1997

[3]. Phan Đình Diệu, Tri thức là gì? Đại học Quốc gia Hà Nội. [4]. Từ điển bách khoa wikipedia, Khai phá dữ liệu,

http://vi.wikipedia.org/wiki/khai_ph%C3%A1_d%E1%BB%AF_li%E1%B B%87u

[5]. Han J. and Kamber M., Data Mining: Concepts and Techniques, Morgan

Kaufman, Academic Press. 2001.

[6]. Burosch G., Demetrovics J., Katona G. O. H. (1987), The poset of closures as a model of changing databases, Oder 4, pp. 127-142.

[8]. H. Huang, X. Wu, and R.Relue (2002), Asociation analysis with one scan of databases. In IEEE International Conference on Data Mining, pages 629- 836, Decenber.

[9]. Hofer J., Brezany P., Distributed Decision Tree Induction within the Grid Data Mining Framework GridMiner-Core, Institute for Software Science, AUT, 31st March 2004.

[10]. Ho Tu Bao, Knowledge Discovery and Data Mining Techniques and Practice, http://www.jaist.ac.jp/~bao/

[11]. Utgoff P.E, Article: Incremental induction of Decision Trees, Univerity of Massacuhsetts, 1989.

[12]. Joshi K.P., Paper: Analysis of Data Mining Algorithms, 1997

[13]. Ross P., Paper: Rule induction: Ross Quinlan’s algorithm, October 30, 2000, http://www.dcs.napier.ac.uk/~peter/vldb/dm

[14].Tutorial: Decision Tree: ID3, Monhash University, 2003,

http://www.cs.bham.ac.uk/resources/courses/ai-intro/docs/dt/

[15]. Ullas Nambiar, Subbarao Kambhampati, Mining Approximate Functional Dependencies and Concept Similarities to Answer Imprecise Queries, Seventh International Workshop on the Web and Database, June 17-18,2004, Paris, France.

[16]. J. Ross Quinlan. C4.5: Program for machine learning. Morgan Kaufmann, San Matco, CA, 1993

[17]. Ramakishnan R., Gehrke J. Database Management System, Second

Edition, McGrew Hill Co., NewYork, 2000.

[18]. Ykä. Huhtala, Juha Kähkkäinen , Pasi Porkka, Hannu Toivonen. An efficient algorithm for discovering functional and approximate dependencies, Inproc.14th Int, Conf. on Data Engineering (ICDE '98), p. 392-401, IEEE. Computer Society Press, 1998.

[19]. Flach, Petter and Savnik, Iztok. Database Dependency Discovery: a Machine Learning Approach, Al Comm. Vol. 12, no.3, pg 139-160

[20]. Lopes Stepane; Pettit, Jean-Marc and Lakhal, Lotfi. Efficient Discovery of Functional Dependencies and Armstrong Relations. Proceeding of ECDT 2000. Lecture Notes in Computer Science, vol 1777.

[21]. Novelli N., Ciccbetti R. Fun: and efficient algorithm for mining functional and embedded dependencies. In Lecture Notes in Computer Science

[22]. Kwok-Wa Lam, Victor C.S.Lee, Building Decision Trees Using

Functional Dependencies, Proceedings of the International Conference on Information Technology: Coding and Computing (ITCC’04), 2004

[23] B.Liu, W.Hsu, and Y.Ma.Integrating classification and association mining, In Proc. 1998 Int. Conf. Knowledge Discovery and Data mining (KDD'98), p. 80- 86, New York, 1998.

[24] A.Arning, R. Agrawal, P. Raghavan, A Linear Method for Deviation Detection in Large Databases, Proc. of the 2nd International Conference on Knowledge Discovery in Databases and Data Mining, Portland, Oregon, August, P. 164-169, 1996.

[25] Barnett, V. and Lewis, T. Outliers in Statistical Data. John Wiley, 3rd edition, 1994.

[26] E. M. Knorr, Outliers and Data Mining: Finding Exceptions in Data, Doctoral thesis, Dept. of Computer science, University of British Columbia, 2002.

Các thách thức khi khai phá dữ liệu

CƠ SỞ DỮ LIỆU QUAN HỆ