4 Nhận xét

Qua kết quả thực nghiệm của chương trình trong bảng 16 chúng tôi nhận thấy rằng thuật toán đã phần nào phân lớp được các đối tượng bị bệnh và không bị bệnh. Tỉ lệ số đối tượng được phân lớp đúng khoảng 65% đến 70%. Qua đó khẳng định thuật toán trình bày trong Chương 2 phần 2.2.2.4. là có khả năng phân lớp được dữ liệu dựa trên một cách chọn siêu phẳng khá đơn giản. Để nâng cao được kết quả thực nghiệm chúng ta cần có một phương pháp chọn siêu phẳng tổng quát hơn, hiệu quả hơn. Cách chọn siêu phẳng được trình bày trong Chương 2 phần 2.2.2.4. của khoá luận tốt nghiệp là khá đơn giản để lập trình, tuy nhiên chưa thực sự hiệu quả cho việc phân lớp. Nhất là với dữ liệu kiểu thực thì việc lựa chọn siêu phẳng dựa trên cách chọn thuộc tính tốt nhất dùng hàm độđo thông tin Infomation Gain là không hiệu quả khi tập giá trị của thuộc tính đó của các đối tượng khác nhau là rất lớn, gần như bằng chính sốđối tượng.

Chương trình của chúng tôi đã thành công trong việc mô phỏng thuật toán của tác giả [1] với một cách chọn siêu phẳng khá đơn giản. Tuy nhiên, chương trinh còn có một số hạn chế như:

− Chỉ làm việc được với một loại cấu trúc dữ liệu đầu vào.

− Chưa đưa ra được một cách chọn siêu phẳng đủ mạnh để phân lớp dữ liệu theo thuật toán trình bày trong Chương 2 phần 2.2.2.4

− Thuộc tính quyết định chỉđược phép nhận 2 giá trị.

KẾT LUẬN

Tài liêu tham khảo:

[1]. Aleksander. Discernibility and Rough Sets in Medicine: Tools and

Applications Knowledge Systems Group, Dept. of Computer and Information Science,

Norwegian University of Science and Technology, Trondheim, Norway.

[2]. Andrzej Skowron, Ning Zong (2000). Rough Sets in KDD. Tutorial Notes. [3]. Ho Tu Bao (1996). Introduction to Knowledge Discovery and Data

mining. Institute of Information Technology National Center for Natural Science and

Technology.

[4]. Fayyad, Piatetsky-Shapiro, Smyth, “From Data Mining to Knowledge Discovery: An Overiew”, in Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, Advances in Knowl\ledge Discovery and Data Mining, AAAI Press/ The MIT Press, Menlo Park, CA, 1996, pp,1-34

[5]. Sinh Nguyen Hoa, Andrzej Skowron, Piotr Synak (1998). Discovery of

Data Patterns with Application to Decomposition and Classification Problems.

[6]. Jan Komorowski, Zdzislaw Pawlak, Lech Polkowski, Andrzej Skowron (2000). Rough sets: A tutorial

[7]. Rakesh Agrawal, Tomasz Imielinski, Arun Swami (1993). Mining

Assosication Rules between Sets of item in Large Databases. Proceedings of the 1993

ACM SIGMOD conference Washington DC, USa, May 1993

[8] Ronald J.Branchman and Tej Anand. The Process of Knowledge Discoery

inDatabases, 1996

[9] Nguyen Hung Son, Nguyen Sinh Hoa. From Optimal Hyperplanes to

Optimal Decision Trees: Rough Set and Boolean Reasoning Approaches, Institute of

Computer Sciences Warsaw University 02-097, Banacha 2, Warsaw, Poland

[10] Hà Quang Thuỵ (1996). Một số vấn đề về không gian xấp xỉ, tập thô đối với hệ thông tin. Luận án Phó tiến sĩ Khoa học Toán Lý. ĐHKHTN, 1996

[11] Tom M. Mitchen. Machine Learning. Mc Graw Hill, pp52-76

[12]. Wojciech P. Ziarko (Ed., 1994). Rough Sets, Fuzzy Sets and Knowledge

Discovery. Proceedings of the International Workshop on Rough Sets and Knowledge

Thuật toán khai phá luật kết hợp

Thuật toán học cây quyết định