CHƢƠNG 3 MỘT SỐ PHƢƠNG PHÁP XÂY DỰNG CÂY QUYẾT ĐỊNH
3.3. ĐÁNH GIÁ CÁC THUẬT TOÁN VÀ KẾT LUẬN
3.3.1. Đánh giá
Qua các vấn đề đã xét ta thấy rằng mỗi thuật toán đều có những điểm mạnh và điểm yếu riêng. Thuật toán CLS được xây dựng dựa trên ý tưởng giải quyết các nhiệm vụ bằng cách thu nhận các khái niệm đơn giản, tuy nhiên CLS ra đời khi công nghệ thông tin mới chỉ là khởi đầu của sự phát triển đặc biệt là vấn đề lưu trữ dữ liệu và xử lý dữ liệu còn tương đối đơn giản. Chính vì thế, CLS chỉ đủ đáp ứng cho các trường hợp cơ sở dữ liệu nhỏ và giá trị là rời rạc. Khi gặp các cơ sở dữ liệu lớn và có các thuộc tính liên tục thì thuật toán này không mang lại kết quả mong muốn. Mặt khác, khi sử dụng thuật toán ở cùng một mẫu dữ liệu có thể sẽ cho nhiều kết quả khác nhau. Đặc biệt trong quá trình xây dựng cây việc lựa chọn thuộc tính chưa có tiêu chí cụ thể. Việc thiết kế và cài đặt cho thuật toán CLS tương đối đơn giản cho các nhà thiết kế.
Một số hạn chế của thuật toán CLS đã được Quinlan khắc phục bằng thuật toán ID3. Thuật toán ID3 được xem như là cải tiến của thuật toán CSL, ID3 cho chúng ta kết quả tốt hơn kết quả do CLS đưa ra do khi xây dựng cây, chúng ta sử dụng các tiêu chí chọn lựa thuộc tính phù hợp nhất trong các ứng viên của mỗi bước. Khi áp dụng thuật toán ID3 trên cùng một tập dữ liệu sẽ cho chúng ta kết quả là như nhau. Tuy thế, ID3 vẫn còn có một số nhược điểm khi áp dụng cho các thuộc tính có nhiều giá trị hoặc giá trị liên tục và đặc biệt khi gặp phải những dữ liệu bị thiếu hay bị nhiễu.
Tiếp đó, cũng chính Quinlan đưa ra thuật toán C4.5 nhằm khắc phục các nhược điểm của ID3, C4.5 thực hiện sự phân lớp các thuộc tính số và liên tục bằng các phép tách nhị phân. Quinlan cũng đã đưa thêm vào các hàm GainRatio
có bước xác định lỗi và tính lỗi cho các nút và có phương pháp cắt tỉa cây. Tuy C4.5 đã cải tiến được nhiều vấn đề nhưng vẫn còn nhiều vần đề khó và phức tạp như vấn đề dữ liệu bị thiếu.
Vấn đề cơ sở dữ liệu đã được nghiên cứu từ rất sớm trong quá trình phát triển của công nghệ thông tin, các khái niệm, tính chất của cơ sở dữ liệu đặc biệt là phụ thuộc hàm trong cơ sở dữ liệu quan hệ đã được chứng minh một cách chặt chẽ. Khác với việc lựa chọn khá cảm tính trong các phương pháp lựa chọn thuộc tính để phát triển khác, tuy nhiên, với định nghĩa chặt như phụ thuộc hàm đã được nêu ở trên thì khi gặp một cơ sở dữ liệu lớn và phức tạp, việc xác định các phụ thuộc hàm rất khó khăn, chính vì thế khi Kwok-Wa Lam và Victor C. S. Lee đưa ra phương pháp xây dựng cây quyết đinh dựa trên phụ thuộc hàm xấp xỉ đã phần nào giải quyết các vấn đề trên.
3.3.2. Kết luận
Trong chương này, đã trình bày khái quát về sự phân lớp, giới thiệu một số thuật toán xây dựng cây quyết định cơ bản và một số vấn đề khi xây dựng một cây quyết định sử dụng phụ thuộc hàm trong cơ sở dữ liệu quan hệ, đặc biệt là phụ thuộc hàm xấp xỉ, một khái niệm khá mới và đang là xu thế nghiên cứu của khai phá dữ liệu. Trong đó việc tìm kiếm một phụ thuộc hàm xấp xỉ sử dụng thuật toán TANE trong một cơ sở dữ liệu lớn có sẵn là tương đối dễ dàng và chấp nhận được về thời gian và kết quả.
Tuy vậy, để có thể đạt được yêu cầu như một hệ thống khai phá dữ liệu như mong muốn vẫn còn cần rất nhiều thời gian và công sức nghiên cứu, phát triển.