Các thuật toán xây dựng cây quyết định vừa đƣợc trình bày ở trên theo thứ tự thời gian ra đời và theo quá trình phát triển có tính chất kế thừa lẫn nhau của chúng. - Thuật toán CLS: đây là một trong những thuật toán xây dựng cây quyết đinh ra đời sớm nhất. CLS thƣờng chỉ áp dụng cho các CSDL có số lƣợng thuộc tính
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
nhỏ, mối quan hệ giữa các thuộc tính không quá phức tạp, giá trị của các thuộc dạng phân loại rời rạc. Còn đối với các CSDL lớn và có chứa các thuộc tính mà giá trị của nó là liên tục thì CLS làm việc không hiệu quả. Do thuật toán CLS chƣa có tiêu chuẩn lựa chọn thuộc tính trong quá trình xây dựng cây mà với cùng một tập dữ liệu đầu vào áp dụng thuật toán CLS có thể cho ra nhiều cây kết quả khác nhau. Nhƣng đây là thuật toán đơn giản, dễ cài đặt, phù hợp trong việc hình thành ý tƣởng và giải quyết những nhiệm vụ đơn giản.
- Thuật toán ID3: trong thuật toán ID3, Quinlan đã khắc phục đƣợc hạn chế của thuật toán CLS. ID3 cho cây kết quả tối ƣu hơn thuật toán CLS. Khi áp dụng thuật toán ID3 cho cùng một tập dữ liệu đầu vào và thử nhiều lần thì cho cùng một kết quả bởi vì thuộc tính ứng viên ở mỗi bƣớc trong quá trình xây dựng cây đƣợc lựa chọn trƣớc. Tuy nhiên thuật toán này cũng chƣa giải quyết đƣợc về vấn đề thuộc tính số, liên tục, số lƣợng các thuộc tính còn bị hạn chế và ID3 làm việc không hiệu quả với dữ liệu bị nhiễu hoặc bị thiếu.
- Thuật toán C4.5: để khắc phục những hạn chế của thuật toán ID3, Quinlan đã đƣa ra thuật toán C4.5. Thuật toán này có thể phân lớp các dữ liệu có chứa thuộc tính số (hoặc thuộc tính liên tục), thuộc tính đa trị và giải quyết đƣợc vấn đề dữ liệu bị nhiễu hoặc bị thiếu. Tuy nhiên C4.5 vẫn có hạn chế đó là làm việc không hiệu quả với những cơ sở dữ liệu rất lớn vì chƣa giải quyết đƣợc vấn đề bộ nhớ.
- Thuật toán SLIQ: Thuật toán này phân lớp rất có hiệu quả đối với các tập dữ liệu lớn. SLIQ làm việc không phụ thuộc vào số lƣợng các lớp, các thuộc tính và số lƣợng bản ghi trong tập dữ liệu. SLIQ đã cải thiện đƣợc vấn đề về bộ nhớ vì có pha tiền xử lý phân loại dữ liệu, tại một thời điểm chỉ có 1 danh sách lớp thƣờng trú trong bộ nhớ còn các danh sách lớp còn lại đƣợc lƣu trên đĩa. SLIQ có kỹ thuật cắt tỉa cây mô tả độ dài tối thiểu MDL rất hữu hiệu. Có thể nói hiện tại SLIQ là một thuật toán phân lớp nhanh, chính xác, chi phí thấp. Tuy nhiên, cài đặt thuật toán SLIQ thì phức tạp và thƣờng đƣợc cài đặt để khai thác các cơ sở dữ liệu rất lớn.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Hiện nay các thuật toán khá dữ liệu nói chung và khai phá dữ liệu bằng cây quyết định nói riêng vẫn đang đƣợc tiếp tục nghiên cứu, cải tiến để vƣợt qua đƣợc những khó khăn, thách thức trong việc khai phá dữ liệu rút ra các tri thức có ích, đáp ứng nhu cầu của thực tế.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Phần 3: CÀI ĐẶT MÔ PHỎNG THUẬT TOÁN ID3
Để minh họa cho lý thuyết đã trình bày trong luanạ văn, phần này tác giả trình bày về quá trình xây dựng và cài đặt bài toán mô phỏng kỹ thuật khai phá dữ liệu bằng cây quyết định:
Với mục đích là mô phỏng cho phàn lý thuyết do vậy cơ sở dữ liệu đƣợc sử dụng trong chƣơng trình là tập mẫu nhỏ. Bài toán đƣợc cài đặt theo thuật toán ID3.