Đánh giá và kết luận về các thuật tốn xây dựng cây quyết định

Một phần của tài liệu Khai phá dữ liệu (Trang 28 - 30)

L ỜI MỞ ĐẦU

2.2.6. Đánh giá và kết luận về các thuật tốn xây dựng cây quyết định

Các thuật tốn xây dựng cây quyết định vừa được trình bày ở trên đều cĩ những điểm mạnh và điểm yếu riêng của nĩ.

- Đầu tiên ta xét đến thuật tốn CLS đây là một trong những thuật tốn ra đời sớm nhất. Nĩ chỉ áp dụng cho các CSDL cĩ các thuộc tính nhỏ, giá trị các thuộc tính dạng phân loại hay rời rạc. Cịn đối với các CSDL lớn và cĩ chứa các thuộc tính mà giá trị của nĩ là liên tục thì CLS làm việc khơng hiệu quả.Thuật tốn cĩ thể cho các kết quả khác nhau với cùng một tập dữ liệu đầu vào. Bởi vì, thuật tốn này chưa cĩ tiêu chí để lựa chọn thuộc tính trong quá trình xây dựng cây. Nhưng đây là thuật tốn đơn giản, dễ cài đặt, phù hợp trong việc hình thành ý tưởng và giải quyết những nhiệm vụđơn giản.

- Thuật tốn ID3: trong thuật tốn ID3, Quinlan đã khắc phục được hạn chế của thuật tốn CLS (ID3 được xem là phiên bản cải tiến của CLS). Thuật tốn này làm việc rất cĩ hiệu quả, nĩ cho kết quả tối ưu hơn thuật tốn CLS . Khi áp dụng thuật tốn ID3 cho cùng một tập dữ liệu đầu vào và thử nhiều lần thì cho cùng một kết quả. Bởi vì, thuộc tính ứng viên c l a ch n m i b c trong quá trình xây d ng cây c l a ch n

trước. Tuy nhiên thuật tốn này cũng chưa giải quyết được về vấn đề thuộc tính số, liên tục, số lượng các thuộc tính cịn bị hạn chế và giải quyết hạn chế với vấn đề dữ liệu bị thiếu hoặc bị nhiễu.

- Thuật tốn C4.5: Để tiếp tục khắc phục những nhược điểm của thuật tốn ID3, Quinlan đã đưa ra thuật tốn C4.5(C4.5 là sự cải tiến cho thuật tốn ID3 và cọi là phiên bản sau của ID3). Trong thuật tốn này đã giải quyết được vấn đề làm việc với thuộc tính số(liên tục), thuộc tính cĩ nhiều giá trị, và vấn đề dữ liệu bị thiếu hoặc bị nhiễu. Trong C4.5 thực hiện việc phân ngưỡng với thuộc tính số bằng phép tách nhị p hân đưa vào đại lượng GainRatio thay thế cho đại lượng Gain của ID3. Để giải quyết được vấn đề thuộc tính cĩ nhiều giá trị. Ngồi ra C4.5 cịn cĩ bước cắt tỉa nhánh khơng phù hợp. Tuy nhiên yếu điểm của thuật tốn này là làm việc khơng hiệu quả với những CSDL lơn vì chưa giải quyết được vấn đề bộ nhớ.

- Thuật tốn SLIQ phân lớp rất cĩ hiệu quảđối với các tập dữ liệu lớn, nĩ làm việc khơng phù thuộc vào số lượng các lớp, các thuộc tính và số lượng bản ghi trong tập dữ liệu. SLIQ đã cải thiện được vấn đề về bộ nhớ vì cĩ 3 pha tiền xử lý phân loại, tại một thời điểm chỉ cĩ 1 danh sách lớp thường trú trong bộ nhớ. SLIQ cĩ kỹ thuật cắt tỉa cây mơ tả độ dài tối thiểu MDL, rất hữu hiệu . Nĩ là thuật tốn phân lớp nhanh, chính xác, chi phí thấp. Tuy nhiên việc cài đặt phức tạp, áp dụng cho các cơ sở dữ liệu lớn.

Mặc dù đã cĩ nhiều cải tiến, nhiều thuật tốn xây dựng cây quyết định ra đời, nhưng nĩi chung vấn cịn nhiều vấn đề khĩ khăn phức tạp và nhiều thách thức trong KPDL bằng cây quyết định. Như vấn đề dữ liệu bị thiếu giá trịđối với các thuộc tính trong CSDL. Vấn đề các CSDL rất lớn về số lượng các thuộc tính và về số lượng các bản ghi, vấn đề về bộ nhớ…Những vấn đề này luơn làm đau đầu những nhà khoa học. Trên thực tế các thuật tốn xây dựng cây quyết định vấn đang được cải tiến, nghiên cứu và phát triển.

Chương 3: Xây dng chương trình dêmo

Một phần của tài liệu Khai phá dữ liệu (Trang 28 - 30)

Tải bản đầy đủ (PDF)

(32 trang)