Đánh giá, kết luận về các thuật toán xây dựng cây quyết định

Một phần của tài liệu Sử dụng cây quyết định trong khai phá dữ liệu (Trang 62 - 64)

Các thuật toán xây dựng cây quyết định đã đƣợc trình bày ở trên đều có điểm mạnh và điểm yếu.

Thuật toán CLS là một trong những thuật toán ra đời sớm nhất, nó chỉ áp dụng cho các cơ sở dữ liệu có số lƣợng các thuộc tính nhỏ, mối quan hệ giữa các thuộc tính không quá phức tạp, giá trị của các thuộc dạng phân loại rời rạc. Còn đối với các cơ sở dữ liệu lớn và có chứa các thuộc tính mà giá trị của nó là thuộc tính số, hay liên tục thì thuật toán CLS làm việc không hiệu quả. Do thuật toán CLS chƣa có tiêu chuẩn lựa chọn thuộc tính trong quá trình xây dựng cây mà với cùng một tập dữ liệu đầu vào áp dụng thuật toán CLS có thể cho ra nhiều cây kết quả khác nhau. Nhƣng đây là thuật toán đơn giản, dễ cài đặt, phù hợp trong việc hình thành ý tƣởng và giải quyết những nhiệm vụ đơn giản.

Trong thuật toán xây dựng cây ID3, Quinlan đã khắc phục điểm hạn chế của thuật toán CLS. Thuật toán ID3 làm việc rất hiệu quả, cho cây kết quả tối ƣu hơn thuật toán CLS, khi áp dụng trên cùng một tập dữ liệu đầu vào và thử nhiều lần thì cho cùng một kết quả bởi vì thuộc tính ứng viên ở mỗi bƣớc trong quá trình xây dựng cây đƣợc lựa chọn trƣớc. Tuy nhiên thuật toán này cũng chƣa giải quyết đƣợc vấn đề về thuộc tính số hay liên tục, số lƣợng các thuộc tính còn bị hạn chế và đối với dữ liệu bị thiếu hoặc bị nhiễu. Chiến lƣợc tìm kiếm cuả giải thuật ID3: ƣu tiên các cây quyết định đơn giản (ít mức độ sâu); ƣu tiên các cây quyết định trong đó một thuộc tính có giá trị Information gain càng lớn thì sẽ là thuộc tính kiểm tra của một nút càng gần nút gốc.

Để tiếp tục khắc phục những nhƣợc điểm của thuật toán ID3, Quinlan đã đƣa ra thuật toán C4.5, thuật toán C4.5 là sự cải tiến từ thuật toán ID3 và là một phiên bản sau của ID3. Trong thuật toán này đã giải quyết đƣợc vấn đề về thuộc tính số (thuộc tính liên tục), thuộc tính có nhiều giá trị và giải quyết đƣợc vấn đề dữ liệu bị nhiễu hoặc bị thiếu. Tuy nhiên thuật toán C4.5 vẫn có hạn chế đó là làm việc không hiệu quả với những cơ sở dữ liệu rất lớn vì chƣa giải quyết đƣợc vấn đề bộ nhớ.

Mặc dù đã có nhiều cải tiến, nhiều thuật toán xây dựng cây quyết định ra đời, nhƣng các thuật toán khai phá dữ liệu nói chung và khai phá dữ liệu bằng cây quyết định nói riêng vẫn đang đƣợc tiếp tục nghiên cứu, cải tiến và phát triển để vƣợt qua đƣợc những khó khăn, thách thức trong việc khai phá dữ liệu rút ra các tri thức có ích, đáp ứng nhu cầu của thực tế.

Một số lợi ích của việc sử dụng thuật toán cây quyết định.

- Quá trình học nhanh

- Có thể sinh ra đƣợc các luật trong những lĩnh vực mà các chuyên ra khó có thể phát hiện ra tri thức trong đó.

- Luật sinh ra có thể thể hiện theo ngôn ngữ tự nhiên. - Cách thể hiện của các cây phân lớp là trực quan.

- Độ chính xác của các dự báo có thể so sánh đƣợc với các phƣơng pháp khác nhƣ thống kê, mạng neural,…

- Mô hình có thể xây dựng không có giới hạn.

Một số lĩnh vực có thể áp dụng thuật toán cây quyết định

- Ngân hàng: Đánh giá khách hàng trong quản lý vốn vay. - Công nghiệp: Quản lý chất lƣợng (kiểm soát lỗi).

- Viễn thông: Đánh giá khách hàng trong hệ thống chăm sóc khách hang. - Y tế: Giúp tìm ra mối liên hệ giữa các triệu chứng, chuẩn đoán bệnh. - Sinh học: Đánh giá các biến thể trong lai tạo.

- Tài chính và thị trƣờng chứng khoán: Khai phá dữ liệu dung để phân tích tình hình tài chính, phân tích đầu tƣ, phân tích cổ phiếu.

- Khai thác dữ liệu Web

- Trong thông tin thƣơng mại: dung để phân tích dữ liệu ngƣời dung, phân tích dữ liệu marketing, phân tích đầu tƣ, phát hiện các gian lận.

Chƣơng 3:

CÀI ĐẶT THỬ NGHIỆM

Ở Chƣơng 2, luận văn đã trình bày việc khái phá dữ liệu bằng phƣơng pháp sử dụng cây quyết định. Để minh họa cho lý thuyết đã trình bày trong luận văn, phần này luận văn trình bày về quá trình xây dựng và cài đặt bài toán mô phỏng kỹ thuật khai phá dữ liệu bằng cây quyết định dựa trên thuật toán ID3.

Mục đích của chƣơng trình là mô phỏng cho phần lý thuyết do vậy cơ sở dữ liệu đƣợc sử dụng trong chƣơng trình là tập mẫu nhỏ.

Chƣơng trình đƣợc xây dựng thử nghiệm trên ngôn ngữ lập trình Microsoft Visual C#.Net

Một phần của tài liệu Sử dụng cây quyết định trong khai phá dữ liệu (Trang 62 - 64)