Thế mạnh của cây quyết định

Một phần của tài liệu Khai phá dữ liệu và ứng dụng trong quản lí cán bộ luận văn thạc sĩ (Trang 26 - 28)

CHƢƠNG 3 PHÂN LỚP DỮ LIỆU SỬ DỤNG CÂY QUYẾT ĐỊNH 3.1 Cây quyết định

3.1.1. Thế mạnh của cây quyết định

Cây quyết định có các thế mạnh sau[12] :

Khả năng sinh ra các quy tắc hiểu đƣợc

Cây quyết định có khả năng sinh ra các quy tắc có thể chuyển đổi được sang dạng if..then..else , hoặc các câu lệnh SQL. Đây là ưu điểm nổi bật của kỹ thuật này. Thậm chí với những tập dữ liệu lớn khiến cho hình dáng cây quyết định lớn và phức tạp, việc đi theo bất cứ đường nào trên cây là dễ dàng theo nghĩa phổ biến và rõ ràng. Do vậy sự giải thích cho bất cứ một sự phân lớp hay dự đoán nào đều tương đối minh bạch.

Khả năng xử lý với cả thuộc tính liên tục và thuộc tính rời rạc

Cây quyết định xử lý “tốt” như nhau với thuộc tính liên tục và thuộc tính rời rạc. Tuy rằng với thuộc tính liên tục cần nhiều tài nguyên tính toán hơn. Những thuộc tính rời rạc đã từng gây ra những vấn đề với mạng nơron và các kỹ thuật thống kê lại thực sự dễ dàng thao tác với các tiêu chuẩn phân tách

(splitting criteria) trên cây quyết định: mỗi nhánh tương ứng với từng phân tách tập dữ liệu theo giá trị của thuộc tính được chọn để phát triển tại node đó. Các thuộc tính liên tục cũng dễ dàng phân chia bằng việc chọn ra một số gọi là ngưỡng trong tập các giá trị đã sắp xếp của thuộc tính đó. Sau khi chọn được ngưỡng tốt nhất, tập dữ liệu phân chia theo “test” nhị phân của ngưỡng đó[12].

Thể hiện rõ ràng những thuộc tính tốt nhất

Các thuật toán xây dựng cây quyết định đưa ra thuộc tính mà phân chia tốt nhất tập dữ liệu đào tạo bắt đầu từ node gốc của cây. Từ đó có thể thấy những thuộc tính nào là quan trọng nhất cho việc dự đoán hay phân lớp.

Đòi hỏi mức tiền xử lý dữ liệu đơn giản. Cây quyết định là một mô hình hộp trắng.

Kết quả dự đoán bằng cây quyết định có thể thẩm định lại bằng cách kiểm tra thống kê.

Vấn đề xây dựng cây quyết định

Có nhiều thuật toán khác nhau để xây dựng cây quyết định như: CLS, ID3, C4.5, SLIQ, SPRINT, EC4.5, C5.0…Nhưng nói chung quá trình xây dựng cây quyết định đều được chia ra làm 3 giai đoạn cơ bản:

B1: Xây dựng cây: Thực hiện chia một cách đệ quy tập mẫu dữ liệu huấn luyện cho đến khi các mẫu ở mối nút lá thuộc cùng một lớp

B2: Cắt tỉa cây: Là việc làm dùng để tối ưu hoá cây. Cắt tỉa cây chính là việc trộn một cây con vào trong một nút lá.

B3: Đánh giá cây: Dùng để đánh giá độ chính xác của cây kết quả. Tiêu chí đánh giá là tổng số mẫu được phân lớp chính xác trên tổng số mẫu đưa vào.

Rút ra các luật từ cây quyết định.

Có thể chuyển đổi qua lại giữa mô hình cây quyết định và mô hình dạng luật (IF …THEN…). Hai mô hình này là tương đương nhau.

Ví dụ từ cây 2.1 ta có thể rút ra được các luật sau.

IF (Tuổi <= 35) AND (Lương<=40) THEN phân lớp = xấu IF (Tuổi <=35) AND (Lương >40) THEN phân lớp = tốt IF (Tuổi >35) AND (Lương <=50 ) THEN phân lớp = xấu IF (Tuổi > 35) AND(Lương >50) THEN phân lớp = xấu

Một phần của tài liệu Khai phá dữ liệu và ứng dụng trong quản lí cán bộ luận văn thạc sĩ (Trang 26 - 28)

Tải bản đầy đủ (PDF)

(92 trang)