Định nghĩa

Trong lĩnh vực học máy, Cây quyết định là phương pháp xấp xỉ hóa hàm mục tiêu có giá trị rời rạc trong đó những hàm được học được thể hiện bằng cây quyết định. Trong đó mỗi nút nhánh thể hiện một sự lựa chọn trong số nhiều sự lựa chọn và mỗi nút lá là sự thể hiện của một quyết định. Cây quyết định có thể cũng được biểu diễn như là tập hợp của những luật IF THEN để tăng tính dễ đọc cho con người. Phương pháp học này thể hiện trong những giải thuật suy diễn quy nạp thông dụng nhất và được ứng dụng thành công trong những nhiệm vụ như từ việc học để chuẩn đoán bệnh trong y học đến việc định giá rủi ro trong tài chính về kinh tế,…

Với khai phá dữ liệu, cây quyết định tượng trưng cho một phương thức quyết định cho việc xác định lớp của các dữ kiện đã cho. Mỗi nút của cây chỉ ra một tên lớp hoặc là một phép thử cụ thể, phép thử này chia không gian các dữ kiện tại nút đó thành các kết quả có thể đạt được của phép thử. Mỗi tập con được chia ra là không gian con của các dữ kiện, sẽ tương ứng với một vấn đề con của sự phân lớp, điều này sẽ được giải quyết bởi một cây con tương ứng. Một Cây quyết định có thể được mô tả như sau:

- Nút không phải lá (non-leaf node) hay còn được gọi là nút trong (inner node), nút này xác định một phép thử thuộc tính (attribute test), nhãn của nút này là tên của thuộc tính và sẽ có một nhánh nối nút này đến cây con (sub-tree) ứng với mỗi kết quả có thể có của phép thử. Nhãn của các nhánh này chính là các giá trị của thuộc tính đó. Nút nằm ở trên cùng là nút gốc (root node).

- Nút lá (leaf node) biểu thị cho một lớp các trường hợp, nhãn của nó là tên của lớp

Tại mỗi nút, một thuộc tính được chọn để phân chia tập ví dụ huấn luyện thành các lớp riêng biệt. Trong trường hợp thuộc tính là liên tục, các nút trong có thể dùng phép thử dựa vào ngưỡng.

Cây quyết định phân lớp các đối tượng bằng việc sắp xếp từ nút gốc đến những nút lá. Một đối tượng được phân loại bằng việc bắt đầu tại nút gốc của cây, kiểm tra những thuộc tính xác định của nút này sau đó chuyển xuống những nhánh tương ứng với việc đánh giá thuộc tính. Quá trình này được lặp lại cho những cây con.

Ví dụ: Cho tập ví dụ huấn luyện trong bảng dưới đây

STT Tuổi Thu nhập Là sinh viên Mua máy tính

1 <=30 Cao Sai Không

2 31..40 Cao Sai Có 3 >40 Thấp Sai Không 4 31..40 Cao Đúng Có 5 <=30 Thấp Đúng Có 6 >40 Thấp Sai Không 7 <=30 Cao Đúng Có 8 31..40 Thấp Đúng Có 9 31..40 Thấp Sai Có 10 >40 Cao Sai Có

Từ tập huấn luyện trên, ta xây dựng được cây quyết định như trong hình 2.2. Ở đây, các thuộc tính “Tuổi”, “Thu nhập”, “Là sinh viên” là các thuộc tính kiểm tra, thuộc tính “Mua máy tính” là thuộc tính phân lớp (hay thuộc tính quyết định)

Hình 2.2: Cây quyết định về việc mua máy tính

Xây dựng cây quyết định

Những hạn chế của giải thuật ID3