b. Phân loại các kỹ thuật học máy
2.1.1. Giới thiệu phương pháp
Cây quyết định là một cấu trúc ra quyết định cĩ dạng cây. Cây quyết định nhận đầu vào là một bộ giá trị các thuộc tính mơ tả một đối tượng hay một tình huống và trả về một giá trị rời rạc. Mỗi bộ thuộc tính đầu vào được gọi là một mẫu hay một ví dụ, đầu ra gọi là lớp hay nhãn phân lớp. Khi đĩ, với tập thuộc tính đầu vào được cho dưới dạng véc tơ x, nhãn phân lớp đầu ra được ký hiệu là y thì cây quyết định cĩ thể xem như một hàm f(x) = y.
Cây quyết định được biểu diễn dưới dạng một cấu trúc cây như trong Hình 2.1 dưới đây.
Hình 2.1. Mơ hình cây quyết định
Trong cây quyết định, mỗi nút trung gian, tức là nút khác với nút lá và nút gốc, tương ứng với phép kiểm tra một thuộc tính. Mỗi nhánh phía dưới của nút đĩ tương ứng với một giá trị của thuộc tính hay một kết quả của phép thử. Khác với nút
trung gian, nút lá khơng chứa thuộc tính mà chứa nhãn phân lớp. Để xác định nhãn phân lớp cho một dữ liệu mẫu nào đĩ, ta cho dữ liệu mẫu chuyển động từ gốc cây về phía nút lá. Tại mỗi nút, thuộc tính tương ứng với nút được kiểm tra, tùy theo giá trị của thuộc tính đĩ mà dữ liệu mẫu được chuyển xuống nhánh tương ứng bên dưới. Quá trình này lặp lại cho đến khi dữ liệu mẫu tới được nút lá và được nhận nhãn phân lớp là nhãn của nút lá tương ứng.
Quá trình xây dựng cây quyết định thường được thực hiện như sau: (1) Bắt đầu từ nút đơn biểu diễn tất cả các mẫu.
(2) Nếu các mẫu thuộc về cùng một lớp, nút đang xét trở thành nút lá và được gán nhãn bằng lớp đĩ.
(3) Ngược lại, dùng độ đo thuộc tính để chọn thuộc tính sẽ phân tách tốt nhất các mẫu vào các lớp.
(4) Một nhánh được tạo cho từng giá trị của thuộc tính được chọn và các mẫu được phân hoạch theo.
(5) Lặp lại tiến trình trên để tạo cây quyết định.
(6) Tiến trình kết thúc chỉ khi bất kỳ điều kiện nào sau đây là đúng. - Tất cả các mẫu cho một nút cho trước đều thuộc về cùng một lớp.
- Khơng cịn thuộc tính nào mà mẫu cĩ thể dựa vào để phân hoạch xa hơn. - Khơng cịn mẫu nào cho nhánh.
Tuy nhiên, nếu khơng chọn được thuộc tính phân loại hợp lý tại mỗi nút, cĩ thể sẽ tạo ra cây quyết định rất phức tạp. Trong thực tế, thường sử dụng hai cách sau để tạo được cây quyết định phù hợp:
- Dừng phát triển cây sớm hơn bình thường, trước khi đạt tới điểm phân lớp hồn hảo tập dữ liệu huấn luyện.
- Sử dụng các kỹ thuật “cắt”, “tỉa” cây phù hợp.
Trong các mục tiếp theo, luận văn sẽ khảo sát một số kỹ thuật xây dựng cây quyết định.