Xây dựng cây quyết ñị nh

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu một số kỹ thuật khai phá dữ liệu cho bài toán dự đoán rủi ro tín dụng (Trang 35 - 36)

Việc xây dựng cây quyết định thường thơng qua các bước: tạo cây, cắt tỉa và

đánh giá.

Quá trình tạo cây quyết định được thực hiện bằng cách chia đệ quy tập dữ liệu mẫu cho tới khi mọi nút lá đều thuần nhất. Thuần nhất nghĩa là tất cả các mẫu dữ liệu

ở cùng một lớp. Nếu các nút lá là khơng thuần nhất, cần thiết phải được kiểm tra để

tìm ra phép tách tốt nhất. Thuộc tính được lựa chọn sau kiểm tra sẽđược gán nhãn cho nút tách đĩ và tập dữ liệu sẽđược chia ra thêm nữa theo các giá trị của thuộc tính.

4.1.4.2. Ct ta cây quyết định

Bước cắt tỉa cây quyết định được sử dụng để tối ưu hĩa cây thu được sau khi tạo, bao gồm: tối ưu vềđộ lớn của cây và tối ưu vềđộ chính xác của sự phân lớp bằng cách cắt tỉa các nhánh khơng phù hợp. Thơng thường cây được sinh ra sẽ hoạt động tốt trên tập huấn luyện nhưng cĩ thể hoạt động khơng chính xác đối với tập dữ liệu ẩn hoặc khơng thấy được. Các dữ liệu này là các dữ liệu bị nhiễu hoặc thiếu trong tập huấn luyện. Bước cắt tỉa nhằm mục tiêu cố gắng loại bỏ các nhánh bị lỗi khỏi cây và giữ lại độ chính xác phân lớp của cây.

4.1.4.3. ðánh giá cây quyết định

ðộ chính xác của cây kết quảđược xác định thơng qua sử dụng một tập dữ liệu khơng nhìn thấy độc lập. Cây được áp dụng cho từng dữ liệu đầu vào và nhãn của lớp

đã được dự đốn trước so sánh với nhãn lớp thực tế. Vì thế, tiêu chuẩn đánh giá là số

các mẫu được phân lớp chính xác.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu một số kỹ thuật khai phá dữ liệu cho bài toán dự đoán rủi ro tín dụng (Trang 35 - 36)

Tải bản đầy đủ (PDF)

(79 trang)