.19 Ma trận hỗn độn cho cây phân lớp CART

Một phần của tài liệu (LUẬN văn THẠC sĩ) phương pháp thống kê trong kinh doanh và tài chính (Trang 100 - 101)

Nếu chi phí sai lầm tương đối khơng đáng kể thì cây CART có thể được chọn vì nó làm cực tiểu tỷ lệ sai số lỗi phân lớp trên tập xác nhận (29,74%).

Cho đến giờ ta đã rút ra các kết luận bằng cách sử dụng tập dữ liệu xác nhận. Nhưng vì một số mơ hình khai thác dữ liệu thường được xây dựng bằng cách sử dụng các kết quả trên tập dữ liệu xác nhận, nên có thể liên quan tới việc so sánh các mơ hình trên tập dữ liệu thứ 3, được gọi là tập dữ liệu kiểm định. Để làm điều này, dữ liệu hiện có cần được phân hoạch thành 3 tập dữ liệu thay vì 2 tập: tập dữ liệu huấn luyện (60% dữ liệu), tập dữ liệu xác nhận (20% dữ liệu), tập dữ liệu kiểm định (20% dữ liệu). Sau đó năng lực dự báo của các mơ hình có thể được so sánh trên tập dữ liệu kiểm định để có được một đánh giá trung thực hơn. Khi chỉ có 2 tập dữ liệu, thì tập dữ liệu thứ 2 (xác nhận) đơi khi được sử dụng một cách gián tiếp để xây dựng một mơ hình (chẳng hạn để cắt tỉa một cây); do đó kết quả của việc xác nhận có thể quá lạc quan. Việc chia tập dữ liệu thành 3

cvi kéo theo một sự mất mát thơng tin vì tập dữ liệu kiểm định khơng bao giờ được sử dụng và số quan sát trong tập dữ liệu huấn luyện bị giảm đi.

Bảng 3.20 cho thấy các tỷ lệ lỗi phân lớp đối với 2 mơ hình trên tất cả 3 phân vùng: huấn luyện, xác nhận, kiểm định. Trên tập kiểm định, mơ hình cây có sai số thấp nhất. Sự cùng hạng của các mơ hình đạt được trên tập dữ liệu huấn luyện.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phương pháp thống kê trong kinh doanh và tài chính (Trang 100 - 101)

Tải bản đầy đủ (PDF)

(132 trang)