.20 So sánh tóm tắt của các sai số lỗi phân lớp

Một phần của tài liệu (LUẬN văn THẠC sĩ) phương pháp thống kê trong kinh doanh và tài chính (Trang 101 - 102)

Mơ hình Tỷ lệ lỗi phân lớp

Tập huấn luyện Tập xác nhận Tập kiểm định Hồi quy logistic 0,3071672355 0,3383356071 0,3770491803 Cây CART 0,2593856655 0,2974079127 0,2909836066

Cho đến giờ ta đã sử dụng một ngưỡng cắt là 50%, nhưng điều này không phải là một sự lựa chọn duy nhất. Cụ thể là các chi phí của các sai lầm có thể làm ta phải thay đổi ngưỡng cắt. Chẳng hạn, nếu sai lầm loại 2 được xem là tốn kém hơn, thì một ngưỡng cắt cao hơn có thể được chọn để giảm các sai lầm loại 2; nhưng điều này sẽ làm tăng sai lầm loại 1. Ngược lại, nếu sai lầm loại 1 được xem là tốn kém hơn, thì một ngưỡng cắt thấp hơn sẽ được chọn.

Trong trường hợp khơng có cân nhắc về chi phí, thì các mơ hình nên được so sánh bằng cách sử dụng các đường cong ROC. Hình 3.5 cho thấy các đường cong ROC của 4 mơ hình (theo nghiên cứu của tác giả Giudici) trong đó có 2 mơ hình: cây và hồi quy logistic. Trục tung là độ nhạy cảm = 1 – sai lầm loại 1 và trục hoành biểu thị 1 – đặc trưng = sai lầm loại 2. Chú ý rằng, các đường cong ROC đối với tất cả 2 mơ hình là khá tương tự nhau, trừ ra một khoảng trống ở phần trung tâm của đường cong nơi mà mơ hình cây là tốt hơn cả. Ngược lại, ở phần phía trên bên phải của đồ thị, thì mơ hình hồi quy logistic là tốt hơn vì chúng dẫn đến một độ nhạy cảm cao hơn (sai lầm loại 1 thấp hơn). Tất cả các đường cong đều tương tự nhau đối với các giá trị ngưỡng cắt cao, tương ứng với các giá trị thấp của độ nhạy cảm và của 1 – đặc trưng.

cvii

Hình 3.5 Các đường cong ROC cho các mơ hình được xét

Để quyết định lựa chọn trong số các đường cong, ta cần thơng tin hơn nữa về chi phí. Nhưng nếu khơng có thơng tin này, ta có thể tính một độ đo tóm tắt về hiệu suất của các mơ hình, độ đo tóm tắt về hiệu suất tương ứng với diện tích nằm giữa đường cong ROC và đường thẳng 45o; được gọi là chỉ số Gini về hiệu suất. Ta có thể tính chỉ số Gini cho 2 mơ hình trên tập dữ liệu kiểm định, và cho 9 điểm cắt được sắp đặt bằng nhau (từ 10% trở đi). Các giá trị đó được cho trong bảng 3.21. Chỉ số Gini càng cao thì mơ hình được xét càng tốt. Như vậy mơ hình cây là mơ hình tốt nhất.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phương pháp thống kê trong kinh doanh và tài chính (Trang 101 - 102)

Tải bản đầy đủ (PDF)

(132 trang)