.33 Các kết quả cho cây phân lớp CART với tạp chất Entropy

Một phần của tài liệu (LUẬN văn THẠC sĩ) phương pháp thống kê trong kinh doanh và tài chính (Trang 122 - 132)

cxxxii

Bảng 3.33 cho thấy một mơ hình CART bằng cách sử dụng chỉ số tính hỗn tạp entropy và giữ nguyên 1. Mơ hình này cũng khá phức tạp; nó có 34 nút cuối nhiều hơn mơ hình Gini một nút. Các kết quả này cũng khá tương tự nhau, nhưng cũng không giống nhau. Tỷ lệ lỗi phân lớp của mơ hình Entropy là 0,211 trên tập dữ liệu huấn luyện, so với 0,212 của mơ hình Gini. Nhưng cho đến giờ, ta chỉ so sánh tính khớp tốt mà khơng có khả năng dự báo.

3.3.5 So sánh mơ hình

Để giúp ta lựa chọn mơ hình cuối cùng, ta mở rộng việc phân tích hiệu suất bao gồm cả tiêu chuẩn dựa trên các hàm tổn thất. Với tất cả các mơ hình, ta bắt đầu việc chia dữ liệu hiện có thành 1 tập dữ liệu huấn luyện chứa 75% các quan sát và một tập dữ liệu xác nhận chứa 25% các quan sát. Ta làm điều này một cách phân tầng để duy trì các tỷ lệ 70% đáng tin cậy và 30% không đáng tin cậy trong các tập dữ liệu mới. Sau khi làm khớp mỗi mơ hình trên tập dữ liệu huấn luyện, ta sử dụng nó để phân lớp các quan sát trong tập dữ liệu xác nhận. Phân lớp này thực hiện được bằng cách sinh ra một điểm số và sau đó sử dụng một ngưỡng cắt để phân lớp chúng. Cuối cùng, mỗi mơ hình được đánh giá bằng cách đánh giá tỷ lệ lỗi phân lớp.

Ta bắt đầu với mơ hình hồi quy logistic và các sai số phân lớp đối với một ngưỡng cắt là 50% (tương ứng với quy tắc phân biệt). Theo ngưỡng này, tất cả những người nộp đơn có xác suất về sự khơng đáng tin cậy (Y 1 ) lớn hơn 50% được dự báo là các khách hàng không đáng tin cậy; trường hợp còn lại họ được phân loại thành các khách hàng

cxxxiii đáng tin cậy. Mơ hình này dự báo chính xác 90,29% trong số các khách hàng đáng tin cậy (Y 0 ). Xác suất phạm sai lầm loại 1 là 9,71 %. Sai lầm loại 1 có nghĩa là có được một khách hàng đáng tin cậy trong khi dự báo là khơng đáng tin cậy. Mơ hình này ít hiệu quả khi dự báo các khách hàng không đáng tin cậy; thực tế nó chỉ dự báo chính xác 39,56%. Xác suất phạm sai lầm loại 2 là 60,44%. Sai lầm loại 2 có nghĩa là có được một khách hàng khơng đáng tin cậy trong khi dự báo là đáng tin cậy. Dường như mơ hình gặp khó khăn hơn trong việc dự báo các khách hàng không đáng tin cậy so với việc dự báo các khách hàng đáng tin cậy. Điều này khá phổ biến trong các bài toán tính điểm tín dụng. Khó khăn chính của các mơ hình phiếu ghi điểm là trong việc dự báo các sự kiện xấu. Nhưng ta cần các mơ hình có thể dự báo các sự kiện xấu một cách hiệu quả, vì các sai lầm loại 2 thường tốn kém hơn các sai lầm loại 1. Các tỷ lệ sai lầm trước đó đạt được với một ngưỡng cắt là 50%, nhưng một ngưỡng thấp hơn có thể cho phép ta nhận ra một số lượng lớn hơn những người trả tiền xấu. Một ngưỡng cắt 30% làm giảm sai lầm loại 2 xuống còn 24,44% nhưng sai lầm loại 1 tăng từ 9,71% lên 22,80%.

Ngưỡng cắt cần được chọn để phù hợp với chi phí của các sai lầm loại 1 và loại 2. Nếu các chi phí là như nhau thì ngưỡng cắt 50% là tốt; trường hợp cịn lại thì ngưỡng khác có thể tốt hơn. Đường cong ROC cho thấy các sai lầm thay đổi như thế nào khi ngưỡng thay đổi, có thể được sử dụng cho mục đích này. Trước khi xem xét đường cong ROC, ta so sánh các tỷ lệ lỗi phân lớp dự báo tại ngưỡng cắt là 50% đối với mơ hình hồi quy logistic và cây phân lớp. Nó cho thấy rằng mơ hình cây có hiệu suất tốt nhất với một tỷ lệ lỗi phân lớp là 0,244 trong đó mơ hình hồi quy logistic là 0,280. Quan tâm tới các sai lầm loại 1, thì mơ hình hồi quy logistic cho thấy một xác suất là 60,44% so với 54,67% đối với mơ hình cây.

Bây giờ ta so sánh 2 mơ hình ở dạng các đường cong ROC và chỉ số Gini về hiệu suất. Hình 3.6 cho thấy các đường cong ROC của mơ hình cây và mơ hình hồi quy logistic (bao gồm cả mơ hình mạng thần kinh – theo nghiên cứu của Giudici); tất cả được tính bằng cách sử dụng cùng một cách phân hoạch ngẫu nhiên dữ liệu. Nó cho biết cây quyết định là mơ hình tốt nhất khi sử dụng ngưỡng cắt 50%. Dáng điệu dự báo của 2 mô

cxxxiv tồi. Để so sánh rõ ràng hơn, ta tính chỉ số Gini về hiệu suất: cây phân lớp có giá trị cao hơn (0,6260), mơ hình hồi quy logistic (0,5798).

Hình 3.6 Các đường cong ROC cho các mơ hình cuối cùng

Tóm lại, cây có vẻ là mơ hình hoạt động tốt hơn, nhưng những sự khác biệt là khá nhỏ.

Nhiều khi người ta cịn xét xem thêm một mơ hình kết hợp để hy vọng tăng hiệu suất phân lớp. Do tính bất ổn tiềm tàng của mơ hình cây, nên người ta cố gắng cải thiện nó bằng cách sử dụng các thuật toán bagging trong SAS Enterprise Miner. Rất tiếc là do khuôn khổ cho phép của luận văn nên tôi bỏ qua vấn đề này. Tóm lại, mơ hình cây cũng là một mơ hình tốt cho phân lớp tập dữ liệu và nếu tài ngun tính tốn cho phép thì mơ hình cây bagging rất cần được xem xét. Tuy nhiên tất cả các mơ hình cuối cùng đều có

cxxxv một hiệu suất khá giống nhau, nên điều có thể có ý nghĩa là lựa chọn một mơ hình rõ ràng nhất, cụ thể là hồi quy logistic.

Kết luận

Quả thật là phân tích dữ liệu thực tế trợ giúp cho việc ra quyết định là một vấn đề khá phức tạp. Nó khơng chỉ liên quan đến lĩnh vực thống kê mà còn liên quan đến nhiều lĩnh vực khác nữa, đặc biệt là công nghệ thông tin và đơn giản hơn là việc sử dụng các phần mềm thống kê. Với kiến thức chủ yếu về thống kê của mình nên trong luận văn này em chỉ chú trọng đến khía cạnh thống kê trong Khai thác dữ liệu. Với thời gian và khuôn khổ cho phép của một luận văn Thạc sỹ nên trong luận văn này em cũng chỉ dừng lại ở việc vận dụng lý thuyết vào phân tích ba bài tốn thực tế. Đó thực sự là một hạn chế của luận văn. Nhưng với ước muốn của mình là đi theo ngành thống kê ứng dụng, em sẽ tiếp tục tìm hiểu và nghiên cứu sâu hơn về nó. Thực sự đây là một lĩnh vực rất thú vị vì nó có nhiều ứng dụng thực tế trong nhiều ngành khoa học như Kinh doanh, Tài chính, Y học, Xã hội học…

Em mong muốn các thầy và các bạn đọc đóng góp ý kiến, giúp đỡ em về lĩnh vực này. Em xin chân thành cảm ơn.

cxxxvi

Tài liệu tham khảo

[1]. Agresti, A. (1990), Categorical Data Analysis, John Wiley & Sons, Inc., New York.

[2]. Breiman, L., Friedman, J. H., Olshen, R. and Stone, C. J. (1984), Classification

and

Regression Trees, Wadsworth, Belmont CA.

[3]. Christensen, R. (1997), Log-Linear Models and Logistic Regression, Springer- Verlag, Berlin.

[4]. Dobson, A. J. (1990), An Introduction to Generalized Linear Models, Chapman and

Hall, London.

[5]. Giudici, P. (2003), Applied Data Mining. Statistical Methods for Business and

Industry, John Wiley & Sons, Inc., New York.

[6]. Greene, W. H. (1999), Econometric Analysis, Prentice Hall, New York. [7]. Han, J. and Kamber, M. (2001), Data Mining: Concepts and Techniques,

Morgan

Kaufmann, New York.

[8]. Hand, D. J., Mannila, H. and Smyth, P. (2001), Principles of Data Mining, MIT Press, Cambridge MA.

[9]. Kass, G. V. (1980), “An exploratory technique for investigating large quantities of

categorical data”, Applied Statistics.

[10]. McCullagh, P. and Nelder, J. A. (1989), Generalised Linear Models, Chapman and

cxxxvii Hall, New York.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phương pháp thống kê trong kinh doanh và tài chính (Trang 122 - 132)

Tải bản đầy đủ (PDF)

(132 trang)