So sánh mô hình

Sau khi phân tích dữ liệu bằng các phương pháp khác nhau, vấn đề tiếp theo là lựa chọn phương pháp tốt nhất trong các phương pháp đó. Do đó cần thiết phải có sự so sánh, đánh giá các phương pháp. Với các mô hình thống kê, ta thường sử dụng lý thuyết kiểm định giả thuyết để so sánh chúng. Còn với các mô hình khai thác dữ liệu tính toán thì thường không thể áp dụng lý thuyết kiểm định giả thuyết được. Có nhiều phương pháp đánh giá, song ở đây tôi chỉ nêu tóm tắt hai phương pháp đánh giá cơ bản (để biết thêm chi tiết, ta có thể xem [5], [7] và [8]).

2.4.1 Tiêu chuẩn dựa trên các hàm tính điểm

Các tiêu chuẩn dựa trên các hàm tính điểm được tính toán dễ dàng và đưa đến một một cách xếp thứ tự tổng thể cho tất cả các mô hình thống kê, chúng cho phép so sánh các mô hình không lồng nhau. Nhưng nhược điểm của các tiêu chuẩn này là khó xác định được liệu hiệu số giữa hai mô hình có ý nghĩa hay không. Có hai tiêu chuẩn dựa trên các hàm tính điểm.

Tiêu chuẩn thông tin Akaike(Akaike information criterion – AIC)

( 1 2 n)

AIC= −2log L ;x ,x ,...,xθ +2q

Trong đó log L ;x ,x ,...,x($θ 1 2 n) là loga nêpe của hàm hợp lý được tính tại ước lượng hợp lý cực đại, q là số tham số trong mô hình.

Tiêu chuẩn thông tin Bayses(Bayesian information criterion – BIC)

( 1 2 n)

BIC= −2log L ;x ,x ,...,xθ +qlog n

2.4.2 Tiêu chuẩn dựa trên các hàm tổn thất

Đường cong ROC đo độ chính xác dự báo của mô hình được dùng cho bài toán phân lớp với biến phản ứng Bernoulli. Nó được dựa trên ma trận hỗn độn.

Bảng 2.2 Ma trận hỗn độn

Thành công (1) Thất bại (0) Tổng

Thành công (1) a b a+b

Thất bại (0) c d c+d

Tổng a+c b+d a+b+c+d

Ở đây có các khái niệm sau:

Sensitivity (độ nhạy cảm) a a b = + Specificity (đặc trưng) d c d = +

False positives (sai lầm loại 2) c

1 specificity c d

= = − +

False negatives (sai lầm loại 1) b

1 sensitivity a b

= = − +

Đường cong ROC được tạo ra như sau:

Đầu tiên, chia tập quan sát thành 2 tập: một tập chứa toàn bộ các quan sát có giá trị biến phản ứng “thành công” (ký hiệu là E) và một tập còn lại chứa toàn bộ các quan sát có giá trị biến phản ứng “thất bại” (ký hiệu là N). Trong các bài toán phân lớp, người ta gán mỗi

quan sát với một điểm số µ

π – dự báo xác suất “thành công” của biến phản ứng. Do đó mỗi

tập trong 2 tập E và N, các quan sát được xếp thứ tự tăng dần theo điểm số này. Sau đó với

mỗi ngưỡng cắt t, mô hình phân lớp sẽ xét tất cả các quan sát vượt qua ngưỡng này như là

các quan sát “thành công” và tất cả các quan sát ở dưới ngưỡng này như là các quan sát “thất bại”.

Tiếp theo, các tỷ lệ dự báo sự kiện “thành công” ước lượng ở mỗi tập E, N tương ứng

là E( ) N( )

t t

F =sensivity , F = −1 specificity . Nếu mô hình tốt thì FtE >FtN. Trên trên hệ tục

tọa độ Đề các, ta dựng điểm ( N E)

t t

F ,F và cho t thay đổi từ 0 đến 1 ta sẽ có được các điểm

dạng – chúng tạo thành một đường cong, được gọi là đường cong ROC. Trong thực tế, t lấy

Dự báo Quan sát

các giá trị rời rạc nên các điểm rời rạc ( N E)

t t

F ,F sẽ được nối liên tiếp nhau. Người ta dùng

diện tích hình kín tạo bởi đường cong ROC và phân giác của góc phần tư thứ nhất làm độ đo hiệu suất của mô hình (chỉ số hiệu suất Gini). Diện tích càng lớn thì mô hình càng tốt. Sau đây là ví dụ về đường cong ROC.

Hình 2.4 Ví dụ về đường cong ROC

Chương 3

Một số ứng dụng

trong kinh doanh và tài chính

Phân tích dữ liệu thăm dò

Các mô hình loga tuyến tính